【AI视野·今日Sound 声学论文速览 第四十五期】Wed, 10 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Wed, 10 Jan 2024
Totally 12 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Masked Audio Generation using a Single Non-Autoregressive Transformer
Authors Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D fossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
我们引入了 MAGNeT,一种直接在多个音频标记流上运行的掩码生成序列建模方法。与之前的工作不同,MAGNeT 由单级非自回归变压器组成。在训练过程中,我们预测从掩码调度程序获得的掩码令牌的范围,而在推理过程中,我们使用几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的重新评分方法,其中我们利用外部预训练模型对 MAGNeT 的预测进行重新评分和排名,然后将其用于后续的解码步骤。最后,我们探索了 MAGNeT 的混合版本,其中我们融合自回归和非自回归模型,以自回归方式生成前几秒,同时并行解码序列的其余部分。我们展示了 MAGNeT 在文本到音乐和文本到音频生成任务中的效率,并考虑了客观指标和人类研究,进行了广泛的实证评估。所提出的方法与评估的基线相当,同时比自回归基线快 7 倍。通过消融研究和分析,我们阐明了组成 MAGNeT 的每个组件的重要性,并指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks
Authors Zhe Zhang, Taketo Akama
GANStrument 利用具有音高不变特征提取器和实例调节技术的 GAN,在合成真实乐器声音方面表现出了卓越的能力。为了进一步提高重建能力和音调准确性,以增强用户提供的声音的可编辑性,我们提出了 HyperGANStrument,它引入了音调不变超网络,以在给定一次性声音作为输入的情况下调制预训练的 GANStrument 生成器的权重。超网络调制为重建输入声音的发生器提供反馈。此外,我们利用超网络的对抗性微调方案来提高生成器的重建保真度和生成多样性。实验结果表明,该模型不仅增强了GANStrument的生成能力,而且显着提高了合成声音的可编辑性。

RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Authors Mingshuai Liu, Zhuangqi Chen, Xiaopeng Yan, Yuanjun Lv, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
本文介绍了我们针对 ICASSP 2024 语音信号改进 SSI 挑战赛的修复和降噪网络 RaD Net。我们基于两阶段网络扩展了之前的框架,并提出了升级模型。具体来说,我们用 TEA PSE 的 COM Net 替换修复网络。此外,在训练阶段采用多分辨率判别器和多频带判别器。最后,我们使用三步训练策略来优化我们的模型。我们提交了两个具有不同参数集的模型来满足两个轨道的 RTF 要求。

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
Authors Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng
端到端多说话者语音识别作为直接转录多个说话者重叠语音的有效方法引起了人们的极大兴趣。当前的方法通常采用具有分支编码器的 1 个单输入多输出 SIMO 模型,或基于具有串行输出训练 SOT 的基于注意力的编码器解码器架构的 2 个单输入单输出 SISO 模型。在这项工作中,我们提出了一种跨说话人编码 CSE 网络,通过聚合跨说话人表示来解决 SIMO 模型的局限性。此外,CSE模型与SOT集成,以利用SIMO和SISO的优点,同时减轻它们的缺点。据我们所知,这项工作代表了集成 SIMO 和 SISO 以实现多说话者语音识别的早期努力。在两个说话人的 LibrispeechMix 数据集上进行的实验表明,CES 模型在 SIMO 基线的基础上将单词错误率 WER 降低了 8 个。

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
Authors Soumya Dutta, Sriram Ganapathy
音频到音频 A2A 风格转换的问题涉及用目标音频的风格特征替换源音频的风格特征,同时保留源音频的内容相关属性。在本文中,我们提出了一种有效的方法,称为零样本情感风格转移 ZEST,它允许将给定源音频中存在的情感内容与目标音频中嵌入的情感内容进行传输,同时保留源中的说话者和语音内容。所提出的系统建立在将语音分解为语义标记、说话者表示和情感嵌入的基础上。利用这些因素,我们提出了一个框架来重建给定语音信号的音调轮廓并训练重建语音信号的解码器。该模型使用基于自我监督的重建损失进行训练。在转换过程中,情感嵌入仅从目标音频中导出,而其余因素则从源音频中导出。

Class-Incremental Learning for Multi-Label Audio Classification
Authors Manjunath Mulimani, Annamaria Mesaros
在本文中,我们提出了一种潜在重叠声音的类增量学习方法,用于解决一系列多标签音频分类任务。我们设计了一个增量学习器,可以独立于旧课程学习新课程。为了保留有关旧类的知识,我们提出了一种基于余弦相似性的蒸馏损失,可以最大限度地减少后续学习者特征表示中的差异,并将其与基于 Kullback Leibler 散度的蒸馏损失一起使用,以最大限度地减少各自输出的差异。实验在包含 50 个声音类别的数据集上进行,初始分类任务包含 30 个基类和 4 个增量阶段,每个阶段包含 5 个类别。每个阶段之后,都会对系统进行多标签分类测试,并使用迄今为止学到的整套类别。该方法在五个阶段获得的平均 F1 分数为 40.9,范围从第 0 阶段 30 个班级的 45.2 到第 4 阶段 50 个班级的 36.3。

SonicVisionLM: Playing Sound with Vision Language Models
Authors Zhifeng Xie, Shengye Yu, Mengtian Li, Qile He, Chaofeng Chen, Yu Gang Jiang
人们对为无声视频生成声音的任务越来越感兴趣,主要是因为它在简化视频后期制作方面的实用性。然而,现有的视频声音生成方法试图直接从视觉表示创建声音,由于难以将视觉表示与音频表示对齐,这可能具有挑战性。在本文中,我们提出了 SonicVisionLM,这是一种新颖的框架,旨在通过利用视觉语言模型生成各种声音效果。我们没有直接从视频生成音频,而是使用强大的视觉语言模型 VLM 的功能。当提供无声视频时,我们的方法首先使用 VLM 识别视频中的事件,以建议与视频内容匹配的可能声音。这种方法的转变将图像和音频对齐的挑战性任务转变为通过流行的扩散模型将图像与文本以及文本与音频对齐的更深入研究的子问题。为了提高法学硕士的音频推荐质量,我们收集了一个广泛的数据集,将文本描述映射到特定的声音效果,并开发了时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最先进方法,从而增强了与视觉效果的同步并改善了音频和视频组件之间的对齐。

FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
Authors Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
尽管扩散模型在语音增强方面具有潜力,但它们在声学回声消除 AEC 中的部署受到了限制。在本文中,我们提出了 DI AEC,开创了一种专用于 AEC 的基于扩散的随机再生方法。此外,我们提出了 FADI AEC,基于快速评分的扩散 AEC 框架,以节省计算需求,使其有利于边缘设备。它的突出之处在于每帧运行一次评分模型,实现了处理效率的显着提升。除此之外,我们引入了一种新颖的噪声生成技术,其中利用远端信号,结合远端和近端信号来提高评分模型的准确性。

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings
Authors Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻,即观看喜剧时让人发笑的时刻具有挑战性,因为它们与各种特征有关,例如肢体语言、对话和文化。在本文中,我们提出了FunnyNet W,这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同,在这项工作中,我们利用视频自然产生的模式,视频帧因为它们包含场景理解所必需的视觉信息,b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本,因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签,我们提出了一种无监督的方法,可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验:情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明,FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻,而我们的研究结果表明,FunnyNet W 具有预测野外有趣时刻的能力。

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
音频和视频是主流媒体平台(例如 YouTube)中最常见的两种形式。为了有效地学习多模态视频,在这项工作中,我们提出了一种新颖的音频视频识别方法,称为音频视频 Transformer,AVT,利用视频 Transformer 的有效时空表示来提高动作识别的准确性。对于多模态融合,简单地在跨模态 Transformer 中连接多模态标记需要大量的计算和内存资源,相反,我们通过音频视频瓶颈 Transformer 来降低跨模态复杂性。为了提高多模态 Transformer 的学习效率,我们将自监督目标(即音视频对比学习、音视频匹配和屏蔽音视频学习)集成到 AVT 训练中,将不同的音频和视频表示映射到公共多模态表示空间中。我们进一步提出了一种屏蔽音频片段损失来学习 AVT 中的语义音频活动。对三个公共数据集和两个内部数据集的广泛实验和消融研究一致证明了所提出的 AVT 的有效性。具体来说,AVT 在动力学声音方面比之前最先进的同类产品高出 8 倍。通过利用音频信号,AVT 还超越了 VGGSound 上之前最先进的视频 Transformers 25 x 10 之一。

Using perceptive subbands analysis to perform audio scenes cartography
Authors Laurent Millot IDEAC , G rard Pel IDEAC , Mohammed Elliq
提出了真实或模拟立体声录音的音频场景制图。该音频场景分析是连续执行感知 10 个子带分析、使用短时间恒定场景假设和通道互相关来计算每个子带的两个通道之间的相对延迟和增益的时间规律,这允许在其移动源中跟踪移动源。移动,计算全局和子带直方图,其峰值给出固定源的发生信息。由 2 至 4 个固定源或由一个固定源和一个移动源组成的音频场景已经成功测试。将讨论进一步的扩展和应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/616027.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Debian/Ubuntu配置aliyun源和安装工具

将 Debian 10 的 apt-get 源更换为 aliyun,以提升国内环境 apt install 的速度。 1)备份原 apt-get 源文件 roote3c22f627b9e:~# cd /etc/apt roote3c22f627b9e:/etc/apt# cp sources.list sources.list.bak 2)清除原 apt 源文件内容 ro…

解决python画图无法显示中文的问题

python画图遇到的问题: 中文不显示: 解决方法:把字体设置为支持中文的字体,比如黑体 黑体下载链接: 链接:https://pan.baidu.com/s/1BD7zQEBUfcIs6mC2CPYy6A?pwdv120 提取码:v120 pyhon…

【离散数学】xjtu版离散复习攻略

据学长及同级同学经验,按我校的考察难度,离散数学一天速通不是问题。如果你是正在阅读本篇的学弟/学妹,且复习时间紧张,可考虑把离散放到考前一天来复习。 网络上的资源已经足够详尽,只不过大多数没有介绍自然推理系统…

485总线抢占冲突问题

假如当前有一个主机,和两个从机,主机发送msg1给从机1,10毫秒后,发送msg2给从机2。 然后从机1和从机2都会回复报文给主机,但是如果从机2想要回复给主机的时候,从机1正在发送报文给主机,这时候会怎…

Visual Studio常用快捷键及调试操作

CtrlF10 运行到光标处 调试时候不用一行行按F10了CtrlMM 折叠或展开当前方法CtrlMO 折叠所有方法CtrlML 展开所有方法CtrlEW 自动换行/取消自动换行CtrlU 选中文本转小写CtrlShiftU 选中文本转大写CtrlWinO 启动软键盘F9 光标行加断点CtrlAltB 打开断点窗口 或通过Debug -> …

【发票识别】支持pdf、ofd、图片格式的发票

背景 为了能够满足识别各种发票的功能,特地开发了当前发票识别的功能,当前的功能支持pdf、ofd、图片格式的发票识别,使用到的技术包括文本提取匹配、ocr识别和信息提取等相关的技术,用到机器学习和深度学习的相关技术。 体验 体…

ChatGPT到底能做什么呢?

1、熟练掌握ChatGPT提示词技巧及各种应用方法,并成为工作中的助手。 2、通过案例掌握ChatGPT撰写、修改论文及工作报告,提供写作能力及优化工作 3、熟练掌握ChatGPT融合相关插件的应用,完成数据分析、编程以及深度学习等相关科研项目。 4、…

批量修改文件名-txt_word_ppt批量修改文件名

word/excel/ppt等等批量修改文件名批量修改文件名的方法有N多种,我的这种是比较简单的,小白也可以使用使用windows自带的批处理脚本进行批量重命名什么类型的文件批量修改原理都一样,这里以txt修改为例 1.创建文件测试 通过py脚本快速创建文件测试,这步是创建100个txt文件,这…

【开源】基于JAVA的数据可视化的智慧河南大屏

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 数据模块 A4.2 数据模块 B4.3 数据模块 C4.4 数据模块 D4.5 数据模块 E 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的数据可视化的智慧河南大屏,包含了GDP、…

自动化测试框架pytest系列之21个命令行参数介绍(二)

第一篇 : 自动化测试框架pytest系列之基础概念介绍(一)-CSDN博客 接上文 3.pytest功能介绍 3.1 第一条测试用例 首先 ,你需要编写一个登录函数,主要是作为被测功能,同时编写一个测试脚本 ,进行测试登录功能 。 登…

java基础课后习题答案

文章目录 第1章 Java开发入门第2章 Java编程基础第3章 面向对象(上)第4章 面向对象(下)第5章 异常第6章 Java API第7章 集合类第8章 泛型第9章 反射第10章 IO(输入输出)第11章 JDBC第12章 多线程第13章 网络…

Go语言的垃圾回收器

1. 简介 Go语言的垃圾回收器(GC)是一个自动内存管理系统,它可以自动回收不再使用的内存。GC可以帮助程序员避免内存泄漏和内存错误,从而提高程序的稳定性和可靠性。 2. GC的工作原理 Go语言的GC使用标记-清除算法来回收内存。标…

GBASE南大通用ExecuteScalar 方法

GBASE南大通用执行查询,并返回查询结果集的一行的第一列,忽略其余的行和列 。  语法 [Visual Basic] Public Overrides Function ExecuteScalar As Object [C#] public override Object ExecuteScalar()  返回值 执行查询,并返回查…

超级计算集群

超级计算集群(Supercomputing Cluster)是一种集成大量高性能计算节点、高速互联网络以及高效能存储系统的计算机系统,用于解决科学、工程、商业等领域中需要极端计算能力的问题。这些集群通常由成百上千甚至上万台服务器组成,通过…

经典网络面试题(1)

1:TCP 是面向字节流的协议,UDP 是面向报文的协议?这里的「面向字节流」和「面向报文」该如何理解。 操作系统对 TCP 和 UDP 协议的发送方的机制不同,也就是问题原因在发送方 :用户消息通过 UDP 协议传输时&#xff0c…

js Number类型常用数据操作方法汇总

取余 50%62 //可用场景 判断是否能被整除 console.log(50%5 0)//true console.log(50%6 0)//false取整 Math.floor()//向下取整; 不管小数是多少,都是向下 Math.floor(56.9)//56Math.round()//根据第一位小数大小,四舍五入取整 Math.round(56.4)//5…

ssm基于JAVA的咖啡馆管理系统设计与实现论文

基于Java的咖啡馆管理系统的设计与实现 摘 要 当下,正处于信息化的时代,许多行业顺应时代的变化,结合使用计算机技术向数字化、信息化建设迈进。以前相关行业对于咖啡馆信息的管理和控制,采用人工登记的方式保存相关数据&#xf…

18_类加载

文章目录 类加载器类加载时机Java代码的3个阶段 反射关于Class配置文件(.properties)Properties类通过反射获取构造方法(Constructor)通过反射获取成员变量(Field)通过反射获取成员方法(Method) 其他API自定义类加载器反射的应用 类加载器 分类: Bootstrap ClassLo…

关于gcc版本问题导致找不到filesystem以及GCC多版本切换

fatal error: filesystem: 没有那个文件或目录 问题&#xff1a; #include 包含上述头文件出错&#xff0c;未找到该文件。 解决方法一&#xff1a; 修改头文件 #include <experimental/filesystem>添加依赖 在编译时&#xff0c;后面添加&#xff1a;-lstdcfs编译通…

java中浮点数如何进行等值比较

浮点数之间的等值判断&#xff0c;基本数据类型不能用来比较&#xff0c;包装数据类型不能用 equals来判断。 说明&#xff1a;浮点数采用“尾数阶码”的编码方式&#xff0c;类似于科学计数法的“有效数字指数”的表示方式。二进制无法精确表示大部分的十进制小数&#xff0c;…