【AI视野·今日Sound 声学论文速览 第三十七期】Tue, 31 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 31 Oct 2023
Totally 11 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DCHT: Deep Complex Hybrid Transformer for Speech Enhancement
Authors Jialu Li, Junhui Li, Pu Wang, Youshan Zhang
当前大多数基于深度学习的语音增强方法仅在频谱图或波形域中运行。尽管已经提出了结合波形域和频谱图域输入的跨域变压器,但其性能还可以进一步提高。在本文中,我们提出了一种新颖的深度复杂混合变压器,它集成了频谱图和波形域方法来提高语音增强的性能。所提出的模型由两部分组成:频谱图域中的复杂 Swin Unet 和波形域中的双路径变压器网络 DPTnet。我们首先在频谱图域中构建复杂的 Swin Unet 网络,并在复杂的音频频谱中进行语音增强。然后,我们通过添加内存压缩注意力来引入改进的 DPT。我们的模型能够学习多域特征,以互补的方式减少不同域上的现有噪声。

DPATD: Dual-Phase Audio Transformer for Denoising
Authors Junhui Li, Pu Wang, Jialu Li, Xinzhe Wang, Youshan Zhang
最近基于高性能变压器的语音增强模型表明,时域方法可以实现与时频域方法相似的性能。然而,时域语音增强系统通常接收由大量时间步长组成的输入音频序列,这使得对极长序列进行建模并训练模型以充分执行变得具有挑战性。在本文中,我们利用较小的音频块作为输入来实现音频信息的有效利用,以解决上述挑战。我们提出了一种用于去噪的双相音频变压器 DPATD,这是一种在深层结构中组织变压器层的新颖模型,以学习干净的音频序列以进行去噪。 DPATD 将音频输入分割成更小的块,其中输入长度可以与原始序列长度的平方根成正比。与常用的自注意力模块相比,我们的内存压缩可解释注意力非常高效并且收敛速度更快。

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Authors Yao Yao, Peike Li, Boyu Chen, Alex Wang
随着生成人工智能的快速发展,文本到音乐合成任务已成为从头开始生成音乐的一个有前途的方向。然而,对多轨生成的更细粒度控制仍然是一个开放的挑战。现有模型表现出强大的原始生成能力,但缺乏创作单独曲目并以可控方式组合它们的灵活性,这与人类作曲家的典型工作流程不同。为了解决这个问题,我们提出了 JEN 1 Composer,这是一个统一的框架,可以通过单个模型有效地模拟多轨音乐的边际分布、条件分布和联合分布。 JEN 1 Composer 框架展示了无缝整合任何基于扩散的音乐生成系统(例如 textit)的能力。 Jen 1,增强了其多功能多轨音乐生成的能力。我们引入了一种课程培训策略,旨在逐步指导模型从单轨生成过渡到多轨组合的灵活生成。在推理过程中,用户能够迭代地制作和选择满足其偏好的音乐曲目,随后按照提议的人类人工智能协同创作工作流程逐步创建整个音乐作品。定量和定性评估展示了可控和高保真多轨音乐合成的最先进性能。拟议的 JEN 1 Composer 代表了交互式 AI 促进音乐创作和作曲的重大进步。

Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics
Authors Valerio Francesco Puglisi, Oliver Giudice, Sebastiano Battiato
Deep Audio Analyzer 是一个开源语音框架,旨在简化神经语音处理管道的研究和开发过程,允许用户以快速且可重复的方式构思、比较和共享结果。本文描述了旨在支持音频取证领域共同感兴趣的多项任务的核心架构,展示了创建新任务从而定制框架的可能性。借助深度音频分析器,执法机构和研究人员等取证检查人员将能够可视化音频特征,轻松评估预训练模型的性能,只需点击几下鼠标即可组合深度神经网络模型来创建、导出和共享新的音频分析工作流程。该工具的优点之一是加快音频取证分析领域的研究和实际实验,从而通过导出和共享管道来提高实验的可重复性。所有功能均在模块中开发,用户可以通过图形用户界面访问。

Feature Aggregation in Joint Sound Classification and Localization Neural Networks
Authors Brendan Healy, Patrick McNamee, Zahra Nili Ahmadabadi
这项研究探讨了深度学习技术在联合声音信号分类和定位网络中的应用。当前最先进的声源定位深度学习网络在其架构中缺乏特征聚合。特征聚合通过整合来自不同特征尺度的信息来增强模型性能,从而提高特征的鲁棒性和不变性。这在 SSL 网络中尤其重要,因为 SSL 网络必须区分直接和间接声信号。为了解决这一差距,我们将特征聚合技术从计算机视觉神经网络应用到信号检测神经网络。此外,我们提出了用于特征聚合的尺度编码网络 SEN,以对不同尺度的特征进行编码,压缩网络以提高计算效率的聚合。为了评估 SSL 网络中特征聚合的功效,我们将以下计算机视觉特征聚合子架构集成到 SSL 控制架构中:路径聚合网络 PANet、加权双向特征金字塔网络 BiFPN 和 SEN。使用两个信号分类指标和两个到达方向回归指标来评估这些子架构。 PANet 和 BiFPN 是计算机视觉模型中已建立的聚合器,而所提出的 SEN 是更紧凑的聚合器。结果表明,在声音信号分类和定位方面,包含特征聚合的模型优于控制模型、声音事件定位和检测网络 SELDnet。

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
Authors Shruti Dutta, Shashwat Mookherjee
本文使用 Spotify 音乐数据对音乐情感和趋势进行了复杂的分析,包括通过 Spotipi API 提取的音频特征和价分数。该研究采用回归模型、时间分析、情绪转变和流派调查,揭示了音乐情感关系中的模式。采用线性回归模型、支持向量、随机森林和岭回归模型来预测效价分数。时间分析揭示了效价分布随时间的变化,而情绪转变探索则阐明了播放列表中的情绪动态。

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model
Authors Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung
这项工作的目标是使用视觉提示从混合声音中提取目标说话者的声音。现有的视听语音分离工作已经证明了其具有良好的清晰度的性能,但保持自然度仍然是一个挑战。为了解决这个问题,我们提出了 AVDiffuSS,一种基于扩散机制的视听语音分离模型,该机制以其生成自然样本的能力而闻名。为了有效融合两种扩散模式,我们还提出了一种基于交叉注意力的特征融合机制。该机制是专门为语音领域量身定制的,用于在语音生成中集成来自视听对应的语音信息。通过这种方式,融合过程保持了特征的高时间分辨率,而无需过多的计算要求。

Sound of Story: Multi-modal Storytelling with Audio
Authors Jaeyeon Bae, Seokhoon Jeong, Seokun Kang, Namgi Han, Jae Yon Lee, Hyounghun Kim, Taehwan Kim
现实世界中讲故事是多模式的。当一个人讲故事时,可以将所有的可视化和声音与故事本身一起使用。然而,先前关于讲故事数据集和任务的研究很少关注声音,尽管声音也传达了故事的有意义的语义。因此,我们建议通过建立一个称为背景声音的新组件来扩展故事理解和讲述领域,该组件是基于故事上下文的音频,没有任何语言信息。为此,我们引入了一个名为 Sound of Story SoS 的新数据集,它将图像和文本序列与故事的相应声音或背景音乐配对。据我们所知,这是最大的精心策划的声音讲故事数据集。我们的 SoS 数据集包含 27,354 个故事,每个故事有 19.6 张图像,以及 984 小时的语音解耦音频(例如背景音乐和其他声音)。作为用声音和数据集讲故事的基准任务,我们提出了模态之间的检索任务,以及图像文本序列的音频生成任务,为它们引入了强大的基线。我们相信所提出的数据集和任务可能有助于阐明声音叙事的多模式理解。

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition
Authors Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
之前的研究已经证实,一个人的人口统计特征和言语风格会影响语音处理模型的表现。但这种偏差从何而来 在这项工作中,我们提出了语音嵌入关联测试 SpEAT,这是一种用于检测用于许多语音任务预训练模型的一类模型中的偏差的方法。 SpEAT 的灵感来自自然语言处理中的词嵌入关联测试,该测试量化模型表示不同概念(例如种族或效价、某些事物的愉快或不愉快)的内在偏差,并捕获模型在大规模社交网络上训练的程度。文化数据已经了解了类似人类的偏见。使用 SpEAT,我们测试了 16 个英语语音模型中的六种类型的偏差,其中包括 4 个也接受多语言数据训练的模型,这些模型来自 wav2vec 2.0、HuBERT、WavLM 和 Whisper 模型系列。我们发现,有 14 个或更多的模型揭示了与有能力的人相比于残疾人、与欧洲裔美国人相对于非裔美国人、女性相对于男性、美国口音者相对于非美国口音者以及年轻人相对老年人的正价愉快关联。除了建立包含这些偏差的预训练语音模型之外,我们还表明它们可以对现实世界产生影响。我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较,发现在执行的 69 项 96 项测试中的 66 项中,与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明,与基于文本和图像的模型一样,基于预先训练的语音的模型经常学习类似人类的偏见。

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Authors Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
学生教师学习或知识蒸馏 KD 先前已被用于解决语音识别 ASR 系统训练的数据稀缺问题。然而,KD 训练的一个限制是学生模型类必须是教师模型类的正确或不正确的子集。如果字符集不相同,它甚至可以防止从声音上相似的语言中进行蒸馏。在这项工作中,通过提出一种利用后验映射方法的多语言学生教师必须学习来解决上述限制。使用预先训练的映射模型将后验从教师语言映射到学生语言 ASR。这些映射的后验被用作 KD 学习的软标签。实验了各种教师集成方案来训练低资源语言的 ASR 模型。

Audio-Visual Instance Segmentation
Authors Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
在本文中,我们提出了一种新的多模态任务,即视听实例分割AVIS,其目标是同时识别、分割和跟踪可听视频中的各个发声对象实例。据我们所知,这是实例分割首次扩展到视听领域。为了更好地促进这项研究,我们构建了第一个视听实例分割基准 AVISeg 。具体来说,AVISeg 由来自 YouTube 和公共视听数据集的 1,258 个平均时长为 62.6 秒的视频组成,其中 117 个视频使用基于 Segment Anything Model SAM 的交互式半自动标记工具进行了注释。此外,我们还为 AVIS 任务提供了一个简单的基线模型。我们的新模型向 Mask2Former 引入了音频分支和跨模态融合模块来定位所有发声对象。最后,我们在 AVISeg 上使用两个骨干网评估所提出的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/600315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌握 Postman Newman:快速启动 API 测试自动化

Postman 中的 Newman 是什么? Newman 是一个 CLI(命令行界面)工具,用于运行 Postman 中的集合(Collection)和环境(Environment)来进行自动化测试。它允许直接从命令行运行 Postman …

秋招复习之树

目录 前言 1 二叉树 二叉树常见术语 二叉树基本操作 初始化二叉树 插入与删除节点 常见二叉树类型 1. 完美二叉树 2. 完全二叉树 3. 完满二叉树 4. 平衡二叉树 二叉树的退化 2 二叉树遍历 层序遍历 代码实现 复杂度分析 前序、中序、后序遍历 复杂度分析 3 二叉树数组表示 表…

【面试高频算法解析】算法练习6 广度优先搜索

前言 本专栏旨在通过分类学习算法,使您能够牢固掌握不同算法的理论要点。通过策略性地练习精选的经典题目,帮助您深度理解每种算法,避免出现刷了很多算法题,还是一知半解的状态 专栏导航 二分查找回溯(Backtracking&…

开源字符识别 OCR 引擎推荐

Tesseract 开源 OCR 引擎(主存储库) github地址 https://github.com/tesseract-ocr/tesseract 官方网址 tesseract-ocr.github.io/ Tesseract 是一个开源的光学字符识别(OCR)引擎,它能够从图像文件中识别和提取文…

Protobuf 安装与使用

Protobuf 安装与使用 1 环境2 安装 [apt安装]2 安装 [源码安装]1 依赖2 下载 protobuf3 解压4 编译安装5 配置环境 2 命令查看版本卸载 3 使用书写 .proto 文件编译 .proto 文件生成 cpp 文件编写 cpp 文件编译运行 参考 1 环境 ubuntn 20.04 protobuf v3.6.1 2 安装 [apt安装…

package-info.java delete

package-info.java delete

监控oracle表空间是否超过80%

先点赞后观看&#xff0c;养成好习惯 1.监控脚本 oracle_cron.sh source /home/oracle/.bash_profile sqlplus -s / as sysdba > /tmp/tablespace.log<<EOF CLEAR COLUMNS BREAKS COMPUTES set lines 134 pages 200 COLUMN STATUS …

如何实现安卓端与苹果端互通的多种方案

随着移动设备用户的爆炸性增长&#xff0c;跨平台应用开发变得尤为重要。在Android与iOS之间实现互通对于推广应用、增加用户覆盖面和提升用户体验有至关重要的作用。以下是实现Android与iOS互通的多种方案&#xff0c;以及每种方案的实现方法、细节注意点、适合团队的规模和建…

普通BUG

IDEA包折叠 如果自动紧凑包名,则有些时候创建新包或类的时候不能达到想要的摆放层级关系,此时右上角搜索按钮搜hide middle,关掉紧凑即可,然后既可以每层一个包不折叠. 效果: 20240105println输出多个参数 int a 10;int b 20;报错println是可以输出多个参数的,但不支持直接用…

CentOS安装Redis7(Alibaba Cloud Linux兼容)

安装Redis7 下载redis的linux版本压缩包 redis-7.0.11.tar.gz 安装gcc编译环境 yum install -y gcc-c解压redis压缩包&#xff0c;并进入 [rootiZ2ze6psmhg970tbycgrbpZ ~]# tar -zxvf redis-7.0.11.tar.gz [rootiZ2ze6psmhg970tbycgrbpZ ~]# cd redis-7.0.11/查看redis源码…

WEB 3D技术 three.js 顶点旋转

我们来说说几何体顶点的旋转 官网搜索 BufferGeometry 这里 我们有 x y z 三个轴的旋转 例如 我们这样的代码 import ./style.css import * as THREE from "three"; import { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js"; i…

vue+springboot项目上传部署tomcat

下载及安装Tomcat 进入tomcat官网&#xff0c;Tomcat官网 选择需要下载的版本&#xff0c;点击下载下载路径一定要记住&#xff0c;并且路径中尽量不要有中文 下载后是压缩包 .zip&#xff0c;解压后 tomcat系统各个文件夹目录是什么意义&#xff1a; bin&#xff1a;放置的是…

【MATLAB】CEEMD_LSTM神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 CEEMD-LSTM神经网络时序预测算法是一种结合了完全扩展经验模态分解&#xff08;CEEMD&#xff09;和长短期记忆神经网络&#xff08;LSTM&#xff09;的时间序列预测方法。 CEEMD是一种改…

全程云OA ajax.ashx SQL注入漏洞复现

0x01 产品简介 全程云OA为企业提供日常办公管理、公文管理、工作请示、汇报、档案、知识体系、预算控制等26个功能,超过100多个子模块。为企业内部提供高效、畅通的信息渠道,同时也能大力推动公司信息系统发展,提高企业的办公自动化程度和综合管理水平,加快企业信息的流通…

python版本控制-pyenv

前言 日常开发中&#xff0c;我喜欢开发环境比实际运行环境高一个版本。因为这似乎有助于&#xff0c;让程序不断适应高版本的运行环境。 但是&#xff0c;今天遇到一个例外 — python。我系统默认的python版本是3.9&#xff0c;但是CI上的版本是3.6。众所周知&#xff0c;py…

TikTok需要的原生IP是什么?海外独享原生IP地址如何获取?

相信很多做跨境店铺或者TikTok直播的小伙伴都听说过”原生IP”,网络上关于它的判定方法也五花八门&#xff0c;今天小编以自身跨境经验来为大家介绍原生IP是什么?有什么好处&#xff1f;如何获取&#xff0c;感兴趣请继续看下去&#xff01; 一、什么是原生IP/非原生IP? 原生…

OpenCV-16图像的基本变换

一、图像的放大与缩小 1. 对小狗图片进行缩放 使用API----resize&#xff08;src, dsize, [,dst,[fx[,fy[,interpolation]]]]&#xff09; src&#xff1a;要缩放的图像。 dsize&#xff1a;缩放之后的图像大小&#xff0c;元组和列表表示都可以。 dst&#xff1a;可选参数…

Jmeter 性能 —— 电商系统TPS计算

1、怎么计算得出TPS指标 ①第一个通过运维那边给的生产数据&#xff0c;看一下生产进件有多少&#xff0c;计算得来的&#xff0c;如果没有生产数据&#xff0c;或者不过就看如下的方法 ②第二个就是根据最近一个月的实际访问数据&#xff0c;比如每天调用了多少个接口&#…

src refspec master does not match any

新项目推送至 Git 空仓库时抛出如下异常 src refspec master does not match any 初始化 init 都做了但反复尝试 git push -u origin master 均无果 后发现权限不够 .... 起初设置为开发者,后变更为了主程序员再次尝试 push 成功 .... 以上便是此次分享的全部内容&#xff0c;…

支持 input 函数的在线 python 运行环境 - 基于队列

支持 input 函数的在线 python 运行环境 - 基于队列 思路两次用户输入三次用户输入 实现前端使用 vue element uiWindows 环境的执行器子进程需要执行的代码 代码仓库参考 本文提供了一种方式来实现支持 input 函数&#xff0c;即支持用户输的在线 python 运行环境。效果如下图…