【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Tue, 2 Jan 2024
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
Authors Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu
迄今为止,构音障碍语音的自动识别仍然是一项极具挑战性的任务。神经运动状况和同时发生的身体残疾给 ASR 系统开发的大规模数据收集带来了困难。通过数据密集型参数微调,使 SSL 预训练的 ASR 模型适应有限的构音障碍语音,会导致泛化能力较差。为此,本文对各种数据增强方法进行了广泛的比较研究,以提高预训练的 ASR 模型对构音障碍语音进行微调的鲁棒性。这些包括对受损语音的传统说话人独立扰动、与说话人相关的速度扰动、或基于 GAN 的正常控制语音的对抗性扰动(基于与并行构音障碍语音的时间对齐)、基于谱基础的 GAN 对非并行数据进行对抗性数据增强。在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。

E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models
Authors Hongfei Xue, Yuhao Liang, Bingshen Mu, Shiliang Zhang, Qian Chen, Lei Xie
本研究重点关注人机语音交互中的情感敏感口语对话。随着大型语言模型法学硕士的进步,对话系统可以处理包括音频在内的多模态数据。最近的模型通过整合各种音频事件增强了对复杂音频信号的理解。然而,他们无法根据情绪化的言语产生适当的反应。为了解决这个问题,我们引入了情感聊天模型 E 聊天,这是一种新颖的口语对话系统,能够理解并响应语音传达的情感。该模型利用语音编码器提取的情感嵌入,并结合 LLM,使其能够根据不同的情感上下文做出响应。此外,我们还介绍了 E chat200 数据集,该数据集专为情感敏感的口语对话而设计。

Sounding Out Reconstruction Error-Based Evaluation of Generative Models of Expressive Performance
Authors Silvan David Peter, Carlos Eduardo Cancino Chac n, Emmanouil Karystinaios, Gerhard Widmer
通常通过将其预测与参考人类演奏进行比较来评估富有表现力的钢琴演奏的生成模型。如果生成算法产生的性能更接近人类参考性能,则该生成算法被认为比竞争算法更好。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。在这项工作中,我们提出了一些实验来阐明这个问题。使用精确测量的古典钢琴音乐的高质量演奏,我们进行了听力测试,结果表明听众有时可以察觉到在定量评估中被忽视的细微演奏差异。我们进一步提出的测试表明,这种评估框架在不同的参考表演和作品中表现出可靠性和有效性的很大差异。

Online Symbolic Music Alignment with Offline Reinforcement Learning
Authors Silvan David Peter
符号音乐对齐是将演奏的 MIDI 音符与相应乐谱音符进行匹配的过程。在本文中,我们介绍了一种基于强化学习的在线符号音乐对齐技术。强化学习代理是一种基于注意力的神经网络,根据本地得分和表现上下文迭代地估计当前得分位置。对于这个符号对齐任务,可以对环境状态进行详尽的采样,并且奖励是密集的,从而将公式呈现为简化的离线强化学习问题。我们通过三种方式评估训练有素的代理。首先,它能够为采样的测试上下文识别正确的乐谱位置;其次,作为符号在线音符对齐的完整算法的核心技术;最后,作为实时符号乐谱跟随器。我们进一步研究用作代理输入的基于音高的分数和表现表示。为此,我们开发了第二个模型,即基于两步动态时间规整 DTW 的离线对齐算法,利用相同的输入表示。

AI and Tempo Estimation: A Review
Authors Geoff Luck
作者在本文中的目标是探索如何利用人工智能来帮助我们理解和大规模估计音乐创造力和音乐节奏的关键方面的能力。节奏对音乐创造力的核心重要性可以体现在如何使用它来表达特定的情感 Eerola 和 Vuoskoski 2013 、提出特定的音乐风格 Li 和 Chan 2011 、影响表达的感知 Webster 和 Weir 2005 以及调解移动的冲动。身体随着音乐的节奏伯格等人。 2014年。传统的节奏估计方法通常使用振幅包络的某种形式的自相关来检测反映音乐的潜在节奏结构的信号周期性Lartillot and Toiviainen 2007。最近,基于人工智能的方法利用卷积或循环神经网络 CNN、RNN 来表示音频信号的频谱,其准确性得到了显着提高 Aarabi 和 Peeters 2022。常见的基于人工智能的技术包括基于概率的技术(例如贝叶斯方法、隐马尔可夫模型 HMM)、分类和统计学习(例如支持向量机 SVM)以及人工神经网络 ANN(例如自组织映射 SOM、CNN、RNN、深度学习 DL)。本文的目的是概述一些更常见的基于人工智能的节奏估计算法,并阐明每种算法的显着优点和潜在缺点。

Ultraspherical/Gegenbauer polynomials to unify 2D/3D Ambisonic directivity designs
Authors Franz Zotter
这份关于轴对称超球面 Gegenbauer 多项式及其在 2D 和 3D 立体混响指向性设计中的应用的报告提出了另一种数学形式,可以在我和 Matthias Frank 的 Ambisonics 书籍或 J r me Daniel 的论文(Gary Elko)中阅读。

Boosting Large Language Model for Speech Synthesis: An Empirical Study
Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
大型语言模型法学硕士在自然语言处理方面取得了重大进展,同时将语言能力扩展到其他模式,例如语音和视觉。然而,之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力,而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中,我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E,对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调 LLM、LLM 和 VALL E 的叠加层,以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明,直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想,而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/600329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows BAT脚本 | 定时关机程序

使用说明:输入数字,实现一定时间后自动关机。 单位小时,用后缀 h 或 H。示例 1h 单位分钟,用后缀 m 或 M 或 min。示例 30min 单位秒。用后缀 s 或不用后缀。示例 100s 源码 及 配置方法 桌面新建文本文件,输入下面…

Vue入门一(前端发展史|Vue介绍|Vue插值语法|Vue指令|style与class使用|条件渲染)

文章目录 一、前端的发展史二、Vue介绍 和 基本使用1) Vue介绍2) Vue特点3) M-V-VM思想1.MVVM介绍2.MVVM的特性3.MVVM逻辑 4) 组件化开发、单页面开发组件化开发单页面开发 5) 引入方式6) 补充解释型的语言是需要解释器的 nodejs:一门后端语言7) 快速使用 三、Vue之…

状态机(有限状态机(Finite State Machine, FSM)、推进自动机(Pushdown Automata)、并发状态机、分层状态机)

文章目录 状态机(State Machine)定义与组成定义组成状态(States)事件(Events)转换(Transitions)初始状态(Initial State) 状态机的类型有限状态机&#xff08…

使用 dbgate 在 sealos 上完美管理 mysql pgsql 等数据库

先登录 sealos 创建数据库,可以创建个 pgsql: 再到模版市场启动 dbgate: 配置数据库的连接信息,即可搞定收工 sealos 以kubernetes为内核的云操作系统发行版,让云原生简单普及 laf 写代码像写博客一样简单,什么docker kubernete…

excel统计分析——两因素无重复方差分析

参考资料:生物统计学 从严格意义上讲,两因素试验都应当设置重复观测值,以便检验交互作用是否真实存在,对试验误差有更准确的估计,从而提高检验效率。但根据专业知识或先前的试验已经证明两个因素不存在交互作用时&…

【C#】网址不进行UrlEncode编码会存在一些问题

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是2024年第3篇文章,此篇文章是C#知识点实践序列文章,博主能力有限,理解水平有限,若有不对之处望指正! 目录 前言数据丢失效果请求端代码接口端代码…

数据结构之各大排序(C语言版)

我们这里话不多说,排序重要性大家都很清楚,所以我们直接开始。 我们就按照这张图来一一实现吧! 一.直接插入排序与希尔排序. 这个是我之前写过的内容了,大家可以通过链接去看看详细内容。 算法之插入排序及希尔排序&#xff08…

QT5.14 实现ModbusTCP客户端 Demo

本文在QT5.14平台,基于QModbusClientTcp类,实现了客户端对单个寄存器的读写,用ModbusSlave做服务器做测试。 1.界面 (1)更改读按钮的名称为bt_Read (2)更改写按钮的名称为bt_Write 2.修改pro文件的第三行 greaterThan(QT_MAJOR_VERSION, 4)…

排序算法——关于快速排序的详解

目录 1.基本思想 2.基本原理 2.1划分思想 2.2排序过程 (1)选择基准值 (2)分割过程(Partition) (3)递归排序 (4)合并过程 2.3具体实例 2.4实现代码 2.5关键要…

计算机毕业设计 基于SpringBoot的公司资产网站的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

StreamPark + PiflowX 打造新一代大数据计算处理平台

🚀 什么是PiflowX PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性: 简单易用…

租用服务器到底能干什么呢

越来越多的企业会选择服务器的租用,它能够为客户提供高性能、高可用性和灵活性的服务,可以提供远程管理工具,方便管理员对应用程序进行监控和管理,同时可以实现多个应用程序共存的需求,让企业在提供业务的时候无需自己…

Centos服务器安装Certbot以webroot的方式定时申请SSL免费证书

最近发现原先免费一年的SSL证书都改为3个月的有效期了,原先一年操作一次还能接受,现在3个月就要手动续期整的太慢烦了,还是让程序自动给处理下吧, 安装 Certbot yum install epel-release -y yum install certbot -yEPEL是由 Fe…

【AI视野·今日Sound 声学论文速览 第三十七期】Tue, 31 Oct 2023

AI视野今日CS.Sound 声学论文速览 Tue, 31 Oct 2023 Totally 11 papers 👉上期速览✈更多精彩请移步主页 Daily Sound Papers DCHT: Deep Complex Hybrid Transformer for Speech Enhancement Authors Jialu Li, Junhui Li, Pu Wang, Youshan Zhang当前大多数基于深…

掌握 Postman Newman:快速启动 API 测试自动化

Postman 中的 Newman 是什么? Newman 是一个 CLI(命令行界面)工具,用于运行 Postman 中的集合(Collection)和环境(Environment)来进行自动化测试。它允许直接从命令行运行 Postman …

秋招复习之树

目录 前言 1 二叉树 二叉树常见术语 二叉树基本操作 初始化二叉树 插入与删除节点 常见二叉树类型 1. 完美二叉树 2. 完全二叉树 3. 完满二叉树 4. 平衡二叉树 二叉树的退化 2 二叉树遍历 层序遍历 代码实现 复杂度分析 前序、中序、后序遍历 复杂度分析 3 二叉树数组表示 表…

【面试高频算法解析】算法练习6 广度优先搜索

前言 本专栏旨在通过分类学习算法,使您能够牢固掌握不同算法的理论要点。通过策略性地练习精选的经典题目,帮助您深度理解每种算法,避免出现刷了很多算法题,还是一知半解的状态 专栏导航 二分查找回溯(Backtracking&…

开源字符识别 OCR 引擎推荐

Tesseract 开源 OCR 引擎(主存储库) github地址 https://github.com/tesseract-ocr/tesseract 官方网址 tesseract-ocr.github.io/ Tesseract 是一个开源的光学字符识别(OCR)引擎,它能够从图像文件中识别和提取文…

Protobuf 安装与使用

Protobuf 安装与使用 1 环境2 安装 [apt安装]2 安装 [源码安装]1 依赖2 下载 protobuf3 解压4 编译安装5 配置环境 2 命令查看版本卸载 3 使用书写 .proto 文件编译 .proto 文件生成 cpp 文件编写 cpp 文件编译运行 参考 1 环境 ubuntn 20.04 protobuf v3.6.1 2 安装 [apt安装…

package-info.java delete

package-info.java delete