实用指南:LTU-AS:一种具备音频感知、识别、理解的大模型架构

news/2025/10/20 17:16:02/文章来源:https://www.cnblogs.com/slgkaifa/p/19153140

实用指南:LTU-AS:一种具备音频感知、识别、理解的大模型架构

  • JOINT AUDIO AND SPEECH UNDERSTANDING
  • 在LTU基础上增加语音识别能力就是LTU-AS:listen to, think of, and understand audio and speech,也就
  • 在LTU具有音频感知和理解能力的基础上,引入识别能力。看这篇文章前建议先看完《Whisper-AT:一个统一语音识别和音频标签的模型》和《LTU:一种能听、能想、能理解的大模型架构》。就是一种模型优化技能:其实就

章节1:背景介绍

人类生活在一个多样化的音频信号环境中,包括语音和各种非语音声音。人可能准确辨识、解释和整合这些语音和非语音音频元素,以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力!

通过于是论文提出了一种新的模型结构LTU-AS,下图展示了LTU-AS效果,我们看一下第一个示例:感知到了人声和篮球弹跳的声音,同时基于识别出的说话内容,推测出这个说话人正在指导别人打篮球教练。能够看出这个模型同时具备了音频感知、理解能力、识别能力。

章节2:方案阐述

框架设计

LTU-AS模型架构如上图,对比一下LTU许可发现就是将原来的AST换成“whisper+TLTR”,在《Whisper-AT:一个统一语音识别和音频标签的模型》这篇文章中,已经比较详细的讲解了“whisper+TLTR”模块,这里不做赘述。所以,可以简单的将LTU-AS理解为Whisper-AT和LTU融合,技术上没有太多可讲的。

数据准备

论文构建了一个9.6M的训练集:OpenAQA-5M、2.7M语音问答集(speechrelated AQAs)、1.2M音频语音问答集(joint audio and speech AQAs)。

重新标注了13个开源数据集,下边详细讲解数据集构建过程。就是与LTU一样,作者并没有新录制音频数据,而

封闭式音频问答数据集构建(closed-ended AQA)

  • Open-Ended Audio AQA:这部分的构建在《LTU:一种能听、能想、能理解的大模型架构》已经详细描述,这里不再赘述
  • 基于4个常用的语音内容集(IEMOCAP/LibriTTS/VoxCeleb2/MOSEI)构建,元信息的构成关键包括以下几个部分:就是Closed-Ended Speech AQA:941K的封闭式语音问答数据集
    1. 数据集原始标注:不同材料集包含的元信息不一致,如IEMOCAP标注了性别,但MOSEI就没有标注性别,上表中"x"就表示原数据集献出的标注信息
    2. 标注说话人风格:提取音高、语速、音量等信息,由此生成说话人风格问答集
    3. 对音频内容进行识别:对其中150K信息进行识别,构成形如(音频,Q,A)这样的识别挑战集
  • Closed-Ended Joint Audio and Speech AQA:该信息集基于音乐分析资料集FMA构建,先用Whisper识别出歌词,把歌词以及数据集原来的标签(如风格、标题)一同输入GPT生成问答,大小为93K

开放式音频问答数据集构建(open-ended AQA)

论文仍基于一种名为AIG的数据生成方法。简单描述就是:提取音频的元信息(音频事件、说话内容、说话风格等),输入GPT-3.5-Turbo,让GPT根据特定的prompt生成答案。

  • Open-Ended Audio AQA:这部分的构建在《LTU:一种能听、能想、能理解的大模型架构》已经详细描述,这里不再赘述
  • Open-Ended Speech AQA:仍基于4个常用的语音数据集(IEMOCAP/LibriTTS/VoxCeleb2/MOSEI)构建,原信息输入GPT生成答案,这里需特别指出:
    • 不同内容集具备的元信息不一致:如IEMOCAP标注了性别,但MOSEI就没有标注性别,上表中"x"就表示原数据集提供的标注信息
    • 根据音高、语速、音量等参数的值从低到高划分为5个等级: 主要是方便GPT理解值的含义,如语速3.0对应的高语速
  • Open-Ended Joint Audio and Speech AQA:基于内容集AudioSet和FMA构建
    • AudioSet:从AudioSet-2M挑选50万条构成一个子集,然后用下边3个条件(①音频标签分布均匀;②非语音音频占比要小于20%; ③每个音频识别结果长度要超过5个单词)进行过滤,筛选出82K的子集,在用GPT生成问答集

    • FMA:首先用Whisper识别出歌词,把歌词以及资料集原来的标签(如风格、标题)一同输入GPT生成问答集,如下图示例

训练

分阶段进行,如上表分共为3个阶段:就是因为大语言模型直接采用的Vicuna,语音识别直接使用whisper,所以只需要训练三个相对比较小的部分:TLTR、投影层和LoRA。整个训练作者用4块RTX A6000 GPUs 耗时80个小时。和LTU训练方式相似,LTU-AS也

  • 阶段1:投影层权重训练,先冻结TLTR和LoRA,用closed-ended AQA中涉及分类任务的材料(2.1M = 1.2M + 0.9M)进行训练
  • 阶段2:所有权重训练,用closed-ended AQA中涉及分类任务的数据(2.1M = 1.2M + 0.9M)进行训练
  • 阶段3:所有权重训练,用closed-ended AQA 和 open-ended AQA全部数据(9.6M)进行训练

开源

比较清晰的。就是同样的LTU-AS也提供了完整的训练和测试样例。因为个人硬件条件受限,就没有复现,有条件的朋友可以试一下,代码及说明都还

代码仓库地址:https://github.com/YuanGongND/ltu

归纳总结

下表给出了在音频分类、音频字幕、语音识别、情感识别、性别分类、年龄预测、音乐风格分类这8个任务上 LTU-AS效果

  • 从加黑部分结果来看,LTU-AS在各个场景效果都非常不错
  • 在零样本音乐风格分类任务上的准确率几乎是CLAP的两倍
  • 年龄预测任务:绝对误差(MAE)低于最先进(SOTA)专业模型
  • 训练时,联合音频和语音两种数据,在大多数任务上都要比单独启用一种内容效果好
  • 推理时,联合音频和文本两种模态,在大多数任务上都要比单独使用一种模态效果好

参考文献

  • JOINT AUDIO AND SPEECH UNDERSTANDING:https://arxiv.org/pdf/2309.14405.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/941398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上班摸鱼新姿势!抖音爆火的线稿涂鸦也太治愈了~

最近上班摸鱼圈又有新玩法了—— 不是看剧、不是小游戏,而是刷爆抖音的 【线稿涂鸦图】! 简单几笔,就能让人放空大脑、重启心情,堪称打工人精神续命神器 😂GitHub地址 点击这里🖊 什么是“线稿涂鸦”? 就是一…

Ubuntu材料权限管理指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

n8n错误处理全攻略:构建稳定可靠的自动化工作流

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集 在自动化工作流中,错误不是绊脚石,而是构建更健壮系统的指引。掌握n8n错误处理,让您的自动化流程真正具备生产可靠性。 在自动化工作流中…

深入解析:HarmonyOS 应用开发深度解析:ArkTS 状态管理与渲染控制的艺术

深入解析:HarmonyOS 应用开发深度解析:ArkTS 状态管理与渲染控制的艺术pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family:…

【ACM出版】2025年计算机技术、数字媒体与传播国际学术会议(ICCDC 2025)

由西南财经大学天府学院主办的ICCDC 2025将于2025年10月31日至11月2日在成都召开。【ACM出版、IEEEfellow加盟、稳定EI检索】 【西南财经大学天府学院、成都师范学院主办 | 计算机类、数字媒体传播类主题皆可投稿】 20…

版本号搞得鬼!Winsows VSCode 和 Trae 的 Terminal 不识别 conda 环境

问题简述 在 Win 11 系统自带的终端(Powershell)和CMD窗口中,可以正常调用conda,命令行回显: (base) PS C:\Users\DELL>然而,在 VSCode 和 Trae 上无法正确使用 conda 报错为: PS C:\Users\DELL> conda act…

2025年氧化镁厂家最新权威推荐榜:活性氧化镁,肥料级氧化镁,高纯度氧化镁源头厂家深度解析及选购指南

2025年氧化镁厂家最新权威推荐榜:活性氧化镁,肥料级氧化镁,高纯度氧化镁源头厂家深度解析及选购指南 一、行业背景与发展现状 氧化镁作为一种重要的无机化工原料,在工业生产中扮演着不可或缺的角色。随着环保政策的…

客户端使用ceph服务器的块设备

环境:Os:Centos 7[root@master /]# ceph versionceph version 14.2.22 (ca74598065096e6fcbd8433c8779a2be0c889351) nautilus (stable)#############################管理节点上前置事项####################1.在管理…

[随笔11] 最近的心情 - 枝-致

我在想,现在是不是我人生的低谷期? 一边是职业生涯看不到什么发展空间,不太感兴趣,没有什么成就感。 一边是家庭关系紧张,不仅是跟丈夫紧张,还跟他们真个家庭紧张,这种紧张感压得我喘不过气来。我一点都没有回家…

2025年智能照明系统/模块厂家推荐排行榜,工厂/车间/改建/高亮/高光效/泛光/免维护/投光/大功率智能照明系统及模块公司精选

2025年智能照明系统/模块厂家推荐排行榜,工厂/车间/改建/高亮/高光效/泛光/免维护/投光/大功率智能照明系统及模块公司精选 智能照明行业发展趋势分析 随着工业4.0时代的深入发展,智能照明系统正经历着前所未有的技术…

DxO Nik Collection 8.0:7 款专业摄影插件套装,一站式图像后期解决方案

Nik Collection 8.0是由DxO开发的一款功能强大的摄影后期处理插件套装。它包含了Viveza 2、Silver Efex Pro 3、Dfine 2等7款专业插件,能够为用户提供全面的图像后期处理解决方案。该软件的U Point 3.0技术可实现像素…

启动JAVA

目录启动JAVA直接类启动JAR 包启动类路径例子启动方式总结 启动JAVA 直接类启动 # 当你不指定 -cp 时,JVM 使用: java com.example.Main # 等效于:只包含当前目录,不包含其他 JAR! java -cp . com.example.MainJA…

2025年通风天窗厂家最新权威推荐榜:通风天窗,排烟天窗,通风气楼,屋顶通风器,顺坡气楼,10A通风天窗,1型通风天窗,TC5A通风天窗,TC12B通风天窗,屋脊通风天窗专业制造与高效通风解决方案

2025年通风天窗厂家最新权威推荐榜:专业制造与高效通风解决方案 随着工业建筑对通风排烟要求的不断提高,通风天窗、排烟天窗、通风气楼等设备已成为现代工业厂房不可或缺的重要组成部分。这些设备不仅关系到车间的空…

三款AI平台部署实战体验:Dify、扣子与BuildingAI深度对比

最近在为客户选型AI应用平台时,我系统地测试了几款热门的开源解决方案。今天主要从部署体验这个关键维度,分享对 Dify、扣子 和 BuildingAI 的实际使用感受。从一键部署到商业闭环,开发者需要考量的不只是技术参数 …

#OO之接口-DAO模式代码阅读及应用

1.StudenDaoListImpl.java与StudentDaoArrayImpl.java有何不同? 存储底层结构:StudentDaoListImpl基于动态数组存储学生;StudentDaoArrayImpl基于普通数组存储,长度是固定的。 初始化要求:StudentDaoListImpl无需…

2025年南通宠物医院权威推荐榜:专业诊疗与暖心服务口碑之选,精选优质宠物医疗机构

2025年南通宠物医院权威推荐榜:专业诊疗与暖心服务口碑之选,精选优质宠物医疗机构 随着南通市宠物医疗行业的快速发展,宠物医疗服务已从基础诊疗向专科化、精细化方向转型升级。现代宠物医院不仅需要具备专业的医疗…

PPO GRPO GSPO DAPO的Loss计算与代码实现

首先看一下KL的基础公式 KL KL1: 大模型的KL一般是反向的: \[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})} \]\(x\sim\pi_\theta(\…

P3601 签到题

// 容易注意到 qiandao(i) = i - phi(i) // phi 是欧拉函数// 让我们想起最开始求欧拉函数的做法 // 分解质因数, 然后使用 phi(x) = x * 求积_{p in {x 的所有质因数}} (1 - 1 / p) // 这样的时间复杂度显然过大// 我…

图像采集卡重要功能解析:打通视频信号处理全链路

在视频采集与处理的产业链中,图像采集卡是连接前端设备与后端计算机的关键枢纽,其功能覆盖信号转换、接口适配、格式兼容等多个重要环节,为直播、监控、影视制作等场景提供稳定高效的技术支撑。 一、视频信号转换:…

2025年铣边机/铣床/刨边机/滚轮架/变位机厂家推荐排行榜,专业实力与市场口碑深度解析

2025年铣边机/铣床/刨边机/滚轮架/变位机厂家推荐排行榜,专业实力与市场口碑深度解析 随着制造业向智能化、精密化方向快速发展,铣边机、铣床、刨边机、滚轮架、变位机等关键设备在工业生产中的重要性日益凸显。这些…