ICASSP 2022语音识别技术突破与创新

news/2025/10/18 8:08:47/文章来源:https://www.cnblogs.com/codeshare1135/p/19149146

ICASSP 2022语音识别研究进展

本周,IEEE国际声学、语音与信号处理会议(ICASSP)以虚拟形式拉开帷幕,两周后(5月22-27日)将在新加坡举行线下会议。ICASSP是IEEE信号处理学会的旗舰会议,也是发布自动语音识别(ASR)及其他语音处理和语音相关领域最新进展的主要场所,产业界和学术界参与度都很高。

今年,某智能助手ASR组织共有21篇论文入选,超过以往任何一年,反映了语音相关科学研究的增长。以下重点介绍其中几篇论文,以展示其广度。

端到端ASR的多模态预训练

深度学习方法已成为语音识别和分类任务的首选方法,自监督表示学习越来越多地用于在大型未标记数据集上预训练模型,然后在任务标记数据上进行"微调"。

在论文《自动语音识别的多模态预训练》中,研究人员为这种方法赋予了新思路,通过在视听数据上预训练语音表示。作为两种模态的自监督任务,他们采用了掩码语言模型,其中训练句子的单词被随机掩码,模型学习预测它们。但在他们的研究中,掩码应用于从视频和音频流中提取的特征。

预训练后,学习表示的仅音频部分与更标准的前端表示融合,馈入端到端语音识别系统。研究表明,这种方法比仅基于音频自监督的预训练产生更准确的ASR结果,表明声学和视觉信号之间的相关性有助于提取与语音编码相关的高级结构。

多模态嵌入的信号到解释转换

多模态的优势不仅限于无监督学习设置。在《固定你的嵌入:端到端口语理解的多模态潜在空间》中,研究人员研究了信号到解释(S2I)识别器,它将顺序声学输入映射到嵌入,从中直接推断话语的意图。

这绕过了显式语音转录的需要,但仍使用话语意图的监督。由于其紧凑性,S2I模型对于设备端部署很有吸引力。例如,某智能助手已使用设备端语音处理使其响应更快且带宽更低。

研究表明,当声学嵌入被约束接近预训练语言模型(BERT)产生的相应文本输入的嵌入时,S2I识别器能给出更好的结果。与上一篇论文一样,这种跨模态信号仅在学习期间使用,推理时(即运行时)不需要。这是一种巧妙的方法,将语言结构重新引入S2I系统,同时注入从更庞大的语言模型训练数据中收集的知识。

匹配来自音频的嵌入与相应文本字符串(即转录本)的嵌入思想也有其他应用。在论文《TinyS2I:支持上下文理解的设备端小型话语分类模型》中,研究人员展示了可以为最常用于控制某些应用(如媒体播放)的话语获得极其紧凑、低延迟的语音理解模型。

最频繁的控制命令("暂停"、"音量增大"等)可以直接从声学嵌入分类。对于涉及上下文菜单中项目的命令("播放[标题]"),声学嵌入与媒体标题的文本嵌入匹配。与上一篇论文不同,本文中的文本嵌入与声学嵌入联合训练。但相同的三元组损失函数可用于在共享空间中对齐跨模态嵌入。

使用BERT进行ASR重评分

使用掩码语言模型(MLM)范式训练的深度文本编码器,如BERT,已被广泛用作各种自然语言任务的基础。如前所述,它们可以通过自监督预训练融入大量语言数据,然后进行特定任务的监督微调。

然而,到目前为止,MLM对ASR本身的实际影响有限,部分原因是计算开销(延迟)和可实现的精度提升之间不令人满意的权衡。随着研究人员在《RescoreBERT:使用BERT的判别性语音识别重评分》中描述的工作,这种情况正在改变。

研究人员展示了如何将BERT生成的句子编码纳入重评分ASR模型输出的文本字符串的模型中。由于BERT在大型(仅文本)公共数据语料库上训练,它比ASR模型更能理解不同ASR假设的相对概率。

研究人员使用基于句子伪似然(一种更易于计算的句子似然估计)和词错误预测的组合损失函数获得了最佳结果。由此产生的重评分模型与标准LSTM(长短期记忆)语言模型相比非常有效,同时表现出更低的延迟,以至于RescoreBERT方法在不到一年的时间内从实习项目进入了某智能助手生产环境。

声学事件检测的本体偏置

我们以一篇ASR相邻领域的论文结束这次简短的选择。在《使用树结构本体的声学事件分类改进表示学习》中,研究人员研究了声学事件检测(AED)任务中自监督训练的替代方案。(AED是某智能助手检测破碎玻璃、烟雾报警器和家中其他值得注意事件的能力背后的技术。)

他们表明,通过强制生成的表示不仅识别目标事件标签(如"狗叫"),还识别从本体论(概念间关系的层次表示)中提取的超类别(如"家养动物"和"动物声音"),可以增强AED分类器训练。该方法可以通过强制分类在输入失真下保持不变来进一步增强。研究人员发现,他们的方法比纯粹的自监督预训练更有效,并且仅用一小部分标记数据就接近完全监督训练。

结论与展望

正如我们所看到的,某智能助手依赖一系列使用深度学习架构的基于音频的技术。需要稳健、公平地训练这些模型,并在有限监督下进行,以及运行时的计算约束,继续推动着相关科学研究。我们重点介绍了这项工作的部分成果,这些成果即将向更广泛的科学界展示,我们很高兴看到整个领域提出创造性解决方案,并推动基于语音的AI应用能力不断提升。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/939329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

140亿元!曝芯片巨头拟出售通信类业务

微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087 路透社10月14日引述知情人士报道,日本半导体制造商瑞萨电子…

2025多校冲刺 CSP 模拟赛 6

2025多校冲刺CSP模拟赛6以下是博客签名,正文无关 本文来自博客园,作者:Wy_x,转载请在文首注明原文链接:https://www.cnblogs.com/Wy-x/p/19149141 版权声明:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际…

Cisco ASR 9000 Router IOS XR Release 7.11.2 MD - 思科 ASR 9000 路由器系统软件

Cisco ASR 9000 Router IOS XR Release 7.11.2 MD - 思科 ASR 9000 路由器系统软件Cisco ASR 9000 Router IOS XR Release 7.11.2 MD - 思科 ASR 9000 路由器系统软件 Cisco ASR 9000 Series Aggregation Services Rou…

2025年瑕疵检测设备厂家推荐排行榜,表面瑕疵检测,薄膜瑕疵检测,铝箔瑕疵在线检测,外观瑕疵检测机公司精选!

2025年瑕疵检测设备厂家推荐排行榜,表面瑕疵检测,薄膜瑕疵检测,铝箔瑕疵在线检测,外观瑕疵检测机公司精选!随着工业自动化和智能化的快速发展,表面瑕疵检测、薄膜瑕疵检测、铝箔瑕疵在线检测等技术在制造业中的应…

10.16 闲话-k 短路

发晚了qwq10.16 闲话-k 短路 Part.1 左偏树 左偏树是一个堆,支持 \(O(\log n)\) 合并。 假设 \(dist_i\) 表示离 \(i\) 最近的儿子数量不为 \(2\) 的儿子的距离 + 1,孤立点设为 0。 容易发现 \(dist_i \le \log n\) …

初次扫描设计

需求:第一次扫描的时候两者的状态能同步代码展示:/// <summary>/// 第一次扫描/// </summary>private bool FristScan = true; // 第一次扫描执行 ,以后就不再执行if(FristScan){this.togg…

应用安全 --- 安卓加固 之 进程隔离

应用安全 --- 安卓加固 之 进程隔离1. 核心思想 在安卓应用开发中,利用多进程特性是一种有效的安全增强手段。其核心思想是:将一个App划分为多个进程(通常是主进程和一个或多个子进程),并将核心的、敏感的业务逻辑…

关于虚数单位与复数

关于虚数单位与复数#content { max-width: 60em; margin: auto } .title { text-align: center; margin-bottom: 0.2em } .subtitle { text-align: center; font-size: medium; font-weight: bold; margin-top: 0 } .t…

AI深度学习平台快速诊断肌张力障碍

研究人员开发出基于深度学习的DystoniaNet平台,通过分析脑部MRI数据在0.36秒内准确诊断肌张力障碍,诊断准确率达98.8%,大幅缩短了传统诊断所需的五年半时间。AI深度学习平台快速诊断肌张力障碍 想象等待五年才能获得…

2025年多功能防水篷布厂家推荐排行榜,聚乙烯/帐篷/汽车/宴会/盖草布/泳池布/微喷水带/日用盖/农林用/重型机器用篷布公司精选

2025年多功能防水篷布厂家推荐排行榜,聚乙烯/帐篷/汽车/宴会/盖草布/泳池布/微喷水带/日用盖/农林用/重型机器用篷布公司精选随着科技的不断进步和市场需求的多样化,多功能防水篷布在各个领域的应用越来越广泛。从工…

2025年干燥机厂家推荐排行榜,小型喷雾/实验室离心喷雾/双锥回转真空/搪瓷双锥/旋转闪蒸/振动流化床/真空耙式/单层带式/多层带式/立式沸腾/卧式沸腾/滚筒刮板干燥机!

2025年干燥机厂家推荐排行榜:小型喷雾/实验室离心喷雾/双锥回转真空/搪瓷双锥/旋转闪蒸/振动流化床/真空耙式/单层带式/多层带式/立式沸腾/卧式沸腾/滚筒刮板干燥机随着化工、矿山、冶金等行业对干燥设备需求的不断增…

2025年润滑油厂家推荐排行榜,工业/汽车/发动机/甲醇发动机润滑油,全合成/长效润滑油公司精选

2025年润滑油厂家推荐排行榜:工业/汽车/发动机/甲醇发动机润滑油,全合成/长效润滑油公司精选随着工业和汽车行业的发展,对润滑油的需求日益增长。润滑油不仅在机械润滑、减少磨损方面发挥着重要作用,还在提高设备效…

2025年数粒机厂家推荐排行榜,防爆/新型/高速/高精度/智能/大容量/多通道/电子/视觉/全自动/低噪音/制药/农业/食品/电子元件/光电/定制化/鹌鹑蛋/糖果/坚果/药品/片剂数粒机公司推荐

2025年数粒机厂家推荐排行榜:防爆/新型/高速/高精度/智能/大容量/多通道/电子/视觉/全自动/低噪音/制药/农业/食品/电子元件/光电/定制化/鹌鹑蛋/糖果/坚果/药品/片剂数粒机公司推荐随着科技的不断进步和工业自动化水…

2025年码垛机厂家推荐排行榜,多样板材/倒板/分拣/上料/下料码垛机,全自动/半自动/龙门/桁架/双工位/单工位/单立柱码垛机械手公司推荐!

2025年码垛机厂家推荐排行榜:多样板材/倒板/分拣/上料/下料码垛机,全自动/半自动/龙门/桁架/双工位/单工位/单立柱码垛机械手公司推荐!随着工业自动化技术的不断进步,码垛机在各个行业的应用越来越广泛。从多样板材…

2025年CNC高压清洗机厂家推荐排行榜,CNC全自动高压清洗机,CNC去毛刺清洗机,工业CNC高压清洗机公司推荐!

2025年CNC高压清洗机厂家推荐排行榜,CNC全自动高压清洗机,CNC去毛刺清洗机,工业CNC高压清洗机公司推荐!随着工业自动化和智能制造的快速发展,CNC高压清洗机在各个行业中的应用越来越广泛。为了帮助企业在众多品牌…

数字化ERP“一图四清单”战略执行体系 - 智慧园区

以“一张图”作为战略大脑和指挥中心,通过“四个清单”确保战略在ERP系统中被精准执行、实时反馈和持续优化。 “一图”:战略总览图 / 数字化作战指挥图 这是整个体系的灵魂,通常以高管驾驶舱或战略指挥大屏的形式呈…

因果分布变化解释方法解析

本文介绍了一种新方法,能够识别因果因素中对概率分布变化贡献最大的因素。该方法使用因果图和Shapley值技术,在模拟数据测试中表现出色,平均偏差仅为0.29,可应用于供应链管理等实际场景。解释现实世界数据中的变化…

OAuth/OpenID Connect 渗透测试完整指南

本文详细介绍了OAuth和OpenID Connect在现代Web应用中的安全测试案例,涵盖授权码重放、CSRF攻击、开放重定向、PKCE降级攻击等关键漏洞检测方法,帮助安全人员全面评估认证授权机制的安全性。Web应用渗透测试:OAuth/…

2025年塑料托盘厂家推荐排行榜,网格川字/九脚/田字/双面/平板/吹塑/注塑/焊接/印刷/组装款/高矮脚/反川字/立体库托盘公司精选

2025年塑料托盘厂家推荐排行榜:网格川字/九脚/田字/双面/平板/吹塑/注塑/焊接/印刷/组装款/高矮脚/反川字/立体库托盘公司精选随着物流行业的快速发展,塑料托盘作为重要的仓储和运输工具,其市场需求日益增长。为了帮…

2025年信息流代运营服务商权威推荐榜:精准投放与高效转化的首选!

2025年信息流代运营服务商权威推荐榜:精准投放与高效转化的首选!随着互联网技术的飞速发展,信息流广告已成为企业营销的重要手段。为了帮助企业更好地选择合适的信息流代运营服务商,我们特此发布2025年信息流代运营…