Interspeech 2022:跨学科研究的融合与演进

Interspeech 2022:跨学科研究的增长

循环训练语音合成与语音识别模型、利用语言理解来改善语音韵律,这些只是语音相关领域交叉融合的几个例子。


当 Penny Karanasou 在 2010 年首次于 Interspeech 上发表论文时,她还是一名计算机科学的博士生,论文主题是自动语音识别。六年后,她加入了某中心,成为自然语言理解小组的一员。在过去的两年半里,她一直从事文本到语音的研究工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有亲身体验。

她也与 Interspeech 有着深厚的渊源。今年的会议是她第二次担任程序委员会的分区主席,也是她第七次主持会议环节。考虑到她在对话式 AI 领域广泛的经验,最令她着迷的领域趋势之一是自动语音识别、自然语言理解和文本到语音之间日益增长的重叠,这或许是很自然的。

“近年来,随着新开发的神经技术,我们开始看到不同语音领域之间有越来越多的重叠和协同作用,”Karanasou 说,“一个方向是实际上可以将 TTS 用于 ASR,即使用 TTS 系统生成合成数据进行数据增强。在英语中,我们可能需要特定领域的数据,或用于词汇表外单词的数据,或用于数据分布长尾中不常见示例的数据。但这也是低资源语言的一种有用方法。”

“另一种结合 ASR 和 TTS 的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式训练。你训练一个系统,并用其输出来训练另一个。然后使用某种置信度指标或其他选择方法来选择保留的数据进行新一轮训练。进行这种循环训练实际上可以改善两个任务。”

“近年来我们观察到的另一件事是,两个领域有共同的方法。在 TTS 和 ASR 中,整个社区都在朝着全神经端到端系统发展。我们还看到上下文的加入,以实现长格式的 ASR 和 TTS。因此,不仅仅关注一个句子,而是考虑对话中先前所说的更多上下文——或任何类型的上下文。”

语言理解与语音

“我认为这也是 NLU 产生影响的地方,”Karanasou 说,“随着所有这些语言模型的出现——比如最著名的 BERT——我们看到 NLU 被整合到语音领域中。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文及句法和语义信息。例如,通过正确的句法和语义信息,我们也可以在 TTS 中获得更好的韵律。”

正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科间交叉融合的一个例子。语言模型对单词序列的概率进行编码,而一个单词与其他单词的共现被证明是其含义的良好指标。但在它们被引入 NLU 之前,语言模型早已被用于 ASR 中,以区分相同声音序列的不同解释(一个经典的例子是 “Pulitzer Prize” 和 “pullet surprise”)。

“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT 出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。”

Interspeech 一直都有关于 ASR 和 TTS 的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但 Karanasou 指出,对话式 AI 子领域之间日益增长的重叠的另一个迹象是,越来越多的 Interspeech 论文关注以语音作为输入并以端到端方式执行下游计算的模型。这包括关于口语理解、口语翻译和口语对话的研究。

“传统上,我们会在 NLP 会议上看到这些关于口语理解的环节,”Karanasou 说,“但现在我们在像 Interspeech 这样的会议上看到了更多的 SLU 环节。”

“说了这么多,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是 TTS 的相反任务,但你需要处理不同的数据和不同的评估技术。例如,TTS 主要基于主观评估,而 ASR 则最小化词错误率,所以是客观评估。”

然而,对 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。

“我认为人们应该阅读其他领域的论文,”她说,“机器翻译当然是 NLU 的一部分。但越来越多的是,我们甚至从图像处理、计算机视觉中获得想法。理解另一个领域发生的事情并将其转移到你自己的领域,这实际上是非常丰富的。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1178125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年最新敏感肌保湿修复产品测评:高口碑屏障修护与长效锁水极简成分标杆推荐 - 速递信息

问题定义:敏感肌保湿的三大核心痛点当代敏感肌人群正面临严峻挑战:《2024中国敏感肌健康白皮书》显示,38%国人存在敏感肌问题,其中62%因产品刺激导致泛红、瘙痒反复发作;普通保湿产品仅提供表面补水,无法修复受损…

银行网页如何通过vue.js实现大文件文件夹上传及分块?

北京XX软件公司涉密项目大文件传输解决方案(基于SM4国密算法) 一、项目背景与需求分析 作为服务政府及军工领域的软件企业,我司当前涉密项目需实现以下核心需求: 安全传输:10GB级文件/文件夹的SM4加密传输&#xff…

工程建筑网页如何通过js实现文件夹上传及断点续传?

咱们的客户,那可是汽车制造行业里的领军企业,妥妥的头部大佬。他们自有一套极为成熟的业务系统,这套系统就像他们的左膀右臂,每日不辞辛劳地处理着各类繁杂事务。然而,随着行业竞争愈发白热化,技术迭代也是…

导师严选8个AI论文工具,专科生搞定毕业论文+格式规范!

导师严选8个AI论文工具,专科生搞定毕业论文格式规范! AI 工具如何成为论文写作的得力助手 在当前学术环境日益严格的背景下,越来越多的继续教育学生开始借助 AI 工具来辅助论文写作。这些工具不仅能够帮助学生高效完成内容创作,还…

详细介绍:3ds Max渲染核心:高光追(Embree)与光线追踪(Ray Trace)

详细介绍:3ds Max渲染核心:高光追(Embree)与光线追踪(Ray Trace)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

金融行业网页如何用vue2实现文件夹上传及秒传功能?

大文件上传解决方案 各位同行大佬们好,作为一个在广东摸爬滚打多年的前端"老油条",最近接了个让我差点秃顶的项目——20G大文件上传系统,还要兼容IE9!这感觉就像让我用竹篮子去打水还要不漏一样刺激… 需求分析&#…

吐血推荐!9款一键生成论文工具测评:本科生毕业论文救星

吐血推荐!9款一键生成论文工具测评:本科生毕业论文救星 2026年学术写作工具测评:为何需要这份榜单? 随着人工智能技术的不断进步,越来越多的学术写作工具进入市场,为本科生毕业论文的撰写提供了便捷支持。然…

农业大数据平台如何用百度UE优化WORD表格导入功能?

企业级富文本编辑器Word/公众号内容导入解决方案 项目需求分析 作为海南某国企项目负责人,我们正在为后台管理系统寻求一个强大的富文本编辑器扩展解决方案,主要需求包括: 核心功能需求: Word内容粘贴(带图片自动上传…

2026年目前知名的智能货架源头厂家哪家好,重载货架/中型货架/货架定制/抽屉式模具架/背网货架,智能货架源头厂家找哪家 - 品牌推荐师

随着工业4.0与智慧物流的加速推进,智能货架作为仓储自动化的核心载体,正从单一存储功能向“感知-决策-执行”一体化演进。据第三方机构统计,2025年国内智能货架市场规模突破120亿元,年复合增长率达18%,但市场碎片…

技术学校品牌企业哪家好?成都万通未来高级技工学校了解一下 - 工业品牌热点

在职业教育蓬勃发展的当下,选择一所服务优质、品牌可靠的技术学校,是无数学生和家长实现技能成才梦想的关键一步。面对市场上琳琅满目的技术学校,如何精准找到贴合需求、实力过硬的品牌?以下结合不同办学特色,为你…

教育行业如何通过UEDITOR插件实现PPT动画转存为网页?

CMS企业官网Word导入功能开发实录 需求分析与技术评估 客户核心需求 支持Office文档(Word/Excel/PPT/PDF)导入并保留完整样式实现Word内容一键粘贴功能公式处理(LaTeX/MathType)转换MathML图片自动上传至阿里云OSS高龄用户友好型操作设计 技术栈现状 前端:Vue2…

医院HIS系统如何集成百度编辑器实现PDF病历跨平台编辑?

Word文档导入与粘贴功能解决方案 项目背景与需求分析 作为安徽某IT公司的.NET工程师,我最近负责在企业网站后台管理系统中增加Word粘贴和文档导入功能。客户的核心需求是: Word粘贴功能:直接从Word复制内容到网站编辑器,图片自…

2026四川气体探测器供货商排行榜,探寻气体探测器哪家性价比高 - 工业品牌热点

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为企业选型提供客观依据,助力精准匹配适配的气体探测器服务伙伴。 TOP1 推荐:江苏吉华电子科技有限公司 推荐指数:★★★★★ | 口碑评分:高性价…

2026年免费音效素材下载网站最新动态

2026年了,哪些我们常用的音效素材下载网站有什么变化呢?小编就带大家梳理一下。强烈推荐CC音效库,导演和剪辑师本地自建音效库的网络共享版,更懂使用者需求,完全免费。不需要购买会员。之前叫猫脸音效库,最近改名…

2026年1月15万左右城市SUV实力排行榜:基于长期口碑与实测数据的TOP5权威榜单揭晓 - 品牌推荐

2026年15万左右城市SUV推荐榜单:谁能成为家庭出行的“均衡之选”? 当购车决策从单纯对比配置表,转向综合考量“日常通勤成本、家庭空间需求、长期可靠性与科技体验”的复杂平衡时,一款车的价值便不再取决于某个单项…

2026年做得好的户外led大屏广告代理公司有哪些,地铁广告/电视台广告/公交广告,户外led大屏广告代理公司推荐 - 品牌推荐师

随着城市数字化进程加速,户外LED大屏广告凭借高曝光、强视觉冲击力及精准人群触达能力,成为品牌营销的核心阵地之一。然而,面对分散的媒体资源、复杂的投放逻辑及技术迭代压力,广告主如何选择兼具资源整合能力与数…

Playwright多语言回归测试框架对比

‌一、多语言支持的核心价值‌ 在全球化研发体系中,多语言测试能力已成为DevOps流水线的刚需。Playwright通过统一的API层实现对TypeScript/Node.js、Java、Python、.NET四大语言的支持,其设计哲学可概括为: ‌协议统一‌:所有语…

智能API回归测试的核心挑战与解决路径

在微服务架构普及的当下,API回归测试面临三大核心痛点: ‌高频迭代的维护成本‌:接口变更导致70%测试用例失效(数据来源:SmartBear 2025行业报告),需频繁重构测试脚本。‌多环境验证复杂性‌&a…

详细介绍:我为什么当博主

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

保险网页项目怎么用javascript实现文件夹上传及加密?

大文件传输解决方案技术方案 作为陕西某软件公司项目负责人,针对公司产品部门提出的大文件传输需求,我经过深入调研和技术评估,提出以下专业解决方案。 一、需求分析与技术挑战 核心需求 支持50G以上大文件传输,包含文件/文件…