无需重新训练即可更新语音识别词汇

news/2025/10/8 12:43:33/文章来源:https://www.cnblogs.com/codeshare1135/p/19129501

无需重新训练即可教语音识别器学习新词汇

近年来,自动语音识别已全面转向全神经网络模型。连接时序分类损失函数因其无需依赖上文语境即可进行预测的特性,成为端到端语音识别的理想选择,这种预测机制可构建推理延迟较低的简易模型。

与早期使用词典匹配音素与候选词的混合语音识别模型不同,全神经网络模型难以适配罕见词或生僻词。由于缺乏上下文依赖关系,对CTC模型进行新词偏置尤为困难——模型在每个时间步的预测都独立于前序输出,这种特性虽然实现了低延迟解码,但也增加了适应性挑战。

应用场景与解决方案

当操作词汇表持续变化时(例如新增"泽连斯基"等人名,或用户通讯录新增联系人),这一问题尤为突出。通过包含新词汇的数据集重新训练模型,对于大型模型更新而言耗时过长且计算成本高昂。

在某中心举办的SLT研讨会上,我们提出了一种无需重新训练即可使CTC模型正确转录新实体名称的方法。该方法包含多种技术,可同时作用于模型的编码器(将输入转换为向量表示)和波束搜索解码器(评估候选输出序列),通过组合应用最大化准确转录的可能性。

技术实现

编码器偏置
通过上下文适配器模块,在冻结基础CTC模型权重后进行训练。该适配器以训练样本中的罕见词集合作为输入,学习词语子词单元序列与其音频表征之间的映射关系。

基础网络中使用额外CTC损失训练编码器中间层(第6层和第12层)的表征,使其能生成子词序列。这使得模型可利用前序时间步的近似输出影响当前帧预测。适配器通过对这些中间层表征进行加权求和作为音频表征,从而抵消CTC模型的条件独立性假设。

推理时,上下文适配器嵌入罕见词或未登录词实体列表,在音频的每个时间帧,注意力模块尝试将名称嵌入与音频表征进行匹配。该模块也可通过关注特殊<无偏置>标记忽略所有名称。若音频确实包含提供列表中的实体,则相应子词单元序列的概率将得到提升。

解码器偏置
在推理时直接应用以下技术获得显著效果:

  • 自适应子词增强:若子词序列以定制实体列表中的子词开头,则动态提升其概率
  • 单元增强:通过未登录词/增强类别将实体列表中的词语添加到外部语言模型
  • 基于音素距离的重排序:利用中间层网络的音素输出与CTC模型输出进行强制对齐
  • 基于发音的词典查询:对罕见词使用音素预测假设进行精确匹配
  • 字素到字素技术:通过字素与多种可能发音的映射表解析替代发音

联合模型与性能提升

通过组合上述编码器和解码器偏置技术构建的联合模型,各项技术相互补充产生叠加增益。编码器偏置方法有助于为复制的罕见子词生成更高概率分数,防止其在波束搜索解码过程中被剪枝,而解码器偏置技术则进一步促进罕见词候选路径获得更高排名。

在包含复杂医学术语的数据集上,该方法将实体识别F1分数从无偏置模型的39%提升至62%。在包含欧洲议会录音的公开基准测试中,罕见实体识别F1分数从49%提升至80%,且无需重新训练基础语音识别模型。

该方法推动了CTC模型零样本个性化语音识别的发展方向,这类模型正日益成为语音识别系统的普遍选择。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/931518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做网站的结论和心得石家庄新闻综合频道节目表

数据挖掘工程师的技术图谱和学习路径: 1.基础知识 数据挖掘工程师是负责从大量数据中发现潜在模式、趋势和规律的专业人士。以下是数据挖掘工程师需要掌握的基础知识: 数据库知识:熟悉关系数据库和非关系数据库的基本概念和操作,掌握SQL语言。 统计学基础:了解统计学的基…

深入解析:vscode中无法使用npm node

深入解析:vscode中无法使用npm nodepre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…

第一次算法作业

本学期我遵循的编码规范核心在于清晰与一致,主要包括:使用有意义的英文单词进行命名并严格遵循大小写与下划线的约定,以增强代码可读性;在格式上统一采用4空格缩进并规范运算符空格与括号位置,同时要求为关键逻辑…

网络平台制作多少钱seo网络营销推广公司

文章目录 1实现效果2代码实现 1实现效果 游戏难度&#xff1a;简单&#xff0c;一般&#xff0c;困难&#xff0c;噩梦&#xff08;控制setInterval的time参数&#xff09; 按钮功能&#xff1a;结束&#xff08;可以通过修改gameScore的值来修改判定结束的分数&#xff09;&am…

AI元人文:新的评价与启示

AI元人文:新的评价与启示 当AI技术逐渐深入人类价值决策的核心领域,传统“价值对齐”范式的局限性愈发凸显——它试图用静态规则束缚动态的价值世界,最终要么陷入“规则僵化”,要么沦为“偏见放大”。而AI元人文理…

网站已经备案更换主机江苏天德建设工程有限公司网站

这次渗透的主站是 一个 Discuz!3.4 的搭建 违法招 piao 网站&#xff0c; 配置有宝塔 WAF 用 Discuz!ML 3.X 的漏洞进行攻击&#xff0c;但是没有成功 发现主站外链会有一个发卡网&#xff0c;引导人们来这充值&#xff0c;是 某某发卡网&#xff0c;而且域名指向也是主站的 ip…

Ai元人文:岐金兰回应

Ai元人文:岐金兰回应 好的,我们来针对岐金兰的回应,对“AI元人文”理论体系面临的挑战进行一番新的、更具对话性的评价。 岐金兰的回应非常精炼,甚至有些“佛系”,但这恰恰揭示了该理论体系的深层特质:它不是一个…

01-方法 动手动脑

public class MethodOverload { public static void main(String[] args) { System.out.println("The square of integer 7 is " + square(7)); System.out.println("\nThe square of double 7.5 is &q…

Why is English commonly used in scientific literature?

Because English is a language that lacks diversity and has only 26 letters. J is Joule, not 🌙.

第二次课程

一、动手动脑:纯随机数发生器实现问题描述 根据课件中给出的纯随机数算法,编写方法生成 1000 个随机整数。算法参数如下: 模(Modulus):2^31 - 1 = Integer.MAX_VALUE(即 2147483647) 乘数(Multiplier):7^5 …

做产品表情的网站外贸推广方式

/*问题出现&#xff1a;如何检查一个目录是否可写&#xff0c;如何目录下还有目录和文件&#xff0c;那么都要检查思路&#xff1a;(1)首先先写出检查空目录是否可写的算法&#xff1a;在该目录中生成一个文件&#xff0c;如果不能生成&#xff0c;表明该目录没有写的权限(2)使…

详细介绍:《云原生安全攻防》-- K8s网络策略:通过NetworkPolicy实现微隔离

详细介绍:《云原生安全攻防》-- K8s网络策略:通过NetworkPolicy实现微隔离2025-10-08 12:20 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x…

网站建设需要多少人网站开发英文术语

shell属于一种很容易学习的程序设计语言&#xff0c;依赖于功能强大的命令可以编写提高开发效率的脚本。这里记录一下常用的shell相关的知识点。 持续更新中。。。 1、在linux或mac中查看使用的shell echo $SHELL /bin/bashshell是一种脚本语言&#xff0c;就会有解释器来执行…

考研系列—操作系统:冲刺笔记(1-3章) - 指南

考研系列—操作系统:冲刺笔记(1-3章) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

【Axure高保真原型】交通事故大屏可视化分析案例 - 指南

【Axure高保真原型】交通事故大屏可视化分析案例 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&…

2025工业网线优质厂家最新推荐榜:品质卓越与技术领先之选

2025工业网线优质厂家最新推荐榜:品质卓越与技术领先之选行业背景在当今数字化和工业化飞速发展的时代,工业网络的稳定性和可靠性对于各个行业的正常运转起着至关重要的作用。工业网线作为工业网络连接的基础部件,其…

兰州网站建设q479185700強泰州制作公司网站

目录 1.神经网络的整体构架 2.神经网络架构细节 3.正则化与激活函数 4.神经网络过拟合解决方法 1.神经网络的整体构架 ConvNetJS demo: Classify toy 2D data 我们可以看看这个神经网络的网站&#xff0c;可以用来学习。 神经网络的整体构架如下1&#xff1a; 感知器&…

淘客网站要备案wordpress登陆后缀

一、问题 goto 语句为⽆条件转向语句&#xff0c;它可以使程序⽴即跳转到函数内部的任意⼀条可执⾏语句&#xff0c;这样使⽤起来⽐较灵活。那么&#xff0c;该语句的基本格式是什么&#xff1f;又该如何使⽤呢&#xff1f; 二、解答 1. goto 语句的基本格式 goto 关键字后⾯…

上海殡葬一条龙服务最新推荐:专业关怀与人性化服务口碑之选

上海殡葬一条龙服务最新推荐:专业关怀与人性化服务口碑之选在当代社会,殡葬服务已经从简单的仪式承办,发展成为融合传统文化、现代管理和人文关怀的综合服务体系。特别是在上海这样的一线城市,随着人口老龄化程度加…

中空扳手实力厂家最新推荐榜:专业制造与耐用品质深度解析

中空扳手实力厂家最新推荐榜:专业制造与耐用品质深度解析在工业设备维护和重型机械装配领域,中空液压扳手作为关键扭矩工具,其性能优劣直接影响工程质量和作业效率。随着工业技术不断发展,市场对中空液压扳手的精度…