Proteno模型:仅需3%训练数据的高效文本归一化技术

在诸如Alexa这类使用合成语音输出的服务中,文本归一化通常是文本转语音转换过程的第一步。文本归一化接收原始文本输入(例如字符串“6-21-21”),并将其扩展为可供文本转语音模型用于生成最终语音的口语化形式(例如“twenty first of June twenty twenty one”)。

历史上,文本归一化算法依赖于硬编码规则,这些规则无法跨语言泛化且难以维护:一个典型的基于规则的单语言文本归一化系统可能包含数千条规则,这些规则会随着时间演变,其开发需要语言学专业知识。

最近,学术界和工业界的研究人员开始开发基于机器学习的文本归一化模型。但这些模型也有缺点。序列到序列模型偶尔会犯下不可接受的错误,例如将“$5”转换为“five pounds”。符号分类模型需要由语言学专家创建的特定领域信息类别(例如表情符号电话号码),这限制了其泛化能力。这两种类型的模型都需要大量的训练数据,使得跨语言扩展变得困难。

在本年度北美计算语言学协会会议上,介绍了一种名为Proteno的新型文本归一化模型,旨在应对这些挑战。

研究在英语、西班牙语和泰米尔语三种语言上评估了Proteno。关于英语的文本归一化研究已有大量成果,但西班牙语和泰米尔语此前没有公开的文本归一化数据集。因此,创建了新的数据集,并已公开发布供其他文本归一化研究人员使用。

Proteno仅指定了少数低级别的归一化类别(例如序数、基数或罗马数字),这些类别能很好地跨语言泛化。然后,Proteno从数据中学习大量额外的细粒度类别。例如,在英语实验中,使用了8个预定义类别,而Proteno自动生成了另外2658个。相比之下,符号分类模型通常只有大约20个类别。

Proteno还使用了一种简单但有效的令牌化方案,即将文本分割成更小的片段。先前的令牌化技术需要语言学知识或数据密集型训练;而Proteno的令牌化技术只是在空格处以及Unicode类别(如字母数字标点符号)之间的转换处进行分割。因此,它能够跨语言泛化,使大部分归一化规则能够从数据中学习,并减少了不可接受错误的发生率。

这些技术结合在一起,也使得Proteno所需的训练数据比之前的机器学习方法少得多。在实验中,Proteno在英语上提供了与先前最先进技术相当的性能,而所需的训练数据仅为后者的3%。

由于之前没有在西班牙语和泰米尔语上训练的文本归一化模型,因此实验没有基准数据可供比较。但在可比的训练数据量下,在泰米尔语和西班牙语上训练的Proteno模型达到了与英语训练模型相当的准确率(西班牙语99.1%,泰米尔语96.7%,英语97.4%)。

方法

Proteno将文本归一化视为一个序列分类问题,其中大多数类别是学习得到的。下图说明了Proteno的训练和运行时处理流程,它们的顺序略有不同。

训练流程包括以下步骤:

  1. 令牌化:先前的方法依赖于语言学家设计的语言特定规则。例如,字符串“6-21-21”将被视为单个日期类型的令牌。提出了一种细粒度的令牌化机制,它是语言独立的,适用于任何空格分隔的语言。待归一化的文本首先在其空格处分割,然后在Unicode类别发生变化的地方进一步分割。因此,字符串“6-21-21”变成了五个令牌,依靠Proteno来学习如何正确处理它们。
  2. 标注:对令牌化后的未归一化文本进行逐个令牌的标注,从而得到每个未归一化令牌与其真实归一化之间的一对一映射。这些数据将用于训练模型。
  3. 类别生成:然后将每个令牌映射到一个类别。一个类别可能只接受特定类型的令牌;例如,与美元对应的类别不接受英镑类型,反之亦然。这防止了模型犯下不可接受的错误。每个类别还有一个相关联的归一化函数
    有两类类别:
    • 预定义类别:定义了有限数量的类别(大约8-10个),包含基本的归一化规则。其中一小部分(3-5个)包含语言特定的规则,例如如何区分数字的基数序数用法。其他类别(如自身数字罗马数字)在许多语言中保持相似。
    • 自动生成类别:模型还通过分析数据集中的未归一化到归一化令牌映射来自动生成类别。如果现有类别(预编码或自动生成)无法为训练数据中的某个令牌生成目标归一化,则会自动生成一个新类别。例如,如果数据集包含注释“12→December”,并且没有现有类别可以生成此归一化,则创建类别“12_to_December_AG”。该类仅接受“12”,其归一化函数返回“December”。
      自动生成类别使Proteno能够自动从数据中学习大多数归一化规则。
  4. 分类:将文本归一化建模为一个序列标记问题,其中输入是未归一化令牌的序列,输出是能够生成归一化文本的类别序列。实验了四种不同类型的分类器:条件随机场、双向长短期记忆模型、双向长短期记忆-条件随机场组合和Transformer。

数据集

由于Proteno的目标是适用于多种语言,因此在英语、西班牙语和泰米尔语三种语言上对其进行了评估。英语的自动生成类别数量显著多于泰米尔语或西班牙语,因为书面英语倾向于使用比另外两种语言更多的缩写。

语言预定义类别总数语言特定预定义类别自动生成类别
西班牙语105279
泰米尔语8374
英语842,658

为了基准测试Proteno在英语上的性能,只能在现有数据集中13个预定义类别中的11个上与早期模型进行比较;令牌化方案的差异意味着另外两个类别没有逻辑映射。这些结果表明,Proteno是在低数据标注需求下进行文本归一化的有力候选方案,同时能抑制不可接受的错误,这将使其成为生产级文本转语音模型的稳健且可扩展的解决方案。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1168036.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面向工业场景的实时目标检测系统:基于YOLOv11的架构优化与多任务集成

文章目录 **面向工业场景的实时目标检测系统:基于YOLOv11的架构优化与多任务集成实现** **第一章:高性能开发环境配置与自动化部署** **第二章:工业级数据预处理与增强管道** **第三章:模型训练与优化系统** 代码链接与详细流程 购买即可解锁800+YOLO优化文章,并且还有海量…

好写作AI|别在导师办公室哭!让AI先给你的毕业论文选题“渡劫”

面对空白的文档,头顶是渐秃的发际线,心里是导师那句“题目不行,重想”。 你的毕业论文选题进度,是否也卡在了这个无限循环的玄学阶段?深夜十一点,宿舍灯火通明。键盘上的手指悬停半空,光标在“基…

用MySQL玩转数据可视化:结合BI工具实现动态图表展示

一、引言:数据可视化的价值与MySQL的定位 1.1 数据可视化的重要性 在当今数据驱动的时代,数据可视化已成为企业决策的关键工具。通过将抽象的数据库记录转化为直观的图表和仪表板,我们可以: 快速识别业务趋势和模式 发现数据中…

半导体制造中的天线效应:成因、危害与抑制策略

在半导体芯片不断向高密度、小尺寸、高性能演进的过程中,制造环节的每一个细微缺陷都可能导致芯片功能失效。其中,“天线效应”作为半导体制造阶段特有的可靠性风险,是芯片设计与制造工程师必须重点攻克的难题之一。它看似抽象,却…

集成电路中的四大核心电阻:Poly、Nwell、Nplus与Metal电阻解析

在集成电路(IC)设计与制造中,电阻作为基础无源器件,承担着限流、分压、负载匹配等关键功能。其性能直接决定电路的稳定性、精度与适用场景,而不同制备工艺形成的电阻在特性上差异显著。其中,Poly&#xff0…

基于H-S FPN的YOLOv11 Neck模块优化(超轻量高精度特征融合方案)

文章目录 研发实战:基于H-S FPN的YOLOv11 Neck模块优化(超轻量高精度特征融合方案) 一、技术背景与方案价值 二、环境搭建与依赖配置 2.1 虚拟环境创建 2.2 数据集准备 三、H-S FPN模块的代码实现 3.1 分层特征选择(H-S)核心组件 3.2 H-S FPN的Neck结构实现 3.3 替换YOLOv…

Flink动态窗口稳住房颤预警

📝 博客主页:jaxzheng的CSDN主页 Flink动态窗口:稳住房颤预警的实时数据科学实践目录Flink动态窗口:稳住房颤预警的实时数据科学实践 引言:房颤预警的紧迫性与技术瓶颈 Flink动态窗口:技术原理与医疗适配性…

解锁未来园区新范式:华为云智慧园区解决方案,让运营更聪明

在数字化转型浪潮中,传统园区管理深陷“烟囱式”系统困境,数据割裂、响应滞后,叠加运营成本高企、服务体验单一、安全防控被动等多重难题,如何以技术创新实现降本增效、体验升级与可持续发展,成为园区管理者亟待破解的…

GFNet轻量级Neck网络设计与性能优化实践指南(完整实现教程)

文章目录 毕设实战:基于GFNet的轻量级Neck网络设计与性能优化(超详细落地教程) 一、项目背景与技术选型 二、环境搭建(10分钟完成) 2.1 依赖安装 2.2 数据集准备 三、GFNet轻量级Neck的代码实现 3.1 GFNet核心模块解析 3.2 替换YOLOv11的Neck结构 四、模型训练与验证 4.1 …

从零实现优雅的C语言数据结构库

一、设计哲学与核心原则在C语言中实现数据结构库,我们需要在性能、可读性和通用性之间找到平衡点。以下是我们的核心设计原则:1.1 设计原则类型安全:使用泛型技术,同时避免过度复杂的宏技巧内存透明:明确所有权&#x…

56Gbps I/O接口的电源完整性考量

物联网数据中心已在串行器/解串器(SerDes)和Interlaken协议中探索56Gbps及以上速率的传输;然而,物联网数据中心提供商通常不会公开其软硬件技术——因为它们属于集成器件制造商(IDM),需自主处理…

双云协同,赋能未来

当华为云的海量算力与尖端算法,邂逅华为终端云服务的亿级全场景入口,一场颠覆性的智能体验变革已然降临。这不仅是技术层面的深度融合,更是生态体系的同频共振,为您解锁前所未有的智慧未来新可能。“一朵云”筑基,驱动…

DeepSeek 发布全新论文,一文读懂 Engram!

在大模型的发展历程中,一个长期困扰研究者效率的难题是:模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。近日,DeepSeek 团队发布重磅论文 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for…

牛批了,免费抠图神器,内置几个大模型

今天给大家推荐一款非常厉害的基于人工智能抠图的软件,功能非常强大,而且免费,有需要的小伙伴可以下载收藏。 Aiarty Image Matting 免费的AI抠图软件 这款AI抠图软件十分强,基于先进的阿尔法抠图技术,可以精准自然的…

YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程

文章目录 【毕设级项目】YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程 一、项目核心:什么是MSCA注意力? 二、环境准备:5分钟配置依赖 三、步骤1:编写MSCA注意力模块(MSCA.py) 四、步骤2:注册MSCA模块(修改tasks.py) 五、步骤3:编写YOLOv11+MS…

发票识别神器,值得收藏

今天给大家带来的是一款非常好用的发票PDF文件识别软件,可以合并pdf文档,识别最新的全电票和旧版电子发票,有需要的小伙伴可以下载收藏。 InvCom 发票PDF文件识别工具 这款软件是绿色版,下载后点击蓝色的图标就能打开直接使用了。…

YOLOv11 结合多尺度卷积注意力机制(MSCA):高效提升小目标检测性能实战指南

文章目录 【毕设级项目】YOLOv11+多尺度卷积注意力(MSCA):小目标检测性能飙升实战教程 引读:为什么选这个项目? 一、核心原理:多尺度卷积注意力(MSCA)是什么? 二、环境准备:5分钟搭好开发环境 1. 基础依赖安装 三、模块植入:3步把MSCA加到YOLOv11里 步骤1:编写MSCA…

TCP/IP协议栈深度解析:网络通信基石、优化与安全实践

引言:数字社会的基石在数字时代,每一次点击、每一次数据传输、每一次在线交互的背后,都有一套精密的通信机制在默默工作。这套机制的核心就是TCP/IP协议栈——一个由多层协议构成的复杂系统,它不仅是互联网的"通用语言"…

1688接入API

1688 API 是阿里巴巴旗下 B2B 批发平台的官方开放接口,基于 RESTful 架构与签名认证,以 JSON 格式提供商品、订单、供应链等全链路数据,核心价值是合规高效赋能采购选品、订单履约、库存协同与分销运营,适配批发 / 零售 / 跨境 / …

基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化

文章目录 毕设实战:基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化 一、技术背景与方案优势 二、环境搭建与依赖准备 2.1 虚拟环境配置 2.2 数据集准备 三、MSDA模块的代码实现 3.1 多尺度空洞注意力(MSDA)核心代码 3.2 嵌入MSDA到YOLOv11的Backbone 四、模型训练…