语音合成技术从1秒样本学习表达风格

news/2025/10/15 19:17:01/文章来源:https://www.cnblogs.com/codeshare1135/p/19144082

语音合成器从一秒语音样本学习表达风格

用户评价显示,具有转移表达风格的合成语音比标准合成语音自然度高出9%。

技术突破

文本转语音(TTS)系统将文本转换为合成语音。近年来,大多数TTS系统已从拼接方法转向神经网络方法,后者从头开始合成语音。

神经网络TTS的最大优势是能够更有效地适应新的语音或说话模式。在国际声学、语音与信号处理会议上发表的研究表明,这种适应可以非常高效。论文描述的系统仅凭约一秒的示例就能改变其表达风格——即合成语音中的兴奋程度。

技术架构

该系统基于最先进的TTS系统进行改进,使用了一种称为变分自编码器(VAE)的神经网络。VAE有两个组件:编码器和解码器。编码器学习生成表示给定输入特征的概率分布,从该分布中抽取的样本传递给解码器,解码器使用它们生成输出。

在典型的TTS应用中,VAE的输入是语音样本。系统还有第二个编码器,以文本字符串作为输入。在运行时,文本字符串的编码表示与VAE编码器的样本连接起来,组合后的表示传递给解码器。解码器的输出是合成语音。

创新技术

研究中向VAE编码器添加了另一个组件。为了降低计算复杂度,编码器学习到的分布通常是对角高斯分布。对角高斯表示分布中每个变量的可能值,但不表示变量对之间的关系(即协方差)。因此,它是对语音样本特征真实分布的近似。

为了将对角高斯扩展为完整协方差高斯,使用了称为户主流的技术。户主流是一系列操作,填补了协方差高斯的空白。

测试了三种户主流实现方案:

  • 原始实现中,第一个操作依赖于参考(语音样本)编码器的输入;后续操作是初始操作的数学(仿射)变换产物
  • 第二种实现中,序列中的所有操作都直接依赖于VAE的输入
  • 第三种实现中,所有操作都独立于输入,网络学习如何一般性地转换语音表示,而不是以不同方式转换每个语音样本

实验证明,第三种实现最为成功。

实验结果

根据测量两个概率分布之间距离的Kullback-Leibler散度,该系统在发现语音生成过程的独立潜在因素方面比基线好22%。

论文还报告了用户研究结果,该研究依赖于隐藏参考和锚点的多刺激方法。受试者认为该系统生成的语音比基线自然度高9%。

技术优势

这些结果表明,应该能够以最小的开发开销大大扩展语音代理的表达范围。

未来展望

在未来的工作中,将把这种方法扩展到语音的其他表达特征,看看是否能够保持甚至改进自然度和表现力的结合。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

display ospf peer brief 概念及题目 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

我的高敏感和家人

我是一个高敏感人,小时候被家人当作精神分裂症住了院(初中毕业之后),之后诊断为双相情感障碍,现在我感觉应该是考虑症,现在也在吃药,我现在的问题是,我现在不能工作,不能去和人交往自己会焦虑,也不能上班,前…

对称多项式

感性理解高等代数学第四版 5.9 节。 定义 设 \(f(x_1,x_2,\dots,x_n)\) 是数域 \(\mathbb{K}\) 上的 \(n\) 元多项式。若对任意 \(1\le i<j\le n\),都有 \(f(x_1,\dots,x_i,\dots,x_j,\dots,x_n)=f(x_1,\dots,x_j,…

usb储存之BOT/UAS内核驱动

usb储存驱动 声明 drivers/usb/storage/usb.c static struct usb_driver usb_storage_driver = {.name = DRV_NAME,.probe = storage_probe, //这里是挂载.disconnect = usb_stor_disconnect,.suspend = usb_stor_sus…

软件研发 --- 汇编 之 初体验

软件研发 --- 汇编 之 初体验 这是一个程序员的墓志铭 我们解释一下; ============================================= ; Yunhai Zohg 纪念程序 (1979-2025) ; 文件名: global_life ; 描述: 用汇编语言象征性描述人生…

简述flux思想?

Flux 是由 Facebook 提出的一种前端应用架构思想,主要用于管理 单向数据流,尤其是在 React 应用中。它并不是一个库,而是一种设计模式,核心理念可以总结如下: 1. 核心思想 单向数据流(Unidirectional Data Flow)…

风控评分卡

风险评分卡模型 通过特征和关键特征对目标进行评分,对个体或者企业的风险水平进行评估 数据集选用 UCI台湾信用卡客户违约预测数据集​​ 特征 ID LIMIT_BAL SEX EDUCATION MARRIAGE AGE PAY_0 PAY_2 PAY_3 PAY_4 PAY_…

20232428 2025-2026-1 《网络与系统攻防技术》实验一实验报告

一.实验内容 本次实践的对象是一个名为pwn1的linux可执行文件。 该程序正常执行流程是:main调用foo函数,foo函数会简单回显任何用户输入的字符串。 该程序同时包含另一个代码片段,getShell,会返回一个可用Shell。正…

字符串操作函数

> C 字符串全家桶:strcpy/strncpy、strcat/strncat、strcmp/strncmp、strlen/strtok/memcpy/memset。C语言字符串与内存操作函数大全 核心字符串函数(位于 string.h 中) 这些函数用于基本的字符串操作,如复制、…

JAVA对象内存布局

JAVA对象内存布局🔴 Java对象在堆内存中的存储布局分为三个主要部分:对象头(Object Header)、实例数据(Instance Data)、对齐填充(Padding)。对象头是理解synchronized锁机制的关键。🔴 对象内存布局三大结构 🔴…

20232409 2025-2026-1 《网络与系统攻防技术》实验二实验报告

后门原理与实践 1.实验内容1.1 Netcat的基本应用;1.2 Socat基本应用;1.3 Meterpreter基本应用。2.实验目的学习Netcat、Socat、Meterpreter生成、投放、自启动技术,使用以上后门并远程控制另一主机,获取目标主机音…

10月15号

今天上午,进行了离散数学和马克思思想的学习。

记录一次客户现场环境,银河麒麟V10操作系统重启后,进入登录页面后卡死,鼠标键盘无响应的解决过程

银河麒麟V10操作系统重启后,进入登录页面后卡死,鼠标键盘无响应,SSH无法登录的原因是Mysql的自启动服务导致卡死(具体为什么Mysql会卡死操作系统,待查) 现象:第一天用户反应,应用系统无法访问,现场运维查看后…

图 生成树

图为什么会有生成树?图不是顶点和边的集合吗?顶点确定了,边也确定了,这个图不就固定了吗?你提出的这个问题非常好,它触及了图的结构和生成树的核心概念。的确,图是由顶点(节点)和边(连接节点的线)组成的,它…

DolphinScheduler 3.1.9 单机版重启后,项目、流程定义等数据全部丢失

本文将介绍 Apache DolphinScheduler 的 Worker 负载均衡,含加权随机、平滑轮询、线性负载(默认)三种算法,及配置修改、Worker 权重与预热机制,并细述各算法原理。详情可参考文末源文档地址。问题描述 DolphinSch…

ManySpeech.AliParaformerAsr 使用指南

一、简介 ManySpeech 是由 manyeyes 社区开发的一款基于 C# 的语音处理套件。 ManySpeech.AliParaformerAsr 是 ManySpeech 中的“语音识别”组件,支持paraformer-large、paraformer-seaco-large、sensevoice-small 等…

资料拿取表

Day OIer周一 王翔宇、王艺轩周二 宋承珂、段泽成周三 王子豪、焦有泽周四 张梓扬、刘承昊周五 罗超锵、周智翔周六 王紫依、崔岱尧周日 两位幸运观众ps:想修改的直接给我说就行(不能修改成空气) 参考文献 本周幸运观…

易路:以“薪酬科技+AI”重塑中国企业薪酬管理新范式

在数字经济浪潮席卷全球的当下,企业对人力资源管理的需求正从传统事务性操作向战略性赋能加速转型。其中,薪酬管理作为连接企业战略与人才发展的核心纽带,其复杂性与重要性日益凸显。面对这一变革,易路人力资源科技…

2025年太阳能板终极指南:选择、趋势与品牌推荐

文章摘要 本文深入探讨2025年太阳能板的选择方法、未来趋势及品牌推荐,帮助用户做出明智投资决策。内容涵盖效率提升、安装技巧、市场分析,并基于权威数据提供实用建议,旨在推广太阳能板的环保与经济优势。阅读本指…

洛谷题单指南-进阶数论-CF776B Sherlock and his girlfriend

原题链接:https://www.luogu.com.cn/problem/CF776B 题意解读:将2~n+1的数字进行分类,不能和素因子分在一类,分类越少越好 解题思路: 所有素数显然可以分为一类,其余合数为另外一类,只用标记素数即可,埃氏筛解…