VoxCPM:新一代高拟真语音生成模型

news/2025/9/23 18:27:10/文章来源:https://www.cnblogs.com/xiao987334176/p/19107643

一、概述

仅需0.5B参数,VoxCPM就能用你的声音说任何话:这款开源语音模型在音色克隆和情感表达上突破极限,实时生成媲美真人的播报、演讲甚至方言,错误率低至行业新标杆。

在语音合成技术快速发展的背景下,面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)近日联合发布了一款新型语音生成模型 ——VoxCPM。这款模型以0.5B 的参数尺寸,致力于为用户提供高质量、自然的语音合成体验。

VoxCPM 的推出标志着高拟真语音生成领域的又一里程碑。该模型在自然度、音色相似度及韵律表现力等关键指标上,均达到了行业领先水平。通过零样本声音克隆技术,VoxCPM 能够以极少的数据,生成用户独特的声音,从而实现个性化的语音合成。这一技术进步为语音生成的应用场景带来了更多可能性,尤其是在个性化语音助手、游戏角色配音等领域。

380

据悉,VoxCPM 已在 GitHub、Hugging Face 等平台开源,并为开发者提供了线上体验平台,便于用户探索和使用其强大功能。模型在权威语音合成评测榜单 Seed-TTS-EVAL 中表现出色,尤其是在词错误率和音色相似度方面取得了极低的错误率,展示了其卓越的推理效率。在一张 NVIDIA RTX4090显卡上,VoxCPM 的实时因子(RTF)达到约0.17,满足了高质量实时交互的需求。

VoxCPM 不仅在技术性能上有所突破,其在音质和情感表达方面也表现出色。模型能够根据文本内容智能选择合适的声音、腔调和韵律,模拟出与真人无异的听感。无论是气象播报、英雄演讲,还是方言主播,VoxCPM 都能精准再现,提供沉浸式的听觉体验。

此外,VoxCPM 的技术架构基于最新的扩散自回归语音生成模型,融合了层次化语言建模和局部扩散生成的连续表征,显著提升了生成语音的表现力与自然度。该模型的核心架构包括多个模块,协同工作,实现了高效的 “语义 - 声学” 生成过程。

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope:

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 PlayGround体验:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 音频样例页面地址:

https://openbmb.github.io/VoxCPM-demopage

二、音频样例

打开音频样例页面地址:

https://openbmb.github.io/VoxCPM-demopage

这里列举几个

宝儿姐

叫啥子叫,之前不是说了吗,有姐罩着你呢。那个啥子,小师叔,打狗还要看主人呢,你要是再继续的话,我就是你的对手

 方言

风车车,你不要跑,我来抓你来咯!你莫怪老子心狠手辣哈,哪个叫你娃儿不听话?抓住你,我就要把你做成耗儿肉!

 粤语

九流十家無一能,八仙過海七星聚,六親不認五更雞,四海為家三餐飽,兩手空空一場夢。

 数学符号标识

沸羊羊,如果 △ABC∽△DEF,且AB:DE=1:2,那我问你,△ABC的面积与△DEF的面积之比是多少?

 

这里比较亮眼的是,VoxCPM居然支持方言因为一般的语言生成模型,比如Index-TTS2,只支持普通话即使原始的音频是方言,输出的也依然是普通话。

还有一点,VoxCPM也支持比较复杂的数学符号

三、实战音频输出

代码生成

访问github地址:https://github.com/OpenBMB/VoxCPM/

下载代码到本地,安装模块

pip install voxcpm

下载模型VoxCPM-0.5B

pip install modelscopemodelscope download --model OpenBMB/VoxCPM-0.5B

下载ZipEnhancer和SenseVoice Small。在网络演示中,我们使用ZipEnhancer增强语音提示,使用SenseVoice Small增强语音提示ASR。

modelscope download --model iic/speech_zipenhancer_ans_multiloss_16k_basemodelscope download --model iic/SenseVoiceSmall

基本用法

import soundfile as sf
import numpy as np
from voxcpm import VoxCPMmodel = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")# Non-streaming
wav = model.generate(text="VoxCPM is an innovative end-to-end TTS model from ModelBest, designed to generate highly expressive speech.",prompt_wav_path=None,      # optional: path to a prompt speech for voice cloningprompt_text=None,          # optional: reference textcfg_value=2.0,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worseinference_timesteps=10,   # LocDiT inference timesteps, higher for better result, lower for fast speednormalize=True,           # enable external TN tooldenoise=True,             # enable external Denoise toolretry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)retry_badcase_max_times=3,  # maximum retrying timesretry_badcase_ratio_threshold=6.0, # maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speech
)sf.write("output.wav", wav, 16000)
print("saved: output.wav")# Streaming
chunks = []
for chunk in model.generate_streaming(text = "Streaming text to speech is easy with VoxCPM!",# supports same args as above
):chunks.append(chunk)
wav = np.concatenate(chunks)sf.write("output_streaming.wav", wav, 16000)
print("saved: output_streaming.wav")

 

例如,要生成宝儿姐的语音

先下载音频文件,地址:https://openbmb.github.io/VoxCPM-demopage/audio/dialect_zeroshot/prompt_wav/baoerjie.wav

 

修改代码

import soundfile as sf
import numpy as np
from voxcpm import VoxCPMmodel = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")# Non-streaming
wav = model.generate(text="叫啥子叫,之前不是说了吗,有姐罩着你呢。那个啥子,小师叔,打狗还要看主人呢,你要是再继续的话,我就是你的对手",# optional: path to a prompt speech for voice cloningprompt_wav_path="baoerjie.wav",prompt_text="他们总说我瓜,其实我一点儿都不瓜,大多时候我都机智的一笔。",          # optional: reference text# LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worsecfg_value=2.0,# LocDiT inference timesteps, higher for better result, lower for fast speedinference_timesteps=10,normalize=True,           # enable external TN tooldenoise=True,             # enable external Denoise tool# enable retrying mode for some bad cases (unstoppable)retry_badcase=True,retry_badcase_max_times=3,  # maximum retrying times# maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speechretry_badcase_ratio_threshold=6.0,
)sf.write("output.wav", wav, 16000)
print("saved: output.wav")# Streaming
chunks = []
for chunk in model.generate_streaming(text="Streaming text to speech is easy with VoxCPM!",# supports same args as above
):chunks.append(chunk)
wav = np.concatenate(chunks)sf.write("output_streaming.wav", wav, 16000)
print("saved: output_streaming.wav")

执行代码,等待5分钟,会生成文件output.wav,试听一下,就是上面的实例效果。

CLI方式生成

本地新建文件1.txt,内容如下:

他们总说我瓜,其实我一点儿都不瓜,大多时候我都机智的一笔。

执行命令:

voxcpm --model-path "D:\file\lmstudio\model\OpenBMB\VoxCPM-0___5B" --text "叫啥子叫,之前不是说了吗,有姐罩着你呢。那个啥子,小师叔,打狗还要看主人呢,你要是再继续的话,我就是你的对手" --prompt-audio baoerjie.wav --prompt-file "1.txt" --output out.wav --denoise

等待5分钟,会生成文件out.wav,试听一下,就是上面的实例效果。

web页面生成

可以通过运行python app.py启动UI界面,它允许您执行语音克隆和语音创建。

执行命令:

python app.py

输出:

🚀 Running on device: cuda
funasr version: 1.2.7.
Downloading Model to directory: C:\Users\xiao\.cache\modelscope\hub\iic/SenseVoiceSmall
2025-09-23 17:05:28,488 - modelscope - WARNING - Using branch: master as version is unstable, use with caution
WARNING:root:trust_remote_code: False
* Running on local URL:  http://localhost:7860

打开网页地址:http://localhost:7860

效果如下:

image

 

上传音频文件,修改Prompt Text和Target Text,点击Generate Speech,生成语音

image

 等待5分钟,会生成文件out.wav,试听一下,就是上面的实例效果。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day20封装的初步认识

封装是面向对象的三大特性之一,通过private这一关键词将类的属性私有化,且为了对私有的属性进行赋值,需要提供公共的get/set方法对外暴露一个安全的操作接口,使外部可以合法的访问与修改属性 封装的作用:1,保护数…

【Qt开发】显示类控件(三)-> QProgressBar - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

完整教程:数据结构与算法-树和二叉树-二叉树的存储结构(Binary Tree)

完整教程:数据结构与算法-树和二叉树-二叉树的存储结构(Binary Tree)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: …

简单的旅游网站代码做视频网站了几百万

前些天发现了十分不错的人工智能学习网站,通俗易懂,风趣幽默,没有广告,分享给大家,大家可以自行看看。(点击跳转人工智能学习资料) 微信公众号:创享日记 发送:联合定位 获…

网站销售方案深圳关键词优化

RabbitMQ六种工作模式 RabbitMQ是由erlang语言开发,基于AMQP(Advanced Message Queue 高级消息队列协议)协议实现的消息队列,它是一种应用程序之间的通信方法,消息队列在分布式系统开发中应用非常广泛。 RabbitMQ有六…

音乐电子商务网站的建设太原网站建设的公司

一、概述 嵌合抗原受体(CAR)是经过改造后赋予T细胞靶向特定抗原的新能力的受体蛋白。这些受体是嵌合的,因为它们将抗原结合和T细胞激活功能结合到一个受体中。CAR-T细胞疗法使用经过CAR改造的T细胞来治疗癌症。CAR-T免疫疗法的前提是修改T细…

互联网网站开发用哪个语言开发seo推广技术培训

AJAX 学习 AJAX 2 综合案例黑马 API01 图书管理Bootstrap 官网Bootstrap 弹框图书管理-渲染列表图书管理-添加图书图书管理-删除图书图书管理 - 编辑图书 02 图片上传03 更换图片04 个人信息设置信息渲染头像修改补充知识点:label扩大表单的范围 AJAX 2 综合案例 黑…

网站优化需求wordpress+解密成md5

Microsoft的Scott Hunter发布了Microsoft .NET Core 2.1版本的路线图。Hunter宣布Microsoft .NET Core每天约有五十万开发人员的使用量。根据Microsoft所收集的数据,在2017年9月.NET Core 2的使用量已经超过了.NET Core 1.X。有了之前成功的发布经验,Mic…

有成功案例的网站繁体网站模板

CF1100F Ivan and Burgers 静态区间,选取任意个数使得它们的异或和最大 \(n,\ m\leq5\times10^5,\ a_i\in[0,\ 10^6]\) lxl ST表,线性基 如果暴力维护线性基,线段树时间复杂度为 \(O(n\log^2n)-O(\log^3n)\) 由于重复元素对答案没有影响&…

做百度推广网站得多少钱长春火车站防疫政策

引言:当Spring Cloud遇见GraalVM,启动时间进入秒级时代 传统Spring Cloud应用因动态类加载、反射等机制导致启动缓慢(通常超过30秒),在Serverless和Kubernetes滚动更新场景下成为性能瓶颈。Spring Cloud 2023.x通过**G…

专门做男装的网站网站建设分金手指专业十四

为便于广大科技工作者更好的了解中国汽车行业首个英文学术期刊《Automotive Innovation》,并更快的定位到自己感兴趣的论文,编辑部把2018-2019年刊出的70篇论文摘要进行集结,并按照节能与环保(Energy-saving & Eco-systems)、智能网联汽车…

单页面网站设计网站欣赏wordpress 收费主题

摘要:很多人想用十全十美来修饰一样东西,比如软件,对于客户来说,当然希望他们的软件能做到完美。虽然很多专家说利用一些规范可以让软件达到更好!但是在现实开发中,真的会有那么完美的软件吗? 最…

安徽住房建设厅网站凡客诚品服装购物网

各位T3学员∶本周VBA技术资料增加391-395讲,看到通知后联络我(微:VBA6337)免费领取资料。成果来之不易,您更新后请说声谢谢,感恩我的成果。 MF391:选择同颜色的单元格 MF392:连接范…

网站改版seo方案国际最新时事新闻热点

目录 第一步先选择合适的证书类型: 第二步在填写自己需要保护的域名信息: 第三步验证域名所有权(或者是单位组织信息、详细组织单位业务详情): 第四步验证完成后证书会正常签发: 第五步将下载完成的证书…

佳木斯 两学一做 网站wordpress windows下载

人工智能在未来会有哪些可能的发展趋势? 答:人工智能在未来将继续迎来许多可能的发展趋势,以下是一些可能的方向: 更强大的算法和模型:人工智能算法和模型将不断改进和优化,为更复杂的数据和问题提供更强大…

织梦 网站首页阿里云免费建站

演示视频: 基于SSM的美容院管理系统演示。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring SpringMvcMybatisVueLayuiElem…

快速建站费用网站排名突然掉了怎么回事

代码中Ci表示候选频繁i项集,Li表示符合条件的频繁i项集    # codingutf-8    def createC1(dataSet): # 构建所有1项候选项集的集合    C1 []    for transaction in dataSet:    for item in transaction:    if [item] not in C1:   …

郑州网站制作开发林州网站建设哪家专业

接上一篇:SpringBoot入门到精通_第3篇 _应用组件分析 https://blog.csdn.net/weixin_40816738/article/details/101096218 文章目录一、SpringBoot 开发三板斧1. 简述2. 案例2.1. 整合springDataJpa2.2. 启动类加注解2.3. 写配置一、SpringBoot 开发三板斧 1. 简述…

工业相机与镜头靶面尺寸的关系:从原理到选型的避坑指南 - 教程

工业相机与镜头靶面尺寸的关系:从原理到选型的避坑指南 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Co…