仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

我的用词一直都挺克制的,基本不会用到“最强”这个字眼。

但是这一次的这个AI应用,是我认为在TTS(文字转音频)这个领域,当之无愧的“最强”。

ElevenLabs,简称11Labs。

仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。

最牛逼的是,你不需要再额外做任何操作,就可以直接用同样的声音,说出29国的语言。那个流畅度,那个口语表达。。。我在AI面前宛如一个废物。

11Labs网址在此(上不去就开魔法):

https://elevenlabs.io/

尽管很多的大厂的语音TTS能力已经很强大了,比如微软的TTS、比如国庆期间刷爆全网的GPT的语音TTS,但是这些大厂有一个问题,就是公司体量实在太大了,在商业化上的舆论影响和被监管风险也极大,所以这种超低成本的语音克隆TTS,他们至今也没有向大众公开,毕竟很容易受到全社会的伦理指责。

至于那些开源的TTS,说实话,效果都挺差强人意,比如Tortoise奇慢无比,比如bark下限和稳定性太差,都难堪大用。

大厂们公开的语音产品中,也没有一项能达到11Labs如此便宜且如此便捷的了。要知道,像微软的声音克隆成本高的可怕,数小时的数据集、几千几万块钱。而11Labs,只需要30秒到5分钟的音频,1个月只需要5美刀就可以畅快的使用了。效果还出奇的好

毕竟在现在这个AI时代,AI语音已经成了最为重要的环节之一。内容全球化翻译、智能配音、数字人与机器人等,都有超强的应用。换句话说,没有强TTS在背后支持,那些视频和数字人,各个都是恐怖谷效应拉满假到不行的哑巴。

而11Lbas的使用上,更是突出一个简单和有手就行。

先准备30秒到5分钟的音频文件,不需要超过5分钟,对质量几乎没有任何意义了。你可以多个音频文件,但是每个不要超过10M。这块一定要注意,数据集的质量跟你后面生成的质量息息相关,里面不要有任何杂音,越干净、越纯粹越好

上面那个例子,我就去B站扒了点特朗普的演讲视频,然后剪映剪了下,准备了大概4分钟的特朗普的干声数据集,切成了11段。

然后进入11Labs的主页,登录后进入这个VoiceLab的页面。这个页面就可以去做声音的克隆了。那个大大的加号就是新建一个声音。

在弹窗中,第二个选项就是声音克隆。

不过这个功能是付费功能,正常付个费就可以用了。首月优惠1美刀,基本就是白给,可以直接绑定中国境内的VISA就可以支付,比ChatGPT的付费方便多了。

在打开的弹窗上随便输个姓名,把数据集拖进去就行。标签和描述啥的不用填。然后确认。记得一定不要开任何翻译,比如google翻译啥的,要不然会报错。

大概只需要二十几秒钟吧,模型就OK了,速度出奇的快。你就可以直接点Use去使用。

这里再推荐大家几个TTS的小技巧,善用标点符号去引导情绪

比如这句话:I am Trump . my other name is "Chuan Jian guo".

把my other name is "Chuan Jian guo"这句话,变成my other name... is "Chuan Jian guo"后,你就能明显听出小停顿的情绪,

如果再把I am Trump后面加三个感叹号,变成I am Trump!!!的话:

这情绪一下就激动了起来。。。

11Labs对这些标点符号的引导非常到位,善用标点符号,能给这段文字带来完整的情绪感受。

在最后,说一下目前AI声音的几种技术和场景吧。

SVC,类似于变声器。将一段音频转换成另一种特定的音色,音频to音频,我也写过一篇教程:用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程 ,成本挺高的,数十分钟的干声数据集,训练几个小时起步,但是对情绪和音调的还原最好,适合用在剧集配音、歌声转换等场景。不过这块11Labs已经明确要进军了,做语音转换,不知道后面用户的使用成本会拉低到什么地步。

TTS - 声音克隆。将特定的人声训练成模型,然后文字转音频。用于需要特定某个人声的场景、或同声翻译等等,数字人应用的很广泛。成本低,但是对于情绪的变化肯定没有SVC那么强,毕竟几分钟数据集+几乎为0的等待时间,11Labs是典型的王者。

普通TTS。用平台已经训练好的声音做配音,不可自定义,在有声书和视频配音里已经被广泛应用。这块的产品就非常多了,国外的微软TTS、11Labs,国内的魔音工坊等等。

基本就这三种了,SVC和TTS我也写过好多教程了,大家可以根据自己的场景,各取所需。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/207141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习-分类问题

前言 《机器学习-回归问题》知道了回归问题的处理方式,分类问题才是机器学习的重点.从数据角度讲,回归问题可以转换为分类问题的微分 逻辑回归 逻辑回归(Logistics Regression),逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。但只可…

极大提升GPT-4等模型推理效率,微软、清华开源全新框架

随着用户需求的增多,GPT-4、Claude等模型在文本生成、理解、总结等方面的能力越来越优秀。但推理的效率并不高,因为,多数主流模型采用的是“顺序生成词”方法,会导致GPU利用率很低并带来高延迟。 为了解决这一难题,清…

美国Linux服务器的iptables防火墙介绍

美国Linux服务器防火墙一般分为硬件防火墙和软件防火墙,但不论是硬件防火墙还是软件防火墙,都需要通过使用硬件作为联机的介质,也需要使用软件来设定美国Linux服务器安全政策,因此可以从使用的硬件与操作系统来加以区分。硬件防火…

oracle怎么推进scn?

很多时候,数据库有故障打不开,需要用到推进scn的技术,这里介绍下12c及以上版本的oracle怎么推进数据库的scn。 经测试发现,数据库mount和open状态下都可以通过此方法推进SCN。 Session1: 查询当前SCN SQL> select c…

基于jsp+servlet的图书管理系统

基于jspservlet的图书管理系统演示地址为 图书馆后台管理系统 用户名:mr ,密码:123 图书馆管理系统主要的目的是实现图书馆的信息化管理。图书馆的主要业务就是新书的借阅和归还, 因此系统最核心的功能便是实现图书的借阅和归还。此外,还需要提供图书…

Stable Diffusion XL on diffusers

Stable Diffusion XL on diffusers 翻译自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译 Stable Diffusion XL (SDXL) 是一个强大的图像生成模型,其在上一代 Stable Diffusion 的基础上主要做了如下优化:…

生产上线需要注意的安全漏洞

一、关闭swagger 1、关闭swagger v3 # 需同时设置auto-startupfalse,否则/v3/api-docs等接口仍能继续访问 springfox:documentation:enabled: falseauto-startup: falseswagger-ui:enabled: false 2、关闭swagger v2 # 只要不是true就不启用 swagger:enable: fa…

深度解读:淘客返利机器人无限制与免费版的差异

深度解读:淘客返利机器人无限制与免费版的差异 在数字时代,人工智能和大数据技术的飞速发展正在改变我们的生活方式,尤其在购物领域,各种优惠工具如雨后春笋般涌现。其中,淘客返利机器人和微赚淘客系统以其独特的优势&#xff0c…

Python核心编程之序列下篇

目录 十二、列表 如何创建列表类型数据并给它赋值 如何访问列表中的值

代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

大家好,我是白鲸开源的联合创始人代立冬,同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache Foundation 的成员和孵化器导师,我积极参与推动多个开源项目的发展,帮助它们通过孵化器成长为 Apache …

如何访问内部网络做内网穿透

项目:https://github.com/ehang-io/nps 有个公网服务器,搭建服务端。 然后客户端使用: -server是服务端的访问方式。-vkey是秘钥。 ./npc -server192.227.19.12:8024 -vkeyoies8gq3wml -typetcp然后在服务端配置TCP隧道即可。

某度旋转验证码v2 逆向分析

v2主要依据是核心 JS 文件mkd_v2.js 版本,如下图所示: 第一次 https://passport.baidu.com/cap/init 接口,请求的 ak 是固定值,当然不同场景不同网站是不一样的,_ 时间戳,ver1,返回值 as、tk 都…

大数据的技术栈-逐步完善

目录 1.hadoop a.HDFS分布式文件系统 b.Yarn集群资源管理器 c.MapReduce sql引擎 d.Impala sql引擎 e.工具概观 2.数据仓库知识 a.Hive数据库 1)Hive Sql 2)数据库结构 b.Doris数据库 3.混合处理框架SPARK a.Spark b.集群架构 4.数仓模型知识 5.开发工具 a.Dbeaver b.Idea…

android项目实战之使用框架 集成多图片、视频的上传

效果图 实现方式,本功能使用PictureSelector 第三方库 。作者项目地址:https://github.com/LuckSiege/PictureSelector 1. builder.gradle 增加 implementation io.github.lucksiege:pictureselector:v3.11.1implementation com.tbruyelle.rxpermissio…

线性回归实战

3.1 使用正规方程进行求解 3.1.1 简单线性回归 公式 : y w x b y wx b ywxb 一元一次方程,在机器学习中一元表示一个特征,b表示截距,y表示目标值。 使用代码进行实现: 导入包 import numpy as np import matp…

中缀表达式转后缀表达式与后缀表达式计算(详解)

**中缀表达式转后缀表达式的一般步骤如下: 1:创建一个空的栈和一个空的输出列表。 2:从左到右扫描中缀表达式的每个字符。 3:如果当前字符是操作数,则直接将其加入到输出列表中。 4:如果当前字符是运算符&a…

QNX usleep测试

QNX usleep测试 结论 usleep时间在QNX上没有ubuntu上运行准确&#xff0c;但是10ms以上误差不大。 测试代码 testsleep.cpp的代码如下&#xff1a; #include <unistd.h> #include <stdio.h> #include <stdlib.h> #include <time.h>double usleep_…

sklearn 笔记:neighbors.NearestNeighbors 自定义metric

1 数据 假设我们有这样的一个数据tst_lst&#xff0c;表示的是5条轨迹的墨卡托坐标&#xff0c;我们希望算出逐点的曼哈顿距离之和&#xff0c;作为两条轨迹的距离 [array([[11549759.51313693, 148744.89246911],[11549751.49813359, 148732.97804463],[11549757.620705…

Linux 常用命令汇总

1 linux定时任务 查看定时任务&#xff1a;crontab -l 每晚一点半执行定时任务&#xff1a; 30 1 * * * sh /var/lib/pgsql/pg_db_backup.sh >> /var/lib/pgsql/pg_db_backup.log 2>&1 配置定时任务&#xff1a;crontab -e 2 linux 内核版本查询 cat /etc/r…

P5744 【深基7.习9】培训

题目描述 某培训机构的学员有如下信息&#xff1a; 姓名&#xff08;字符串&#xff09;年龄&#xff08;周岁&#xff0c;整数&#xff09;去年 NOIP 成绩&#xff08;整数&#xff0c;且保证是 5 5 5 的倍数&#xff09; 经过为期一年的培训&#xff0c;所有同学的成绩都…