GPT-Sovits模型实现AI声音克隆

news/2025/11/15 14:09:47/文章来源:https://www.cnblogs.com/flyingsir/p/19225363

函数计算FC+文件存储NAS ,快速使用GPT-Sovits模型实现AI声音克隆,本方案内置基础模型+默认语音,让用户体验一键部署的简单与方便。

  • 函数计算FC

    函数计算(Function Compute)是一个事件驱动的全托管 Serverless 计算服务,您无需管理服务器等基础设施,只需编写代码并上传,函数计算会为您准备好计算资源,并以弹性、可靠的方式运行您的代码。

  • 文件存储NAS

    阿里云文件存储NAS(File Storage NAS)是一个可大规模共享访问,弹性扩展的分布式文件系统。广泛应用于企业级应用数据共享、容器数据存储、AI机器学习、Web 服务和内容管理、应用程序开发和测试、媒体和娱乐工作流、数据库备份等场景。

  • GPT-Sovits

    继生成式文本ChatGPT, 生成式图片Stablediffusion之后生成式语音Text To Speech在开源社区也出现了一匹黑马,就是GPT-Sovits,之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够接近和简单, 只需要少样本的声音数据源,就可以实现高度相似的仿真效果, 也正是因为足够简单和足够好的效果,GPT-Sovits的社区也异常火爆,而且,不论是在C端应用场景还是企业都具备很高的商业价值,然而,无论是C端的内容生产者,进行本地化部署自己使用,还是B端用户做声音场景的商业化落地,都有很大的挑战。

    应用场景:

    在进行GPT-Sovits的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景

    • 教育

    在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换, 个人教育比如英语培训也是跟语音强相关的

    • 游戏娱乐

    游戏娱乐场景就更加明确, 个性化的声音是吸引人的关键因素

    • 新能源

    在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话

    • 新媒体

    在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键

    • 农业

    比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的

    • 机器人

    机器人要有耳朵和嘴巴,需要声音的输出

    以上的场景都是跟TTS强相关的,或者说TTS作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。

    image

 

费用说明及领取免费额度

费用说明

本实验涉及到两个云产品的付费:阿里云函数计算。

  • 函数计算费用。

    • 免费试用额度。

      • 如您是首次开通函数计算的用户,您可以领取免费试用额度,超过额度即付费。

        函数计算提供共计180元试用额度有效期12个月,其中每月试用额度15元,试用额度可抵扣确定数额的活跃vCPU使用量,内存使用量,GPU使用量以及函数调用次数,超出按量计费。另外,每个月可获得200 GB的CDT公网流量,其中20 GB/月可用于全球地域(含中国内地),180 GB/月仅限非中国内地地域使用。该公网流量免费额度长期有效,支持抵扣8款云产品按流量计费所产生的公网流量。

    • 按量付费。

      T4 GPU API推理

      (8 vcpu + 16gb RAM)

      1w字预计用时10分钟那么将使用函数计算GPU、CPU、内存、硬盘额度

      GPU:0.00009 * 60 * 10 * 16 = 0.864

      CPU:0.00007 * 60 * 10 * 8 = 0.336

      内存:0.000009 * 60 * 10 * 16 = 0.0864

      硬盘:0.0000009 * 60 * 10 * 10 = 0.0054

      流量:0.80 * 0.01 = 0.008

      总价:1.13元 / 万字

  • 文件存储NAS。

    • 免费试用额度。

      如您是首次开通文件存储NAS的用户,您可以领取免费试用额度,超过额度即付费。通用型NAS资源包50GB。

    • 存储SD模型需要消耗的性能型NAS,1.85元/GiB/月,关于文件存储NAS计费详情,请参见阿里云文件存储 NAS。

领取免费试用资源

重要
  • 进入实操前,请确保您已通过实名认证并且账户余额大于0元即可。

  • 如果您的阿里云账号有领取函数计算FC和文件存储NAS的免费试用资格,请您根据下方操作进行领取。

  • 如果您的阿里云账号中部分云产品或全部云产品没有领取免费试用资格,请您根据下一章节,使用按量付费形式创建没有领取免费试用资格的云产品。

  1. 在实验室页面右侧的操作区中,单击函数计算FC卡片中的立即试用。

    说明

    您也可以前往链接免费试用函数计算进行领取。

    image

  2. 函数计算FC面板,勾选服务协议,单击立即试用。

    说明

    函数计算为首次开通服务的用户提供相应的试用额度,阿里云账户与RAM用户共享此试用额度。试用额度以月为周期,连续提供12个周期,每个周期超出试用额度的部分均会计入按量付费。

    image

  3. 在实验室页面右侧的操作区中,单击文件存储NAS卡片中的立即试用。

    说明

    您也可以前往链接免费试用文件存储NAS进行领取。

    image

  4. 文件存储NAS面板,地域选择中国内地,单击立即试用。

    说明

    函数计算为首次开通服务的用户提供相应的试用额度,阿里云账户与RAM用户共享此试用额度。试用额度以月为周期,连续提供12个周期,每个周期超出试用额度的部分均会计入按量付费。

    image

  5. 在实验页面,勾选我已阅读并同意《阿里云云起实践平台服务协议》后,单击开始实操。

    image

 

部署GPT-Sovits

快速在阿里云函数计算上搭建自己的GPT-Sovits 服务,然后进行推理和训练。

  1. 前往函数计算控制台。

    Image 1.png

  2. 请您在函数计算控制台的左上角,确认访问的是函数计算3.0,否则您需要在右上角单击体验函数计算3.0。

  3. 在左侧导航栏中,单击应用。

    image

  4. (可选)在应用页面,单击创建应用。

    说明

    如果您之前未使用过应用中心,请跳过本步骤,可直接进入下一步。

  5. 应用页面的人工智能分类中,搜索并选择语音克隆生成GPT-SoVITS,单击立即创建。

    说明

    如果您在应用页面找不到语音克隆生成GPT-SoVITS,您可能登录的是函数计算2.0控制台。您可在页面右上角,单击体验函数计算3.0,根据手册操作找到应用。

    image

  6. 创建应用页面,请确认函数计算FC和文件存储NAS的服务状态已开通。

    image

  7. 角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导进行操作)。

    image

  8. 其他配置保持默认即可,单击创建应用。

    image

  9. 活动应用创建提醒对话框中,选中函数计算FC和文件存储NAS两个收费项,选中我已经了解上面的内容,并同意上述描述,单击同意并继续部署。

    image

  10. 等待约1分钟,部署状态变为部署成功,表示应用部署成功,并生成访问域名,单击访问域名后的链接开始体验应用。

    重要
    • 请注意保护域名的安全,不要泄露给其他人,防止产生额外费用。

    • ***.devsapp.net域名是CNCF SandBox项目Serverless Devs社区所提供,仅供学习和测试使用,不可用于任何生产使用;社区会对该域名进行不定期地拨测,并在域名下发30天后进行回收,强烈建议您绑定自定义域名以获得更好的使用体验。

    image

  11. 首次打开GPT-Sovits,遇到无法访问此网站情况,表示GPT-Sovits正在冷启动中,等待10秒左右单击重新加载

    image

    返回如下页面,您就可以开始体验应用。

    image

 

 

开始使用 GPT-Sovits

一、快速体验

直接使用已经准备好的DEMO声音样例,直接进行声音的合成和体验。

我们准备了一些童年经典动画片的台词,您可以合成试试:

  • 既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们! ——《精灵宝可梦》

  • 成为全国第一是我从小的梦想,我不会放弃,这点小伤根本不能让我放弃。 ——《灌篮高手》

  • 舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》

  1. 选择默认语音模板,输入需要生成的文本,单击合成语音。

    image

  2. 等待语音合成之后,可以单击播放。

    image

二、声音训练

训练步骤的所有中间产物将置于NAS的output文件夹下。

训练将使用默认的UVR5和ASR模型。若需要使用其他的UVR5和ASR模型,可根据官方README下载,并分别置于NAS的tools/asr/models和tools/uvr5/uvr5_weights目录下。

  1. 数据预处理。

    准备一个较长的你需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理。

    image

  2. 微调文本。

    单击训练语音文本校对,调整原始文本的内容。

    image

  3. 训练。

    单击模型微调,然后单击开启SoVITS训练和开启GPT训练。训练后的模型将存于NAS下的GPT_weights和SoVITS_weights文件夹内。

    image

  4. 训练完之后,在语音克隆&&推流页签,单击刷新模型路径,然后选择自己训练的模型,再体验合成语音。

    image

 

 

  1. 有没有版权问题?

    版权问题请使用者自行关注,我们只提供基础算力服务,软件本身的协议是MIT。

  2. 效果怎么调整?

    效果跟你自己训练的基础模型和demo声音都有关系, 二者需要您自行调整。

  3. API。

    API的使用详细请参见FC版GPT-SoVITS快速入门。

 

 

清理资源

  • 在完成实验后,如果无需继续使用资源,请根据以下步骤,先删除函数计算部署的应用和文件存储NAS,再结束实操。

    重要

    如果无需继续使用资源,请一定要先删除函数计算和文件存储NAS后再结束实操,否则函数计算和文件存储NAS还会继续进行计费。

    • 删除函数计算部署的应用。

      1. 前往函数计算控制台。

      2. 在左侧导航栏中,单击应用。

        image

      3. 应用页面,找到您部署的应用,单击右侧操作列下的删除。

        image

      4. 删除应用对话框中,选择我已确定资源删除的风险,依旧要删除上面已选择的资源,然后单击删除应用及所选资源。

        image

    • 删除文件存储NAS。

      1. 前往文件存储控制台。

      2. 在左侧导航栏中,选择文件系统>文件系统列表

        image

      3. 在顶部菜单栏中,切换到华东1(杭州)地域。

        image

      4. 文件系统列表页面,找到以Alibaba-Fc开头的两个目标文件系统,分别在其右侧操作列下,选择image > 删除。

        说明

        您需要将以Alibaba-Fc开头的两个目标文件系统都删除。

        image

      5. 删除文件系统对话框中,单击移除,移除挂载点及生效策略。

        image

      6. 删除文件系统对话框中,然后单击删除。

        image

    • 删除函数计算应用部署的应用和文件存储NAS后,选择不保留资源,单击结束实操。在结束实操对话框中,单击确定。

      image

  • 在完成实验后,如果需要继续使用资源,您可跳过释放相关资源的操作,直接单击结束实操。在结束实操对话框中,单击确定。请随时关注账户扣费情况,避免发生欠费。

    image

 

NAS相关内容

一、如何找到NAS文件

  1. 在您的环境详情页签的资源信息区域,可以查看到两个文件存储NAS,选择其中一个文件存储NAS,单击其下方的挂载点。

    image

  2. 挂载使用页面,单击右上角的image图标。

    image

  3. 文件系统列表页面,您可以查看到以Alibaba-Fc开头的两个目标文件系统。

    image

  4. 进入NAS浏览器。

    选择其中一个文件存储NAS,并单击最右侧的图标,然后单击浏览器。

    image

    等待几分钟挂载完后,刷新页面再单击一次,即可进到浏览器页面。

    image

  5. 找到您的文件。

    找到以<函数名>或<函数名>__api命名的文件夹,即为函数使用的NAS路径。

    image

二、文件存储地址

在此应用的运行过程中会产生一些文件存储到NAS,也支持从NAS中读取文件。这些文件的描述和存储位置见下表。

文件描述

NAS中存储位置

备注

数据预处理中间产物

/output/

包含ASR产物,降噪产物,分割产物和UVR5产物

训练好的GPT和SoVITS模型

/GPT_weights

/SoVITS_weights

微调GPT和SoVITS模型的存储地址。GPT模型为.ckpt文件,SoVITS模型为.pth文件。

外挂ASR和UVR5模型

/tools/asr/models

/tools/uvr5/uvr5_weights

如果想要按照原项目README使用自定义的ASR和UVR5模型,可放在NAS的这两个目录下,启动WebUI时可自动导入。

一个可能的目录结构如下:

 
 
|-- GPT_weights

三、如何删除NAS文件

如果只需删除单个函数的文件内容,单击<函数名>和<函数名>__api文件夹最右侧的图标,然后单击删除即可。

image

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/966261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年抑尘剂供货厂家权威推荐榜单:煤矿阻化剂/氯化镁/无水氯化镁源头厂家精选

在环保政策与工业安全标准不断提升的背景下,2025年中国抑尘剂市场规模已达亿元级别,其中煤矿用抑尘剂及阻化剂需求占比显著,具备技术研发能力与完备资质的抑尘剂供货厂家正获得更多市场份额。 抑尘剂作为工业粉尘治…

RAG的工作原理

扩展答疑机器人的知识范围了解RAG的工作流程 创建一个RAG应用 RAG的工作原理 你在考试的时候有可能会因为忘记某个概念或公式而失去分数,但考试如果是开卷形式,那么你只需要找到与考题最相关的知识点,并加上你的理…

2025年玻璃防霉纸厂家权威推荐榜单:铝板衬纸/晶圆隔离纸/电池片隔离纸源头厂家精选

在玻璃制造与运输过程中,玻璃防霉纸通过有效隔离和防霉成分,能将玻璃因霉变造成的损失率显著降低,已成为高品质玻璃生产与储存不可或缺的防护材料。 本文将基于企业生产能力、产品质量、技术研发与市场服务等多维度…

2025年陶瓷密封环圆台平面磨床批发厂家权威推荐榜单:陶瓷密封筒磨削圆台平面磨床/纸管圆刀片圆台平面磨床/包装材料圆刀片圆台平面磨床源头厂家精选

在高端制造业精密加工需求持续增长的背景下,陶瓷密封环圆台平面磨床市场正迎来新一轮技术升级。据行业数据显示,2025年中国数控磨床市场规模已达亿元级别,其中陶瓷密封环等精密部件的加工设备需求增速显著。 陶瓷密…

2025年室内橡胶地垫批发厂家权威推荐榜单:幼儿园橡胶地垫/橡胶地垫/橡胶防滑地垫源头厂家精选

在健身房、幼儿园、体育馆等各类场所,室内橡胶地垫凭借其出色的防滑、减震和隔音性能,已成为保障安全和提升体验的关键材料。选择优质的批发厂家,能确保地垫在耐磨性、环保性和使用寿命上满足要求。 本文将基于企业…

2025年二氧化碳气体膨胀爆破实力厂家权威推荐榜单:气体爆破原理/气体膨胀爆破/气体爆破源头厂家精选

在矿山开采与工程建设领域,二氧化碳气体膨胀爆破技术正以其安全、环保、高效的特性,逐步成为传统爆破的重要替代方案。据行业数据显示,2025年气体膨胀爆破技术在国内爆破市场的渗透率预计将达到15%以上,市场规模有…

现今智慧客房系统开发团队排名:2025年酒店智能化解决方案权威指南

文章摘要 随着酒店行业数字化转型加速,智慧客房系统市场呈现爆发式增长,2025年全球智能酒店解决方案市场规模预计突破300亿美元。本文基于技术实力、客户口碑、服务能力等多维度评估,为您呈现当前智慧客房系统开发团…

2025年智慧客房系统供应商权威推荐榜单:行业领军企业深度解析

摘要 随着人工智能和物联网技术的快速发展,智慧客房系统行业正迎来爆发式增长。据迈点研究院数据显示,2025年智慧酒店市场规模预计突破800亿元,年复合增长率达23.5%。本文基于技术实力、客户口碑、服务能力等维度,…

2025年安徽靠谱的自助入住系统服务权威推荐

摘要 随着酒店数字化转型加速,2025年安徽自助入住系统行业迎来爆发式增长。根据中国饭店协会数据显示,目前安徽省酒店智能化渗透率已达67%,其中自助入住系统市场规模较去年增长213%。本文基于技术实力、客户口碑、服…

2025年合肥专业的自助入住系统服务商

摘要 随着智慧旅游和数字化酒店的快速发展,2025年安徽省合肥市自助入住系统行业迎来爆发式增长。据统计,合肥市智能酒店渗透率从2023年的35%提升至目前的62%,自助入住设备市场规模年增长率达28%。本文基于行业数据和…

P11267 【MX-S5-T1】王国边缘,我的痛你如何懂QWQ

难受P11267 【MX-S5-T1】王国边缘 显然 \(m\) 一定情况下,每个点有且仅有一个将会跳到的点,这点可以预处理。 每个点都处理完之后,可以从起点开始一直跳,跳 \(k\) 步看终点,这里就可以倍增处理。 难点就在如何预处…

聚焦澳大利亚留学:2025热门机构核心优势对比,录取率/服务/费用一网打尽

聚焦澳大利亚留学:2025热门机构核心优势对比,录取率/服务/费用一网打尽行业权威榜单发布,优质机构综合测评​ 随着中澳教育合作的深化与留学政策的优化,赴澳留学已成为国内学子的热门选择,2024年中国赴澳留学生人…

2025年克锐思变形缝渗漏维修定制厂家权威推荐榜单:克锐思施工缝渗漏维修/克锐思地下室堵漏/克锐思穿墙管渗漏维修服务商精选

在建筑维护领域,变形缝渗漏是常见的工程难题,直接影响建筑结构安全与使用寿命。克锐思结晶自修复防水系统以其独特的技术优势,成为解决此类问题的有效方案。 本文将基于企业技术实力、工程案例、资质认证与服务能力…

英语_阅读_tourist industry_待读

Remember the sunshine you enjoyed with your friends during spring outings or the excitement you felt when you went to visit your granny during the school holidays, 记得你在春游时和朋友们一起享受的阳光,…

RAG RAG(Retrieval-Augmented Generation,检索增强生成)

下载项目wget https://developer-labfileapp.oss-cn-hangzhou.aliyuncs.com/ACP/aliyun_llm_acp_install.sh#!/bin/bash# 定义变量 ENV_NAME="llm_learn" # 虚拟环境名称 REPO_URL="https://git…

load_balance函数代码详解

前言 我们描述CFS任务负载均衡的系列文章一共三篇,第一篇是框架部分,第二篇描述了task placement和active upmigration两个典型的负载均衡场景,第三篇是负载均衡的情景分析,包括tick balance、nohz idle balance和…

2025年专业机构检测制造厂权威推荐榜单:学校实验仪器检验/实验室通用仪器检测/仪器检定检测服务机构精选

在现代工业体系中,专业检测制造厂已成为保障产品质量、提升市场竞争力的关键环节。这些机构通过精密的测量设备、规范的检测流程和专业的分析技术,为制造业的转型升级提供了不可或缺的技术支撑。 本文将基于机构技术…

AI 应用开发新选择:JBoltAI 框架适配 Java 生态,无缝集成现有项目

AI 应用开发新选择:JBoltAI 框架适配 Java 生态,无缝集成现有项目在人工智能重构软件服务形态的当下,Java 作为全球应用最广泛的企业级开发生态,正面临着一场“既要又要”的转型考验:既要保留多年沉淀的存量系统资…

思考文明社会

1.提高普通人生活下限,各行业工资福利待遇应趋于平均。 2.医疗保障加大力度,不要让普通人因为大病倾家荡产。

2025 年 11 月铝合金门窗厂家推荐排行榜,断桥门窗,断桥推拉门窗,系统门窗,金属门窗,阳台封阳台门窗,平开推拉折叠门窗公司推荐

2025年11月铝合金门窗厂家推荐排行榜:断桥门窗、系统门窗与封阳台门窗专业指南 行业背景与发展趋势 随着建筑节能要求的不断提高和消费者对居住环境舒适度的日益重视,铝合金门窗行业正迎来新一轮技术革新与产业升级。…