SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)
关键词:SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI
一、项目简介
SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库,专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成,同时在传统单人 TTS 任务上也表现出色。
核心亮点:
- 支持长达90分钟以上的连续对话生成,声音稳定、切换自然。
- 支持旁白语言控制(笑声、叹气、呼吸等),极大提升真实感。
- 支持中英双语+中文方言(四川话、河南话、粤语)。
- 零样本跨方言声音克隆:用普通话参考音频即可生成对应方言的克隆声音。
- 基于 Qwen3-1.7B 大模型,参数量约1.7B。
官方仓库:https://github.com/Soul-AILab/SoulX-Podcast
在线Demo:https://soul-ailab.github.io/soulx-podcast/
模型下载:Hugging Face 或 ModelScope
本文基于用户实际部署经验,详细介绍本地部署 + Gradio WebUI 启动的全过程,尤其适合在云服务器(如云GPU平台)上运行,并实现公网访问。
二、环境准备
推荐使用 Python 3.10 或 3.11 环境。项目依赖较多,建议使用虚拟环境。
https://modelscope.cn/my/mynotebook/preset
1. 克隆仓库
gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast2. 创建虚拟环境(推荐)
# 如果系统没有 Python 3.10,可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate3. 安装依赖
pipinstall-r requirements.txt注意:如果网络慢或在国内,可添加国内镜像:
pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
三、模型下载
项目提供两个模型:
- 基础模型:SoulX-Podcast-1.7B(支持中英)
- 方言模型:SoulX-Podcast-1.7B-dialect(额外支持四川话、河南话、粤语)
方法一:使用 ModelScope(国内更快)
frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型(推荐用于播客体验)snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")方法二:使用 Hugging Face CLI(官方推荐)
pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect模型较大(约10GB+),建议在良好网络环境下下载,支持断点续传。
四、启动 Gradio WebUI
项目内置webui.py使用 Gradio 实现可视化界面,非常方便。
基本启动(本地访问)
# 使用方言模型(推荐)python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect默认会在 http://127.0.0.1:7860 启动。
云服务器公网访问配置
如果在云服务器(如 RunPod、AutoDL、Vast.ai 等)部署,需要对外开放端口并支持分享链接。
步骤1:修改 webui.py 中的 launch 参数
打开webui.py,找到类似以下代码行:
page.launch(share=False,server_name="0.0.0.0",server_port=args.port)修改为:
page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口server_name="0.0.0.0":监听所有IP,实现外网访问。share=True:生成 Gradio 公网链接(需联网)。
步骤2:frpc 内网穿透(可选,更稳定)
如果平台不支持直接公网端口,可使用 frpc。
# 下载 frpc(Linux amd64)wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3然后再次运行:
python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect启动成功后,会输出类似:
Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live五、使用说明
进入 WebUI 后:
- 上传参考音频(用于声音克隆)。
- 输入对话脚本(支持多说话人格式,如 Speaker1: xxx)。
- 选择语言/方言、添加旁白标签(如
<|laughter|>)。 - 点击生成,即可得到高质量播客音频。
提示:
- 方言生成必须使用
-dialect模型。 - 长对话建议分段生成,避免显存溢出。
- 支持零样本克隆:只需几秒参考音频。
六、常见问题排查
- 显存不足:1.7B 模型在 24GB GPU 上可流畅运行,长对话可降低 batch。
- 依赖报错:确保在虚拟环境中安装 requirements。
- 无声音输出:检查模型路径是否正确。
- Gradio 分享失败:检查网络,或使用 frpc。
七、总结
SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一,尤其在方言和情感表达上领先。通过上述步骤,你可以在本地或云端快速搭建属于自己的 AI 播客生成器,轻松制作双人/多人对话节目。
感兴趣的朋友快去试试吧!欢迎在评论区分享你的生成效果~
参考资料:
- 官方 GitHub:https://github.com/Soul-AILab/SoulX-Podcast
- Demo 页面:https://soul-ailab.github.io/soulx-podcast/
- 论文:https://arxiv.org/abs/2510.23541
(完)