零基础也能用!HeyGem批量视频生成系统新手教程
你是不是也遇到过这些情况:
想给一段产品介绍配音,却找不到合适的出镜人;
要为不同平台准备多个数字人版本,结果反复上传、重复操作、下载到一半发现漏了一个;
明明AI已经能“说话”,可自己点开网页还是像在闯关——上传在哪?按钮在哪?生成完视频藏哪儿了?
别担心。今天这篇教程,就是专为你写的。
不讲模型原理,不聊GPU显存,不提Python环境——从打开浏览器开始,手把手带你把一段音频变成10个风格各异的数字人视频,全程不用敲一行命令,连“终端”两个字都不会出现。
只要你能拖文件、会点鼠标、看得懂中文按钮,就能完成。
我们用最真实的操作路径,还原一个完全没接触过AI视频工具的新手,第一次上手时会遇到什么、怎么解决、哪里最容易卡住、哪些小技巧能省下半小时。
1. 第一步:让系统跑起来(真的只要30秒)
很多人卡在第一步:系统还没启动,就去点网页,结果打不开。其实这步比想象中简单得多。
1.1 启动服务:两行命令,一次搞定
你不需要懂Linux,也不用查“bash是什么”。只需要记住这两件事:
- 你的服务器或本地电脑上,已经装好了这个镜像(也就是“Heygem数字人视频生成系统批量版webui版”);
- 你有权限执行命令(通常用管理员账号登录即可)。
打开终端(Mac/Linux是“终端”,Windows是“WSL”或“PowerShell”,如果你用的是云服务器,就是你登录进去的那个黑框窗口),输入这一行:
bash start_app.sh回车后,你会看到一串快速滚动的文字,最后停在类似这样的提示:
INFO: Uvicorn running on http://0.0.0.0:7860 INFO: Application startup complete.这就成功了。
不需要记日志路径,不需要改配置,不需要等模型加载完成才敢操作——只要看到Application startup complete.这句话,就可以下一步。
1.2 打开网页:用对地址,少走弯路
打开你的浏览器(Chrome、Edge、Firefox都行,Safari不推荐),在地址栏输入:
http://localhost:7860这是本机访问的地址。如果你是在自己的笔记本或台式机上运行,就用这个。
但如果你是在云服务器(比如阿里云、腾讯云)上部署的,那得换成服务器的公网IP,格式是:
http://你的服务器IP:7860小贴士:怎么查服务器IP?登录云厂商后台,在“云服务器ECS”列表里就能看到“公网IP”那一列。复制粘贴进去就行,别加www,也别加https。
如果页面打开了,你会看到一个干净的界面,顶部有“批量处理模式”和“单个处理模式”两个标签——说明一切正常。
如果打不开,请先确认:
- 终端里确实显示了
Application startup complete.; - 浏览器地址没错,且没输成
https; - 云服务器的安全组是否放行了7860端口(常见问题,放行TCP 7860即可)。
2. 第二步:认识界面——不是所有按钮都要点
第一次打开HeyGem,界面看起来有点多。别急着点。我们只关注真正要用的三块区域:
| 区域 | 位置 | 作用 | 新手注意 |
|---|---|---|---|
| 顶部标签栏 | 页面最上方 | 切换“批量”和“单个”两种模式 | 先点“批量处理模式”——这才是本教程主角 |
| 左侧操作区 | 页面左边大块区域 | 上传音频 + 添加视频模板 | 🎧 音频只传一次,视频可以传很多个 |
| 右侧预览区 | 页面右边 | 播放音频、预览视频、查看生成结果 | 👀 点击缩略图就能看,不用下载 |
其他按钮,比如“清空列表”“删除选中”,等你真需要时再学。现在,我们只做三件事:传一段声音、加几个视频、点一下“开始”。
3. 第三步:准备你的素材(比你想象中更宽松)
HeyGem对文件要求很友好,不像某些工具非要你导出特定编码、特定采样率。我们按“能用就行”的原则来准备:
3.1 音频文件:手机录的也能用
- 支持格式:
.mp3、.wav、.m4a(微信语音转成m4a就能直接用)、.flac、.ogg、.aac - 推荐做法:用手机录音笔录一段清晰的人声,保存为mp3,大小控制在10MB以内(5分钟以内基本都OK)
- ❌ 避免:背景音乐太响、多人同时说话、全程带电流声的会议录音
实测案例:我用iPhone语音备忘录录了一段38秒的产品介绍,直接上传,生成效果自然,口型同步准确。没有降噪、没剪辑、没调音。
3.2 视频文件:正面人脸+静止画面=最佳效果
- 支持格式:
.mp4(最推荐)、.mov、.avi、.mkv、.webm、.flv - 推荐分辨率:720p(1280×720)或1080p(1920×1080)——画质够用,处理快
- 关键要求:
- 人物正对镜头,脸部占画面1/2以上;
- 身体不动或微动(不要走来走去);
- 光线均匀,别半边脸在阴影里;
- 视频开头几秒最好有“中性表情”,方便AI对齐起始帧。
实测案例:我用了3个视频——一个同事工位自拍(手机横屏,720p)、一个B站UP主公开的数字人模板(mp4)、一个AI生成的静态肖像动效视频(webm)。全部成功生成,口型匹配度都很高。
3.3 一次传多少?别贪多,先试3个
新手建议:第一次只上传1段音频 + 3个视频。
原因很简单:
- 看看流程顺不顺畅;
- 确认生成效果是否符合预期;
- 避免第一次就等太久(1个视频约1~3分钟,3个就是3~9分钟,心理预期稳)。
等你熟悉了,再一口气加10个、20个——批量模式真正的价值,就在这时候体现。
4. 第四步:动手操作——每一步都配截图逻辑
我们按真实顺序走一遍,不跳步、不省略、不假设你知道。
4.1 上传音频:点一下,选一个,就完了
- 在“批量处理模式”下,找到标着“上传音频文件”的灰色区域(它在左上角,文字很大);
- 点击它 → 弹出系统文件选择框 → 找到你准备好的mp3/wav文件 → 双击打开;
- 上传完成后,区域下方会出现一个播放按钮 ▶,点它能听一遍,确认是不是你要的那段话。
成功标志:能听到声音,波形图有起伏,没有报错提示。
4.2 添加视频:拖或点,两种方式任选
- 往下看,找到“拖放或点击选择视频文件”的大区域(就在音频下方);
- 方法一(推荐新手):点击区域 → 多选文件(按住Ctrl或Cmd,逐个点选)→ 确认;
- 方法二(进阶):直接把几个mp4文件拖进这个区域,松手即上传;
- 上传后,左侧会立刻出现一个视频列表,每个条目显示文件名,比如
zhangsan.mp4、lihua.mov。
成功标志:列表里出现了你选的文件名,数量对得上。
4.3 预览视频:别跳过,这步能救你
- 在视频列表里,点击任意一个文件名(比如
zhangsan.mp4); - 右侧预览区会立刻播放这个视频的前5秒;
- 看一眼:人脸是否清晰?有没有严重抖动?光线是否过曝或太暗?
如果发现某个视频明显不合适(比如全是背影、或者只有手在动),现在就删掉:选中它 → 点“删除选中”按钮。
别等到生成完才发现白忙一场。
4.4 开始生成:一个按钮,开启流水线
- 确认音频已上传、视频列表有内容、预览无误;
- 找到右下角那个醒目的蓝色按钮:“开始批量生成”;
- 点它。
接下来,界面会立刻变化:
- 左侧列表变灰,按钮变“禁用”状态(防止你误点两次);
- 右侧出现实时进度条,显示“正在处理:zhangsan.mp4”;
- 下方有计数:“1/3”、“2/3”……
- 每完成一个,对应缩略图就会出现在“生成结果历史”区域。
整个过程无需刷新页面,不用切后台,不用盯终端——就像看着一台自动咖啡机,投料、加热、出杯,一气呵成。
5. 第五步:拿到结果——下载比微信传文件还简单
生成完成后,你会看到“生成结果历史”区域里多了几个带时间戳的缩略图。
5.1 预览:点一下,当场看效果
- 点击任意一个缩略图 → 右侧播放器自动加载并播放;
- 注意看:嘴型是否跟着声音动?动作是否自然?有没有穿帮(比如脖子突然断掉、头发边缘发虚)?
- 如果效果满意,继续下一步;如果不理想,记下是哪个视频的问题,下次换一个模板试试。
5.2 下载单个:适合快速分享给同事看
- 点击缩略图选中它(边框会变蓝);
- 看右上角,有个向下箭头图标(),点它,浏览器就会自动下载这个mp4文件;
- 文件名默认是
output_20250405_142318_zhangsan.mp4,含日期+时间+原文件名,不怕混淆。
5.3 一键打包下载:这才是批量的灵魂
这才是本教程最值得你记住的功能。
- 点击“📦 一键打包下载”按钮(就在“生成结果历史”上方);
- 等1~2秒,按钮文字变成“点击打包后下载”;
- 点它 → 浏览器立刻弹出下载窗口,文件名类似
heygem_batch_export_20250405_142318.zip; - 解压后,里面是所有生成好的mp4,按顺序编号,命名清晰。
实测对比:手动下载3个视频,平均耗时2分18秒(含找文件、重命名、建文件夹、压缩);
用一键打包,从点击到ZIP下载完成,仅需8秒。
6. 第六步:善后与避坑——老手都在用的5个习惯
刚上手时,容易忽略这些细节。但养成它们,能让你后续每次使用都更顺、更稳、更省心。
6.1 清理历史记录:别让旧文件挤占空间
- “生成结果历史”支持分页,但每页只显示10个;
- 用完一批后,别只下载不管——勾选所有缩略图 → 点“🗑 批量删除选中”;
- 或者直接点“清空列表”(注意:只清列表,不删服务器上的文件);
- 定期进服务器,手动清理
outputs/目录下的旧文件夹(每批生成都会新建一个文件夹)。
6.2 查看日志:出问题时,第一反应不是重装
- 如果某次生成卡住、报错、没反应,别急着重启;
- 打开终端,输入这行命令(复制粘贴即可):
tail -f /root/workspace/运行实时日志.log - 回车后,你会看到最新几行日志,通常是“正在加载模型”“提取语音特征失败”“视频解码异常”等具体提示;
- 根据提示,就能精准定位:是音频格式不对?还是某个视频损坏?而不是盲目重试。
6.3 视频长度控制:别让5分钟视频拖垮整批任务
- HeyGem处理时间≈视频时长×1.5倍(例如1分钟视频,约需1分30秒);
- 建议单个视频不超过3分钟,尤其首次使用;
- 如果必须处理长视频,建议拆成片段(用剪映、CapCut等免费工具3秒搞定)。
6.4 浏览器别关:进度不丢,但页面刷新会重置
- HeyGem的进度是前端实时渲染的,不是靠后端轮询;
- 所以你可以最小化浏览器、切去回微信,回来还能看到进度条在走;
- 但如果你刷新页面,当前批次进度会丢失(已生成的还在,但未开始的会重排);
- 正确做法:生成中保持页面打开,用浏览器标签页切换,别关、别刷新。
6.5 存储空间提醒:10个1080p视频 ≈ 1.2GB
- 每个1分钟1080p视频生成后约120MB;
- 10个就是1.2GB;
- 建议:定期把ZIP包下载到本地电脑,然后在服务器上
rm -rf outputs/old_batch_*清理; - 云服务器磁盘告警?先看
outputs/目录,90%的问题都出在这儿。
7. 总结:你已经掌握了生产级数字人视频的第一把钥匙
回顾一下,你刚刚完成了什么:
- 在30秒内启动了一个AI视频生成系统;
- 用手机录的音频 + 网上找的视频,零调整就生成了口型同步的数字人;
- 一次操作,批量产出多个结果;
- 一键打包,5秒下载全部视频;
- 学会了看日志、清缓存、控时长、管存储——这些才是长期用下去的关键。
这不是玩具,也不是Demo。这是已经有人每天用它生成课程视频、电商口播、企业宣传短片的真实工具。
你不需要成为AI工程师,也能驾驭它。
你不需要买高端显卡,也能跑起来。
你不需要写代码,也能做出专业级效果。
真正的门槛,从来不是技术,而是“敢不敢点下第一个按钮”。
而你,已经点过了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。