最近使用Cursor开发了一个音视频翻译工具。
这是一个基于人工智能技术的多语言音视频翻译系统,能够将视频或音频内容从一种语言翻译成另一种语言,并通过音色克隆技术保持原说话者的声音特征。
Demo
核心技术栈
- Faster-Whisper:语音识别引擎
- Demucs:音频分离模型
- PyAnnote:多说话人识别
- Qwen系列:文本翻译大语言模型
- IndexTTS2:音色克隆模型
- FFmpeg:音视频处理工具
处理流程
- 视频/音频处理:提取音频轨道,格式标准化,提取元数据
- 音频分离:检测并分离人声和背景音乐
- 多说话人处理(可选):识别不同说话者
- 语音识别:使用Faster-Whisper进行转录,生成时间戳和分段
- 文本翻译:批量翻译文本分段
- 参考音频提取:为每个翻译片段提取对应的参考音频
- 音色克隆:为每个翻译片段生成保持原音色的语音
- 音频合并:根据时间戳同步合并音频片段
- 视频合成:将翻译后的音频与原始视频合成
GitHub地址
https://github.com/icuic/video-voice-translator