AI视频翻译

最近使用Cursor开发了一个音视频翻译工具。

这是一个基于人工智能技术的多语言音视频翻译系统,能够将视频或音频内容从一种语言翻译成另一种语言,并通过音色克隆技术保持原说话者的声音特征。


Demo


核心技术栈

  • Faster-Whisper:语音识别引擎
  • Demucs:音频分离模型
  • PyAnnote:多说话人识别
  • Qwen系列:文本翻译大语言模型
  • IndexTTS2:音色克隆模型
  • FFmpeg:音视频处理工具

处理流程

  1. 视频/音频处理:提取音频轨道,格式标准化,提取元数据
  2. 音频分离:检测并分离人声和背景音乐
  3. 多说话人处理(可选):识别不同说话者
  4. 语音识别:使用Faster-Whisper进行转录,生成时间戳和分段
  5. 文本翻译:批量翻译文本分段
  6. 参考音频提取:为每个翻译片段提取对应的参考音频
  7. 音色克隆:为每个翻译片段生成保持原音色的语音
  8. 音频合并:根据时间戳同步合并音频片段
  9. 视频合成:将翻译后的音频与原始视频合成

GitHub地址

https://github.com/icuic/video-voice-translator


posted @ 2025-11-17 13:32  icuic  阅读(11)  评论(0)    收藏  举报