AI视频翻译

最近使用Cursor开发了一个音视频翻译工具。

这是一个基于人工智能技术的多语言音视频翻译系统，能够将视频或音频内容从一种语言翻译成另一种语言，并通过音色克隆技术保持原说话者的声音特征。

Demo

核心技术栈

Faster-Whisper：语音识别引擎
Demucs：音频分离模型
PyAnnote：多说话人识别
Qwen系列：文本翻译大语言模型
IndexTTS2：音色克隆模型
FFmpeg：音视频处理工具

处理流程

视频/音频处理：提取音频轨道，格式标准化，提取元数据
音频分离：检测并分离人声和背景音乐
多说话人处理（可选）：识别不同说话者
语音识别：使用Faster-Whisper进行转录，生成时间戳和分段
文本翻译：批量翻译文本分段
参考音频提取：为每个翻译片段提取对应的参考音频
音色克隆：为每个翻译片段生成保持原音色的语音
音频合并：根据时间戳同步合并音频片段
视频合成：将翻译后的音频与原始视频合成

GitHub地址

https://github.com/icuic/video-voice-translator

posted @ 2025-11-17 13:32 icuic 阅读(50) 评论(0) 收藏举报

刷新页面返回顶部