AI声音克隆又进化了，我已经分不清楚是不是我自己说话了，这技术还已开源！

当大厂还对他们的语音模型闭源不放的时候，SparkAudio 开源社区联合香港科技大学、南洋理工大学等机构带来了开源TTS（Text-to-Speech）模型——Spark-TTS！让大家可以打造属于自己的AI语音。

它不仅能零样本克隆声音，让你在没有额外训练的情况下完美复制任何人的声音，还能进行精准的语音控制，让合成语音像真人一样自然流畅，甚至支持中英文自由切换！

这意味着，你可以让 AI 用你的声音朗读文章、配音视频，甚至在不同语言间流畅切换，而无需额外训练！

那么，Spark-TTS 究竟是如何做到的？它到底有多强？让我们一起深入了解！

项目地址：

https://github.com/SparkAudio/Spark-TTS

试听样例：

https://sparkaudio.github.io/spark-tts/

一、Spark-TTS的核心优势

1. 更简单、更高效

传统的 AI 语音合成系统需要多个模型协作，比如流匹配（Flow Matching）或多阶段处理来生成音频特征，而Spark-TTS完全抛弃了这些复杂步骤，直接通过大语言模型Qwen2.5预测语音代码，并利用其内置的BiCodec解码器重建音频，从而大幅提升合成速度和推理效率。

2. 零样本语音克隆

你是否曾经想过，AI 可以在没有任何训练数据的情况下，复刻你的声音？

Spark-TTS 做到了。它支持零样本语音克隆，只需提供一段参考音频，就能生成几乎一模一样的语音，无论是跨语言还是混合语言，它都能精准转换。

3. 中英文双语支持

Spark-TTS 目前支持中文和英文，并且在跨语言合成和语音切换方面表现出色。

例如，你可以用中文输入文本，它会用英文朗读出来，甚至能模仿不同口音的英语发音，真正做到自然流畅的多语言表达！

4. 可控的语音合成

相比于传统的 TTS，Spark-TTS 的另一个创新之处在于可控性，它可以让用户根据需求自由调整合成音色，实现个性化语音合成。

例如：

性别（男声/女声）
语速（快/慢）
音高（高/低）
说话风格（如激情、沉稳、温柔等）

技术核心：Spark-TTS 依赖BiCodec编码框架，并结合Qwen2.5大语言模型的强大文本理解能力，实现了语音属性的可控生成。BiCodec，它将音频拆分为两种互补的语音编码：

语义 Token：用于编码语言内容，保证语音合成的流畅性和准确性。
全局 Token：用于编码说话人的个性化特征，包括音色、性别、音高、语速等，让系统可以精细调整语音属性。

Spark-TTS让你的AI助手拥有独一无二的个性化嗓音！

官方也放出来许多试听样品，可以前往下面网站试听。

试听样例：

https://sparkaudio.github.io/spark-tts/

性能超越同类TTS模型。

在一系列基准测试中，Spark-TTS的表现超越了许多知名TTS模型：

语音质量（UTMOS评分）：4.35（高于CosyVoice2的4.23）
零样本语音克隆准确率：99.77%（比其他模型更精准）

此外，Spark-TTS还支持Nvidia Triton推理服务器，在单张L20 GPU上实现了毫秒级延迟的高效合成，更适合大规模应用部署。

二、如何安装和使用 Spark-TTS？

如果你想亲自体验Spark-TTS，下面是快速上手的步骤：

1. 安装：

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

也可以使用阿里云镜像源：

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

2. 下载预训练模型

可以使用以下方式下载预训练模型：

from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

或者使用Git：

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 运行推理（语音合成）

cd example
bash infer.sh

或者直接运行：

python -m cli.inference \
    --text "你好，欢迎使用Spark-TTS！" \
    --device 0 \
    --save_dir "output_audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "你好，这是示例音频" \
    --prompt_speech_path "path/to/prompt_audio.wav"

4. 启动Web UI

如果你想在网页界面上操作，可以运行：

python webui.py --device 0

这样，你就可以在线上传参考音频，进行语音克隆和创建！

虽然Spark-TTS已经取得了突破性的进展，但他们团队还计划：

优化说话人特征建模，提升语音克隆的个性化还原度
增加更多控制参数，让用户能自定义更多细节
扩展多语言支持，让 Spark-TTS 成为真正的全球化 TTS 解决方案

Spark-TTS 的发布，标志着 AI 语音合成进入了一个全新的时代。无论是个性化语音助手、内容创作、语言学习还是无障碍辅助，这款超强的 AI 语音模型都可以给广大用户带来更多的便利。

当然，也是有弊的，就比如我的视频，经常被这种 AI 工具直接换个声音，发布到平台上，也让盗版视频更加猖獗。希望相关的规则 / 法律，也可以尽快跟上。

感兴趣的小伙伴，可以试一试这个 Spark-TTS。

转：https://mp.weixin.qq.com/s/r-5aKsolQYB6ig_81jL-pw

posted @ 2025-03-26 09:05 rmticocean 阅读(444) 评论(0) 收藏举报

刷新页面返回顶部

rmticocean