AI声音克隆又进化了,我已经分不清楚是不是我自己说话了,这技术还已开源!

当大厂还对他们的语音模型闭源不放的时候,SparkAudio 开源社区联合香港科技大学、南洋理工大学等机构带来了开源TTS(Text-to-Speech)模型——Spark-TTS!让大家可以打造属于自己的AI语音。

图片

它不仅能零样本克隆声音,让你在没有额外训练的情况下完美复制任何人的声音,还能进行精准的语音控制,让合成语音像真人一样自然流畅,甚至支持中英文自由切换!

这意味着,你可以让 AI 用你的声音朗读文章、配音视频,甚至在不同语言间流畅切换,而无需额外训练!

那么,Spark-TTS 究竟是如何做到的?它到底有多强?让我们一起深入了解!

项目地址:

https://github.com/SparkAudio/Spark-TTS

试听样例:

https://sparkaudio.github.io/spark-tts/

一、Spark-TTS的核心优势

1. 更简单、更高效

传统的 AI 语音合成系统需要多个模型协作,比如流匹配(Flow Matching)或多阶段处理来生成音频特征,而Spark-TTS完全抛弃了这些复杂步骤,直接通过大语言模型Qwen2.5预测语音代码,并利用其内置的BiCodec解码器重建音频,从而大幅提升合成速度推理效率

 

2. 零样本语音克隆

你是否曾经想过,AI 可以在没有任何训练数据的情况下,复刻你的声音?

Spark-TTS 做到了。它支持零样本语音克隆,只需提供一段参考音频,就能生成几乎一模一样的语音,无论是跨语言还是混合语言,它都能精准转换。

 

 

3. 中英文双语支持

Spark-TTS 目前支持中文英文,并且在跨语言合成和语音切换方面表现出色。

例如,你可以用中文输入文本,它会用英文朗读出来,甚至能模仿不同口音的英语发音,真正做到自然流畅的多语言表达!

4. 可控的语音合成

相比于传统的 TTS,Spark-TTS 的另一个创新之处在于可控性,它可以让用户根据需求自由调整合成音色,实现个性化语音合成。

例如:

  • 性别(男声/女声)
  • 语速(快/慢)
  • 音高(高/低)
  • 说话风格(如激情、沉稳、温柔等)

 


技术核心:Spark-TTS 依赖BiCodec编码框架,并结合Qwen2.5大语言模型的强大文本理解能力,实现了语音属性的可控生成。BiCodec,它将音频拆分为两种互补的语音编码:

  • 语义 Token:用于编码语言内容,保证语音合成的流畅性和准确性。

  • 全局 Token:用于编码说话人的个性化特征,包括音色、性别、音高、语速等,让系统可以精细调整语音属性。

Spark-TTS让你的AI助手拥有独一无二的个性化嗓音!

官方也放出来许多试听样品,可以前往下面网站试听。

试听样例:

https://sparkaudio.github.io/spark-tts/

性能超越同类TTS模型。

 

 


在一系列基准测试中,Spark-TTS的表现超越了许多知名TTS模型:

  • 语音质量(UTMOS评分):4.35(高于CosyVoice2的4.23)

  • 零样本语音克隆准确率:99.77%(比其他模型更精准)

此外,Spark-TTS还支持Nvidia Triton推理服务器,在单张L20 GPU上实现了毫秒级延迟的高效合成,更适合大规模应用部署。

二、如何安装和使用 Spark-TTS?

如果你想亲自体验Spark-TTS,下面是快速上手的步骤:

1. 安装:
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

也可以使用阿里云镜像源:

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
2. 下载预训练模型

可以使用以下方式下载预训练模型:

from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

或者使用Git:

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
3. 运行推理(语音合成)
cd example
bash infer.sh

或者直接运行:

python -m cli.inference \
    --text "你好,欢迎使用Spark-TTS!" \
    --device 0 \
    --save_dir "output_audio" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "你好,这是示例音频" \
    --prompt_speech_path "path/to/prompt_audio.wav"
4. 启动Web UI

如果你想在网页界面上操作,可以运行:

python webui.py --device 0

这样,你就可以在线上传参考音频,进行语音克隆和创建!

虽然Spark-TTS已经取得了突破性的进展,但他们团队还计划:

  • 优化说话人特征建模,提升语音克隆的个性化还原度

  • 增加更多控制参数,让用户能自定义更多细节

  • 扩展多语言支持,让 Spark-TTS 成为真正的全球化 TTS 解决方案

Spark-TTS 的发布,标志着 AI 语音合成进入了一个全新的时代。无论是个性化语音助手、内容创作、语言学习还是无障碍辅助,这款超强的 AI 语音模型都可以给广大用户带来更多的便利。

当然,也是有弊的,就比如我的视频,经常被这种 AI 工具直接换个声音,发布到平台上,也让盗版视频更加猖獗。希望相关的规则 / 法律,也可以尽快跟上。

感兴趣的小伙伴,可以试一试这个 Spark-TTS。

 

转:https://mp.weixin.qq.com/s/r-5aKsolQYB6ig_81jL-pw

posted @ 2025-03-26 09:05  rmticocean  阅读(398)  评论(0)    收藏  举报