很顶!零成本克隆你的声音,这款B站开源神器太强了
今天分享的内容,只有两个字形容:很顶。
本期我们要干一件大事:在本地电脑上部署 B 站开源的顶流 TTS(语音合成)大模型,并结合 N8N 实现自动化调用。
为什么要折腾本地部署?原因很简单,被云端 API 坑怕了:
- 不稳定:某国内大厂的语音接口,最近频繁调用失败,甚至直接报错,严重影响效率。
- 要收费:云端 TTS 稍微好听点的都要钱,而本地部署——完全免费。
- 性能独享:本地模型不仅私密性好,而且性能直接拉满,不用和别人抢服务器资源。
- 无限音色:你可以用任何人的声音来合成你的音频,支持无限(个)音色爽歪歪。
话不多说,今天咱们就把最新的 Index TTS(基于 B 站开源项目封装)部署到本地,顺便教大家怎么用 N8N 避坑调用。
视频演示
https://www.bilibili.com/video/BV1x1q8B9EEy/
🚀 第一步:傻瓜式本地部署
别听到“部署”就头大,这次我找的是一键安装包,真正意义上的“有手就行”。
📦 准备工作
- 下载最新版一键整合包:https://pan.quark.cn/s/e9e3b69ae51b
- 安装包大小:压缩包 10GB,解压后约 20GB。
- 硬盘空间:建议预留 30GB 以上。
- 显卡要求:显存最好在 6G 以上。
- 实测参考:我是 16G 显存的显卡,生成速度极快,10 秒的音频只需 10 秒生成(1:1 效率)。
🛠️ 操作步骤
-
下载并解压安装包(下载地址在文末)。
-
进入文件夹,找到并双击 “启动器”。

-
首次运行会自动下载依赖,大概需要 1-2 分钟。
-
当看到控制台显示访问地址,且浏览器自动跳出 Web 界面时,恭喜你,部署成功!

PS:启动比较慢 2 分钟左右,出现 URL 地址就启动成功了。
🎙️ 第二步:网页版初体验
部署好后,默认会打开一个网页版界面。

操作逻辑非常简单,分三步走:
- 上传音色:传一个几秒钟的 MP3(比如姜文老师的语音)作为参考音频。如果没有,可以用系统自带的。
- 输入文案:写下你想让 AI 说的话。
- 点击生成:稍等片刻,音频就出来了。
测试文案:“送给大家一句话:路与他人各不同,不必听风就动容。”
实测下来,效果非常惊艳,语气停顿几乎和真人没区别。但我们的目标不仅于此,我们要自动化!
🔗 第三步:N8N 自动化调用(避坑指南)
这部分是重头戏,也是最容易踩坑的地方。看似简单的 API 调用,我足足卡了 4个小时 才搞定!

💡 获取 API 接口
在网页版界面往下拉,点击 “通过 API 调用”。选择 HTTP 方式,你会看到一段代码。我们需要重点关注里面的 URL 和参数。
⚠️ 核心坑点 & 解决方案
官方提供的直接生成接口,在 N8N 里调用时,返回的音频经常是空的。
经过反复调试,我发现这是因为生成过程是异步的。
✅ 正确的 N8N 工作流逻辑:
- 发起任务请求:通过 HTTP Request 节点发送文字和参考音频,服务器会返回一个
task_id(任务ID)。 - 轮询/获取结果:根据这个 ID,再次发送请求去查询任务状态。
- 提取 URL:当任务完成后,系统会返回一个二进制文件的下载地址。
- 下载音频:最后访问这个地址,拿到最终的 MP3 文件。
🎧 最终效果
搞定工作流后,以后再也不用自己录音了。
- 克隆自己:我上传了自己的声音样本,输入文字,生成的语音连我自己都分不清真假。以后视频里那些录不好的片段,直接用 AI 补录,毫无违和感。
- 变声整活:我把参考音频换成了“小岳岳(岳云鹏)”的 MP3,再次运行工作流。
- 耗时:4秒的音频,生成仅需 4秒。
- 效果:那味儿一下就出来了!
总结一下:
本地部署 TTS + N8N 自动化,不仅解决了费用和稳定性问题,还实现了1:1 的高效生成。只要你的电脑开着,这个服务就永远在线,永远免费。
本文已收录到我的技术小站 www.javacn.site,网站包含的内容有:LangChain/N8N/SpringAI/SpringAIAlibaba/LangChain4j/Dify/Coze/AI实战项目/AI常见面试题等技术分享,欢迎各位大佬光临指导~

浙公网安备 33010602011771号