小米XiaoMiTTS-Local-Skill - PetterLiu

公告

小米XiaoMiTTS-Local-Skill

小米XiaoMi-TTS-Local-Skill

背景

1. 传统TTS的级联式架构

典型流程：文本规范化 → G2P(音素转换) → 声学建模 → 声码器生成
局限性：误差在各环节累积，难以捕捉复杂语义关系
代表技术：Tacotron+WaveNet、FastSpeech系列等

2. 基于LLM的TTS的语义驱动架构

核心创新：将大语言模型作为"语音意图解码器"，形成"文本→语义意图→声学特征"的闭环
典型架构：

文本预处理：分词+韵律预测+音素转换
语义-声学建模：结合LLM上下文理解生成梅尔频谱
情感控制器：注入情绪标签与强度参数
声码器：HiFi-GAN还原为高保真波形音频

配置

以Trae IDE/Agent工具为例，配置好Skill如何目录，在scripts目录放入可以执行文件，注意这个版本是

windows 64版本从这儿下载EXE文件

https://gitee.com/Megadotnet/XiaomiTTS/releases/

需要从源码打包也可以, 项目已开源

dotnet publish -c Release -r win-x64 --self-contained true /p:PublishSingleFile=true /p:IncludeNativeLibrariesForSelfExtract=true

目录结构

├─.trae

│ └─skills

│ └─xiaomi-local-tts

│ │ SKILL.md

│ │

│ └─scripts

│ XiaomiTTS.exe

在环境变量MIMO_API_KEY配置好APIKEY

Skills

从互联网下载

https://skillhub.cn/skills/xiaomi-local-tts

测试

我们看到已经自动调用Skill, 当前使用的是Kimi2-0902模型，不需要太新LLM模型

已生成音频文件

传统TTS：

需为每个角色单独训练模型，成本高
音色固定，难以适配不同角色或风格需求
无法根据上下文保持语气一致性

基于LLM的TTS：

通过文本提示（prompt）即时切换角色声线与性格，无需重训
支持3秒音色克隆，快速学习说话人音色和习惯
在角色一致性测试中，92%用户认为其"像真人开口"，远超传统TTS的58-73%

功能特性

使用 mimo-v2.5-tts 模型进行高质量语音合成
支持 非流式 和 流式（SSE） 两种调用模式
流式模式实时接收音频数据块，适合长文本合成
自动生成标准 WAV 音频文件（24kHz / 16-bit / 单声道）
批量处理 — 一键将整个目录的文本文件转换为音频
Native AOT 编译支持，生成零依赖单文件可执行程序（约 5.6 MB）
实时进度显示，每秒更新合成进度
基于 Serilog 的结构化日志系统，支持多输出目标
完整的异常处理、错误日志输出与优雅的错误报告
依赖注入架构，遵循 .NET Generic Host 设计模式
基于环境的配置管理，支持热重载

结论

随着大语言模型与语音技术的深度融合，基于LLM的TTS正在推动语音合成从"机械发声"向"情感传递"的质变，为内容创作、智能硬件和无障碍服务等领域带来革命性变化。通过skill调用已集成的TTS API，开发者能够快速构建具备情感化、个性化语音交互能力的应用，不仅大幅降低技术门槛和开发成本，更能借助专业语音技术团队的持续优化，让应用始终保持行业领先的语音交互体验。这种"技术能力即服务"的模式，正在成为智能应用开发的新标准，让开发者能够专注于核心业务创新，而非底层技术实现。

posted on 2026-06-12 21:40 PetterLiu 阅读(4) 评论(1) 收藏举报

刷新页面返回顶部