TTS

TTS：Text-to-Speech

TTS（文字转语音）是将文本内容转换为可听的自然语音的技术。

1.1 工作原理
1.文本预处理
•分词、拼音、标点处理、缩写展开等。
2.文本到语音映射
•根据语言模型预测音素序列。
3.声学建模
•使用神经网络（如 Tacotron2、FastSpeech）生成语音特征。
4.声码器（Vocoder）
•将语音特征转换为真实的音频波形。

类比：
TTS = “翻译器” + “歌唱家”
•翻译器：把文字翻译成“怎么读”
•歌唱家：根据韵律唱出来

常见的 TTS 引擎

引擎	特点	语音质量	延迟	适用场景
Google TTS	云端 API，支持多语言	高	中	智能助手、App
Azure TTS	支持情感语音、角色扮演	高	低	虚拟人、客服
Amazon Polly	商业化成熟，语种多	高	中	多语言播报
科大讯飞 TTS	中文表现优秀，声线多样	高	低	智能音箱
OpenAI TTS	支持高自然度语音、可定制说话人	极高	中	多模态应用

SSML：Speech Synthesis Markup Language

https://www.w3.org/TR/speech-synthesis/
SSML 是一种基于 XML 的标记语言，用于控制 TTS 引擎的语音表现。

2.1 作用
•控制语速（快/慢）
•调整音调（高/低）
•插入停顿（自然、句读感）
•选择发音人（男声、女声、不同角色）
•控制情绪（愉快、悲伤、兴奋）

如果说 TTS 是“说话的人”，
那 SSML 就是“导演”，告诉 TTS 怎么演。

<speak>
  大家好，
  <break time="500ms"/>
  欢迎来到 <prosody rate="slow">智慧照明管理系统</prosody> 演示。
  <emphasis level="strong">请注意以下操作！</emphasis>
</speak>

效果
• → 插入 500ms 停顿
• → 语速降低
• → 加强语气

其他相关概念

TTS Voice（语音模型）

•定义：语音引擎中的“声音角色”，通常可选多种音色。
•例子：zh-CN-XiaoxiaoNeural（微软）、en-US-JennyNeural（Azure）

韵律（Prosody）

•控制语速、音高、音量，让语音更自然。

多说话人（Multi-speaker TTS）

•在同一段语音中切换说话人，例如新闻播报、角色配音。

<speak>
  <voice name="zh-CN-XiaoxiaoNeural">大家好，我是小晓。</voice>
  <voice name="zh-CN-YunjianNeural">大家好，我是云健。</voice>
</speak>

应用场景

场景	说明	技术点
智能客服	多轮对话、情感化回复	SSML 情绪、停顿
智能音箱	个性化播报、自然语音	多说话人 TTS
视频配音	大规模自动化配音	高自然度 TTS
无障碍应用	阅读文本给视障用户	高准确率 TTS
教育类	模拟对话、口语陪练	SSML 发音控制

总结

•TTS 负责“把文字说出来”
•SSML 负责“让语音更像人”
•两者结合，可以让 AI 说话更自然、更生动。

如果只用 TTS，语音就像“机器人播报”；
如果加上 SSML，语音就像“真人演绎”。

posted @ 2025-09-05 18:59 秋夜雨巷阅读(178) 评论(0) 收藏举报

秋夜雨巷

GitHub地址: https://autkevin.github.io/
本博客是为了记录工作和学习中的总结，可以交流学习，请勿在不理解的情况下直接复制粘贴

TTS

TTS：Text-to-Speech

常见的 TTS 引擎

SSML：Speech Synthesis Markup Language

其他相关概念

TTS Voice（语音模型）

韵律（Prosody）

多说话人（Multi-speaker TTS）

应用场景

总结

公告

秋夜雨巷

GitHub地址: https://autkevin.github.io/ 本博客是为了记录工作和学习中的总结，可以交流学习，请勿在不理解的情况下直接复制粘贴

TTS

TTS：Text-to-Speech

常见的 TTS 引擎

SSML：Speech Synthesis Markup Language

其他相关概念

TTS Voice（语音模型）

韵律（Prosody）

多说话人（Multi-speaker TTS）

应用场景

总结

公告

GitHub地址: https://autkevin.github.io/
本博客是为了记录工作和学习中的总结，可以交流学习，请勿在不理解的情况下直接复制粘贴