TTS
TTS:Text-to-Speech
TTS(文字转语音) 是将文本内容转换为可听的自然语音的技术。
1.1 工作原理
1.文本预处理
•分词、拼音、标点处理、缩写展开等。
2.文本到语音映射
•根据语言模型预测音素序列。
3.声学建模
•使用神经网络(如 Tacotron2、FastSpeech)生成语音特征。
4.声码器(Vocoder)
•将语音特征转换为真实的音频波形。
类比:
TTS = “翻译器” + “歌唱家”
•翻译器:把文字翻译成“怎么读”
•歌唱家:根据韵律唱出来
常见的 TTS 引擎
| 引擎 | 特点 | 语音质量 | 延迟 | 适用场景 |
|---|---|---|---|---|
| Google TTS | 云端 API,支持多语言 | 高 | 中 | 智能助手、App |
| Azure TTS | 支持情感语音、角色扮演 | 高 | 低 | 虚拟人、客服 |
| Amazon Polly | 商业化成熟,语种多 | 高 | 中 | 多语言播报 |
| 科大讯飞 TTS | 中文表现优秀,声线多样 | 高 | 低 | 智能音箱 |
| OpenAI TTS | 支持高自然度语音、可定制说话人 | 极高 | 中 | 多模态应用 |
SSML:Speech Synthesis Markup Language
https://www.w3.org/TR/speech-synthesis/
SSML 是一种基于 XML 的标记语言,用于控制 TTS 引擎的语音表现。
2.1 作用
•控制 语速(快/慢)
•调整 音调(高/低)
•插入 停顿(自然、句读感)
•选择 发音人(男声、女声、不同角色)
•控制 情绪(愉快、悲伤、兴奋)
如果说 TTS 是“说话的人”,
那 SSML 就是“导演”,告诉 TTS 怎么演。
<speak>
大家好,
<break time="500ms"/>
欢迎来到 <prosody rate="slow">智慧照明管理系统</prosody> 演示。
<emphasis level="strong">请注意以下操作!</emphasis>
</speak>
效果
• → 插入 500ms 停顿
• → 语速降低
• → 加强语气
其他相关概念
TTS Voice(语音模型)
•定义:语音引擎中的“声音角色”,通常可选多种音色。
•例子:zh-CN-XiaoxiaoNeural(微软)、en-US-JennyNeural(Azure)
韵律(Prosody)
•控制 语速、音高、音量,让语音更自然。
多说话人(Multi-speaker TTS)
•在同一段语音中切换说话人,例如新闻播报、角色配音。
<speak>
<voice name="zh-CN-XiaoxiaoNeural">大家好,我是小晓。</voice>
<voice name="zh-CN-YunjianNeural">大家好,我是云健。</voice>
</speak>

应用场景
| 场景 | 说明 | 技术点 |
|---|---|---|
| 智能客服 | 多轮对话、情感化回复 | SSML 情绪、停顿 |
| 智能音箱 | 个性化播报、自然语音 | 多说话人 TTS |
| 视频配音 | 大规模自动化配音 | 高自然度 TTS |
| 无障碍应用 | 阅读文本给视障用户 | 高准确率 TTS |
| 教育类 | 模拟对话、口语陪练 | SSML 发音控制 |
总结
•TTS 负责“把文字说出来”
•SSML 负责“让语音更像人”
•两者结合,可以让 AI 说话更自然、更生动。
如果只用 TTS,语音就像“机器人播报”;
如果加上 SSML,语音就像“真人演绎”。
如果这篇文章对你有用,可以关注本人微信公众号获取更多ヽ(^ω^)ノ ~


浙公网安备 33010602011771号