Fork me on GitHub

TTS

TTS:Text-to-Speech

TTS(文字转语音) 是将文本内容转换为可听的自然语音的技术。

1.1 工作原理
1.文本预处理
•分词、拼音、标点处理、缩写展开等。
2.文本到语音映射
•根据语言模型预测音素序列。
3.声学建模
•使用神经网络(如 Tacotron2、FastSpeech)生成语音特征。
4.声码器(Vocoder)
•将语音特征转换为真实的音频波形。

类比:
TTS = “翻译器” + “歌唱家”
•翻译器:把文字翻译成“怎么读”
•歌唱家:根据韵律唱出来

常见的 TTS 引擎

引擎 特点 语音质量 延迟 适用场景
Google TTS 云端 API,支持多语言 智能助手、App
Azure TTS 支持情感语音、角色扮演 虚拟人、客服
Amazon Polly 商业化成熟,语种多 多语言播报
科大讯飞 TTS 中文表现优秀,声线多样 智能音箱
OpenAI TTS 支持高自然度语音、可定制说话人 极高 多模态应用

SSML:Speech Synthesis Markup Language

https://www.w3.org/TR/speech-synthesis/
SSML 是一种基于 XML 的标记语言,用于控制 TTS 引擎的语音表现。

2.1 作用
•控制 语速(快/慢)
•调整 音调(高/低)
•插入 停顿(自然、句读感)
•选择 发音人(男声、女声、不同角色)
•控制 情绪(愉快、悲伤、兴奋)

如果说 TTS 是“说话的人”,
那 SSML 就是“导演”,告诉 TTS 怎么演。

<speak>
  大家好,
  <break time="500ms"/>
  欢迎来到 <prosody rate="slow">智慧照明管理系统</prosody> 演示。
  <emphasis level="strong">请注意以下操作!</emphasis>
</speak>

效果
• → 插入 500ms 停顿
• → 语速降低
• → 加强语气

其他相关概念

TTS Voice(语音模型)

•定义:语音引擎中的“声音角色”,通常可选多种音色。
•例子:zh-CN-XiaoxiaoNeural(微软)、en-US-JennyNeural(Azure)

韵律(Prosody)

•控制 语速、音高、音量,让语音更自然。

多说话人(Multi-speaker TTS)

•在同一段语音中切换说话人,例如新闻播报、角色配音。

<speak>
  <voice name="zh-CN-XiaoxiaoNeural">大家好,我是小晓。</voice>
  <voice name="zh-CN-YunjianNeural">大家好,我是云健。</voice>
</speak>

image

应用场景

场景 说明 技术点
智能客服 多轮对话、情感化回复 SSML 情绪、停顿
智能音箱 个性化播报、自然语音 多说话人 TTS
视频配音 大规模自动化配音 高自然度 TTS
无障碍应用 阅读文本给视障用户 高准确率 TTS
教育类 模拟对话、口语陪练 SSML 发音控制

总结

•TTS 负责“把文字说出来”
•SSML 负责“让语音更像人”
•两者结合,可以让 AI 说话更自然、更生动。

如果只用 TTS,语音就像“机器人播报”;
如果加上 SSML,语音就像“真人演绎”。

posted @ 2025-09-05 18:59  秋夜雨巷  阅读(169)  评论(0)    收藏  举报