TTS音频导出采样率和格式
音频采样率与格式对比
先说结论,TTS导出优先24KHz WAV格式。如果太大采样率16KHz也行。WAV是无损格式,后期可以转为mp3(但是mp3转不了无损的WAV)。
1. 采样率区别(8k / 16k / 24k / 48k)
| 采样率 | 音质效果 | 常见用途 | 优点 | 缺点 |
|---|---|---|---|---|
| 8kHz | 电话音质,声音比较单薄 | 电话客服、对讲机、IVR | 文件最小、带宽占用低 | 音质差,不适合音乐或自然语音 |
| 16kHz | 高清人声,清晰自然 | 语音识别、会议录音、TTS | 人声还原度高,识别率好 | 文件比 8k 稍大 |
| 24kHz | 接近 CD 音质,细节更丰富 | AI 播报、在线讲解、播客 | 平衡音质与文件大小,TTS最佳选择 | 文件更大一些 |
| 48kHz | 专业级音质,高保真 | 音乐制作、视频后期、电影音轨 | 声音最清晰、最自然 | 文件体积大,性能开销高 |
总结
- 8kHz → 电话、IVR
- 16kHz → 高清语音、AI识别
- 24kHz → TTS最佳选择
- 48kHz → 专业音乐和后期制作
2. 格式区别(MP3 vs WAV)
| 特性 | WAV | MP3 |
|---|---|---|
| 压缩方式 | 无损压缩 | 有损压缩 |
| 文件大小 | 大,常见为原始 PCM | 小,通常可压缩 70%~90% |
| 音质 | 保真,适合二次处理 | 有损,适合最终播放 |
| 延迟 | 低,实时性强 | 略高,不适合低延迟场景 |
| 兼容性 | 标准格式,广泛支持 | 支持度更高,几乎所有设备都能播放 |
| 典型用途 | 语音识别、TTS、音频后期制作 | 成品音乐、播客、终端播放 |
| 场景推荐 | 如果还要后期编辑或做语音识别,选 WAV | 如果只做成品播放,选 MP3 |
总结
- WAV = 原片,适合后期和 AI 处理
- MP3 = 成片,适合最终播放和节省空间
如果这篇文章对你有用,可以关注本人微信公众号获取更多ヽ(^ω^)ノ ~


浙公网安备 33010602011771号