Fork me on GitHub

TTS音频导出采样率和格式

音频采样率与格式对比

先说结论,TTS导出优先24KHz WAV格式。如果太大采样率16KHz也行。WAV是无损格式,后期可以转为mp3(但是mp3转不了无损的WAV)。


1. 采样率区别(8k / 16k / 24k / 48k)

采样率 音质效果 常见用途 优点 缺点
8kHz 电话音质,声音比较单薄 电话客服、对讲机、IVR 文件最小、带宽占用低 音质差,不适合音乐或自然语音
16kHz 高清人声,清晰自然 语音识别、会议录音、TTS 人声还原度高,识别率好 文件比 8k 稍大
24kHz 接近 CD 音质,细节更丰富 AI 播报、在线讲解、播客 平衡音质与文件大小,TTS最佳选择 文件更大一些
48kHz 专业级音质,高保真 音乐制作、视频后期、电影音轨 声音最清晰、最自然 文件体积大,性能开销高

总结

  • 8kHz → 电话、IVR
  • 16kHz → 高清语音、AI识别
  • 24kHz → TTS最佳选择
  • 48kHz → 专业音乐和后期制作

2. 格式区别(MP3 vs WAV)

特性 WAV MP3
压缩方式 无损压缩 有损压缩
文件大小 大,常见为原始 PCM 小,通常可压缩 70%~90%
音质 保真,适合二次处理 有损,适合最终播放
延迟 低,实时性强 略高,不适合低延迟场景
兼容性 标准格式,广泛支持 支持度更高,几乎所有设备都能播放
典型用途 语音识别、TTS、音频后期制作 成品音乐、播客、终端播放
场景推荐 如果还要后期编辑或做语音识别,选 WAV 如果只做成品播放,选 MP3

总结

  • WAV = 原片,适合后期和 AI 处理
  • MP3 = 成片,适合最终播放和节省空间

posted @ 2025-09-12 11:05  秋夜雨巷  阅读(34)  评论(0)    收藏  举报