典型TTS的特征提取

一、核心输入特征类别:

  

特征类型 描述 用途
文本信息 原始文本(可转换成音素) 提供内容定义
韵律特征 基频F0、能量、时长 控制语调、节奏、情感
说话人特征 d-vector、x-vector、ECAPA嵌入等 区分说话人音色,支持多说话人TTS
音频特征 梅尔频谱、线性频谱、STFT等 模型输出目标(声学建模)、训练监督信号
噪声/风格向量 风格embedding、noise vector 控制风格变化、多样性

区分:

  1:FastSpeech、Tacotron等模型使用显示的音素建模,输入的时候直接包含音素

  2:VITS、So-VITS,StyleTTS等模型,不用直接输入因素,可以直接通过wav、声纹编码(ECAPA)进行训练

模型 用途 wav的作用
VALL-E/VALL-E X Few-shot TTS 提取说话人+风格
GPT-SoVITS 语音克隆+TTS 提取声纹和语义token
StyleTTS2 情感/风格迁移 提取风格编码
SoVITS 语音转换/合成 提取内容token+声纹编码
SoundStorm/EnCodec 大规模语音生成 变成语音token

语音克隆和语音转换的区别:

  语音克隆:克隆一个人的声音,用这个人的声音去说话

   语音转换:用来做某一句话的声音替换,用另一个人的声音说这句话,内容不变

 

posted @ 2025-04-23 20:40  爱露查  阅读(46)  评论(0)    收藏  举报