典型TTS的特征提取
一、核心输入特征类别:
| 特征类型 | 描述 | 用途 |
| 文本信息 | 原始文本(可转换成音素) | 提供内容定义 |
| 韵律特征 | 基频F0、能量、时长 | 控制语调、节奏、情感 |
| 说话人特征 | d-vector、x-vector、ECAPA嵌入等 | 区分说话人音色,支持多说话人TTS |
| 音频特征 | 梅尔频谱、线性频谱、STFT等 | 模型输出目标(声学建模)、训练监督信号 |
| 噪声/风格向量 | 风格embedding、noise vector | 控制风格变化、多样性 |
区分:
1:FastSpeech、Tacotron等模型使用显示的音素建模,输入的时候直接包含音素
2:VITS、So-VITS,StyleTTS等模型,不用直接输入因素,可以直接通过wav、声纹编码(ECAPA)进行训练
| 模型 | 用途 | wav的作用 |
| VALL-E/VALL-E X | Few-shot TTS | 提取说话人+风格 |
| GPT-SoVITS | 语音克隆+TTS | 提取声纹和语义token |
| StyleTTS2 | 情感/风格迁移 | 提取风格编码 |
| SoVITS | 语音转换/合成 | 提取内容token+声纹编码 |
| SoundStorm/EnCodec | 大规模语音生成 | 变成语音token |
语音克隆和语音转换的区别:
语音克隆:克隆一个人的声音,用这个人的声音去说话
语音转换:用来做某一句话的声音替换,用另一个人的声音说这句话,内容不变

浙公网安备 33010602011771号