摘要: 一、核心输入特征类别: 特征类型 描述 用途 文本信息 原始文本(可转换成音素) 提供内容定义 韵律特征 基频F0、能量、时长 控制语调、节奏、情感 说话人特征 d-vector、x-vector、ECAPA嵌入等 区分说话人音色,支持多说话人TTS 音频特征 梅尔频谱、线性频谱、STFT等 模型输 阅读全文
posted @ 2025-04-23 20:40 爱露查 阅读(46) 评论(0) 推荐(0)