08 2023 档案
摘要:DuTa-VC: 一种具有扩散概率模型的时长感知典型到非典型语音转换方法 摘要 我们提出了一种新颖的典型到非典型语音转换方法(DuTa-VC),它具有以下特点:(i)可以使用非平行数据进行训练,(ii)首次引入了扩散概率模型,(iii)保留了目标说话者的身份,(iv)了解目标说话者的音素持续时间。D
阅读全文
摘要:Disentanglement in a GAN for Unconditional Speech Synthesis 在无条件语音合成中的GAN解缠 摘要— 我们是否可以开发一个模型,可以直接从潜在空间合成逼真的语音,而无需明确的条件?尽管在过去的十年里进行了多次尝试,以对抗和扩散为基础的方法仍然
阅读全文
摘要:StarGANv2-VC: 一个多样化、无监督、非平行的自然音声转换框架 摘要 我们提出了一种使用生成对抗网络(GAN)的无监督非平行多对多声音转换(VC)方法,称为StarGAN v2。通过使用对抗性源分类器损失和感知损失的组合,我们的模型明显优于先前的VC模型。虽然我们的模型仅通过20名英语讲话
阅读全文
摘要:HierVST: 分层自适应零样本语音风格转换 摘要: 尽管语音风格转换(VST)领域取得了快速进展,但最近的零样本VST系统仍然缺乏将新的说话者的语音风格进行转换的能力。在本文中,我们提出了HierVST,这是一个分层自适应的端到端零样本VST模型。在没有任何文本转录的情况下,我们仅利用语音数据集
阅读全文

浙公网安备 33010602011771号