随笔档案「2023年8月」 - 啊诚

语音合成技术6：DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model

摘要：DuTa-VC: 一种具有扩散概率模型的时长感知典型到非典型语音转换方法摘要我们提出了一种新颖的典型到非典型语音转换方法（DuTa-VC），它具有以下特点：（i）可以使用非平行数据进行训练，（ii）首次引入了扩散概率模型，（iii）保留了目标说话者的身份，（iv）了解目标说话者的音素持续时间。D 阅读全文

posted @ 2023-08-22 14:07 啊诚阅读(321) 评论(0) 推荐(0)

语音合成技术5：Disentanglement in a GAN for Unconditional Speech Synthesis

摘要：Disentanglement in a GAN for Unconditional Speech Synthesis 在无条件语音合成中的GAN解缠摘要— 我们是否可以开发一个模型，可以直接从潜在空间合成逼真的语音，而无需明确的条件？尽管在过去的十年里进行了多次尝试，以对抗和扩散为基础的方法仍然阅读全文

posted @ 2023-08-22 12:02 啊诚阅读(388) 评论(0) 推荐(0)

语音合成技术4：StarGANv2-VC: 一个多样化、无监督、非平行的自然音声转换框架

摘要：StarGANv2-VC: 一个多样化、无监督、非平行的自然音声转换框架摘要我们提出了一种使用生成对抗网络（GAN）的无监督非平行多对多声音转换（VC）方法，称为StarGAN v2。通过使用对抗性源分类器损失和感知损失的组合，我们的模型明显优于先前的VC模型。虽然我们的模型仅通过20名英语讲话阅读全文

posted @ 2023-08-10 20:22 啊诚阅读(1027) 评论(0) 推荐(0)

语音合成技术3：HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer

摘要：HierVST: 分层自适应零样本语音风格转换摘要：尽管语音风格转换（VST）领域取得了快速进展，但最近的零样本VST系统仍然缺乏将新的说话者的语音风格进行转换的能力。在本文中，我们提出了HierVST，这是一个分层自适应的端到端零样本VST模型。在没有任何文本转录的情况下，我们仅利用语音数据集阅读全文

posted @ 2023-08-07 13:38 啊诚阅读(658) 评论(0) 推荐(1)

啊诚

08 2023 档案

公告