啊诚 - 博客园

2023年8月22日

语音合成技术6：DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model

摘要： DuTa-VC: 一种具有扩散概率模型的时长感知典型到非典型语音转换方法摘要我们提出了一种新颖的典型到非典型语音转换方法（DuTa-VC），它具有以下特点：（i）可以使用非平行数据进行训练，（ii）首次引入了扩散概率模型，（iii）保留了目标说话者的身份，（iv）了解目标说话者的音素持续时间。D 阅读全文

posted @ 2023-08-22 14:07 啊诚阅读(333) 评论(0) 推荐(0)

语音合成技术5：Disentanglement in a GAN for Unconditional Speech Synthesis

摘要： Disentanglement in a GAN for Unconditional Speech Synthesis 在无条件语音合成中的GAN解缠摘要— 我们是否可以开发一个模型，可以直接从潜在空间合成逼真的语音，而无需明确的条件？尽管在过去的十年里进行了多次尝试，以对抗和扩散为基础的方法仍然阅读全文

posted @ 2023-08-22 12:02 啊诚阅读(410) 评论(0) 推荐(0)

2023年8月10日

语音合成技术4：StarGANv2-VC: 一个多样化、无监督、非平行的自然音声转换框架

摘要： StarGANv2-VC: 一个多样化、无监督、非平行的自然音声转换框架摘要我们提出了一种使用生成对抗网络（GAN）的无监督非平行多对多声音转换（VC）方法，称为StarGAN v2。通过使用对抗性源分类器损失和感知损失的组合，我们的模型明显优于先前的VC模型。虽然我们的模型仅通过20名英语讲话阅读全文

posted @ 2023-08-10 20:22 啊诚阅读(1050) 评论(0) 推荐(0)

2023年8月7日

语音合成技术3：HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer

摘要： HierVST: 分层自适应零样本语音风格转换摘要：尽管语音风格转换（VST）领域取得了快速进展，但最近的零样本VST系统仍然缺乏将新的说话者的语音风格进行转换的能力。在本文中，我们提出了HierVST，这是一个分层自适应的端到端零样本VST模型。在没有任何文本转录的情况下，我们仅利用语音数据集阅读全文

posted @ 2023-08-07 13:38 啊诚阅读(674) 评论(0) 推荐(1)

2023年7月29日

语音合成技术2：FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION

摘要：摘要语音转换（VC）可以通过首先提取源内容信息和目标说话者信息，然后利用这些信息重构波形来实现。然而，目前的方法通常要么提取带有泄漏说话者信息的不完整内容信息，要么需要大量带标注的数据进行训练。此外，由于转换模型与声码器之间的不匹配，重构波形的质量可能会下降。在本文中，我们采用了VITS的端到端框阅读全文

posted @ 2023-07-29 17:11 啊诚阅读(1193) 评论(0) 推荐(0)

语音合成技术汇总1：Glow-TTS：通过单调对齐实现文本到语音的生成流

摘要：今天开始开一期语音合成经典论文的翻译 Glow-TTS：通过单调对齐实现文本到语音的生成流摘要：最近，文本到语音（Text-to-Speech，TTS）模型，如FastSpeech和ParaNet，被提出以并行方式从文本生成mel频谱图（mel-spectrograms）。尽管并行TTS模型具有阅读全文

posted @ 2023-07-29 14:56 啊诚阅读(3693) 评论(0) 推荐(1)

2023年7月26日

论文翻译（扩散模型来了）：Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data

摘要：利用发现的数据来创建合成声音是具有挑战性的，因为现实世界的录音通常包含各种类型的音频退化。解决这个问题的一种方法是使用增强模型对语音进行预增强，然后使用增强后的数据进行文本转语音（TTS）模型训练。本论文研究了使用条件扩散模型进行广义语音增强，旨在同时解决多种类型的音频退化。增强是在对数Mel频谱领阅读全文

posted @ 2023-07-26 14:44 啊诚阅读(899) 评论(0) 推荐(0)

2023年7月20日

解释一下为为什么使用 instance normalization可以消除说话人信息，保留说话人内容

摘要：在content encoder中使用instance normalization，可以起到去除说话者信息的作用。首先来看一下instance normalization的原理，一般会对输入语音做conv1d得到feature map，有几个conv1d filter就会得到几个feature ma 阅读全文

posted @ 2023-07-20 23:05 啊诚阅读(252) 评论(0) 推荐(0)

论文翻译： FREEVC：朝着高质量、无文本、单次转换声音的目标迈进

摘要：原文：FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION 原文地址：https://ieeexplore.ieee.org/abstract/document/10095191 个人总结： 1.提出mel谱缩放增强方法。阅读全文

posted @ 2023-07-20 22:17 啊诚阅读(1108) 评论(0) 推荐(0)

论文翻译：CycleGAN

摘要：原文：PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS 地址：https://arxiv.org/pdf/1711.11293v2.pdf 摘要：我们提出了一种无需平行数据的语音转换（VC 阅读全文

posted @ 2023-07-20 17:06 啊诚阅读(454) 评论(0) 推荐(0)

啊诚

公告