07 2023 档案
摘要:摘要 语音转换(VC)可以通过首先提取源内容信息和目标说话者信息,然后利用这些信息重构波形来实现。然而,目前的方法通常要么提取带有泄漏说话者信息的不完整内容信息,要么需要大量带标注的数据进行训练。此外,由于转换模型与声码器之间的不匹配,重构波形的质量可能会下降。在本文中,我们采用了VITS的端到端框
阅读全文
摘要:今天开始开一期语音合成经典论文的翻译 Glow-TTS:通过单调对齐实现文本到语音的生成流 摘要: 最近,文本到语音(Text-to-Speech,TTS)模型,如FastSpeech和ParaNet,被提出以并行方式从文本生成mel频谱图(mel-spectrograms)。尽管并行TTS模型具有
阅读全文
摘要:利用发现的数据来创建合成声音是具有挑战性的,因为现实世界的录音通常包含各种类型的音频退化。解决这个问题的一种方法是使用增强模型对语音进行预增强,然后使用增强后的数据进行文本转语音(TTS)模型训练。本论文研究了使用条件扩散模型进行广义语音增强,旨在同时解决多种类型的音频退化。增强是在对数Mel频谱领
阅读全文
摘要:在content encoder中使用instance normalization,可以起到去除说话者信息的作用。首先来看一下instance normalization的原理,一般会对输入语音做conv1d得到feature map,有几个conv1d filter就会得到几个feature ma
阅读全文
摘要:原文:FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION 原文地址:https://ieeexplore.ieee.org/abstract/document/10095191 个人总结: 1.提出mel谱缩放增强方法。
阅读全文
摘要:原文:PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS 地址:https://arxiv.org/pdf/1711.11293v2.pdf 摘要: 我们提出了一种无需平行数据的语音转换(VC
阅读全文
摘要:论文原文:USING JOINT TRAINING SPEAKER ENCODER WITH CONSISTENCY LOSS TO ACHIEVE CROSS-LINGUAL VOICE CONVERSION AND EXPRESSIVE VOICE CONVERSION 代码和论文地址:http
阅读全文

浙公网安备 33010602011771号