随笔档案「2023年7月」 - 啊诚

语音合成技术2：FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION

摘要：摘要语音转换（VC）可以通过首先提取源内容信息和目标说话者信息，然后利用这些信息重构波形来实现。然而，目前的方法通常要么提取带有泄漏说话者信息的不完整内容信息，要么需要大量带标注的数据进行训练。此外，由于转换模型与声码器之间的不匹配，重构波形的质量可能会下降。在本文中，我们采用了VITS的端到端框阅读全文

posted @ 2023-07-29 17:11 啊诚阅读(1165) 评论(0) 推荐(0)

语音合成技术汇总1：Glow-TTS：通过单调对齐实现文本到语音的生成流

摘要：今天开始开一期语音合成经典论文的翻译 Glow-TTS：通过单调对齐实现文本到语音的生成流摘要：最近，文本到语音（Text-to-Speech，TTS）模型，如FastSpeech和ParaNet，被提出以并行方式从文本生成mel频谱图（mel-spectrograms）。尽管并行TTS模型具有阅读全文

posted @ 2023-07-29 14:56 啊诚阅读(3489) 评论(0) 推荐(1)

论文翻译（扩散模型来了）：Diffusion-Based Mel-Spectrogram Enhancement for Personalized Speech Synthesis with Found Data

摘要：利用发现的数据来创建合成声音是具有挑战性的，因为现实世界的录音通常包含各种类型的音频退化。解决这个问题的一种方法是使用增强模型对语音进行预增强，然后使用增强后的数据进行文本转语音（TTS）模型训练。本论文研究了使用条件扩散模型进行广义语音增强，旨在同时解决多种类型的音频退化。增强是在对数Mel频谱领阅读全文

posted @ 2023-07-26 14:44 啊诚阅读(870) 评论(0) 推荐(0)

解释一下为为什么使用 instance normalization可以消除说话人信息，保留说话人内容

摘要：在content encoder中使用instance normalization，可以起到去除说话者信息的作用。首先来看一下instance normalization的原理，一般会对输入语音做conv1d得到feature map，有几个conv1d filter就会得到几个feature ma 阅读全文

posted @ 2023-07-20 23:05 啊诚阅读(241) 评论(0) 推荐(0)

论文翻译： FREEVC：朝着高质量、无文本、单次转换声音的目标迈进

摘要：原文：FREEVC: TOWARDS HIGH-QUALITY TEXT-FREE ONE-SHOT VOICE CONVERSION 原文地址：https://ieeexplore.ieee.org/abstract/document/10095191 个人总结： 1.提出mel谱缩放增强方法。阅读全文

posted @ 2023-07-20 22:17 啊诚阅读(1079) 评论(0) 推荐(0)

论文翻译：CycleGAN

摘要：原文：PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS 地址：https://arxiv.org/pdf/1711.11293v2.pdf 摘要：我们提出了一种无需平行数据的语音转换（VC 阅读全文

posted @ 2023-07-20 17:06 啊诚阅读(423) 评论(0) 推荐(0)

论文翻译：跨语言语音转换和富有表现力的语音转换

摘要：论文原文：USING JOINT TRAINING SPEAKER ENCODER WITH CONSISTENCY LOSS TO ACHIEVE CROSS-LINGUAL VOICE CONVERSION AND EXPRESSIVE VOICE CONVERSION 代码和论文地址：http 阅读全文

posted @ 2023-07-20 15:19 啊诚阅读(1633) 评论(1) 推荐(2)

啊诚

07 2023 档案

公告