基于注意力机制的歌声合成系统解析

更简化的歌声合成系统

歌声合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似，它最初围绕两种范式展开：统计参数合成（使用统计模型再现声音特征）和单元选择（实时重新组合录音片段）。

近年来，文本转语音领域已转向神经文本转语音，即基于深度神经网络的模型，这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。

在今年的Interspeech会议上，我们展示了名为UTACO的歌声合成模型，该模型使用AS2S构建。据我们所知，我们在2019年秋季首次实现这一突破，尽管此后歌声合成领域已引入多个成功的AS2S架构。

系统创新

新系统以带有歌词的乐谱作为输入，将其表示为一系列音素（构成口语单词的最小声音单位），并根据音高和时长等属性进行标记。

UTACO比先前模型更简单：它不依赖于分别生成振动频率、音符和音素时长等输入特征的子模型；相反，它仅以带歌词的记谱音乐作为输入。它还能自主地按调演唱，这并非所有神经模型都能实现。

最重要的是，UTACO实现了高度的自然度。在论文中，我们将其与文献中最新的全神经模型进行比较，后者在使用MUSHRA方法的测试中自然度得分为31分（满分100）。UTACO得分为60分，而人类歌唱的训练样本得分为82分。

技术优势

由于AS2S模型是一个非常活跃的研究领域，UTACO自然可以受益于文献中已报告的许多改进和扩展。

当我们开始研究歌声合成时，我们注意到它与NTTS之间存在显著对比。大多数歌唱模型需要多种不同输入，例如随时间变化的歌声音高模式，或那些缺失会使歌唱听起来不自然的几乎难以察觉的误差。生成每个这些输入都需要独立的子模型。

相比之下，AS2S TTS模型唯一需要的输入是音素序列。在AS2S之前，语音模型还需要指定许多其他特征，例如速度、节奏和语调。AS2S模型从训练样本中自主学习所有这些特征。

性能评估

在论文中，我们将UTACO与WGANSing进行比较，后者在提交时是文献中最新的全神经歌声合成模型。在我们的MUSHRA测试中，40名听众被要求比较同一短歌片段的三个版本，并在感知“自然度”方面从0到100打分。这些版本包括：

UTACO生成的音频
WGANSing生成的音频
用于训练模型的人声录音

听众不知道哪个是哪个，因此没有偏见。得分差异具有统计学显著性。

技术细节

UTACO能够自主产生良好的振动效果，甚至能“决定”在何处应用：在下面的样本输入中，请注意没有振动指示。在UTACO之前，研究人员创建了专门用于表示振动的整个子模型。

UTACO代表了歌声合成的重大进步，但也存在一些缺点。例如，乐谱中的休止符有时会导致其崩溃（这是AS2S架构中的已知问题）。而且其时序并不完全准确，音乐家可以立即察觉到这一点。

模型架构

为了将乐谱转换为UTACO的输入，我们使用称为音符嵌入的表示。我们获取乐谱（MusicXML格式）并对歌词进行语言分析，以确定每个音符必须发音哪些音素。

音素序列是文本转语音模型通常看到的输入。但对于每个音素，我们添加包含它的音符信息：八度（音高范围）、音级（音高范围内的12个音符之一）和以秒为单位的持续时间。我们还添加“进度”流，在音符开始时为1，在结束时为0，因此UTACO知道音符的开始和结束位置。

在典型的NTTS系统中，模型产生频谱图，然后通过基于扩张因果卷积的神经声码器转换为波形。

我们对UTACO的实验结果感到满意。但这只是歌声合成领域重大变革的开始，这将以其几年前还不可想象的方式增强其能力。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

posted @ 2025-11-30 22:20 CodeShare 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

codeshare1135