基于注意力机制的歌声合成系统解析

更简化的歌声合成系统

歌声合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似,它最初围绕两种范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重新组合录音片段)。

近年来,文本转语音领域已转向神经文本转语音,即基于深度神经网络的模型,这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。

在今年的Interspeech会议上,我们展示了名为UTACO的歌声合成模型,该模型使用AS2S构建。据我们所知,我们在2019年秋季首次实现这一突破,尽管此后歌声合成领域已引入多个成功的AS2S架构。

系统创新

新系统以带有歌词的乐谱作为输入,将其表示为一系列音素(构成口语单词的最小声音单位),并根据音高和时长等属性进行标记。

UTACO比先前模型更简单:它不依赖于分别生成振动频率、音符和音素时长等输入特征的子模型;相反,它仅以带歌词的记谱音乐作为输入。它还能自主地按调演唱,这并非所有神经模型都能实现。

最重要的是,UTACO实现了高度的自然度。在论文中,我们将其与文献中最新的全神经模型进行比较,后者在使用MUSHRA方法的测试中自然度得分为31分(满分100)。UTACO得分为60分,而人类歌唱的训练样本得分为82分。

技术优势

由于AS2S模型是一个非常活跃的研究领域,UTACO自然可以受益于文献中已报告的许多改进和扩展。

当我们开始研究歌声合成时,我们注意到它与NTTS之间存在显著对比。大多数歌唱模型需要多种不同输入,例如随时间变化的歌声音高模式,或那些缺失会使歌唱听起来不自然的几乎难以察觉的误差。生成每个这些输入都需要独立的子模型。

相比之下,AS2S TTS模型唯一需要的输入是音素序列。在AS2S之前,语音模型还需要指定许多其他特征,例如速度、节奏和语调。AS2S模型从训练样本中自主学习所有这些特征。

性能评估

在论文中,我们将UTACO与WGANSing进行比较,后者在提交时是文献中最新的全神经歌声合成模型。在我们的MUSHRA测试中,40名听众被要求比较同一短歌片段的三个版本,并在感知“自然度”方面从0到100打分。这些版本包括:

  • UTACO生成的音频
  • WGANSing生成的音频
  • 用于训练模型的人声录音

听众不知道哪个是哪个,因此没有偏见。得分差异具有统计学显著性。

技术细节

UTACO能够自主产生良好的振动效果,甚至能“决定”在何处应用:在下面的样本输入中,请注意没有振动指示。在UTACO之前,研究人员创建了专门用于表示振动的整个子模型。

UTACO代表了歌声合成的重大进步,但也存在一些缺点。例如,乐谱中的休止符有时会导致其崩溃(这是AS2S架构中的已知问题)。而且其时序并不完全准确,音乐家可以立即察觉到这一点。

模型架构

为了将乐谱转换为UTACO的输入,我们使用称为音符嵌入的表示。我们获取乐谱(MusicXML格式)并对歌词进行语言分析,以确定每个音符必须发音哪些音素。

音素序列是文本转语音模型通常看到的输入。但对于每个音素,我们添加包含它的音符信息:八度(音高范围)、音级(音高范围内的12个音符之一)和以秒为单位的持续时间。我们还添加“进度”流,在音符开始时为1,在结束时为0,因此UTACO知道音符的开始和结束位置。

在典型的NTTS系统中,模型产生频谱图,然后通过基于扩张因果卷积的神经声码器转换为波形。

我们对UTACO的实验结果感到满意。但这只是歌声合成领域重大变革的开始,这将以其几年前还不可想象的方式增强其能力。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-11-30 22:20  CodeShare  阅读(0)  评论(0)    收藏  举报