基于注意力机制的歌声合成系统解析
更简化的歌声合成系统
歌声合成——使用计算机模型合成人声歌唱——自20世纪50年代起便开始研究。与相关的文本转语音领域类似,它最初围绕两种范式展开:统计参数合成(使用统计模型再现声音特征)和单元选择(实时重新组合录音片段)。
近年来,文本转语音领域已转向神经文本转语音,即基于深度神经网络的模型,这些模型提高了生成语音的感知质量。其中基于注意力的序列到序列模型已成为行业标准。
在今年的Interspeech会议上,我们展示了名为UTACO的歌声合成模型,该模型使用AS2S构建。据我们所知,我们在2019年秋季首次实现这一突破,尽管此后歌声合成领域已引入多个成功的AS2S架构。
系统创新
新系统以带有歌词的乐谱作为输入,将其表示为一系列音素(构成口语单词的最小声音单位),并根据音高和时长等属性进行标记。
UTACO比先前模型更简单:它不依赖于分别生成振动频率、音符和音素时长等输入特征的子模型;相反,它仅以带歌词的记谱音乐作为输入。它还能自主地按调演唱,这并非所有神经模型都能实现。
最重要的是,UTACO实现了高度的自然度。在论文中,我们将其与文献中最新的全神经模型进行比较,后者在使用MUSHRA方法的测试中自然度得分为31分(满分100)。UTACO得分为60分,而人类歌唱的训练样本得分为82分。
技术优势
由于AS2S模型是一个非常活跃的研究领域,UTACO自然可以受益于文献中已报告的许多改进和扩展。
当我们开始研究歌声合成时,我们注意到它与NTTS之间存在显著对比。大多数歌唱模型需要多种不同输入,例如随时间变化的歌声音高模式,或那些缺失会使歌唱听起来不自然的几乎难以察觉的误差。生成每个这些输入都需要独立的子模型。
相比之下,AS2S TTS模型唯一需要的输入是音素序列。在AS2S之前,语音模型还需要指定许多其他特征,例如速度、节奏和语调。AS2S模型从训练样本中自主学习所有这些特征。
性能评估
在论文中,我们将UTACO与WGANSing进行比较,后者在提交时是文献中最新的全神经歌声合成模型。在我们的MUSHRA测试中,40名听众被要求比较同一短歌片段的三个版本,并在感知“自然度”方面从0到100打分。这些版本包括:
- UTACO生成的音频
- WGANSing生成的音频
- 用于训练模型的人声录音
听众不知道哪个是哪个,因此没有偏见。得分差异具有统计学显著性。
技术细节
UTACO能够自主产生良好的振动效果,甚至能“决定”在何处应用:在下面的样本输入中,请注意没有振动指示。在UTACO之前,研究人员创建了专门用于表示振动的整个子模型。
UTACO代表了歌声合成的重大进步,但也存在一些缺点。例如,乐谱中的休止符有时会导致其崩溃(这是AS2S架构中的已知问题)。而且其时序并不完全准确,音乐家可以立即察觉到这一点。
模型架构
为了将乐谱转换为UTACO的输入,我们使用称为音符嵌入的表示。我们获取乐谱(MusicXML格式)并对歌词进行语言分析,以确定每个音符必须发音哪些音素。
音素序列是文本转语音模型通常看到的输入。但对于每个音素,我们添加包含它的音符信息:八度(音高范围)、音级(音高范围内的12个音符之一)和以秒为单位的持续时间。我们还添加“进度”流,在音符开始时为1,在结束时为0,因此UTACO知道音符的开始和结束位置。
在典型的NTTS系统中,模型产生频谱图,然后通过基于扩张因果卷积的神经声码器转换为波形。
我们对UTACO的实验结果感到满意。但这只是歌声合成领域重大变革的开始,这将以其几年前还不可想象的方式增强其能力。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号