语音合成技术5：Disentanglement in a GAN for Unconditional Speech Synthesis

Disentanglement in a GAN for Unconditional Speech Synthesis

=========================================================== 在无条件语音合成中的GAN解缠

摘要—

我们是否可以开发一个模型，可以直接从潜在空间合成逼真的语音，而无需明确的条件？尽管在过去的十年里进行了多次尝试，以对抗和扩散为基础的方法仍然难以实现，即使在小词汇数据集上也是如此。为了解决这个问题，我们提出了AudioStyleGAN（ASGAN）- 一种用于无条件语音合成的生成对抗网络，旨在学习一个解缠的潜在空间。建立在图像合成模型StyleGAN家族的基础上，ASGAN将采样的噪声映射到一个解缠的潜在向量，然后将其映射到一系列音频特征的序列，以便在每一层抑制信号混叠。为了成功地训练ASGAN，我们引入了许多新技术，包括一种修改过的自适应鉴别器增强方法，该方法以概率方式跳过鉴别器更新。我们在小词汇的Google Speech Commands数字数据集上应用它，它在无条件语音合成方面取得了最先进的结果。它还比现有的性能最佳的扩散模型快得多。我们证实了ASGAN的潜在空间是解缠的：我们演示了在训练期间未见过的多个任务可以使用空间中的简单线性操作来执行。具体来说，我们在语音转换、语音增强、说话人验证和关键字分类等领域进行了评估。我们的工作表明，GAN在无条件语音合成领域仍然具有很高的竞争力，并且解缠的潜在空间可以用来帮助泛化到未见过的任务。代码、模型、样本：https://github.com/RF5/simple-asgan/。关键词 — 无条件语音合成，生成对抗网络，语音解缠。

I. 引言

无条件语音合成系统旨在生成连贯的语音，无需条件输入，如文本或说话者标签[1]。在这项工作中，我们特别关注学习将来自已知连续分布的噪声映射到口述话语中[2]。能够实现这一目标的模型将具有多个有用的下游应用：从话语之间的潜在插值和生成的语音属性的精细调整，到音频压缩和更好的语音概率密度估计。在潜在生成建模的一些进展已经在图像模态[3]，[4]中实现；我们的目标是将这些进展带到语音领域。

从潜在空间直接合成语音是一个非常具有挑战性的问题，因此我们将自己限制在有限的词汇表中，正如以前的工作中所做的[1]，[5]，[6]。在这个问题设置中，最近关于扩散模型[7]在图像[8]–[10]上的研究已经在无条件语音合成方面取得了重大进展。当前表现最佳的方法都基于扩散建模[5]，[6]，它通过马尔可夫链[7]将采样的信号迭代地去噪为波形。在此之前，许多研究使用了生成对抗网络（GANs）[11]，它们通过模型的单次前向传递将潜在向量映射到一系列语音特征的序列。然而，性能受到限制[1]，[2]，导致GANs在这个任务中不再受欢迎。

受StyleGAN文献[3]，[12]，[13]对图像合成的最新发展的启发，我们旨在重振GANs在无条件语音合成中的应用，特别关注它们学习连续、解缠的潜在空间的能力[13]。为此，我们提出了AudioStyleGAN（ASGAN）：一个卷积GAN，它将一个单一的潜在向量映射到一系列音频特征，并且被设计成具有解缠的潜在空间。该模型在很大程度上基于StyleGAN3 [3]，我们将其适应音频合成。具体而言，我们调整了样式层以消除由网络中的非线性引起的信号混叠。这是通过抗混叠滤波器来实现的，以确保在每一层中满足Nyquist-Shannon采样限制。我们还提出了一种修改自适应鉴别器增强的方法[14]，通过根据引导信号随机丢弃鉴别器更新来稳定训练。

在无条件语音合成实验中，我们使用客观指标来衡量生成样本的质量和多样性。我们展示了ASGAN在Google Speech Commands数字数据集[15]上取得了无条件语音合成的新的最先进成果。度量潜在空间解缠的客观指标表明，与现有的扩散模型相比，ASGAN具有更平滑的潜在表示。它不仅胜过了最好的现有模型，而且在训练和推理上速度更快。主观平均意见分数（MOS）表明，ASGAN生成的话语听起来更自然（MOS：3.68），比现有的最佳模型（SaShiMi [6]，MOS：3.33）好。我们还进行了消融实验，从本质上展示了我们提出的抗混叠和自适应鉴别器增强技术对高质量和多样化合成的必要性。

这项工作是会议论文[16]的扩展，除了消融实验外，上述许多本质评估已经在该论文中呈现。在这里，我们首次对ASGAN的能力进行了彻底评估 - 我们展示了ASGAN的解缠潜在空间允许我们通过其潜在空间中的简单线性操作来执行训练期间未见的多个任务。具体而言，我们展示了在Google Speech Commands数字数据集上的声音转换、语音增强、说话者验证和关键字分类等任务的引人注目的零样本性能。虽然在所有这些任务上不能与最先进的任务特定系统的性能相匹配，但我们的实验表明，一个设计用于解缠的单一模型可以在一系列未在训练中看到的任务中实现合理的性能。我们的工作表明，与扩散模型相比，GANs在继续竞争，并且为解缠设计的泛化性能有益处。

本文组织如下。在第二节中，我们讨论相关工作，然后在第三节中提出ASGAN。无条件语音合成的主要实验和结果在第四节和第五节中给出。然后，在第六、第七和第八节中进行了关于ASGAN可以用于的未见任务的实验。

图 1：ASGAN 生成器 G（左）和鉴别器 D（右）。FF、LPF、Conv1D 表示傅立叶特征[3]、低通滤波器和一维卷积层，分别。线性和卷积层上方标明了输出特征/通道的数量。堆叠的块表示按顺序重复的层。

III. 音频风格生成对抗网络 (AudioStyleGAN)

我们的模型基于用于图像合成的StyleGAN家族模型[12]。我们将这种方法调整和扩展到音频，因此我们将我们的模型命名为音频风格生成对抗网络 (AudioStyleGAN，ASGAN)。

该模型遵循标准GAN的设置，包括一个生成器网络 G 和一个鉴别器网络 D [11]。生成器 G 接受从正态分布中采样的向量 z，并将其处理成一系列语音特征 X。在这项工作中，我们将语音特征序列 X 限制为具有固定预定时长。鉴别器 D 接受一系列语音特征 X，并产生一个标量输出。模型使用非饱和逻辑损失[11]，其中鉴别器 D 被优化以提高其对来自真实数据的 X 的输出，并将其对生成器生成的 X 的输出最小化。与此同时，生成器 G 被优化以最大化对于从生成器采样的 X 的 D(X)，即当 X = G(z) 时。语音特征 X 被转换成波形，使用一个预训练的 HiFiGAN 语音合成器 [30]。在训练期间，我们引入了一种新的自适应鉴别器更新技术，以确保稳定性和收敛性。下面详细描述了每个组件。

A. 生成器

生成器 G 的架构如图1左侧所示。它由一个将 z 转换为解缠的潜在空间的潜在映射网络 W 组成，一个特殊的傅立叶特征层，将来自这个潜在空间的单个向量转换为固定长度的余弦特征序列，最后是一个卷积编码器，迭代地将余弦特征精炼成最终的语音特征 X。

映射网络：映射网络 W 是一个简单的多层感知器，由多个线性层组成，它们之间有泄漏的 ReLU 激活函数。作为输入，它接受一个正态分布的向量 z ∼ Z = N (0, I)；在我们的所有实验中，我们使用一个 512 维的多元正态向量，z ∈ R 512。将这个向量通过映射网络传递，产生了一个与 z 具有相同维度的潜在向量 w = W(z)。如[12]中所解释的，W 的主要目的是学会将噪声映射到一个线性解缠的 W 空间，因为最终这将允许更可控和可理解的合成。W 被诱导学习这样的解缠表示，因为它只能在卷积编码器的每一层中线性调制余弦特征的通道（见下面的细节）。因此，如果 w 要线性塑造语音特征，W 必须学会将随机正态空间 z 组织成一个线性解缠语音变化的公共因素的映射。
卷积编码器：卷积编码器首先将 w 线性投影为傅立叶特征层的输入，如图1所示。具体地，我们使用来自[31]的高斯傅立叶特征映射，并结合StyleGAN3 [3]中提出的转换。这一层为每个输出通道（在初始化时固定）采样频率和相位。然后，该层将输入向量线性投影到一组相位向量，这些相位向量与初始随机相位相加。输出序列是使用这些频率和相位的余弦函数绘制的，每个输出通道对应一个频率/相位。直观地说，该层提供了一种学习将单个向量（w）映射到傅立叶特征层输出的序列的方法，该序列为模型的其余部分提供了基础，最终可以对特征序列进行迭代操作，以得到预测的梅尔频谱图。傅立叶特征层生成的序列被迭代地传递给Style块，这是基于StyleGAN系列模型的编码器层。在每个层中，输入序列和样式向量 w 通过调制卷积层[13]传递：最终的卷积核是通过将该层学到的卷积核与从 w 派生的样式向量相乘而计算的，该样式向量在卷积核的长度上进行广播。通过这种方式，潜在向量 w 在每个卷积中线性调制卷积核。为了确保信号不会由于非线性而发生混叠，泄漏的 ReLU 层周围被用于抗混叠的层（下面解释）。所有这些层组成一个单一的Style块，分为5、4、3和最后的2个块组。每个组中的最后一个块进行4×上采样，而不是2×，从而使每个组的序列长度增加2倍。最后，一个一维卷积层将来自最后一组的输出投影到音频特征空间（例如，对数梅尔频谱图或 HuBERT 特征），如图1中部所示。
抗混叠滤波器：从使用GANs进行图像合成的研究[3]中，我们知道生成器必须包括抗混叠滤波器，以便通过网络传播的信号近似满足奈奎斯特-香农采样定理。这就是为什么在每个Style块中，我们在非线性前后都包括上采样、低通滤波器（LPF）和下采样层的原因。从[3]中的动机是非线性引入了任意高频信息到输出信号中。我们建模的信号（语音）是连续的，通过网络传递的内部离散时间特征因此是这个连续信号的数字表示。根据奈奎斯特-香农采样定理，我们知道，为了精确重构连续信号，这样的离散时间信号必须带宽限制在0.5个周期/样本。如果不这样做，[3]显示生成器将学会使用混叠伪像来欺骗鉴别器，损害了最终输出的质量和控制性。为了解决这个问题，我们遵循[3]的方法：首先上采样到更高的采样率，然后应用一个离散低通滤波器作为一维卷积，然后才应用非线性。然后，将这个高频信号通过一个抗混叠的离散低通滤波器，然后再次下采样到原始采样率。

由于这种抗混叠方案中的实际不完美性，LPFs 的截止频率通常必须远低于0.5周期/样本的奈奎斯特频率。我们的理由是，生成器应该首先专注于生成粗略特征，然后再生成良好的高频细节，这些细节将不可避免地包含更多的混叠伪像。因此，我们设计滤波器的截止频率，从第一个Style块中的一个小值开始，然后逐渐增加到最后一个块附近的关键奈奎斯特频率。通过这种方式，整个网络中混叠保持相对较低，只有在最后几层才引入了接近奈奎斯特频率的非常高频信息。

B. 鉴别器

鉴别器 D 具有与[13]类似的卷积架构。它接受一系列语音特征 X 作为输入，并预测它是由 G 生成还是从数据集中采样的。具体来说，D 包括四个 ConvD 块和一个网络头，如图1所示。每个 ConvD 块由带有跳跃连接的一维卷积和具有抗混叠LPF的下采样层组成，最后的跳跃连接中包含抗混叠LPF。LPF 的截止频率对于所有层都设置为奈奎斯特频率。层数和通道数被选择得使得 D 的参数大致与 G 相同。D 的头部包括一个小批标准差[25]层和一个一维卷积层，然后通过最终的线性投影头将平坦的激活传递到 logits。D 和 G 都使用非饱和逻辑损失[11]进行训练。

C. 语音合成器

生成器 G 和鉴别器 D 操作在语音特征序列上，而不是原始的波形样本上。一旦 G 和 D 都训练好了，我们需要一种方法将这些语音特征转换回波形。为此，我们使用一个预训练的 HiFi-GAN 语音合成器 [30]，该合成器可以将对数梅尔标度频谱图 [32] 或 HuBERT 特征 [18] 转换为波形。HuBERT 是一个自监督的语音表示模型，它通过一个遮蔽的令牌预测任务学会了用一个50 Hz的向量序列来编码语音。这些学到的特征可以线性预测语音的多个高级特征，如音素身份，使其在尝试学习解缠表示时作为特征提取器非常有用。

D. 实施

我们训练了我们模型的两个变种：一个是基于对数梅尔频谱图的模型，另一个是基于HuBERT的模型。扩展我们在[16]中的初始研究，我们训练了基于HuBERT的模型的额外变种，以理解关键设计选择。

ASGAN 变种：对数梅尔频谱图模型的架构如图1所示，其中梅尔频谱图以128个梅尔频率区间计算，在10毫秒和64毫秒的跳跃和窗口大小下进行计算。每个10毫秒的梅尔尺度谱图的帧通过取其幅度的自然对数来进行缩放。基于HuBERT的模型相同，只是它只使用了一半的序列长度（因为HuBERT特征是20毫秒，而不是10毫秒的谱图帧），并且在四组Style块中具有不同数量的输出通道：与梅尔频谱图模型中使用的[1024, 512, 256, 128]不同，它使用[1024, 768, 512, 512]的卷积通道。这个变化使得HuBERT变种包含了5100万个参数，而梅尔频谱图模型只有3800万个参数。
语音合成器变种：HuBERT和梅尔频谱特征的HiFi-GAN语音合成器基于原始作者的实现[30]。基于HuBERT特征的HiFi-GAN是在LibriSpeech train-lean-100多说话人语音数据集[33]上进行训练的，以对从fairseq[34]提供的预训练HuBERT Base模型的第6层提取的激活进行合成。梅尔频谱图HiFiGAN是在Google Speech Commands数据集上进行训练的。两者都使用了来自[30]的原始V1 HiFi-GAN配置（更新次数、学习率和批量大小参数）。
优化：两个ASGAN变种都使用Adam [35]（β1 = 0, β2 = 0.99）进行训练，梯度范数剪裁为10，学习率为3 · 10^-3，进行520k次迭代，批量大小为32。使用了几个关键的技巧来稳定GAN训练：(i) 对于所有可训练参数，使用均衡的学习率[25]；(ii) 使用α = 0.1的泄漏的ReLU激活函数；(iii) 生成器权重的指数移动平均值（用于评估时）[25]；(iv) R1正则化[24]；(v) 对于映射网络W，学习率比主网络分支中的卷积层要小0.01倍，因为它需要比主网络分支中的卷积层更新得更慢[3]。
自适应鉴别器更新：我们还引入了一种新的鉴别器更新技巧。具体来说，我们首先将D的学习率与生成器相比缩小0.1，否则我们发现它会在训练初期压倒G。此外，我们采用了一种动态的方法来更新D，受到了自适应鉴别器增强[14]的启发：在每次迭代中，我们以概率p跳过D的更新。概率p初始化为0.1，并在每16次生成器步骤或每次更新鉴别器时更新。我们保持D的实际数据输出D(X)中为正（即D可以自信地识别为真实的）的比例rt的运行平均值。然后，如果rt大于0.6，我们将p增加0.05（上限为1.0），如果rt小于0.6，我们将p减小0.05（下限为0.0）。通过这种方式，我们自适应地跳过鉴别器的更新。当D变得过强时，rt和p都会升高，因此D的更新频率会降低。相反，当D变得过弱时，它会更频繁地更新。我们发现这个新的修改对确保D在训练过程中不会压倒G非常重要。

我们还使用传统的自适应鉴别器增强[14]，其中我们以概率p对模型输入应用以下变换：(i) 添加标准差为0.05的高斯噪声；(ii) 随机缩放因子为1 ± 0.05；和(iii) 随机替换由生成的语音特征子序列的一部分，该子序列由真实语音特征序列的一部分帧组成。这最后一种增强是基于fake-as-real GAN方法[36]，对于防止训练后期的梯度爆炸非常重要。

抗混叠滤波器：对于抗混叠LPF滤波器，我们使用宽度为9的Kaiser窗口[37]的窗口同步滤波器。对于生成器（所有变种），第一个Style块的截止频率为fc = 0.125个周期/样本，按照均匀对数尺度逐渐增加到fc = 0.45个周期/样本，保持这个值在倒数第二层，以填补最后的高频细节。即使在这些最后的层中，我们仍然使用低于奈奎斯特频率的截止频率，以确保不完美的LPF仍然足够抑制混叠频率。对于鉴别器，我们不太担心混叠，因为它不会生成连续信号，所以我们在所有ConvD块中使用fc = 0.5个周期/样本的截止频率。

所有模型都是在单个NVIDIA Quadro RTX 6000上使用PyTorch 1.11进行混合FP16/FP32精度进行训练的。已训练的模型和代码可在https://github.com/RF5/simple-asgan/上获得。

IV. 实验设置：无条件语音合成 A. 数据为了与现有的无条件语音合成模型进行比较，我们使用了Google Speech Commands数据集，该数据集包含孤立的口语单词[15]。与其他研究[1]，[5]，[6]一样，我们使用了与十个口语数字“零”到“九”对应的子集（称为SC09）。这些数字由不同的说话者在不同的信道条件下发音。这使得它成为了一个具有挑战性的无条件语音合成基准。所有话语大约都有一秒长，并以16 kHz采样，少于一秒的话语被填充到一秒的长度。

B. 评估指标我们在SC09的官方训练/验证/测试集上训练和验证我们的模型。然后，我们通过查看新生成的话语与SC09测试集的分布匹配程度来评估无条件语音合成的质量。我们使用与图像合成类似的度量标准；它们尝试衡量生成的话语的质量（与测试集中的实际音频相比的逼真程度）或生成的话语的多样性（与测试集相对多样的话语），或两者的结合。

这些度量需要从经过监督训练的语音分类器网络中提取特征或预测，该分类器网络经过训练，可以根据SC09的话语来分类所说的数字。虽然没有一致的预训练分类器用于此目的，但我们选择使用类似于先前研究[5]，[6]的ResNeXT架构[38]。经过训练的模型在SC09测试集上有98.1%的单词分类准确率，我们将模型代码和检查点提供给未来的比较1。使用分类输出或从分类器的倒数第二层提取的1024维特征，我们考虑以下度量标准。 • 入侵分数（IS）通过评估分类器输出的标签分布与一组生成的话语的平均标签分布之间的Kullback-Leibler（KL）散度来度量生成样本的多样性和质量[39]。 • 修改的入侵分数（mIS）通过将IS的多样性测量方面扩展到考虑类内多样性（在我们的情况下是十个数字之间的多样性），以奖励具有更高类内熵的模型[40]。 • Fr´echet入侵距离（FID）通过比较生成和真实数据的分类器特征来计算生成话语的分布与测试集话语的匹配程度[41]。 • 激活最大化（AM）通过比较真实数据和生成数据的分类器类概率之间的KL散度来度量生成器的质量，同时惩罚生成器产生的分类器熵较高的样本[42]。直观地说，这试图考虑训练集中可能存在的类不平衡和类内多样性，通过引入生成样本的分类器输出熵的项来衡量。 ASGAN设计的一个主要动机是潜在空间的解缠。在后续的实验中，从第八部分开始，我们展示了这一特性使得模型可以用于未经训练的外部任务。但在此之前（第五部分），我们在Z和W潜在空间上使用两个度量标准进行内在评估。 • 路径长度测量在稍微随机扰动潜在点（z或w）时分类器特征移动的平均L2距离，平均多次扰动[12]。较低的值表示更平滑的潜在空间。 • 线性可分性利用线性支持向量机（SVM）来对潜在点的数字进行分类。该度量标准被计算为正确分类话语所需的额外信息（平均熵）给定线性SVM的类别预测[12]。较低的值表示更线性解缠的潜在空间。这些度量标准是对每个模型生成的5000个话语进行平均计算的。与[12]一样，对于线性可分性，我们排除了ResNeXT分类器对其预测最不自信的一半生成的话语。

为了提供自然性的指标，我们使用来自VoiceMOS挑战的预训练Wav2Vec2 small基线来计算估计的平均意见分数（eMOS）[43]。该模型经过训练，以预测人类会为话语分配的自然度评分，评分范围从1（最不自然）到5（最自然）。我们还通过Amazon Mechanical Turk执行实际的主观MOS评估，以获取每个模型的240个意见分数，每个话语由12位听众评分。最后，还评估了每个模型的速度，以突出GAN可以在单个推断调用中生成话语的好处，而不像自回归或扩散模型需要多次推断调用。

C. 基准系统我们与以下无条件语音合成方法（第II部分）进行比较：WaveGAN [1]，DiffWave [5]，自回归SaShiMi和Sashimi+DiffWave [6]。最后一种是SC09上性能最好的模型。对于WaveGAN，我们使用作者提供的训练模型[1]，而对于DiffWave，我们使用了一个开源的预训练模型2。对于自回归的SaShiMi模型，我们使用作者提供的代码，在SC09上训练了一个无条件的SaShiMi模型，进行了110万次更新3。最后，对于SaShiMi+DiffWave扩散模型，我们修改了自回归的SaShiMi代码，并根据[6]将其与DiffWave结合；我们在SC09上进行了80万次更新，使用了原始论文中的超参数3。

最初，自回归的SaShiMi使用一种拒绝抽样的形式进行评估，以保留仅对高概率生成的样本进行评估。我们也可以对所有模型执行抽样技巧（因为扩散和GAN模型也具有可跟踪的似然度测量）。然而，为了公平而简单地比较每个模型的固有性能，我们选择对每个模型（包括ASGAN）保持相同且最通用的抽样方法。因此，在所有实验中，我们根据原始论文，对GAN和扩散模型从潜在空间进行直接抽样。对于自回归模型，我们直接从每个时间步的预测分布中进行抽样。

V. 结果：无条件语音合成

A. 与基线的比较我们在表I中呈现了我们的头条结果，其中我们将先前的最先进的无条件语音合成方法与提出的ASGAN模型进行了比较。作为提醒，IS、mIS、FID和AM测量生成的语音多样性和质量与测试集的关系；eMOS和MOS是生成的语音自然度的度量。我们看到ASGAN的两个变体在大多数指标上都优于其他模型。特别是，ASGAN的HuBERT变体在所有指标上的性能都最佳。HuBERT ASGAN相对于梅尔频谱ASGAN变体的改进可能是因为高级别的HuBERT语音表示使模型更容易将语音变化的公共因素分离出来。先前的最佳无条件合成模型SaShiMi+DiffWave在所有基线模型中仍然表现最佳，并且它似乎具有与梅尔频谱ASGAN变体相似的自然性（通过eMOS/MOS度量）。然而，它似乎在其他多样性度量上与测试集不匹配，比ASGAN变体差。

表II给出了潜在空间解缠度量和生成速度。这些结果更加复杂，WaveGAN是最快的模型，也是Z空间中路径长度最短的模型。然而，这有点误导人，因为WaveGAN的样本质量（eMOS/MOS度量的自然性）较低，与其他模型相比，多样性也较差（表I）。这意味着WaveGAN的潜在空间不是SC09数据集中语音真实分布的好表示，因此它的路径长度非常短，因为大多数路径不涵盖多样化的语音变化。

在线性可分性方面，ASGAN再次比现有模型取得了显著的改进。结果证实了ASGAN确实已经学习到了解缠度潜在空间，这是该模型设计的一个主要动机。具体来说，这表明从图像合成中的思想，即使用潜在向量w来线性调制卷积核，也可以应用于语音。这种程度的解缠允许ASGAN应用于在训练期间未见过的任务，在第VIII部分后面的评估中进行评估。无论性能如何，所有卷积GAN模型（WaveGAN和ASGAN）的速度都显著优于扩散和自回归模型，如第IV-B部分所论证的。

B. 割舍实验虽然前面的比较表明ASGAN的设计总体上是成功的，但我们仍然不确定来自第III部分的哪些具体决策是其性能的原因。因此，我们从完整模型中删除了特定组件，对HuBERT ASGAN模型进行了几种割舍实验。具体来说，我们割舍了四个关键的设计选择：我们训练了一个没有自适应鉴别器更新（第III-D4节）的变体，一个没有自适应鉴别器增强（第III-D4节）的变体，一个没有任何抗混叠滤波器（第III-A3节）的变体。最后，我们还训练了一个没有调制卷积（第III-A2节）的变体，使w仅控制传递给生成器的卷积编码器的初始特征。

表III显示了所割舍的ASGAN方法在一些指标上的结果。我们看到，在质量和多样性指标上，基本ASGAN表现最佳，而没有自适应鉴别器更新和增强的模型具有更好的潜在空间解缠度。然而，需要牢记，包括这两个方面的主要原因并不是为了优化解缠度，而是为了确保训练稳定性和性能。如第III节所述，没有自适应更新或增强，鉴别器的任务更容易，开始主导生成器，自信地区分真实和生成的样本。因此，虽然这使优化变得更容易（导致更平滑的潜在空间），但这意味着生成器不能有效地从对抗任务中学习。在表II中，可以看到WaveGAN也存在类似的现象，它在解缠度指标上表现良好，但在表I中的输出质量较差。

当去除抗混叠滤波器时，解缠度和合成质量都会降低，与完整模型相比，在所有指标上都稍差一些。这验证了我们设计的动机，包括低通滤波器以抑制图1中层激活中的混叠高频内容。最后，没有w对每个层的激活的线性影响（即没有调制卷积）的变体在所有考虑的指标中也比基线模型差。

总的来说，从表III可以看出，第III部分的每个关键设计方面都是实现高潜在空间解缠度和合成质量所必需的，这是其在未见的下游任务上表现良好的主要要求，我们将在下面的部分中进行讨论。

VI. 通过线性潜在空间操作解决未见任务

我们已经内在地展示了ASGAN导致了一个解缠潜在空间。在这一部分以及后续的部分中，我们将展示ASGAN还可以通过其潜在空间的线性操作来用于执行在训练期间未见过的任务。从这一点开始，我们将使用HuBERT ASGAN变体。

作为提醒，ASGAN设计的关键方面是与向量w关联的潜在空间是线性解缠的。这个想法是，由于w向量只能通过傅里叶特征层和调制卷积（图1）线性影响模型的输出，W必须学会线性解缠语音变化的共同因素。如果这是真的——即空间确实解缠了——那么这些因素应该对应于W潜在空间中的线性方向。正如最初在图像合成研究中的动机[12] [13]，这意味着潜在空间中的线性操作应该对应于生成输出中的有意义的编辑。在我们的情况下，这意味着如果我们知道两个话语之间的关系，那么这些话语的潜在向量w之间的线性距离应该反映出这种关系。例如，考虑一组只在噪声水平上有所不同但在其他方面具有相同属性的话语。如果空间解缠了噪声水平，那么我们应该期望这些话语的潜在点位于同一个线性子空间中，反映了噪声水平的差异。

A. 投影到潜在空间在定义未见任务如何作为潜在操作之前，我们首先需要解释如何将给定的话语反演为潜在向量w。我们使用类似于[13]的方法，在保持G和语音特征序列X不变的情况下优化w向量。具体来说，w被初始化为100,000个样本上的均值¯w = E[W(z)]向量，然后通过网络生成一个候选序列˜X。然后形成一个L2损失，作为候选序列˜X中每个特征与目标序列X之间的均方距离。优化遵循[13]，使用Adam进行1000次迭代，最大学习率为0.1，在前750次迭代中向w添加了高斯噪声。这个噪声的方差被设置成与均值¯w和采样的w向量之间的平均平方L2距离成比例。

B. 下游任务

我们将研究几个下游任务，每个任务都可以被表述为潜在W空间的线性操作。

风格混合：我们可以通过使用潜在向量w的风格混合[12]来执行语音转换或语音编辑。具体来说，我们可以将两个话语X1和X2投影到它们的潜在表示w1和w2上。然后——回顾图1中的架构——我们可以在每个Style Block中使用不同的w向量作为输入。根据我们在第III-D5节关于抗混叠滤波器的设计动机，粗粒度的风格是在较早的层次中捕获的，而精细的风格是在后续的层次中引入的。因此，我们可以通过在后续层次中以w2为条件，同时在较早层次中使用w1，从X1的说话者转换为X2的说话者。这会使生成的话语从目标话语X2中继承说话风格（细节），但从X1中保留单词身份（粗细节）。通过反之亦可执行语音编辑：让X1的说话者说X2中的单词，方法是在较早层次中以w2为条件，同时在较后层次中保持w1。此外，由于W潜在空间是连续的，我们可以在保留和替换粗细风格之间插值，以实现不同程度的语音转换或语音编辑。我们在第VIII-A节中进行了这些风格混合实验。
语音增强：语音增强是从话语中去除噪声的任务[44]。直观地说，如果ASGAN的W空间是线性解缠的，那么应该有一个与增加或减小话语中的背景噪声对应的单一方向。给定几个仅在噪声程度上有所不同的话语，我们可以将它们投影到W空间，并计算在哪个方向上移动以改变噪声水平。具体来说，要去噪一个话语X0，我们可以生成N个额外的话语，逐渐增加更多的高斯噪声，提供一系列话语X0、X1、...、XN，其中Xn = X0 + N(0，nσ2 I)。然后我们将每个话语投影到潜在空间，得到w0、w1、...、wN。为了获得与减小噪声方向对应的单一向量，我们计算了从高噪声向量到原始潜在向量的平均单位向量：
说话者验证和关键词分类：先前的下游任务具有生成性质。W潜在空间还允许我们执行判别性任务，如说话者验证和关键词分类：确定给定话语中是否存在某个说话者或单词。对于这两个任务，我们使用解缠的线性特性：给定包含标记的说话者（用于说话者验证）或单词（用于关键词分类）的登记话语，我们将它们反转为它们的w向量。然后我们在W潜在空间内找到一个线性投影，通过线性判别分析（LDA）来最大化标记特征的分离。对于新数据的推断，我们将输入反演，沿着LDA轴进行投影，然后根据与LDA投影潜在空间中其他点的线性距离做出决策。在说话者验证中，我们需要预测一个分数，对应于两个话语是否由同一位说话者说出[45]。这两位说话者在训练期间都是未知的。因此，我们将所有的登记和测试话语投影到W

posted @ 2023-08-22 12:02 啊诚阅读(386) 评论(0) 收藏举报

刷新页面返回顶部

啊诚

语音合成技术5：Disentanglement in a GAN for Unconditional Speech Synthesis

公告