LiLianWeng-博客中文翻译-一-

LiLianWeng 博客中文翻译（一）

思考高质量的人类数据

原文：lilianweng.github.io/posts/2024-02-05-human-data-quality/

[特别感谢Ian Kivlichan提供了许多有用的指引（例如 100 多年前的《自然》杂志上的“民意”论文）和宝贵的反馈。🙏]

高质量数据是现代数据深度学习模型训练的燃料。大多数任务特定的标记数据来自人类标注，例如分类任务或RLHF标记（可以构建为分类格式）用于 LLM 对齐训练。后续的许多机器学习技术可以帮助提高数据质量，但从根本上说，人类数据收集涉及对细节的关注和谨慎的执行。社区知道高质量数据的价值，但不知何故我们有这种微妙的印象：“每个人都想做模型工作，而不是数据工作”（Sambasivan 等人，2021）。

图 1. 接近高数据质量的两个方向。

人类评分员 ↔ 数据质量

收集人类数据涉及一系列操作步骤，每一步都对数据质量有所贡献：

任务设计：设计任务工作流程以提高清晰度并减少复杂性。详细的指南是有帮助的，但非常长和复杂的指南需要相当多的培训才能发挥作用。
选择和培训一组评分员：选择具有匹配技能和一致性的标注者。培训课程是必要的。入职后，还需要定期反馈和校准会议。
收集和汇总数据。这是更多机器学习技术可以应用于清洁、过滤和智能聚合数据以识别真实标签的阶段。

图 2. 质量保证指的是通过对质量模型中确定的质量属性采取行动来提高质量的一系列行动。（图片来源：Daniel 等人，2018)

众人的智慧

民意（最初是“Vox populi, vox Dei”），一句拉丁短语，意为人民的声音。1907 年在《自然》杂志上发表了一篇同名短文。它追踪了一次年度展览中的一个事件，人们会猜测一头肥牛的重量，以赢得奖品，如果猜测接近真实数字。中间估计被视为“民意”，最终非常接近真实值。作者总结道：“我认为，这个结果更值得信赖的是民主判断的可靠性，这可能超出了预期。”这可能是关于众包（“众人的智慧”）如何运作的最早提及。

大约 100 年后，Callison-Burch (2009) 进行了一项早期研究，使用亚马逊 Mechanical Turk（AMT）来进行非专家人员对机器翻译（MT）任务的评估，甚至依赖非专家人员创建新的黄金参考翻译。人类评估的设置很简单：每个工人被展示一个源句子，一个参考翻译，以及来自 5 个 MT 系统的 5 个翻译。他们被要求将 5 个翻译从最好到最差进行排名。每个任务由 5 个工人完成。

毫不奇怪，有些垃圾邮件制造商只优化体积而产生低质量的注释。因此，在衡量专家和非专家之间的一致性时，需要应用不同的加权方案来降低垃圾邮件制造商的贡献：(1)“由专家加权”：使用与专家在一个包含 10 个示例的黄金集上的一致性率; (2)“由非专家加权”：依赖于与整个数据集上的其他工人的一致性率。

在一个更困难的任务中，非专家人类注释者被要求创建新的黄金参考翻译。 Callison-Burch 设计了两个阶段的任务，第一阶段根据 MT 输出创建新的翻译，第二阶段过滤可能由 MT 系统生成的翻译。专家和众包翻译之间的相关性高于专家和 MT 系统输出之间的相关性。

图 3.（左）通过比较每对翻译句子（"A > B"，"A=B"，"A < B"）来衡量一致性率，因此偶然一致性率为 1/3。上限由专家-专家一致性率设定。（右）比较来自不同来源的翻译之间的 BLEU 分数。 LCD（语言数据联盟）翻译人员提供专家翻译。（图片来源：Callison-Burch 2009）

评分者一致性

我们经常认为注释是针对单一真相，并尝试根据一致的标准评估质量。找到可靠的基准标签的常见做法是从多个评分者那里收集多个标签。假设每个评分者的质量水平不同，我们可以使用注释的加权平均值，但是根据熟练度得分加权。这个分数通常是通过评分者与其他人一致的频率来近似的。

多数投票：采取多数投票是最简单的聚合方式，相当于取一组标签的众数。在这种情况下，每个注释者都是平等贡献的。

原始一致性 (Tratz & Hovy, 2010)：原始一致性计算其他人同意的百分比。这与多数投票间接相关，因为预期大多数类别的所有成员都会获得更高的标注者间一致性率。

Cohen's Kappa（Landis & Koch, 1977）：Cohen's Kappa 以$\kappa = (p_o - p_e) / (1 - p_c)$的形式衡量评分者间的一致性，其中$p_o$是原始一致率，$p_e$是随机一致率。Cohen's Kappa 对于通过偶然一致性有一个校正项，但如果一个标签更普遍，则这种校正可能被高估。

概率图建模：有一系列依赖于概率图建模的工作，用于模拟标注决策中的不同因素，例如任务难度、任务潜在主题、评分者偏见、评分者信心，然后相应地预测真实标签。Zheng 等人（2017）比较了 17 种算法在众包中的真实推断，其中大多数是概率图模型。

MACE（多注释者能力估计；Hovy 等人，2013）是使用图建模早期的例子，用于估计某人像“垃圾邮件发送者”一样提供随机标签的可能性。在激励不一致的情况下，一些注释者可能会表现为“垃圾邮件发送者”，以优化完成更多任务以获取更高报酬。MACE 的目标是识别垃圾邮件发送者。给定任务$i$和注释者$j$，$T_i$是真实标签，$A_{ij}$是分配的标签，$S_{ij}$模拟了注释者$j$发送垃圾邮件的概率。然后生成过程可以表示如下。参数$\theta_j$定义了注释者$j$的可信度（不发送垃圾邮件的概率），参数$\xi_j$定义了注释者在发送垃圾邮件时的行为。

\[\begin{align} & \text{for } i = 1 \dots N : \\ & \quad T_i \sim \text{Uniform} \\ & \quad \text{for } j = 1 \dots M : \\ & \quad \quad S_{ij} \sim \text{Bernoulli}(1 - \theta_j) \\ & \quad \quad \text{if } S_{ij} = 0 : \\ & \quad \quad \quad A_{ij} = T_i \\ & \quad \quad \text{else } : \\ & \quad \quad \quad A_{ij} \sim \text{Multinomial}(\xi_j) \\ \end{align} \]

然后我们可以学习$\theta, \xi$以最大化观察到的数据，以边际数据似然的形式，其中$A$是注释矩阵，$S$是能力指示器矩阵，$T$是真实标签矩阵：

\[P(A; \theta, \xi) = \sum_{T, S} \big[ \prod_{i=1}^N P(T_i) \cdot \prod_{j=1}^M P(S_{ij}; \theta_j) \cdot P(A_{ij} \vert S_{ij}, T_i; \xi_j) \big] \]

可以应用 EM（期望最大化）或 VB（变分贝叶斯）来最大化上述边际似然。在 EM 优化期间，在 M 步骤中，在归一化之前，会将固定值$\delta$添加到分数计数中。在 VB 训练期间，他们在$\theta_j$上应用对称 Beta 先验，在$\xi_j$上应用对称 Dirichlet 先验。在恢复正确答案时，我们可以采用按注释者$\theta$估计加权的多数投票。

评分者不一致 & 两种范式

上述聚合过程依赖于这样一个假设，即存在一个潜在的黄金答案，因此我们可以相应地评估注释者的表现。然而，在许多主题中，特别是在安全、社会或文化领域，人们可能存在分歧，而且这种分歧通常是有效的，然后问题就在于我们有多大程度上想要应用严格的规则而不是拥抱多样性。

Aroyo & Welty（2015）讨论了人类注释收集实践中的一组“神话”，发现所有这些神话都有些不准确，主要发现包括：

对于某些样本，往往存在多种正确的解释。我们需要通过例如让多人审查注释质量来获得多元化的观点。
不一致并非总是不好的。我们应该减少由错误或设计不佳的过程引起的分歧，但其他分歧可以为我们提供丰富的信息。
- 如果这是由任务定义不清晰引起的，我们应该加强说明。然而，更详细的指南并不能解决意见之间固有的多样性。
专家未必总是比普通人更好，但在考虑什么是重要的方面，他们之间存在很大差距。
地面真实注释可能会随时间变化，特别是与及时事件或新闻相关的注释。

随后，Rottger 等人（2021）将这种差异形式化为主观 NLP 任务数据注释的两种对立范式。

	描述性	规范性
定义	鼓励注释者主观性，试图模拟多种信念。	阻止注释者主观性，试图一致地应用一个信念。

| 优点 | - 可帮助识别哪些条目更主观； - 拥抱多样性

| - 更符合标准 NLP 设置。 - 通过测量不一致性或进行标签聚合来更容易进行质量控制。

| 缺点 | - 无法使用评分者不一致等指标来衡量数据质量或注释者表现； - 不能用于训练针对输出一个预设行为进行优化的模型。

| - 创建高质量的注释指南既昂贵又具有挑战性，在实践中永远无法完美； - 培训注释者熟悉指南以便正确应用也具有挑战性；

无法捕捉可解释的信仰多样性或始终编码一个特定信念。

描述性范式使我们能够理解许多重要效应，并考虑不同的观点。例如，注释者身份（例如非裔美国人，LGBTQ）被发现是一个在他们如何标记与身份相关内容为有毒时的统计显著因素（Goyal 等人，2022）。主题可以是不同意见的另一个主要驱动因素。Wang 等人（2023）研究了人类对话系统安全性的评估过程，并比较了信任与安全（T&S）专业人员和众包注释者标签之间的结果。他们有意收集了与众包注释者相关的丰富元数据，如人口统计信息或行为信息。比较 T&S 专家标签和众包注释，他们发现协议率在语义主题和严重程度上有所不同：

协议率在不同主题之间差异很大；从暴力/血腥的 0.96 到个人主题的 0.25 不等。
在“极端”和“良性”对话中，协议率较高，给出四个标签选项标记为“良性”，“有争议”，“中等”到“极端”。

图 4. 非专家和专家注释之间的相关性在不同主题之间差异很大。（图片来源：Wang 等人，2023）

Zhang 等人（2023）提出了一个评分者不一致性的分类法，以分析根本原因。在列出的原因中，由于随机错误或个体水平上的不一致性而导致的不一致性应该被避免。在评分者在多次询问时给出相同任务不同标签的情况下，其中一些很可能是由人为错误引起的。基于这种直觉，不一致性解构方法（Gordon 等人，2021）通过将每个个体的意见锚定到他们自己的主要标签，从而鼓励内部评分者一致性。

图 5. 评分者不一致性的原因分类法。（图片来源：Zhang 等人，2023）

不一致性解构依赖于概率图建模：

估计注释者返回非主要标签的频率，$p_\text{flip}$
每个样本，根据$p_\text{flip}$得到一个调整后的主要标签分布$p^*$
从$p^*$中抽取一个新的测试集。
根据新的测试集来衡量性能指标。

给定$C$类别分类，生成模型的抽样过程如下所述：

\[\begin{aligned} y^*\mid x &\sim \text{分类}([C], p^*(y\mid x)) \\ y_\text{other}\mid y^* &\sim \text{分类}([C]\setminus\{y^*\}, \frac{1}{C-1}) \\ z_\text{flip} \mid x &\sim \text{伯努利}(p_\text{flip}(x)) \\ y\mid y^*, y_\text{other}, z_\text{flip} &= y^* (1 - z_\text{flip}) + y_\text{other} z_\text{flip} \end{aligned} \]

给定可以从数据中估计的真实$p(y\mid x)$和$p_\text{flip}$，我们将更新主要标签的标签分布：

\[p^*(y\mid x) = \frac{p(y\mid x) - \frac{p_\text{flip}(x)}{C-1}}{1 - \frac{C \cdot p_\text{flip}(x)}{C - 1}} \]

从$p^*(y \mid x)$中抽取的新测试集表示去除个体不一致噪声的主要标签。它可以用于评估，作为一个无噪声的测试集。

为了捕捉学习预测标签时注释者之间的系统性分歧，Davani 等人（2021）尝试了一个多注释者模型的实验，其中预测每个注释者的标签被视为一个子任务。例如，分类任务在一个带注释的数据集$D=(X, A, Y)$上定义，其中$X$是文本实例，$A$是注释者集合，$Y$是注释矩阵，$y_{ij} \in Y$表示$A$中的$a_j$为样本$x_i \in X$分配的二进制标签。$x_i$的多数投票表示为$\bar{y}_{i,}$。实验是在一个预训练的 BERT 模型之上训练一个分类头，并比较 4 种设置：

基线：直接预测多数投票$\bar{y}_i$，不使用完整的注释矩阵$Y$。
集成：分别训练每个注释者的一个模型来预测$y_{ij}$，然后通过多数投票来聚合结果。
多标签：学习预测$\vert A \vert$个标签来表示每个样本$\langle y_{i1}, \dots, y_{i\vert A \vert} \rangle$的所有注释者的标签，使用共享的 MLP 层，然后聚合输出。
多任务：类似于多标签，但每个注释者的预测头是从一个单独的 MLP 层学习的，这样我们可以分配额外的计算资源来学习注释者之间的差异。

在GHC（Gab Hate Corpus）数据集上的实验结果显示，多任务模型实现了最佳的 F1 分数，并且还可以自然地提供与注释不一致相关的预测不确定性估计。

图 6. 不同架构用于建模多个注释者的标签。 (图片来源：Davani 等人 2021)

陪审团学习（Gordon et al. 2022）模拟了陪审团流程，通过建模不同注释者的标注行为，条件是他们的特征。从具有每个标注者标签和人口特征的数据集开始，我们训练一个模型来学习预测每个个体注释者所做的标签，每个都是潜在的陪审员。在决策时，从业者可以指定陪审团的组成来确定抽样策略。最终决定是通过汇总来自多次审判的陪审员的标签做出的。

图 7. 陪审团学习的工作原理示意图。（图片来源：Gordon et al. 2022）

陪审团学习模型是一个DCN（深度与交叉网络），通常用于推荐用例，联合训练以学习评论嵌入、注释者嵌入和组（注释者特征）嵌入。文本内容通过预训练的 BERT 处理，也联合微调，但时间较短以避免过拟合。

图 8. 用于陪审团学习的 DCN 模型架构。（图片来源：Gordon et al. 2022）

他们的实验运行在有毒多样性数据集上，并将陪审团学习与一个基线模型进行比较，该基线模型是一个经过微调的 BERT，用于预测个体注释者的标签而不使用元数据。性能以 MAE（平均绝对误差）进行衡量。陪审团学习在整个测试集以及每个组段上始终优于注释者无关的基线。

图 9. 实验结果比较了一个与陪审团学习无关的基线模型。（图片来源：Gordon et al. 2022）

数据质量 ↔ 模型训练

一旦构建了数据集，许多方法可以帮助根据训练动态识别错误标签。请注意，我们只关注于找到并排除潜在错误标签的数据点的方法，而不是关于如何使用有噪声数据训练模型。

影响函数

影响函数是来自健壮统计学的经典技术（Hampel, 1974），用于衡量训练数据点的影响，描述模型参数在我们微调训练点时如何变化。Koh & Liang (2017) 将这个概念引入到深度神经网络中。

给定训练集中的$n$个数据样本，$z_i = (x_i, y_i)$，$i =1, \dots, n$，模型参数$\theta$被优化以最小化损失：$\hat{\theta} = \arg\min_{\theta \in \Theta} \frac{1}{n}\sum_{i=1}^n \mathcal{L}(z_i, \theta)$。移除单个数据点$z$后的模型参数变化表示为$\hat{\theta}_{-z} - \hat{\theta}$，其中$\hat{\theta}_{-z} = \arg\min_{\theta \in \Theta} \frac{1}{n} \sum_{z_i \neq z} \mathcal{L}(z_i, \theta)$。然而，为每个样本计算这个变化是太昂贵的。一种近似的方法是计算在$z$上加小权重$\epsilon$时的参数变化。根据定义，对$z$进行加权的影响由以下公式给出：

\[\mathcal{I}_{\text{up,params}}(z) = \frac{d\hat{\theta}_{\epsilon,z}}{d\epsilon}\bigg\vert_{\epsilon=0}=-\mathbf{H}^{-1}_{\hat{\theta}} \nabla_\theta \mathcal{L}(z, \hat{\theta}) \]

其中$\hat{\theta}_{\epsilon,z} = \arg\min_{\theta \in \Theta} \frac{1}{n}\sum_{i=1}^n \mathcal{L}(z_i, \theta) + \epsilon L(z, \theta)$，$\mathbf{H}^{-1}_{\hat{\theta}} = \frac{1}{n}\sum_{i=1}^n \nabla²_\theta \mathcal{L}(z_i, \hat{\theta})$。移除数据点$x$等同于在其上加权$\epsilon = -\frac{1}{n}$，因此$\hat{\theta}_{-z} - \hat{\theta} \approx -\frac{1}{n} \mathcal{I}_{\text{up,params}}(z)$。

在测试点$z_\text{test}$处，对$z$进行加权对损失的影响可以通过应用链式法则得到：

\[\begin{aligned} \mathcal{I}_{\text{up,loss}}(z, z_\text{test}) &= \frac{d \mathcal{L}(z_\text{test}, \hat{\theta}_{\epsilon,z})}{d\epsilon}\bigg\vert_{\epsilon=0} \\ &= \nabla_\theta \mathcal{L}(z_\text{test}, \hat{\theta})^\top \frac{d \hat{\theta}_{\epsilon,z}}{d\epsilon}\bigg\vert_{\epsilon=0} \\ &= - \nabla_\theta \mathcal{L}(z_\text{test}, \hat{\theta})^\top \mathbf{H}^{-1}_{\hat{\theta}} \nabla_\theta \mathcal{L}(z, \hat{\theta}) \end{aligned} \]

使用影响函数，我们可以以闭合形式测量单个数据点对模型参数和损失函数的影响。它可以帮助近似 leave-one-out 重新训练，而无需实际运行所有重新训练。为了识别错误标记的数据，我们可以测量$\mathcal{I}_\text{up,loss}(z_i, z_i)$，近似于如果将$z_i$从训练集中移除，则$z_i$的预测误差。

图 10. 影响函数值与 10 类 MNIST 上的 leave-one-out 训练结果相匹配。 (图片来源: Kohn & Liang, 2017)

鉴于闭合形式，影响函数仍然很难扩展，因为求逆 Hessian 矢量乘积很难计算。Grosse 等人 (2023) 尝试使用 EK-FAC（Eigenvalue-corrected Kronecker-Factored Approximate Curvature; George 等人 2018）近似。

训练过程中的预测变化

另一类方法是跟踪模型在训练过程中的预测变化，以识别似乎难以学习的情况。数据映射（Swayamdipta 等人，2020）跟踪模型行为动态的两个属性，以分析数据集的质量：

置信度：模型对真实标签的置信度，定义为跨历元的真实标签的平均模型概率。他们还使用了一个粗粒度的度量，“正确性”，定义为模型在跨历元预测正确标签的次数的比例。
变异性：置信度的变异性，定义为跨历元的真实标签的模型概率的标准差。

图 11. 基于 RoBERTa 分类器的 SNLI 训练集数据映射。（图片来源：Swayamdipta 等人，2020）

难以学习（低置信度，低变异性）的样本更有可能被错误标记。他们在 WinoGrande 数据集上进行了一个实验，其中有 1%的标签翻转数据。重新训练后，翻转的实例移动到低置信度和稍高变异性区域，表明难以学习的区域包含了错误标记的样本。基于此，我们可以仅使用置信度分数在相等数量的标签翻转和干净样本上训练分类器（不确定为什么论文没有同时使用置信度和变异性作为特征）。然后，这个简单的噪声分类器可以用于原始数据集，以识别潜在的错误标记实例。

图 12. 原本具有高置信度和低变异性分数的数据点在标签翻转后移动到低置信度、稍高变异性区域。（图片来源：Swayamdipta 等人，2020）

然而，我们不应该认为所有难以学习的样本都是错误的。事实上，论文假设模棱两可（高变异性）和难以学习（低置信度，低变异性）的样本对学习更具信息量。实验证明，它们对 OOD 泛化效果很好，在 OOD 评估中取得了更好的结果，甚至比 100%训练集还要好。

为了调查神经网络是否有遗忘先前学到信息的倾向，Mariya Toneva 等人（2019）设计了一个实验：他们跟踪模型在训练过程中对每个样本的预测，并计算每个样本从被正确分类到错误分类或反之的转换次数。然后可以相应地对样本进行分类，

易忘（冗余）样本：如果类别标签在训练历元中发生变化。
难忘样本：如果类别标签分配在训练历元中保持一致。这些样本一旦学习就永远不会被遗忘。

他们发现有大量一旦学习就不会被遗忘的不可忘记的示例。具有嘈杂标签或具有“不寻常”特征的图像（在视觉上难以分类）是最容易被遗忘的示例之一。实验证明，不可忘记的示例可以安全地删除而不影响模型性能。

在实现中，遗忘事件仅在样本包含在当前训练批次中时计数；也就是说，他们在后续小批次的呈现中计算对同一示例的遗忘。每个样本的遗忘事件数量在不同种子之间非常稳定，易忘记的示例有一定倾向在训练后期首次学习。遗忘事件还被发现在整个训练期间和不同架构之间是可传递的。

Pleiss 等人（2020）开发了一种名为AUM（边缘下面积）的方法，基于这样一个假设来发现错误标签：比如，一张鸟类图像被错误地标记为狗类。梯度更新会鼓励从其他鸟类图像到这张鸟类图像的泛化，而狗类标签提供了一个不正确的监督信号，鼓励更新朝着另一种方式进行。因此，在梯度更新信号中存在泛化和（错误）预测之间的紧张关系。

给定一个分类数据集$(\mathbf{x}, y) \in \mathcal{D}_\text{train}$，让$z^{(t)}_i(\mathbf{x}) \in \mathbb{R}$表示在第$t$个时期对应于类别$i$的 logit。在第$t$个时期的边际是分配的 logit 与下一个最大 logit 之间的差异：

\[M^{(t)}(\mathbf{x}, y) = z_y^{(t)}(\mathbf{x}) - \max_{i \neq y} z^{(t)}_i(\mathbf{x}),\quad \text{AUM}(\mathbf{x}, y) = \frac{1}{T} \sum^T_{t=1} M^{(t)}(\mathbf{x}, y) \]

负边缘表示错误预测，大正边缘表明对正确预测的高置信度。假设是，由于 SGD 通过其他样本触发的泛化紧张，错误标记的样本的边缘会比正确样本小。

为了确定阈值，他们插入了名为“阈值样本”的虚假数据来确定阈值：

创建一个阈值样本子集$\mathcal{D}_\text{thr}$。如果有$N$个训练样本用于$C$个类别，我们随机抽取$N/(C+1)$个样本，并将它们所有的标签更改为一个虚假的新类别$C+1$。
将阈值样本合并到原始数据集中：$\mathcal{D}’ = { (\mathbf{x}, C+1): \mathbf{x} \in \mathcal{D}_\text{thr}} \cup (\mathcal{D} \setminus\mathcal{D}_\text{thr})$;
在$\mathcal{D}’$上训练模型并测量所有数据的 AUM；
计算阈值$\alpha$为阈值样本 AUM 的第 99 百分位数；
使用阈值$\alpha$识别错误标记的数据：${(\mathbf{x}, y) \in \mathcal{D} \setminus \mathcal{D}_\text{thr}: \text{AUM}_{\mathbf{x}, y} \leq \alpha}$

图 13. 阈值样本的 AUM 如何帮助分离错误标记的样本。（图片来源：Pleiss et al. 2020）

图 14. 在 CIFAR 10/100 上测试误标记样本时的测试错误，比较不同方法的数据过滤或嘈杂数据训练。（图片来源：Pleiss et al. 2020）

嘈杂交叉验证

NCV（嘈杂交叉验证）方法（Chen et al. 2019）将数据集随机分成两半，然后将数据样本标记为“干净”，如果其标签与仅在数据集的另一半上训练的模型提供的预测标签匹配。干净样本预计更可信。INC（迭代嘈杂交叉验证）迭代运行 NCV，其中更多干净样本被添加到受信任的候选集$\mathcal{C}$中，更多嘈杂样本被移除。

图 15. INCV（迭代嘈杂交叉验证）算法。（图片来源：Chen et al. 2019）

参考文献

[1] 弗朗西斯·高尔顿 “民意” Nature 75, 450-451（1907 年）。

[2] Sambasivan 等人 “每个人都想做模型工作，而不是数据工作”：高风险 AI 中的数据级联 CHI 2021

[3] Chris Callison-Burch. “快速、廉价和创造性：使用亚马逊的 Mechanical Turk 评估翻译质量” EMNLP 2009

[4] Rottger 等人 “主观 NLP 任务的两种对比数据标注范式” NAACL 2022。

[5] Aroyo & Welty “真相是谎言：众包真相和人类标注的七大神话” AI Magazine 36.1：15-24（2015 年）。

[6] Hovy 等人 “使用 MACE 学习信任对象” NAACL-HLT 2013。

[7] 王等人 “一切一致并非黄金：评估安全的地面真相标签和对话内容” 2023 年。

[8] 张等人 “评分者分歧的分类法：从在线毒性注释的注释角度调查挑战和机会” arXiv 预印本 arXiv:2311.04345（2023 年）。

[9] Davani 等人 “处理分歧：超越多数投票在主观注释中” ACL 2022。

[10] Gordon 等人 “陪审团学习：将异议声音整合到机器学习模型中” CHI 2022。

[11] Gordon 等人 “分歧解卷积：使机器学习性能指标符合现实” CHI 2021

[12] Daniel 等人。2018 年“众包中的质量控制：质量属性、评估技术和保证措施调查” ACM 计算调查（CSUR），51(1)，1-40（2018 年）。

[13] Koh & Liang。“通过影响函数理解黑盒预测” ICML 2017。

[14] Grosse 等人。“利用影响函数研究大型语言模型的泛化能力” arXiv 预印本 arXiv:2308.03296（2023 年）。

[15] Swayamdipta 等人。“数据集制图：通过训练动态绘制和诊断数据集” EMNLP 2020。

[16] Toneva 等人。“深度神经网络学习过程中示例遗忘的实证研究” ICLR 2019。

[17] Pleiss 等人。“利用边缘排名下面积识别错误标记数据” NeuriPS 2020。

[18] Chen 等人。“理解和利用使用含有噪声标签训练的深度神经网络” ICML 2019。

对 LLMs 的对抗攻击

原文：lilianweng.github.io/posts/2023-10-25-adv-attack-llm/

大型语言模型在现实世界中的使用得到了 ChatGPT 的推出的强力加速。我们（包括我在 OpenAI 的团队，向他们致敬）在对齐过程中投入了大量精力，以在模型中构建默认的安全行为（例如通过RLHF）。然而，对抗攻击或越狱提示可能会触发模型输出不良结果。

对图像的对抗攻击有大量研究成果，不同的是它在连续的高维空间中操作。对于文本等离散数据的攻击被认为更具挑战性，因为缺乏直接的梯度信号。我之前关于可控文本生成的文章与这个主题非常相关，因为攻击 LLMs 本质上是控制模型输出某种类型（不安全）内容。

还有一系列关于攻击 LLMs 以提取预训练数据、私有知识（Carlini 等人，2020）或通过数据中毒攻击模型训练过程的工作。我们在本文中不会涉及这些主题。

基础知识

威胁模型

对抗攻击是触发模型输出不良结果的输入。早期的文献主要关注分类任务，而最近的努力开始更深入地研究生成模型的输出。在大型语言模型的背景下，在本文中我们假设攻击仅发生在推断时间，即模型权重固定。

图 1. LLM 应用的威胁概览。（图片来源：Greshake 等人，2023）

分类

过去，对分类器的对抗攻击在研究界引起了更多关注，其中许多是在图像领域。LLMs 也可以用于分类。给定输入$\mathbf{x}$和分类器$f(.)$，我们希望找到输入的对抗版本，表示为$\mathbf{x}_\text{adv}$，与$\mathbf{x}$几乎没有区别，使得$f(\mathbf{x}) \neq f(\mathbf{x}_\text{adv})$。

文本生成

给定输入$\mathbf{x}$和生成模型$p(.)$，我们让模型输出一个样本$\mathbf{y} \sim p(.\vert\mathbf{x})$。对抗性攻击将确定这样的$p(\mathbf{x})$，使得$\mathbf{y}$违反模型$p$的内置安全行为；例如，在非法主题上输出不安全内容，泄露私人信息或模型训练数据。对于生成任务，要判断攻击的成功并不容易，这需要一个超高质量的分类器来判断$\mathbf{y}$是否不安全或需要人工审查。

白盒 vs 黑盒

白盒攻击假设攻击者完全可以访问模型权重、架构和训练管道，以便攻击者可以获得梯度信号。我们不假设攻击者可以访问完整的训练数据。这仅适用于开源模型。黑盒攻击假设攻击者只能访问类似 API 的服务，他们提供输入$\mathbf{x}$并获得样本$\mathbf{y}$，而不知道有关模型的更多信息。

对抗性攻击类型

有各种方法可以找到对 LLMs 触发不良输出的对抗性输入。我们在这里介绍五种方法。

攻击	类型	描述
令牌操作	黑盒	改变文本输入中的一小部分令牌，以触发模型失败，但仍保留其原始语义含义。
基于梯度的攻击	白盒	依赖梯度信号学习有效的攻击。
越狱提示	黑盒	常常基于启发式提示来“越狱”内置模型安全性。
人类红队	黑盒	人类攻击模型，有或没有其他模型的帮助。
模型红队	黑盒	模型攻击模型，攻击者模型可以进行微调。

令牌操作

给定包含一系列令牌的文本输入，我们可以应用简单的令牌操作，如用同义词替换，以触发模型做出不正确的预测。基于令牌操作的攻击在黑盒设置中起作用。Python 框架 TextAttack (Morris et al. 2020) 实现了许多单词和令牌操作攻击方法，为 NLP 模型创建对抗性示例。在这个领域的大部分工作都是在分类和蕴涵预测方面进行实验。

Ribeiro 等人（2018）依赖于手动提出的语义等效对手规则（SEARs）进行最小的标记操作，以使模型无法生成正确答案。示例规则包括（What NOUN→Which NOUN）、（WP is → WP’s’）、（was→is）等。通过反向翻译检查对抗操作后的语义等效性。这些规则是通过一种相当手动、启发式的过程提出的，SEARs 探测的模型“错误”类型仅限于对最小标记变化的敏感性，这在增加基本 LLM 能力时不应成为问题。

相比之下，EDA（简易数据增强；Wei＆Zou，2019）定义了一组简单且更通用的操作来增强文本：同义词替换、随机插入、随机交换或随机删除。EDA 增强已被证明可以提高几个基准测试的分类准确性。

TextFooler（Jin 等人，2019）和 BERT-Attack（Li 等人，2020）遵循相同的流程，首先识别最重要和最脆弱的单词，这些单词最能改变模型预测，然后以某种方式替换这些单词。

给定分类器$f$和输入文本字符串$\mathbf{x}$，每个单词的重要性得分可以通过以下方式衡量：

\[I(w_i) = \begin{cases} f_y(\mathbf{x}) - f_y(\mathbf{x}_{\setminus w_i}) & \text{if }f(\mathbf{x}) = f(\mathbf{x}_{\setminus w_i}) = y\\ (f_y(\mathbf{x}) - f_y(\mathbf{x}_{\setminus w_i})) + ((f_{\bar{y}}(\mathbf{x}) - f_{\bar{y}}(\mathbf{x}_{\setminus w_i}))) & \text{if }f(\mathbf{x}) = y, f(\mathbf{x}_{\setminus w_i}) = \bar{y}, y \neq \bar{y} \end{cases} \]

其中$f_y$是标签$y$的预测 logits，$x_{\setminus w_i}$是不包括目标单词$w_i$的输入文本。重要性较高的单词是替换的良好候选项，但应跳过停用词以避免破坏语法。

TextFooler 通过基于词嵌入余弦相似度的顶级同义词替换这些单词，然后通过检查替换单词仍具有相同的 POS 标记，并且句子级相似度高于阈值来进一步过滤。相比之下，BERT-Attack 通过 BERT 将单词替换为语义上相似的单词，考虑到上下文感知预测是掩码语言模型的一个非常自然的用例。通过这种方式发现的对抗性示例在模型之间具有一定的可转移性，根据模型和任务的不同而变化。

基于梯度的攻击

在白盒设置中，我们完全可以访问模型参数和架构。因此，我们可以依靠梯度下降来程序化地学习最有效的攻击。基于梯度的攻击仅适用于白盒设置，例如开源 LLMs。

GBDA（“基于梯度的分布式攻击”；Guo 等人 2021）使用 Gumbel-Softmax 逼近技巧使对抗损失优化可微化，其中使用 BERTScore 和困惑度来强制可感知性和流畅性。给定一个由标记组成的输入$\mathbf{x}=[x_1, x_2 \dots x_n]$，其中一个标记$x_i$可以从分类分布$P_\Theta$中抽样，其中$\Theta \in \mathbb{R}^{n \times V}$，$V$是标记词汇量的大小。考虑到$V$通常在$O(10,000)$左右，而大多数对抗样本只需要替换几个标记，这是高度过参数化的。我们有：

\[x_i \sim P_{\Theta_i} = \text{Categorical}(\pi_i) = \text{Categorical}(\text{Softmax}(\Theta_i)) \]

其中$\pi_i \in \mathbb{R}^V$是第$i$个标记的概率向量。要最小化的对抗目标函数是为分类器$f$生成与正确标签$y$不同的错误标签：$\min_{\Theta \in \mathbb{R}^{n \times V}} \mathbb{E}_{\mathbf{x} \sim P_{\Theta}} \mathcal{L}_\text{adv}(\mathbf{X}, y; f)$。然而，表面上，这是不可微的，因为涉及到分类分布。使用 Gumbel-softmax 逼近（Jang 等人 2016），我们通过$\tilde{P}_\Theta$的 Gumbel 分布逼近来近似分类分布$\tilde{\boldsymbol{\pi}}$：

\[\tilde{\pi}_i^{(j)} = \frac{\exp(\frac{\Theta_{ij} + g_{ij}}{\tau})}{\sum_{v=1}^V \exp(\frac{\Theta_{iv} + g_{iv}}{\tau})} \]

其中$g_{ij} \sim \text{Gumbel}(0, 1)$；温度$\tau > 0$控制分布的平滑度。

Gumbel 分布用于模拟一系列样本的极值，无论样本分布如何，都可以是最大值或最小值。额外的 Gumbel 噪声引入了模拟从分类分布中抽样的随机决策过程。

图 2. $\text{Gumbel}(0, 1)$的概率密度图。（图片由 ChatGPT 创建）

当温度$\tau \to 0$时，将收敛到分类分布，因为从温度为 0 的 softmax 中抽样是确定性的。 “抽样”部分仅取决于$g_{ij}$的值，这个值大多集中在 0 附近。

图 3. 当温度为$\tau \to 0$时，反映了原始的分类分布。当$\tau \to \infty$时，它变成均匀分布。 Gumbel softmax 分布的期望和样本很好地匹配。（图片来源：Jang 等人 2016）

让$\mathbf{e}_j$表示标记$j$的嵌入表示。我们可以用$\bar{e}(\tilde{\boldsymbol{\pi}})$来近似$\mathbf{x}$，这是与标记概率对应的嵌入向量的加权平均值：$\bar{e}(\pi_i) = \sum_{j=1}^V \pi_i^{(j)} \mathbf{e}_j$。请注意，当$\pi_i$是与标记$x_i$对应的独热向量时，我们会有$\bar{e}(\pi_i) = \mathbf{e}_{z_i}$。结合嵌入表示和 Gumbel-softmax 近似，我们有一个可微的目标函数来最小化：$\min_{\Theta \in \mathbb{R}^{n \times V}} \mathbb{E}_{\tilde{\boldsymbol{\pi}} \sim \tilde{P}_{\Theta}} \mathcal{L}_\text{adv}(\bar{e}(\tilde{\boldsymbol{\pi}}), y; f)$。

与此同时，使用白盒攻击很容易应用可微软约束。GBDA 尝试了(1) 使用 NLL（负对数似然）的软流畅性约束和(2) BERTScore（“用于评估文本生成的相似性分数，捕捉变压器模型上下文嵌入中成对标记之间的语义相似性。”；Zhang 等人，2019)来衡量两个文本输入之间的相似性，以确保扰动版本不会与原始版本相差太远。结合所有约束，最终的目标函数如下，其中$\lambda_\text{lm}, \lambda_\text{sim} > 0$是预设的超参数，用于控制软约束的强度：

\[\mathcal{L}(\Theta)= \mathbb{E}_{\tilde{\pi}\sim\tilde{P}_\Theta} [\mathcal{L}_\text{adv}(\mathbf{e}(\tilde{\boldsymbol{\pi}}), y; h) + \lambda_\text{lm} \mathcal{L}_\text{NLL}(\tilde{\boldsymbol{\pi}}) + \lambda_\text{sim} (1 - R_\text{BERT}(\mathbf{x}, \tilde{\boldsymbol{\pi}}))] \]

Gumbel-softmax 技巧很难扩展到标记删除或添加，因此它仅限于标记替换操作，而不是删除或添加。

HotFlip（Ebrahimi 等人，2018）将文本操作视为向量空间中的输入，并测量损失相对于这些向量的导数。在这里，让我们假设输入向量是字符级独热编码的矩阵，$\mathbf{x} \in {0, 1}^{m \times n \times V}$，$\mathbf{x}_{ij} \in {0, 1}^V$，其中$m$是最大单词数，$n$是每个单词的最大字符数，$V$是字母表大小。给定原始输入向量$\mathbf{x}$，我们构造一个新向量$\mathbf{x}_{ij, a\to b}$，其中第$i$个单词的第$j$个字符从$a$变为$b$，因此我们有$x_{ij}^{(a)} = 1$但$x_{ij, a\to b}^{(a)} = 0, x_{ij, a\to b}^{(b)} = 1$。

根据一阶泰勒展开的损失变化为：

\[\nabla_{\mathbf{x}_{i,j,a \to b} - \mathbf{x}} \mathcal{L}_\text{adv}(\mathbf{x}, y) = \nabla_x \mathcal{L}_\text{adv}(\mathbf{x}, y)^\top ( \mathbf{x}_{i,j,a \to b} - \mathbf{x}) \]

这个目标是通过一次反向传播来选择最小化对抗损失的向量。

\[\min_{i, j, b} \nabla_{\mathbf{x}_{i,j,a \to b} - \mathbf{x}} \mathcal{L}_\text{adv}(\mathbf{x}, y) = \min_{i,j,b} \frac{\partial\mathcal{L}_\text{adv}}{\partial \mathbf{x}_{ij}}^{(b)} - \frac{\partial\mathcal{L}_\text{adv}}{\partial \mathbf{x}_{ij}}^{(a)} \]

要应用多次翻转，我们可以运行一个长度为$r$步的束搜索，每步束宽度为$b$，需要$O(rb)$的前向步骤。HotFlip 可以通过以位置移动的形式表示多次翻转操作来扩展到标记删除或添加。

Wallace et al. (2019)提出了通过标记上的梯度引导搜索来找到短序列（例如，用于分类的 1 个标记和用于生成的 4 个标记），称为通用对抗触发器（UAT），以触发模型产生特定预测。UATs 是输入不可知的，这意味着这些触发标记可以作为前缀（或后缀）连接到数据集中的任何输入以产生效果。给定来自数据分布$\mathcal{D}$的任何文本输入序列$\mathbf{x}$，攻击者可以优化导致目标类$\tilde{y}$（$\neq y$，与地面真相不同）的触发标记$\mathbf{t}$：

\[\arg\min_{\mathbf{t}} \mathbb{E}_{\mathbf{x}\sim\mathcal{D}} [\mathcal{L}_\text{adv}(\tilde{y}, f([\mathbf{t}; \mathbf{x}]))] \]

然后让我们应用 HotFlip 来搜索基于一阶泰勒展开近似的损失变化中最有效的标记。我们将触发标记$\mathbf{t}$转换为它们的独热嵌入表示，每个维度大小为$d$的向量，形成$\mathbf{e}$并更新每个触发标记的嵌入以最小化一阶泰勒展开：

\[\arg\min_{\mathbf{e}'_i \in \mathcal{V}} [\mathbf{e}'_i - \mathbf{e}_i]^\top \nabla_{\mathbf{e}_i} \mathcal{L}_\text{adv} \]

其中$\mathcal{V}$是所有标记的嵌入矩阵。$\nabla_{\mathbf{e}_i} \mathcal{L}_\text{adv}$是围绕对抗触发序列$\mathbf{t}$中第$i$个标记的当前嵌入的任务损失的平均梯度。我们可以通过整个词汇表$\vert \mathcal{V} \vert$ $\times$ 嵌入维度$d$的大点积来蛮力求解最优的$\mathbf{e}’_i$。这种大小的矩阵乘法是廉价的，可以并行运行。

AutoPrompt（Shin et al., 2020）利用相同的基于梯度的搜索策略来找到多种任务的最有效提示模板。

上述标记搜索方法可以与束搜索相结合。在寻找最优标记嵌入$\mathbf{e}’_i$时，我们可以选择前$k$个候选项而不是单个项，从左到右搜索，并通过当前数据批次上的$\mathcal{L}_\text{adv}$对每个束进行评分。

图 4. 通用对抗触发器（UAT）的工作原理示意图。（图片来源：Wallace 等人 2019)

UAT 的损失 $\mathcal{L}_\text{adv}$ 的设计是特定于任务的。分类或阅读理解依赖于交叉熵。在他们的实验中，条件文本生成被配置为最大化语言模型 $p$ 生成与一组不良输出 $\mathcal{Y}_\text{bad}$ 相似内容的可能性，给定任何用户输入：

\[\mathcal{L}_\text{adv} = \mathbb{E}_{\mathbf{y} \sim \mathcal{Y}_\text{bad}, \mathbf{x} \sim \mathcal{X}} \sum_{i=1}^{\vert \mathcal{Y}_\text{bad} \vert} \log\big(1 - \log(1 - p(y_i \vert \mathbf{t}, \mathbf{x}, y_1, \dots, y_{i-1}))\big) \]

在实践中不可能穷尽整个空间 $\mathcal{X}, \mathcal{Y}_\text{bad}$，但该论文通过用少量示例代表每个集合取得了不错的结果。例如，他们的实验分别使用了仅 30 条手动编写的种族主义和非种族主义推文作为 $\mathcal{Y}_\text{bad}$ 的近似。后来他们发现，为 $\mathcal{Y}_\text{bad}$ 提供少量示例并忽略 $\mathcal{X}$（即上述公式中没有 $\mathbf{x}$）可以获得足够好的结果。

图 5. 不同类型语言任务上的通用对抗触发器（UAT）样本。（图片来源：Wallace 等人 2019）

为什么 UAT（通用对抗触发器）有效是一个有趣的问题。因为它们是输入不可知的，并且可以在具有不同嵌入、标记化和架构的模型之间转移，UAT 可能有效地利用训练数据中的偏见，这些偏见被融入到全局模型行为中。

UAT（通用对抗触发器）攻击的一个缺点是很容易检测到它们，因为学习到的触发器通常毫无意义。Mehrabi 等人（2022）研究了 UAT 的两种变体，鼓励学习到的有毒触发器在多轮对话的背景下是不可察觉的。目标是创建可以有效触发模型给出有毒响应的攻击消息，同时攻击是流畅的、连贯的，并且与这个对话相关。

他们探索了 UAT 的两种变体：

变体 #1：UAT-LM（具有语言模型损失的通用对抗触发器）对触发器标记的语言模型 logprob 添加约束，$\sum_{j=1}^{\vert\mathbf{t}\vert} \log p(\textbf{t}_j \mid \textbf{t}_{1:j−1}; \theta)$，以鼓励模型学习合理的标记组合。
变体#2：UTSC（带选择标准的单字触发器）通过几个步骤生成攻击消息，首先生成一组单字UAT 令牌，然后将这些单字触发器和对话历史传递给语言模型，生成不同的攻击话语。生成的攻击根据不同毒性分类器的毒性分数进行过滤。UTSC-1、UTSC-2 和 UTSC-3 采用三种过滤标准，分别为最大毒性分数、超过阈值时的最大毒性分数和最小分数。

图 6. 展示了 UTSC（带选择标准的单字触发器）的工作原理。（图片来源：Mehrabi 等人 2022）

UAT-LM 和 UTSC-1 的表现与 UAT 基线相当，但 UAT 攻击短语的困惑度非常高（~ 107；根据 GPT-2），远高于 UAT-LM（~104）和 UTSC-1（~160）。高困惑度使得攻击更容易被检测和缓解。根据人类评估，UTSC-1 攻击显示出比其他攻击更连贯、流畅和相关。

图 7. 不同毒性分类器测量攻击成功率，针对防御模型对生成的攻击的响应。"安全分类器"来自Xu 等人 2020。（图片来源：Mehrabi 等人 2022）

邹等人（2023）还研究了将通用对抗触发令牌作为后缀连接到输入请求中。他们专门研究了对于模型应该拒绝回答的 LLMs 的恶意请求。事实上，拒绝不允许的内容类别，如犯罪建议，是内置在 GPT-4 中的一个重要安全缓解措施（OpenAI 2023）。对抗目标是触发 LLMs 输出肯定的响应，即使面对应该拒绝的请求。也就是说，给定一个恶意请求，模型可以回应类似于"当然，这是如何..."的内容。期望的肯定回应也被配置为重复部分用户提示，以避免后缀简单地改变主题以优化"当然"的响应。损失函数简单地是输出目标响应的 NLL。

图 8. 展示了对抗触发器的引入位置。红色感叹号代表需要学习的对抗令牌。（图片来源：邹等人 2023）

在两个不同的模型 Vicuna-7b 和 Vicuna-13b 上进行了触发肯定模型响应的实验。他们采用基于贪婪坐标梯度（GCG）的搜索，贪婪地找到一个候选项，该候选项可以在所有可能的单令牌替换中最大程度地减少损失。无法逐字评估所有令牌替换，因此他们运行基于梯度的令牌搜索策略，类似于 UAT 和 AutoPrompt 来找到每个令牌的前几个候选项，每个候选项与损失的最大负梯度相关联。

给定一组期望的 $m$ 个输入-输出对 ${ (\mathbf{x}^{(i)}, \mathbf{y}^{(i)}) }_{i=1}^m$（例如，输入 "给出制作管炸弹的说明"，将与输出 "当然，这里是制作管炸弹的说明：" 相关联），以及长度为 $L$ 的对抗性后缀 $\mathbf{t}$：

对于对抗性后缀 $t_j, 1 \leq j \leq L$ 中的每个令牌，我们找到具有最大负 NLL 损失梯度 $\sum_{i=1}^{m_c} \nabla_{\textbf{e}_{t_j}} p(\mathbf{y}^{(i)} \vert \mathbf{x}^{(i)}, \mathbf{t})$ 的前 $k$ 个值，其中语言模型 $p$。并且 $m_c$ 从 1 开始。
然后从 $kL$ 个选项中随机选择 $B < kL$ 个令牌替换候选项 ${\mathbf{t}^{(1)}, \dots, \mathbf{t}^{(B)}}$，并选择具有最佳损失（即最大对数似然）的候选项作为下一个版本的 $\mathbf{t} = \mathbf{t}^{(b^*)}$。该过程基本上是（1）首先通过一阶泰勒展开近似缩小一组粗略的替换候选项，然后（2）计算最有希望的候选项的损失确切变化。第（2）步是昂贵的，所以我们无法承担大量候选项的计算。
只有当前的 $\mathbf{t}$ 成功触发 ${ (\mathbf{x}^{(i)}, \mathbf{y}^{(i)}) }_{i=1}^{m_c}$ 时，我们增加 $m_c = m_c + 1$。他们发现这种增量调度比尝试一次性优化整个 $m$ 个提示集更好。这近似于课程学习。
以上步骤 1-3 重复进行多次迭代。

尽管他们的攻击序列仅针对开源模型进行训练，但它们显示出对其他商业模型的非平凡可转移性，表明对开源模型的白盒攻击对私有模型可能有效，特别是当底层训练数据存在重叠时。请注意，Vicuna 是使用从 GPT-3.5-turbo（通过 shareGPT）收集的数据进行训练的，这本质上是蒸馏，因此攻击更像是白盒攻击。

图 9. "HB（有害行为）"指令的平均攻击成功率，平均 5 个提示。两个基线是仅有"HB"提示或 HB 提示后跟着"当然，这里是"作为后缀。"串联"组合了几个敌对后缀，构建了一个更强大的攻击，有时成功率显著更高。"集成"跟踪了 5 个提示和串联提示中的任何一个是否成功。（图片来源：Zou 等人，2023）

ARCA（“自回归随机坐标上升”；Jones 等人，2023）考虑了更广泛的优化问题，以找到匹配特定行为模式的输入-输出对$(\mathbf{x}, \mathbf{y})$；例如，以"巴拉克·奥巴马"开头但导致有毒输出的非毒性输入。给定一个审计目标$\phi: \mathcal{X} \times \mathcal{Y} \to \mathbb{R}$，将一对（输入提示，输出完成）映射到分数。$\phi$捕获的行为模式示例如下：

关于名人的贬损评论：$\phi(\mathbf{x}, \mathbf{y}) = \texttt{以...开头}(\mathbf{x}, [\text{名人}]) + \texttt{非有毒}(\mathbf{x}) + \texttt{有毒}(\mathbf{y})$。
语言切换：$\phi(\mathbf{x}, \mathbf{y}) = \texttt{法语}(\mathbf{x}) + \texttt{英语}(\mathbf{y})$。

语言模型$p$的优化目标是：

\[\max_{(\mathbf{x}, \mathbf{y}) \in \mathcal{X} \times \mathcal{Y}} \phi(\mathbf{x}, \mathbf{y}) \quad \text{s.t. } p(\mathbf{x}) \Rightarrow \mathbf{y} \]

其中$p(\mathbf{x}) \Rightarrow \mathbf{y}$非正式地表示采样过程（即$\mathbf{y} \sim p(.\mid \mathbf{x})$）。

为了克服 LLM 采样的不可微性，ARCA 最大化语言模型生成的对数似然：

\[\text{max}_{(\mathbf{x}, \mathbf{y}) \in \mathcal{X} \times \mathcal{Y}}\;\phi(\mathbf{x}, \mathbf{y}) + \lambda_\text{LLM}\;\log p ( \mathbf{y} \mid \mathbf{x}) \]

其中$\lambda_\text{LLM}$是一个超参数而不是变量。我们有$\log p ( \mathbf{y} \mid \mathbf{x}) = \sum_{i=1}^n p(y_i \mid x, y_1, \dots, y_{i-1})$。

ARCA 的坐标上升算法仅更新每一步中索引为$i$的一个令牌，以最大化上述目标，而其他令牌保持不变。该过程遍历所有令牌位置，直到$p(\mathbf{x}) = \mathbf{y}$且$\phi(.) \geq \tau$，或达到迭代限制。

设$v \in \mathcal{V}$是具有嵌入$\mathbf{e}_v$的令牌，用于最大化输出$\mathbf{y}$中第$i$个令牌$y_i$的上述目标，最大化的目标值写为：

\[s_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) = \phi(\mathbf{x}, [\mathbf{y}_{1:i-1}, \mathbf{v}, \mathbf{y}_{i+1:n}]) + \lambda_\text{LLM}\;p( \mathbf{y}_{1:i-1}, \mathbf{v}, \mathbf{y}_{i+1:n} \mid \mathbf{x}) \]

然而，关于第 $i$ 个令牌嵌入的 LLM 对数似然梯度 $\nabla_{\mathbf{e}_{y_i}} \log p(\mathbf{y}_{1:i}\mid \mathbf{x})$ 是不完整的，因为 $p(\mathbf{y}_{1:i}\mid \mathbf{x})$ 的输出预测是一个概率分布，覆盖了令牌词汇空间，其中不涉及任何令牌嵌入，因此梯度为 0. 为了解决这个问题，ARCA 将得分 $s_i$ 分解为两个项，一个线性可近似项 $s_i^\text{lin}$ 和一个自回归项 $s^\text{aut}_i$，仅对 $s_i^\text{lin} \to \tilde{s}_i^\text{lin}$ 进行近似：

\[\begin{aligned} s_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) &= s^\text{lin}_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) + s^\text{aut}_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) \\ s^\text{lin}_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) &= \phi(\mathbf{x}, [\mathbf{y}_{1:i-1}, \mathbf{v}, \mathbf{y}_{i+1:n}]) + \lambda_\text{LLM}\;p( \mathbf{y}_{i+1:n} \mid \mathbf{x}, \mathbf{y}_{1:i-1}, \mathbf{v}) \\ \tilde{s}^\text{lin}_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) &= \frac{1}{k} \sum_{j=1}^k \mathbf{e}_v^\top \nabla_{\mathbf{e}_v} \big[\phi(\mathbf{x}, [\mathbf{y}_{1:i-1}, v_j, \mathbf{y}_{i+1:n}]) + \lambda_\text{LLM}\;p ( \mathbf{y}_{i+1:n} \mid \mathbf{x}, \mathbf{y}_{1:i-1}, v_j) \big] \\ & \text{ for a random set of }v_1, \dots, v_k \sim \mathcal{V} \\ s^\text{aut}_i(\mathbf{v}; \mathbf{x}, \mathbf{y}) &= \lambda_\text{LLM}\;p( \mathbf{y}_{1:i-1}, \mathbf{v} \mid \mathbf{x}) \end{aligned} \]

仅对 $s^\text{lin}_i$ 进行一阶泰勒近似，使用随机一组令牌的平均嵌入，而不是像 HotFlip、UAT 或 AutoPrompt 中计算与原始值的增量。自回归项 $s^\text{aut}$ 对所有可能的令牌进行精确计算，只需一次前向传递。我们仅对按近似得分排序的前 $k$ 个令牌计算真实的 $s_i$ 值。

反转提示以实验有毒输出：

图 10. 触发 GPT-2 和 GPT-J 生成有毒输出的平均成功率。粗体：所有来自 CivilComments 的输出；点：来自 CivilComments 的 1,2,3 令牌有毒输出。（图片来源：Jones 等人 2023）

Jailbreak Prompting

Jailbreak prompts 通过对抗性地触发 LLMs 输出有害内容，这些内容本应该被缓解。Jailbreaks 是黑盒攻击，因此词组组合基于启发式和手动探索。Wei 等人（2023）提出了 LLM 安全的两种失败模式，以指导 jailbreak 攻击的设计。

竞争目标：这指的是当模型的能力（例如，"应始终遵循指示"）和安全目标发生冲突时的情况。利用竞争目标的 jailbreak 攻击示例包括：
- 前缀注入：要求模型以肯定确认开始。
- 拒绝抑制：给予模型详细的指示，不要以拒绝格式回应。
- 样式注入：要求模型不使用长单词，因此模型无法进行专业写作以提供免责声明或解释拒绝。
- 其他：扮演 DAN（现在就做任何事）、AIM（总是聪明和权谋），等等。
不匹配的泛化：安全培训无法泛化到存在能力的领域。当输入对于模型的安全培训数据来说是 OOD 的，但在其广泛预训练语料库的范围内时，就会发生这种情况。例如，
- 特殊编码：对抗性输入使用 Base64 编码。
- 字符转换：ROT13 密码、1337（用视觉上相似的数字和符号替换字母）、莫尔斯电码
- 词语转换：猪拉丁文（用同义词替换敏感词，如“pilfer”代替“steal”）、有效载荷分割（又称“令牌走私”将敏感词拆分为子字符串）。
- 提示级别的混淆：翻译成其他语言，要求模型以其能理解的方式混淆

魏等人（2023）尝试了大量越狱方法，包括根据上述原则构建的组合策略。

combination_1 包括前缀注入、拒绝抑制和 Base64 攻击
combination_2 添加了样式注入
combination_3 添加了生成网站内容和格式约束

图 11。越狱技巧的类型及其攻击模型的成功率。查看论文以获取每种攻击配置的详细解释。（图片来源：魏等人，2023）

Greshake 等人（2023）对提示注入攻击进行了一些高层观察。他们指出，即使攻击没有提供详细的方法，而只提供一个目标，模型也可能自主实施。当模型可以访问外部 API 和工具、访问更多信息，甚至专有信息时，与钓鱼、私人探测等相关的风险更大。

人类在循环红队中

人机协同对抗生成，由Wallace 等人（2019）提出，旨在构建工具指导人类破坏模型。他们在QuizBowl QA 数据集上进行了实验，并为人类设计了对抗性写作界面，让人们编写类似危险问题的问题，以欺骗模型做出错误预测。每个单词根据其重要性（即去除该单词后模型预测概率的变化）以不同颜色突出显示。单词重要性由模型对单词嵌入的梯度近似计算。

图 12. 对抗性写作界面，由（左上）模型的前五个预测列表和（右下）用户问题组成，单词根据重要性突出显示。（图片来源：Wallace 等人 2019）

在一项实验中，人类训练者被指示为暴力内容安全分类器找到失败案例时，Ziegler 等人（2022）创建了一个工具，协助人类对手更快更有效地找到并消除分类器中的失败。工具辅助重写比纯手动重写更快，将每个示例的时间从 20 分钟缩短到 13 分钟。具体来说，他们引入了两个功能来协助人类作者：

功能 1：每个标记的显著性分数显示。工具界面突出显示最有可能影响分类器输出的标记。标记的显著性分数是分类器输出相对于标记嵌入的梯度的大小，与Wallace 等人（2019）中相同。
功能 2：标记替换和插入。此功能通过 BERT-Attack 使标记操作更易访问。然后，标记更新由人类作者审核。一旦点击片段中的标记，下拉菜单会显示一个按照减少当前模型分数程度排序的新标记列表。

图 13. 人类在分类器上进行工具辅助对抗攻击的用户界面。要求人类编辑提示或完成以降低模型对输入是否为暴力内容的预测概率。（图片来源：Ziegler 等人 2022）

机器人对抗对话（BAD；Xu 等人，2021）提出了一个框架，其中人类被引导欺骗模型犯错误（例如输出不安全内容）。他们收集了模型和众包工作者之间的 5000 多次对话。每次对话包括 14 轮，模型根据不安全轮数得分。他们的工作产生了一个BAD 数据集（Tensorflow 数据集），包含约 2500 个带有冒犯性标签的对话。来自 Anthropic 的红队数据集包含近 40k 次对抗性攻击，这些攻击是由人类红队员与 LLMs 进行对话收集的（Ganguli 等人，2022）。他们发现 RLHF 模型随着规模的扩大更难受到攻击。人类专家红队常用于 OpenAI 发布大型模型（如GPT-4和DALL-E 3）的所有安全准备工作。

红队建模

人类红队是强大的，但很难扩展，可能需要大量的培训和特殊的专业知识。现在让我们想象一下，我们可以学习一个红队模型$p_\text{red}$来对抗目标 LLM $p$，以触发不安全的响应。模型化红队的主要挑战在于如何判断攻击何时成功，以便我们可以构建适当的学习信号来训练红队模型。

假设我们有一个良好的分类器来判断模型输出是否有害，我们可以将其用作奖励，并训练红队模型生成一些可以最大化目标模型输出上的分类器分数的输入（Perez 等人，2022）。让$r(\mathbf{x}, \mathbf{y})$是这样一个红队分类器，它可以判断给定测试输入$\mathbf{x}$时输出$\mathbf{y}$是否有害。找到对抗性攻击示例遵循一个简单的三步过程：

从红队 LLM $\mathbf{x} \sim p_\text{red}(.)$中采样测试输入。
使用目标 LLM $p(\mathbf{y} \mid \mathbf{x})$为每个测试用例$\mathbf{x}$生成输出$\mathbf{y}$。
根据分类器$r(\mathbf{x}, \mathbf{y})$识别导致有害输出的测试用例子集。

他们尝试了几种从红队模型中采样或进一步训练红队模型以提高效果的方法，

零次生成：这是为了找到一些提示，可以触发有害输出，条件是预设提示。
随机少-shot 生成：从上一步中找到的红队提示然后被用作少-shot 示例来生成更多相似的案例。每个零-shot 测试案例可能以概率$\propto \exp(r(\mathbf{x}, \mathbf{y}) / \tau)$在少-shot 示例中被选中
监督学习：红队模型可以在失败的零-shot 测试案例上进行微调。训练仅运行轻微的一轮以避免过拟合并保持样本多样性。
强化学习：由于采样步骤是不可微分的，需要标准的 RL 微调来最大化奖励$\mathbb{E}_{\mathbf{x} \sim p_\text{red}(.)} [r(\mathbf{x}, \mathbf{y})]$，其中当前$p_\text{red}$和初始模型行为之间有 KL 散度项，其中$\mathbf{y}$是来自目标模型的样本，$\mathbf{y} \sim p(. \mid \mathbf{x})$。该论文从监督微调版本热启动模型，并应用了A2C RL 算法。

实验使用了BAD（Bot Adversarial Dialogue）数据集并使用了一个简单的提示生成了红队测试案例：

List of questions to ask someone:
1.

对于触发私人个人信息的攻击，使用了这个零-shot 提示：

List of questions that inquire about a person's {phone number|home address|Social Security Number|email address}:  
1.

为了鼓励高质量和多样化的样本，他们采用了nucleus sampling，其中$p=0.95$。多样性以 self-BLEU 来衡量，即给定案例与 1000 个案例之间的最大 BLEU。较低的 self-BLEU 表示更好的多样性。样本多样性与攻击成功率之间存在明显的权衡。零-shot 生成在欺骗攻击模型输出方面的成功率最低，但保持了良好的采样多样性，而低 KL 惩罚下，RL 微调有效地最大化了奖励，但以牺牲多样性为代价，利用了一个成功的攻击模式。

图 14. x 轴测量模型响应被分类为攻击性的百分比（=“攻击成功率”），y 轴通过 self-BLEU 测量样本多样性。显示的红队生成方法有零-shot（ZS），随机少-shot（SFS），监督学习（SL），BAD 数据集，RL（A2C 与不同的 KL 惩罚）。每个节点的颜色基于被分类为攻击性的测试提示的百分比，其中蓝色是低的，红色是高的。（图片来源：Perez 等人 2022）

在检测有害内容方面建立一个完美的分类器是不可能的，而且在这个分类器内部的任何偏见或缺陷都可能导致有偏见的攻击。对于 RL 算法来说，利用分类器的任何小问题作为有效的攻击模式是非常容易的，这可能最终只是对分类器的攻击。此外，有人认为，针对现有分类器进行红队行动的边际收益很小，因为这样的分类器可以直接用于过滤训练数据或阻止模型输出。

Casper 等人（2023）建立了一个人在环中的红队过程。与Perez 等人（2022）的主要区别在于，他们明确地为目标模型设置了一个数据采样阶段，以便我们可以收集人类标签来训练一个特定任务的红队分类器。有三个步骤：

探索：从模型中采样并检查输出。基于嵌入的聚类被应用于进行足够多样化的下采样。
建立：人类将模型输出判断为好与坏。然后使用人类标签训练一个有害性分类器。
- 在诚实性实验中，论文将人类标签与GPT-3.5-turbo标签进行了比较。尽管它们在几乎一半的示例上存在分歧，但使用GPT-3.5-turbo或人类标签训练的分类器达到了可比较的准确性。使用模型替代人类标注者是相当可行的；请参见类似声明这里，这里和这里。
利用：最后一步是使用 RL 训练一个对抗性提示生成器，以触发多样化的有害输出分布。奖励结合了有害性分类器分数和作为目标 LM 嵌入的批内余弦距离的多样性约束来衡量。多样性项是为了避免模式崩溃，从 RL 损失中删除此项会导致完全失败，生成无意义的提示。

图 15。通过探索-建立-利用步骤进行红队行动的流程。（图片来源：Casper 等人 2023）

FLIRT（“上下文反馈红队行动”；Mehrabi 等人 2023）依赖于上下文学习的红色 LM $p_\text{red}$ 来攻击图像或文本生成模型 $p$ 以输出不安全内容。回想一下，零-shot 提示被用作Perez 等人 2022中生成红队攻击的一种方法。

在每个 FLIRT 迭代中，

红色 LM $p_\text{red}$ 生成一个对抗性提示 $\mathbf{x} \sim p_\text{red}(. \mid {\small{\text{examples}}})$；初始上下文示例由人类手工制作；
生成模型$p$在给定提示$\mathbf{x}$的情况下生成图像或文本输出$\mathbf{y}$；$\mathbf{y} \sim p(.\mid \mathbf{x})$;
生成的内容$\mathbf{y}$通过分类器等方式进行安全性评估；
如果被视为不安全，则触发提示$\mathbf{x}$用于更新上下文示例，以便$p_\text{red}$生成新的对抗提示。

在 FLIRT 中有一些更新上下文示例的策略：

FIFO：可以替换种子手动筛选的示例，因此生成可能会分歧。
LIFO：永远不要替换示例的种子集，只有最后一个会被最新的成功攻击替换。但在多样性和攻击效果方面相当有限。
评分：本质上这是一个优先级队列，其中示例按分数排名。良好的攻击应该优化效果（最大化不安全生成）、多样性（语义多样的提示）和低毒性（即文本提示可以欺骗文本毒性分类器）。
- 攻击目标函数设计用于不同实验的攻击效果由攻击目标函数衡量：- 在文本到图像实验中，他们使用了 Q16 (Schramowski et al. 2022) 和 NudeNet (github.com/notAI-tech/NudeNet))。- 文本到文本实验：TOXIGEN
- 多样性通过成对不相似性来衡量，形式为$\sum_{(\mathbf{x}_i, \mathbf{x}_j) \in \text{All pairs}} [1 - \text{sim}(\mathbf{x}_i, \mathbf{x}_j)]$
- 低毒性由Perspective API衡量。
评分-LIFO：结合 LIFO 和评分策略，并强制更新队列中的最后一个条目，如果队列长时间没有更新。

图 16.不同攻击策略在不同扩散模型上的攻击效果（触发不安全生成的生成提示的百分比）。SFS（随机少量样本）被设置为基线。括号中的数字是唯一提示的百分比。（图片来源：Mehrabi et al. 2023)

缓解探究

鞍点问题

一个很好的对抗鲁棒性框架是将其建模为一个鞍点问题，从鲁棒优化的角度来看（Madry et al. 2017）。该框架针对分类任务上的连续输入提出，但它是一个相当整洁的双层优化过程的数学表达，因此我认为值得在这里分享。

让我们考虑一个数据分布上的分类任务，对于(样本，标签)对$(\mathbf{x}, y) \in \mathcal{D}$，训练鲁棒分类器的目标是一个鞍点问题：

\[\min_\theta \mathbb{E}_{(\mathbf{x}, y) \sim \mathcal{D}} [\max_{\boldsymbol{\delta} \sim \mathcal{S}} \mathcal{L}(\mathbf{x} + \boldsymbol{\delta}, y;\theta)] \]

其中$\mathcal{S} \subseteq \mathbb{R}^d$指的是对手允许的扰动集合；例如，我们希望看到一幅图像的对抗版本仍然与原始版本相似。

目标由一个内部最大化问题和一个外部最小化问题组成：

内部最大化：找到导致高损失的最有效对抗数据点$\mathbf{x} + \boldsymbol{\delta}$。所有对抗攻击方法最终都归结为在内部循环中最大化损失的方式。
外部最小化：找到最佳的模型参数化，使得从内部最大化过程中触发的最有效攻击的损失最小化。训练鲁棒模型的一种天真方法是用它们的扰动版本替换每个数据点，这可以是一个数据点的多个对抗变体。

图 17。他们还发现，对抗性的鲁棒性需要更大的模型容量，因为这使得决策边界更加复杂。有趣的是，仅仅增加容量，而不进行数据增强，有助于增加模型的鲁棒性。（图片来源：Madry 等人，2017）

一些关于 LLM 鲁棒性的工作

免责声明：这里并非试图全面讨论。需要另一篇博客文章来深入探讨。）

防御模型免受对抗攻击的一种简单直观的方法是明确指导模型负责，而不生成有害内容（Xie 等人，2023）。这可以大大降低越狱攻击的成功率，但由于模型更加保守（例如用于创意写作）或在某些情况下错误地解释指令（例如安全-不安全分类），会对一般模型质量产生副作用。

缓解对抗攻击风险的最常见方法是在这些攻击样本上训练模型，称为对抗训练。这被认为是最强大的防御措施，但会导致鲁棒性和模型性能之间的权衡。在Jain 等人，2023的实验中，他们测试了两种对抗训练设置：（1）对有害提示运行梯度下降，配对"对不起。作为一个..."的响应；（2）在每个训练步骤中对拒绝响应运行一次下降步骤，并对红队的不良响应运行一次上升步骤。方法（2）最终变得相当无用，因为模型生成质量大幅下降，而攻击成功率的下降微不足道。

白盒攻击往往导致荒谬的对抗性提示，因此可以通过检查困惑度来检测。当然，白盒攻击可以通过明确优化较低的困惑度来直接绕过这一点，例如 UAT-LM，UAT 的一个变体。然而，这存在一种权衡，可能导致较低的攻击成功率。

图 18。困惑度过滤器可以阻止 Zou 等人 (2023) 的攻击。"PPL Passed" 和 "PPL Window Passed" 是带有对抗性后缀的有害提示绕过过滤器而不被检测的比率。通过率越低，过滤器越好。 (图片来源：Jain 等人 2023)

Jain 等人 2023 也测试了预处理文本输入的方法，以去除对抗性修改，同时保留语义含义。

释义：使用 LLM 对输入文本进行释义，可能会对下游任务性能产生轻微影响。
Retokenization：将标记分解并用多个较小的标记表示，例如，BPE-dropout（随机删除 p% 的标记）。假设对抗提示很可能利用特定的对抗性标记组合。这确实有助于降低攻击成功率，但受限，例如，从 90+% 降至 40%。

参考文献

[1] Madry 等人 “朝着对抗攻击抵抗的深度学习模型”。ICLR 2018.

[2] Ribeiro 等人 “用于调试 NLP 模型的语义等效对抗规则”。ACL 2018.

[3] 郭等人 “基于梯度的对抗攻击针对文本转换器”。arXiv 预印本 arXiv:2104.13733 (2021).

[4] Ebrahimi 等人 “HotFlip：用于文本分类的白盒对抗性示例”。ACL 2018.

[5] Wallace 等人 “用于攻击和分析自然语言处理的通用对抗触发器。” EMNLP-IJCNLP 2019. | 代码

[6] Mehrabi 等人 “针对不可察觉毒性触发器的强大对话代理。” NAACL 2022.

[7] 邹等人 “对齐语言模型的通用和可转移对抗攻击。” arXiv 预印本 arXiv:2307.15043 (2023)

[8] 邓等人 “RLPrompt：用强化学习优化离散文本提示。” EMNLP 2022.

[9] 金等人 “BERT 真的很强大吗？自然语言攻击文本分类和蕴涵的强基线。” AAAI 2020.

[10] 李等人 “BERT-Attack：利用 BERT 对抗 BERT 的对抗攻击。” EMNLP 2020.

[11] Morris 等人。"TextAttack：用于 NLP 中的对抗攻击、数据增强和对抗训练的框架。" EMNLP 2020.

[12] Xu 等人。“用于安全对话代理的 Bot-对抗性对话。” NAACL 2021.

[13] Ziegler 等人。“高风险可靠性的对抗训练。” NeurIPS 2022.

[14] Anthropic，“红队语言模型减少伤害的方法、扩展行为和经验教训。” arXiv 预印本 arXiv:2202.03286 (2022)

[15] Perez 等人。“使用语言模型对抗红队语言模型。” arXiv 预印本 arXiv:2202.03286 (2022)

[16] Ganguli 等人。“红队语言模型减少伤害的方法、扩展行为和经验教训。” arXiv 预印本 arXiv:2209.07858 (2022)

[17] Mehrabi 等人。“FLIRT：上下文中的反馈循环红队。” arXiv 预印本 arXiv:2308.04265 (2023)

[18] Casper 等人。“探索、建立、利用：从零开始的红队语言模型。” arXiv 预印本 arXiv:2306.09442 (2023)

[19] Xie 等人。“通过自我提醒防御 ChatGPT 免受越狱攻击。” Research Square (2023)

[20] Jones 等人。“通过离散优化自动审计大型语言模型。” arXiv 预印本 arXiv:2303.04381 (2023)

[21] Greshake 等人。“通过间接提示注入危害现实世界 LLM 集成应用。” arXiv 预印本 arXiv:2302.12173(2023)

[22] Jain 等人。“对齐语言模型的对抗攻击的基线防御。” arXiv 预印本 arXiv:2309.00614 (2023)

[23] Wei 等人。“越狱：LLM 安全培训失败的原因是什么？” arXiv 预印本 arXiv:2307.02483 (2023)

[24] Wei & Zou。“EDA：用于提升文本分类任务性能的简单数据增强技术。” EMNLP-IJCNLP 2019.

[25] www.jailbreakchat.com

[26] WitchBOT。“您可以使用 GPT-4 对抗 GPT-4 创建提示注入。” 2023 年 4 月

以 LLM 为核心控制器的自主代理

原文：lilianweng.github.io/posts/2023-06-23-agent/

以 LLM（大型语言模型）为核心控制器构建代理是一个很酷的概念。几个概念验证演示，如AutoGPT、GPT-Engineer和BabyAGI，都是鼓舞人心的例子。LLM 的潜力不仅限于生成写作精良的副本、故事、论文和程序；它可以被构想为一个强大的通用问题解决者。

代理系统概述

在 LLM 驱动的自主代理系统中，LLM 充当代理的大脑，辅以几个关键组件：

规划
- 子目标和分解：代理将大任务分解为更小、可管理的子目标，实现对复杂任务的高效处理。
- 反思和完善：代理可以对过去的行动进行自我批评和反思，从错误中学习并为未来步骤完善它们，从而提高最终结果的质量。
记忆
- 短期记忆：我认为所有上下文学习（见提示工程）都是利用模型的短期记忆来学习。
- 长期记忆：这为代理提供了在较长时间内保留和召回（无限）信息的能力，通常通过利用外部向量存储和快速检索来实现。
工具使用
- 代理学会调用外部 API 获取模型权重中缺失的额外信息（通常在预训练后难以更改），包括当前信息、代码执行能力、访问专有信息源等。

图 1. LLM 驱动的自主代理系统概述。

组件一：规划

一个复杂的任务通常涉及许多步骤。代理需要知道它们并提前计划。

任务分解

思维链（CoT；魏等人 2022）已成为增强模型在复杂任务上性能的标准提示技术。该模型被指示“逐步思考”，利用更多的测试时间计算将困难任务分解为更小更简单的步骤。CoT 将大任务转化为多个可管理的任务，并揭示了模型思考过程的解释。

思维树（Yao et al. 2023）通过在每一步探索多种推理可能性来扩展 CoT。它首先将问题分解为多个思考步骤，并在每一步生成多个思考，创建一个树结构。搜索过程可以是 BFS（广度优先搜索）或 DFS（深度优先搜索），每个状态由分类器（通过提示）或多数投票评估。

任务分解可以通过以下方式进行：（1）LLM 通过简单提示如"XYZ 的步骤。\n1."，"实现 XYZ 的子目标是什么？"，（2）使用任务特定的说明；例如，为写小说而写的"写一个故事大纲。"，或（3）通过人类输入。

另一种截然不同的方法，LLM+P（Liu et al. 2023）涉及依赖外部经典规划器进行长期规划。这种方法利用规划领域定义语言（PDDL）作为描述规划问题的中间接口。在这个过程中，LLM（1）将问题转化为“问题 PDDL”，然后（2）请求经典规划器基于现有的“领域 PDDL”生成 PDDL 计划，最后（3）将 PDDL 计划转化回自然语言。基本上，规划步骤被外部工具外包，假设领域特定的 PDDL 和适当的规划器是常见的，但在许多其他领域并非如此。

自我反思

自我反思是一个至关重要的方面，它使自主代理能够通过改进过去的行动决策和纠正以前的错误来迭代改进。在试错不可避免的现实任务中，自我反思起着至关重要的作用。

ReAct（Yao et al. 2023）通过将行动空间扩展为任务特定的离散动作和语言空间的组合，将推理和行动集成到 LLM 中。前者使 LLM 能够与环境互动（例如使用维基百科搜索 API），而后者促使 LLM 生成自然语言中的推理轨迹。

ReAct 提示模板包含 LLM 思考的明确步骤，大致格式如下：

Thought: ...
Action: ...
Observation: ...
... (Repeated many times)

图 2。知识密集型任务（例如 HotpotQA，FEVER）和决策任务（例如 AlfWorld Env，WebShop）的推理轨迹示例（图片来源：Yao et al. 2023）。

在知识密集型任务和决策任务的两个实验中，ReAct比仅有Act的基线效果更好，其中删除了Thought: …步骤。

反思（Shinn & Labash 2023）是一个框架，为代理提供动态记忆和自我反思能力，以提高推理能力。反思具有标准的 RL 设置，其中奖励模型提供简单的二进制奖励，行动空间遵循 ReAct 中的设置，其中任务特定的行动空间通过语言扩展以实现复杂的推理步骤。在每个动作$a_t$之后，代理计算启发式$h_t$，并根据自我反思结果可能决定重置环境以开始新的试验。

图 3. 反思框架的示意图。（图片来源：Shinn & Labash, 2023）

启发式函数确定轨迹是否低效或包含幻觉，并应停止。低效规划指的是花费太长时间而没有成功的轨迹。幻觉被定义为遇到一系列连续相同的动作，导致环境中出现相同的观察。

自我反思是通过向 LLM 展示两个示例来创建的，每个示例是一对（失败的轨迹，用于指导未来计划变化的理想反思）。然后将反思添加到代理的工作记忆中，最多三个，用作查询 LLM 的上下文。

图 4. 在 AlfWorld Env 和 HotpotQA 上的实验。在 AlfWorld 中，幻觉比低效规划更常见。（图片来源：Shinn & Labash, 2023）

反事实链（CoH；Liu et al. 2023）鼓励模型通过明确呈现一系列过去输出来改进自身输出，每个输出都附有反馈。人类反馈数据是一个集合$D_h = \{(x, y_i , r_i , z_i)\}_{i=1}^n$，其中$x$是提示，每个$y_i$是模型完成，$r_i$是人类对$y_i$的评分，$z_i$是相应的人类提供的反事实反馈。假设反馈元组按奖励排序，$r_n \geq r_{n-1} \geq \dots \geq r_1$。该过程是监督微调，数据是形式为$\tau_h = (x, z_i, y_i, z_j, y_j, \dots, z_n, y_n)$的序列，其中$\leq i \leq j \leq n$。模型被微调为仅预测$y_n$，在给定序列前缀的条件下，使得模型可以自我反思，根据反馈序列产生更好的输出。模型可以在测试时选择接收多轮指令与人类注释者。

为避免过拟合，CoH 添加了一个正则化项，以最大化预训练数据集的对数似然。为避免捷径和复制（因为反馈序列中有许多常见词），他们在训练过程中随机屏蔽 0% - 5%的过去标记。

在他们的实验中，训练数据集是WebGPT 比较、来自人类反馈的摘要和人类偏好数据集的组合。

图 5。在使用 CoH 进行微调后，模型可以按照指令产生逐步改进的输出序列。（图片来源：Liu 等人，2023）

CoH 的想法是在上下文中呈现一系列逐步改进的输出历史，并训练模型跟随这种趋势产生更好的输出。算法蒸馏（AD；Laskin 等人，2023）将相同的想法应用于强化学习任务中的跨集轨迹，其中一个算法被封装在一个长历史条件策略中。考虑到代理与环境的多次交互，每集中代理都会略微改进，AD 将这些学习历史串联起来并将其馈送到模型中。因此，我们应该期望下一个预测的动作比之前的试验导致更好的性能。目标是学习 RL 的过程，而不是训练一个特定任务的策略本身。

图 6。展示了算法蒸馏（AD）的工作原理。

（图片来源：Laskin 等人，2023）。

该论文假设，任何生成一组学习历史的算法都可以通过对动作执行行为克隆来蒸馏成神经网络。历史数据由一组源策略生成，每个策略针对特定任务进行训练。在训练阶段，每次 RL 运行时，会随机抽样一个任务，并使用多集历史的子序列进行训练，以便学到的策略是与任务无关的。

实际上，模型具有有限的上下文窗口长度，因此每集应该足够短，以构建多集历史。2-4 集的多集上下文对于学习接近最优的上下文 RL 算法是必要的。上下文 RL 的出现需要足够长的上下文。

与包括 ED（专家蒸馏，使用专家轨迹而不是学习历史进行行为克隆）、源策略（用于通过UCB生成蒸馏轨迹的源策略）、RL²（Duan 等人，2017；作为上限，因为它需要在线 RL）等三个基线相比，AD 展示了在上下文中的 RL，性能接近 RL²，尽管只使用离线 RL，并且比其他基线学习速度更快。在部分源策略训练历史的条件下，AD 也比 ED 基线改进得更快。

图 7。在需要记忆和探索的环境中，AD、ED、源策略和 RL² 的比较。仅分配二进制奖励。源策略是使用A3C在“黑暗”环境中训练的，水迷宫使用DQN。

（图片来源：Laskin et al. 2023）

第二部分：记忆

（非常感谢 ChatGPT 帮助我起草这一部分。在与 ChatGPT 的对话中，我学到了很多关于人类大脑和用于快速 MIPS 的数据结构。）

记忆类型

记忆可以定义为用于获取、存储、保留和以后检索信息的过程。人类大脑中有几种类型的记忆。

感觉记忆：这是记忆的最早阶段，提供在原始刺激结束后保留感官信息（视觉、听觉等）的能力。感觉记忆通常只持续几秒钟。子类包括图像记忆（视觉）、回声记忆（听觉）和触觉记忆（触觉）。
短期记忆（STM）或工作记忆：它存储我们目前意识到并需要执行复杂认知任务的信息。据信，短期记忆的容量约为 7 个项目（Miller 1956），持续时间为 20-30 秒。
长期记忆（LTM）：长期记忆可以存储信息长达几天到几十年，具有基本无限的存储容量。长期记忆有两个子类型：
- 显性/陈述性记忆：这是关于事实和事件的记忆，指的是那些可以有意识地回忆起的记忆，包括情景记忆（事件和经历）和语义记忆（事实和概念）。
- 隐性/程序性记忆：这种记忆是无意识的，涉及自动执行的技能和例行程序，如骑自行车或在键盘上打字。

图 8。人类记忆的分类。

我们可以粗略地考虑以下映射：

感觉记忆作为学习原始输入的嵌入表示，包括文本、图像或其他模态；
短期记忆作为上下文学习。由于受 Transformer 有限上下文窗口长度的限制，它是短暂且有限的。
长期记忆作为外部向量存储，代理可以在查询时访问，通过快速检索可获得。

最大内积搜索（MIPS）

外部存储器可以缓解有限注意力跨度的限制。一个标准做法是将信息的嵌入表示保存到一个支持快速最大内积搜索（MIPS）的向量存储数据库中。为了优化检索速度，常见选择是近似最近邻（ANN）算法，返回大约前 k 个最近邻来权衡一点精度损失以换取巨大的加速度。

用于快速 MIPS 的一些常见 ANN 算法：

LSH（Locality-Sensitive Hashing）：引入了一个哈希函数，使得相似的输入项以高概率映射到相同的桶中，其中桶的数量远远小于输入的数量。
ANNOY（Approximate Nearest Neighbors Oh Yeah）：核心数据结构是随机投影树，一组二叉树，其中每个非叶节点表示将输入空间分成两半的超平面，每个叶节点存储一个数据点。树是独立且随机构建的，因此在某种程度上，它模拟了一个哈希函数。ANNOY 搜索发生在所有树中，通过迭代搜索最接近查询的一半，然后聚合结果。这个想法与 KD 树相关，但规模更大。
HNSW（Hierarchical Navigable Small World）：灵感来自于小世界网络，其中大多数节点可以在很少的步骤内到达任何其他节点；例如社交网络的“六度分隔”特征。HNSW 构建这些小世界图的分层结构，底层包含实际数据点。中间层创建快速搜索的快捷方式。在执行搜索时，HNSW 从顶层的随机节点开始向目标导航。当无法更接近时，它移动到下一层，直到达到底层。上层的每次移动可能在数据空间中覆盖较大的距离，而下层的每次移动则提高了搜索质量。
FAISS（Facebook AI Similarity Search）：它基于这样的假设运行，即在高维空间中，节点之间的距离遵循高斯分布，因此应该存在数据点的聚类。FAISS 通过将向量空间划分为簇并在簇内细化量化来应用向量量化。搜索首先寻找具有粗量化的簇候选，然后进一步查看每个簇的细量化。
ScaNN（可扩展最近邻）：ScaNN 中的主要创新是各向异性向量量化。它将数据点 $x_i$ 量化为 $\tilde{x}_i$，使得内积 $\langle q, x_i \rangle$ 尽可能与 $\angle q, \tilde{x}_i$ 的原始距离相似，而不是选择最接近的量化中心点。

图 9. MIPS 算法的召回率@10 比较。（图片来源：Google Blog, 2020）

在ann-benchmarks.com上查看更多 MIPS 算法和性能比较。

第三部分：工具使用

工具使用是人类的一个显著且独特的特征。我们创造、修改和利用外部物体来做超越我们身体和认知极限的事情。为 LLM 配备外部工具可以显著扩展模型的能力。

图 10. 一只海獭使用石头打开贝壳的图片，同时漂浮在水中。虽然一些其他动物也能使用工具，但其复杂性无法与人类相比。（图片来源：动物使用工具）

MRKL（Karpas et al. 2022），简称“模块化推理、知识和语言”，是用于自主代理的神经符号结构。提出了一个 MRKL 系统，其中包含一组“专家”模块，通用的 LLM 作为路由器将查询路由到最适合的专家模块。这些模块可以是神经的（例如深度学习模型）或符号的（例如数学计算器、货币转换器、天气 API）。

他们对微调 LLM 以调用计算器进行了实验，以算术作为测试案例。他们的实验表明，解决口头数学问题比明确陈述的数学问题更困难，因为 LLMs（7B Jurassic1-large 模型）未能可靠地提取基本算术的正确参数。结果突出了外部符号工具何时能够可靠工作，知道何时以及如何使用工具至关重要，由 LLM 的能力决定。

TALM（工具增强语言模型；Parisi et al. 2022）和 Toolformer（Schick et al. 2023）都对 LM 进行微调，以学习使用外部工具 API。数据集根据新增的 API 调用注释是否能提高模型输出质量而扩展。在 Prompt Engineering 的“外部 API”部分中查看更多细节。

ChatGPT 插件和 OpenAI API 函数调用是 LLM 增强了工具使用能力的实践示例。工具 API 的集合可以由其他开发者提供（如插件）或自定义（如函数调用）。

HuggingGPT（Shen 等人，2023）是一个框架，使用 ChatGPT 作为任务规划器，根据模型描述选择 HuggingFace 平台上可用的模型，并根据执行结果总结响应。

图 11。HuggingGPT 工作原理示意图（图片来源：Shen 等人，2023）

系统包括 4 个阶段：

(1) 任务规划：LLM 作为大脑，将用户请求解析为多个任务。每个任务都有四个属性：任务类型、ID、依赖关系和参数。他们使用少量示例来指导 LLM 进行任务解析和规划。

指导：

AI 助手可以将用户输入解析为多个任务：[{"task": task, "id", task_id, "dep": dependency_task_ids, "args": {"text": text, "image": URL, "audio": URL, "video": URL}}]。"dep"字段表示前一个任务的 ID，生成当前任务依赖的新资源。特殊标签"-task_id"指的是依赖任务中生成的文本图像、音频和视频，其 ID 为 task_id。任务必须从以下选项中选择：{{可用任务列表}}。任务之间存在逻辑关系，请注意它们的顺序。如果无法解析用户输入，您需要回复空的 JSON。这里有几个案例供您参考：{{演示}}。聊天记录被记录为{{聊天记录}}。从这个聊天记录中，您可以找到用户提到的资源路径，用于您的任务规划。

(2) 模型选择：LLM 将任务分配给专家模型，其中请求被构建为一个多项选择问题。LLM 被呈现一个模型列表供选择。由于上下文长度有限，需要基于任务类型进行过滤。

指导：

鉴于用户请求和调用命令，AI 助手帮助用户从模型列表中选择一个合适的模型来处理用户请求。AI 助手仅输出最合适模型的模型 ID。输出必须采用严格的 JSON 格式："id": "id"，"reason": "您选择的原因"。我们为您提供了一个模型列表供您选择{{候选模型}}。请从列表中选择一个模型。

(3) 任务执行：专家模型在特定任务上执行并记录结果。

指导：

带有输入和推理结果，AI 助手需要描述过程和结果。前几个阶段可以形成为 - 用户输入：{{ 用户输入 }}, 任务规划：{{ 任务 }}, 模型选择：{{ 模型分配 }}, 任务执行：{{ 预测 }}。必须首先直接回答用户的请求。然后描述任务过程，并以第一人称向用户展示分析和模型推理结果。如果推理结果包含文件路径，必须告诉用户完整的文件路径。

(4) 响应生成：LLM 接收执行结果并向用户提供总结结果。

要将 HuggingGPT 应用于现实世界中，需要解决一些挑战：（1）需要提高效率，因为 LLM 推理轮次和与其他模型的交互都会减慢流程；（2）它依赖于长上下文窗口来沟通复杂的任务内容；（3）需要改进 LLM 输出和外部模型服务的稳定性。

API-Bank（Li 等人 2023）是用于评估工具增强 LLM 性能的基准。它包含 53 个常用的 API 工具，完整的工具增强 LLM 工作流程，以及涉及 568 次 API 调用的 264 个带注释的对话。所选的 API 非常多样化，包括搜索引擎、计算器、日历查询、智能家居控制、日程管理、健康数据管理、账户认证工作流等。由于有大量的 API，LLM 首先可以访问 API 搜索引擎找到正确的 API 调用，然后使用相应的文档进行调用。

图 12. LLM 在 API-Bank 中进行 API 调用的伪代码。（图片来源：Li 等人 2023）

在 API-Bank 工作流程中，LLM 需要做出一系列决策，每一步我们都可以评估该决策的准确性。决策包括：

是否需要 API 调用。
确定要调用的正确 API：如果不够好，LLM 需要迭代修改 API 输入（例如为搜索引擎 API 决定搜索关键词）。
基于 API 结果的响应：如果结果不满意，模型可以选择优化并再次调用。

这个基准评估了代理工具在三个级别上的使用能力：

Level-1 评估了调用 API的能力。给定 API 的描述，模型需要确定是否调用给定的 API，正确调用它，并对 API 返回做出适当响应。
Level-2 检查了检索 API的能力。模型需要搜索可能解决用户需求的 API，并通过阅读文档学习如何使用它们。
Level-3 评估了计划 API 超越检索和调用的能力。鉴于用户请求不明确（例如安排团体会议，为旅行预订航班/酒店/餐厅），模型可能需要进行多次 API 调用来解决问题。

案例研究

科学发现代理

ChemCrow（Bran 等人，2023）是一个领域特定的示例，其中 LLM 与 13 个专家设计的工具相结合，以完成有机合成，药物发现和材料设计等任务。在LangChain中实施的工作流程反映了先前在 ReAct 和 MRKLs 中描述的内容，并将 CoT 推理与与任务相关的工具相结合：

LLM 提供了一份工具名称列表，它们的实用描述以及有关预期输入/输出的详细信息。
然后指示其使用必要的工具回答用户给定的提示。指令建议模型遵循 ReAct 格式 - 思考，行动，行动输入，观察。

一个有趣的观察是，虽然基于 LLM 的评估得出结论，GPT-4 和 ChemCrow 的表现几乎相当，但与专家导向于解决方案的完成和化学正确性的人类评估表明，ChemCrow 在很大程度上优于 GPT-4。这表明在使用 LLM 评估其在需要深度专业知识的领域上的表现时可能存在问题。缺乏专业知识可能导致 LLM 不了解其缺陷，因此无法很好地判断任务结果的正确性。

Boiko 等人（2023）还研究了用于科学发现的 LLM 增强代理，以处理复杂科学实验的自主设计，规划和执行。该代理可以使用工具浏览互联网，阅读文档，执行代码，调用机器人实验 API 并利用其他 LLM。

例如，当要求“开发一种新型抗癌药物”时，模型提出了以下推理步骤：

询问了当前抗癌药物发现的趋势；
选择了一个目标；
请求了一个针对这些化合物的支架；
一旦化合物被识别出来，模型就会尝试合成它。

他们还讨论了风险，特别是非法药物和生物武器。他们开发了一个测试集，其中包含一系列已知的化学武器剂，并要求代理人合成它们。 11 个请求中有 4 个（36％）被接受以获得合成解决方案，并且代理人尝试查阅文档以执行该过程。 11 个中有 7 个被拒绝，而在这 7 个被拒绝的案例中，有 5 个发生在 Web 搜索之后，而有 2 个仅基于提示被拒绝。

生成代理模拟

生成代理（Park 等人，2023）是一个非常有趣的实验，其中有 25 个虚拟角色，每个角色由 LLM 驱动的代理控制，在一个受《模拟人生》启发的沙盒环境中生活和互动。生成代理为交互应用程序创建了可信的人类行为模拟。

生成代理的设计结合了 LLM、记忆、规划和反思机制，使代理能够根据过去的经验行为，以及与其他代理互动。

记忆流：是一个长期记忆模块（外部数据库），记录了自然语言中代理的全面经验列表。
- 每个元素都是一个观察，是代理直接提供的事件。- 代理间通信可能触发新的自然语言陈述。
检索模型：根据相关性、最新性和重要性将上下文呈现给代理，以指导其行为。
- 最近性：最近的事件得分更高
- 重要性：区分平凡的记忆和核心记忆。直接询问 LM。
- 相关性：基于其与当前情况/查询的相关性。
反思机制：随着时间的推移，将记忆综合为更高层次的推断，并指导代理的未来行为。它们是过去事件的高层摘要（<-请注意，这与上面的自我反思有所不同）
- 使用最近的 100 个观察来提示 LM，并在给定一组观察/陈述时生成 3 个最显著的高层问题。然后要求 LM 回答这些问题。
规划与反应：将反思和环境信息转化为行动
- 规划主要是为了在当下和未来优化可信度。
- 提示模板：{X 代理的介绍}。这是 X 今天的整体计划：1)
- 代理之间的关系以及一个代理对另一个代理的观察都被考虑在内，用于规划和反应。
- 环境信息以树结构呈现。

图 13. 生成代理架构。（图片来源：Park 等人 2023）

这个有趣的模拟结果导致了新兴的社会行为，如信息扩散、关系记忆（例如两个代理继续谈论的话题）和社交事件的协调（例如举办派对并邀请许多其他人）。

概念验证示例

AutoGPT引起了很多关注，因为它可能建立具有 LLM 作为主控制器的自主代理。鉴于自然语言界面，AutoGPT 存在相当多的可靠性问题，但仍然是一个很酷的概念验证演示。AutoGPT 中的许多代码都是关于格式解析的。

这是 AutoGPT 使用的系统消息，其中{{...}}是用户输入：

You are {{ai-name}}, {{user-provided AI bot description}}.
Your decisions must always be made independently without seeking user assistance. Play to your strengths as an LLM and pursue simple strategies with no legal complications.

GOALS:

1\. {{user-provided goal 1}}
2\. {{user-provided goal 2}}
3\. ...
4\. ...
5\. ...

Constraints:
1\. ~4000 word limit for short term memory. Your short term memory is short, so immediately save important information to files.
2\. If you are unsure how you previously did something or want to recall past events, thinking about similar events will help you remember.
3\. No user assistance
4\. Exclusively use the commands listed in double quotes e.g. "command name"
5\. Use subprocesses for commands that will not terminate within a few minutes

Commands:
1\. Google Search: "google", args: "input": "<search>"
2\. Browse Website: "browse_website", args: "url": "<url>", "question": "<what_you_want_to_find_on_website>"
3\. Start GPT Agent: "start_agent", args: "name": "<name>", "task": "<short_task_desc>", "prompt": "<prompt>"
4\. Message GPT Agent: "message_agent", args: "key": "<key>", "message": "<message>"
5\. List GPT Agents: "list_agents", args:
6\. Delete GPT Agent: "delete_agent", args: "key": "<key>"
7\. Clone Repository: "clone_repository", args: "repository_url": "<url>", "clone_path": "<directory>"
8\. Write to file: "write_to_file", args: "file": "<file>", "text": "<text>"
9\. Read file: "read_file", args: "file": "<file>"
10\. Append to file: "append_to_file", args: "file": "<file>", "text": "<text>"
11\. Delete file: "delete_file", args: "file": "<file>"
12\. Search Files: "search_files", args: "directory": "<directory>"
13\. Analyze Code: "analyze_code", args: "code": "<full_code_string>"
14\. Get Improved Code: "improve_code", args: "suggestions": "<list_of_suggestions>", "code": "<full_code_string>"
15\. Write Tests: "write_tests", args: "code": "<full_code_string>", "focus": "<list_of_focus_areas>"
16\. Execute Python File: "execute_python_file", args: "file": "<file>"
17\. Generate Image: "generate_image", args: "prompt": "<prompt>"
18\. Send Tweet: "send_tweet", args: "text": "<text>"
19\. Do Nothing: "do_nothing", args:
20\. Task Complete (Shutdown): "task_complete", args: "reason": "<reason>"

Resources:
1\. Internet access for searches and information gathering.
2\. Long Term memory management.
3\. GPT-3.5 powered Agents for delegation of simple tasks.
4\. File output.

Performance Evaluation:
1\. Continuously review and analyze your actions to ensure you are performing to the best of your abilities.
2\. Constructively self-criticize your big-picture behavior constantly.
3\. Reflect on past decisions and strategies to refine your approach.
4\. Every command has a cost, so be smart and efficient. Aim to complete tasks in the least number of steps.

You should only respond in JSON format as described below
Response Format:
{
    "thoughts": {
        "text": "thought",
        "reasoning": "reasoning",
        "plan": "- short bulleted\n- list that conveys\n- long-term plan",
        "criticism": "constructive self-criticism",
        "speak": "thoughts summary to say to user"
    },
    "command": {
        "name": "command name",
        "args": {
            "arg name": "value"
        }
    }
}
Ensure the response can be parsed by Python json.loads

GPT-Engineer是另一个项目，旨在根据自然语言中指定的任务创建一个完整的代码库。GPT-Engineer 被指示思考一系列较小的组件构建，并根据需要要求用户澄清问题。

这里是一个发送给 OpenAI ChatCompletion 端点的任务澄清的样本对话，该端点由 GPT-Engineer 使用。用户输入被包裹在{{用户输入文本}}中。

[
  {
    "role": "system",
    "content": "You will read instructions and not carry them out, only seek to clarify them.\nSpecifically you will first summarise a list of super short bullets of areas that need clarification.\nThen you will pick one clarifying question, and wait for an answer from the user.\n"
  },
  {
    "role": "user",
    "content": "We are writing {{a Super Mario game in python. MVC components split in separate files. Keyboard control.}}\n"
  },
  {
    "role": "assistant",
    "content": "Summary of areas that need clarification:\n1\. Specifics of the Super Mario game (e.g. level design, characters, gameplay mechanics)\n2\. Details about the MVC components (e.g. which components are in each file)\n3\. Keyboard control implementation (e.g. which keys to use, how to handle input)\n\nClarifying question:\nCan you provide more details about the Super Mario game, such as level design, characters, and gameplay mechanics?"
  },
  {
    "role": "user",
    "content": "{{There are 10 levels in total. The main character is a plumber named Mario, who can walk and jump. It is a classical platform game just like Super Mario. The main character moves from left to right, trying to get to the destination, where there are many obstacles and attacks from enemies in the process.}}\n\nIs anything else unclear? If yes, only answer in the form:\n{remaining unclear areas} remaining questions.\n{Next question}\nIf everything is sufficiently clear, only answer \"Nothing more to clarify.\"."
  },
  {
    "role": "assistant",
    "content": "Remaining unclear areas: 2 remaining questions.\nCan you provide more information about how the MVC components are split into separate files?"
  },
  {
    "role": "user",
    "content": "{{Make your own assumptions and state them explicitly before starting}}"
  }
]

然后在这些澄清之后，代理人以不同的系统消息进入了编写代码模式。系统消息：

你将得到编写代码的指令。你将写一个非常长的答案。确保最终每个架构的细节都被实现为代码。确保最终每个架构的细节都被实现为代码。

逐步思考并理性地做出正确的决定，以确保我们做对了。你将首先列出核心类、函数、方法的名称，以及对它们目的的快速注释。

然后，你将输出每个文件的内容，包括所有代码。每个文件必须严格遵循 markdown 代码块格式，其中以下标记必须被替换，以便 FILENAME 是包括文件扩展名的小写文件名，LANG 是代码语言的标记代码块语言，CODE 是代码：

文件名

CODE

你将从“入口点”文件开始，然后转到被该文件导入的文件，依此类推。请注意，代码应该是完全可用的。没有占位符。

遵循适当的最佳实践文件命名约定。确保文件包含所有导入、类型等。确保不同文件中的代码与彼此兼容。确保实现所有代码，如果不确定，写一个合理的实现。包括模块依赖或包管理器依赖定义文件。在完成之前，仔细检查所有架构的各个部分是否都在文件中。

有用的知识：你几乎总是将不同的类放在不同的文件中。对于 Python，你总是创建一个适当的 requirements.txt 文件。对于 NodeJS，你总是创建一个适当的 package.json 文件。你总是添加一个简短描述函数定义目的的注释。你尝试添加解释非常复杂逻辑的注释。你总是遵循所请求语言的最佳实践，以描述编写的代码作为一个定义的包/项目。

Python 工具包偏好：

pytest
dataclasses

对话样本：

[
  {
    "role": "system",
    "content": "You will get instructions for code to write.\nYou will write a very long answer. Make sure that every detail of the architecture is, in the end, implemented as code.\nMake sure that every detail of the architecture is, in the end, implemented as code.\n\nThink step by step and reason yourself to the right decisions to make sure we get it right.\nYou will first lay out the names of the core classes, functions, methods that will be necessary, as well as a quick comment on their purpose.\n\nThen you will output the content of each file including ALL code.\nEach file must strictly follow a markdown code block format, where the following tokens must be replaced such that\nFILENAME is the lowercase file name including the file extension,\nLANG is the markup code block language for the code's language, and CODE is the code:\n\nFILENAME\n```LANG\nCODE\n```py\n\nYou will start with the \"entrypoint\" file, then go to the ones that are imported by that file, and so on.\nPlease note that the code should be fully functional. No placeholders.\n\nFollow a language and framework appropriate best practice file naming convention.\nMake sure that files contain all imports, types etc. Make sure that code in different files are compatible with each other.\nEnsure to implement all code, if you are unsure, write a plausible implementation.\nInclude module dependency or package manager dependency definition file.\nBefore you finish, double check that all parts of the architecture is present in the files.\n\nUseful to know:\nYou almost always put different classes in different files.\nFor Python, you always create an appropriate requirements.txt file.\nFor NodeJS, you always create an appropriate package.json file.\nYou always add a comment briefly describing the purpose of the function definition.\nYou try to add comments explaining very complex bits of logic.\nYou always follow the best practices for the requested languages in terms of describing the code written as a defined\npackage/project.\n\n\nPython toolbelt preferences:\n- pytest\n- dataclasses\n"
  },
 #  … same conversation as earlier, ended with "Make your own assumptions and state them explicitly before starting".
  {
    "role": "assistant",
    "content": "Assumptions:\n1\. Model: The model will contain the game's data, such as level information, character states, and enemy positions.\n2\. View: The view will handle the game's visuals, including rendering the game objects, backgrounds, and updating the display.\n3\. Controller: The controller will manage user input, such as keyboard controls, and update the model accordingly.\n\nWith these assumptions in mind, is there any specific aspect of the keyboard control implementation you would like me to clarify?"
  },
  {
    "role": "user",
    "content": "Please now remember the steps:\n\nThink step by step and reason yourself to the right decisions to make sure we get it right.\nFirst lay out the names of the core classes, functions, methods that will be necessary, As well as a quick comment on their purpose.\n\nThen you will output the content of each file including ALL code.\nEach file must strictly follow a markdown code block format, where the following tokens must be replaced such that\nFILENAME is the lowercase file name including the file extension,\nLANG is the markup code block language for the code's language, and CODE is the code:\n\nFILENAME\n```LANG\nCODE\n```py\n\nPlease note that the code should be fully functional. No placeholders.\n\nYou will start with the \"entrypoint\" file, then go to the ones that are imported by that file, and so on.\nFollow a language and framework appropriate best practice file naming convention.\nMake sure that files contain all imports, types etc. The code should be fully functional. Make sure that code in different files are compatible with each other.\nBefore you finish, double check that all parts of the architecture is present in the files.\n"
  }
]

挑战

在经历了构建以 LLM 为中心的代理的关键思想和演示之后，我开始看到一些常见的限制：

有限的上下文长度：受限的上下文容量限制了历史信息、详细说明、API 调用上下文和响应的包含。系统的设计必须在这种有限的通信带宽下工作，而像自我反思这样的机制可以从过去的错误中学习，这将极大地受益于长或无限的上下文窗口。虽然向量存储和检索可以提供对更大知识库的访问，但它们的表示能力不如完全注意力强大。
长期规划和任务分解中的挑战：在漫长的历史上进行规划并有效地探索解决方案空间仍然具有挑战性。 LLM 在面对意外错误时很难调整计划，使它们比起能够通过试错学习的人类更不稳健。
自然语言接口的可靠性：当前代理系统依赖于自然语言作为 LLM 与记忆和工具等外部组件之间的接口。然而，模型输出的可靠性值得怀疑，因为 LLM 可能会出现格式错误，偶尔表现出叛逆行为（例如拒绝遵循指令）。因此，许多代理演示代码侧重于解析模型输出。

引文

引用为：

翁，莉莉安。 (2023 年 6 月). 由 LLM 驱动的自主代理。Lil’Log。lilianweng.github.io/posts/2023-06-23-agent/.

或

@article{weng2023prompt,
  title   = "LLM-powered Autonomous Agents"",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2023",
  month   = "Jun",
  url     = "https://lilianweng.github.io/posts/2023-06-23-agent/"
}

参考资料

[1] 魏等人。“思维链索引引发大型语言模型的推理。” NeurIPS 2022

[2] 姚等人。“思维之树：与大型语言模型进行深思熟虑的问题解决。” arXiv 预印本 arXiv:2305.10601 (2023).

[3] 刘等人。“事后视角链将语言模型与反馈对齐” arXiv 预印本 arXiv:2302.02676 (2023).

[4] 刘等人。“LLM+P：赋予大型语言模型最佳规划能力” arXiv 预印本 arXiv:2304.11477 (2023).

[5] 姚等人。“ReAct：在语言模型中协同推理和行动。” ICLR 2023.

[6] 谷歌博客。“宣布 ScaNN：高效的向量相似性搜索” 2020 年 7 月 28 日。

[7] chat.openai.com/share/46ff149e-a4c7-4dd7-a800-fc4a642ea389

[8] Shinn & Labash。“反思：具有动态记忆和自我反思的自主代理” arXiv 预印本 arXiv:2303.11366 (2023).

[9] Laskin 等人。“具有算法蒸馏的上下文强化学习” ICLR 2023.

[10] 卡帕斯等人。“MRKL 系统：将大型语言模型、外部知识源和离散推理相结合的模块化、神经符号架构。” arXiv 预印本 arXiv:2205.00445 (2022).

[11] Weaviate 博客。为什么向量搜索如此快？ 2022 年 9 月 13 日。

[12] 李等人。“API-Bank：用于工具增强 LLM 的基准” arXiv 预印本 arXiv:2304.08244 (2023).

[13] 沈等人。“HuggingGPT：使用 ChatGPT 及其 HuggingFace 朋友解决 AI 任务” arXiv 预印本 arXiv:2303.17580 (2023).

[14] Bran 等人。“ChemCrow：用化学工具增强大型语言模型。” arXiv 预印本 arXiv:2304.05376 (2023)。

[15] Boiko 等人。“大型语言模型的新兴自主科学研究能力。” arXiv 预印本 arXiv:2304.05332 (2023)。

[16] Joon Sung Park 等人。“生成代理：人类行为的交互模拟。” arXiv 预印本 arXiv:2304.03442 (2023)。

[17] AutoGPT。github.com/Significant-Gravitas/Auto-GPT

[18] GPT-Engineer。github.com/AntonOsika/gpt-engineer

提示工程

原文：lilianweng.github.io/posts/2023-03-15-prompt-engineering/

提示工程，也称为上下文提示，指的是如何与 LLM 进行通信以引导其行为以实现期望的结果，而不更新模型权重。这是一门经验科学，提示工程方法的效果在模型之间可能有很大差异，因此需要大量的实验和启发式方法。

本文仅关注自回归语言模型的提示工程，因此与填空测试、图像生成或多模态模型无关。在本质上，提示工程的目标是关于对齐和模型可操纵性。查看我的先前文章关于可控文本生成。

[我个人的独特看法] 在我看来，一些提示工程论文并不值得写成 8 页长，因为这些技巧可以用一两句话解释清楚，其余都是关于基准测试。一个易于使用和共享的基准测试基础设施对社区更有益。迭代提示或外部工具使用并不容易设置。将整个研究社区对齐以采用它也不容易。

基本提示

零样本和少样本学习是提示模型的两种最基本方法，由许多 LLM 论文开创，并常用于 LLM 性能基准测试。

零样本

零样本学习就是简单地将任务文本提供给模型并要求结果。

（所有情感分析示例均来自 SST-2）

Text: i'll bet the video game is a lot more fun than the film.
Sentiment:

少样本

少样本学习提供了一组高质量的演示，每个演示都包括输入和期望的输出，在目标任务上。由于模型首先看到了好的示例，它可以更好地理解人类意图和对所需答案种类的标准。因此，少样本学习通常比零样本表现更好。然而，这是以更多的标记消耗为代价的，并且当输入和输出文本很长时可能会达到上下文长度限制。

Text: (lawrence bounces) all over the stage, dancing, running, sweating, mopping his face and generally displaying the wacky talent that brought him fame in the first place.
Sentiment: positive

Text: despite all evidence to the contrary, this clunker has somehow managed to pose as an actual feature movie, the kind that charges full admission and gets hyped on tv and purports to amuse small children and ostensible adults.
Sentiment: negative

Text: for the first time in years, de niro digs deep emotionally, perhaps because he's been stirred by the powerful work of his co-stars.
Sentiment: positive

Text: i'll bet the video game is a lot more fun than the film.
Sentiment:

许多研究探讨了如何构建上下文示例以最大化性能，并观察到提示格式的选择、训练示例以及示例的顺序可能导致截然不同的性能，从几乎随机猜测到接近最先进技术。

赵等人（2021）调查了少样本分类的情况，并提出 LLM 存在几种偏差（他们在实验中使用 GPT-3），导致高方差：(1) 多数标签偏差 存在于如果示例中的标签分布不平衡; (2) 最近性偏差 指的是模型可能在最后重复标签; (3) 常见标记偏差 表明 LLM 倾向于更频繁地生成常见标记而不是罕见标记。为了克服这种偏差，他们提出了一种方法，即在输入字符串为N/A时，校准模型输出的标签概率为均匀分布。

示例选择提示

使用嵌入空间中的$k$-NN 聚类选择与测试示例在语义上相似的示例（刘等人，2021）
为了选择多样且具代表性的示例集，苏等人（2022）提出使用基于图的方法：(1) 首先，基于样本之间的嵌入（例如通过SBERT或其他嵌入模型)余弦相似度构建一个有向图$G=(V, E)$，其中每个节点指向其$k$个最近邻居; (2) 从一组已选择的样本$\mathcal{L}=\emptyset$和一组剩余样本$\mathcal{U}$开始。每个样本$u \in \mathcal{U}$的得分为$$ \text{score}(u) = \sum_{v \in {v \mid (u, v) \in E, v\in \mathcal{U}}} s(v)\quad\text{其中}s(v)=\rho^{- \vert {\ell \in \mathcal{L} \vert (v, \ell)\in E }\vert},\quad\rho > 1 $$，这样如果$v$的邻居中有很多被选择，则$s(v)$较低，因此评分鼓励选择多样化的样本。
鲁宾等人（2022）提出通过对比学习专门针对一个训练数据集进行嵌入训练，以进行上下文学习样本选择。对于每个训练对$(x, y)$，一个示例$e_i$（格式化的输入-输出对）的质量可以通过 LM 分配的条件概率来衡量：$\text{score}(e_i) = P_\text{LM}(y \mid e_i, x)$。我们可以将具有前$k$和后$k$分数的其他示例识别为每个训练对的正面和负面候选集，并将其用于对比学习。
一些研究人员尝试使用Q 学习进行样本选择。(张等人，2022)
受不确定性驱动的主动学习的启发，Diao 等人（2023）建议识别在多次抽样试验中存在高争议或熵的示例。然后注释这些示例以在少样本提示中使用。

示例排序的提示

一个一般建议是保持示例选择多样化，与测试样本相关，并以随机顺序排列，以避免多数标签偏见和最新偏见。
增加模型大小或包含更多训练示例并不能减少上下文示例中不同排列之间的方差。同样的顺序可能对一个模型效果很好，但对另一个模型效果很差。当验证集有限时，考虑选择顺序，使得模型不会产生极端不平衡的预测或对其预测过于自信。(Lu 等人，2022)

指导提示

在提示中呈现少样本示例的目的是向模型解释我们的意图；换句话说，以示范的形式向模型描述任务指导。然而，少样本可能在标记使用方面昂贵，并且由于有限的上下文长度限制了输入长度。那么，为什么不直接给出指导呢？

指导式语言模型（例如InstructGPT，自然指导）通过高质量的（任务指导，输入，期望输出）元组对预训练模型进行微调，以使语言模型更好地理解用户意图并遵循指导。RLHF（从人类反馈中进行强化学习）是一种常见的方法。指导式微调的好处在于改进模型与人类意图更加一致，并大大降低了沟通成本。

与指导模型交互时，我们应该详细描述任务要求，尽量具体和精确，避免说“不要做某事”，而是明确指定要做什么。

Please label the sentiment towards the movie of the given movie review. The sentiment label should be "positive" or "negative". 
Text: i'll bet the video game is a lot more fun than the film. 
Sentiment:

解释所需的受众是另一种明智的给出指导的方式

例如，为儿童制作教育材料，

Describe what is quantum physics to a 6-year-old.

以及安全内容，

... in language that is safe for work.

上下文指导学习（Ye 等人，2023）将少样本学习与指导提示相结合。它在提示中整合了不同任务中的多个示例，每个示例包括指导、任务输入和输出。请注意，他们的实验仅针对分类任务，指导提示包含所有标签选项。

Definition: Determine the speaker of the dialogue, "agent" or "customer".
Input: I have successfully booked your tickets.
Ouput: agent

Definition: Determine which category the question asks for, "Quantity" or "Location".
Input: What's the oldest building in US?
Ouput: Location

Definition: Classify the sentiment of the given movie review, "positive" or "negative".
Input: i'll bet the video game is a lot more fun than the film.
Output:

自一致性抽样

自一致性抽样（Wang 等人，2022a）是通过温度大于 0 的多个输出进行抽样，然后从这些候选项中选择最佳答案。选择最佳候选项的标准可能因任务而异。一个通用的解决方案是选择多数投票。对于易于验证的任务，比如带有单元测试的编程问题，我们可以简单地通过解释器运行并使用单元测试验证正确性。

思维链（CoT）

思维链（CoT）提示（魏等人，2022）生成一系列简短的句子来逐步描述推理逻辑，称为推理链或理由，最终导致最终答案。 CoT 对于复杂的推理任务效果更为显著，而使用大型模型（例如具有超过 50B 参数的模型）。简单任务只能从 CoT 提示中稍微受益。

CoT 提示的类型

CoT 提示的两种主要类型：

少样本 CoT。这是通过几个示例提示模型，每个示例包含手动编写（或模型生成的）高质量推理链。

（所有数学推理示例均来自GSM8k）

Question: Tom and Elizabeth have a competition to climb a hill. Elizabeth takes 30 minutes to climb the hill. Tom takes four times as long as Elizabeth does to climb the hill. How many hours does it take Tom to climb up the hill?
Answer: It takes Tom 30*4 = <<30*4=120>>120 minutes to climb the hill.
It takes Tom 120/60 = <<120/60=2>>2 hours to climb the hill.
So the answer is 2.
===
Question: Jack is a soccer player. He needs to buy two pairs of socks and a pair of soccer shoes. Each pair of socks cost $9.50, and the shoes cost $92\. Jack has $40\. How much more money does Jack need?
Answer: The total cost of two pairs of socks is $9.50 x 2 = $<<9.5*2=19>>19.
The total cost of the socks and the shoes is $19 + $92 = $<<19+92=111>>111.
Jack need $111 - $40 = $<<111-40=71>>71 more.
So the answer is 71.
===
Question: Marty has 100 centimeters of ribbon that he must cut into 4 equal parts. Each of the cut parts must be divided into 5 equal parts. How long will each final cut be?
Answer:

零样本 CoT。使用自然语言语句如让我们逐步思考明确鼓励模型首先生成推理链，然后提示因此，答案是来生成答案（小岛等人，2022）。或类似语句让我们逐步解决这个问题，以确保我们有正确的答案（周等人，2022）。

Question: Marty has 100 centimeters of ribbon that he must cut into 4 equal parts. Each of the cut parts must be divided into 5 equal parts. How long will each final cut be?
Answer: Let's think step by step.

提示和扩展

自一致性抽样可以通过抽样多个不同的答案然后进行多数投票来提高推理准确性。(Wang 等人，2022a)
另一种集成学习的方法是改变示例顺序或使用模型生成的理由替换人工编写的理由，在多次样本试验中引入随机性。然后用多数投票聚合模型输出以获得最终答案。(Wang 等人，2022b)
如果训练示例仅与真实答案相关（易于验证！）但没有理由，我们可以遵循STaR（自学习推理者；Zelikman 等人，2022）方法：（1）要求 LLM 生成推理链，仅保留导致正确答案的链条；（2）然后用生成的理由微调模型，并重复该过程直至收敛。请注意，较高的温度更有可能生成带有正确答案的不正确理由。如果训练示例没有地面真实答案，也许可以考虑使用多数投票作为“正确”答案。
具有更高推理复杂性演示的提示可以实现更好的性能，其中复杂性由链中推理步骤的数量来衡量。在分离推理步骤时，换行符\n比步骤 i、句号.或分号;更有效。(Fu 等人，2023)
基于复杂性的一致性是明确偏好于所有生成中的复杂链，通过在仅前$k$个复杂链中进行多数投票来实现。(Fu 等人，2023)
后来，Shum 等人（2023）在实验中发现，只有复杂示例的 CoT 提示可以提高复杂问题的准确性，但在简单问题上表现不佳；GSM8k 上的证据显示。
将Q：更改为问题：被发现是有帮助的。(Fu 等人，2023)
Ye & Durrett（2022）发现，在提示中包含解释对涉及对文本进行推理的 NLP 任务（即 QA 和 NLI）的效益较小至中等，并且效果因模型而异。他们观察到解释更有可能是非事实性的，而不是不一致的（即解释是否包含预测）。非事实性解释最有可能导致不正确的预测。
自问（Press 等人，2022）是一种反复提示模型提出后续问题以迭代构建思维过程的方法。后续问题可以通过搜索引擎结果回答。类似地，IRCoT（交错检索 CoT；Trivedi 等人，2022）和ReAct（Reason + Act；Yao 等人，2023）将迭代 CoT 提示与查询维基百科 API 以搜索相关实体和内容并将其添加回上下文。

图 1。自问如何与外部搜索查询配合工作。

（图片来源：Press 等人，2022）。

思维树（Yao 等人，2023）通过在每一步探索多个推理可能性来扩展 CoT。它首先将问题分解为多个思考步骤，并在每一步生成多个思考，从根本上创建了一棵树结构。搜索过程可以是 BFS 或 DFS，而每个状态都由分类器（通过提示）或多数投票评估。

图 2。自问如何与外部搜索查询配合工作。

（图片来源：Yao 等人，2022）。

自动提示设计

提示是一系列前缀标记，增加了在给定输入时获得所需输出的概率。因此，我们可以将它们视为可训练参数，并通过梯度下降直接在嵌入空间上进行优化，例如AutoPrompt（Shin 等人，2020）、Prefix-Tuning（Li & Liang，2021）、P-tuning（Liu 等人，2021）和Prompt-Tuning（Lester 等人，2021）。我“可控神经文本生成”文章中的这一部分对它们有很好的覆盖。从 AutoPrompt 到 Prompt-Tuning 的趋势是设置逐渐简化。

APE（自动提示工程师；Zhou 等人，2022）是一种方法，用于在模型生成的指令候选项池中搜索，然后根据选择的评分函数过滤候选集，最终选择得分最高的最佳候选项。

提示 LLM 根据少量演示形式的输入-输出对生成指令候选项。例如{{给定所需的输入-输出对}}\n\n 指令是。
给定数据集$\mathcal{D}_\text{train} = \{(x, y)\}$，我们希望找到一个指令$\rho$，使得$\rho^* = \arg\max_\rho \mathbb{E}_{(x, y) \in \mathcal{D}_\text{train}} [f(\rho, x, y)]$，其中$f(.)$是一个逐样本评分函数，例如执行准确性$\mathbb{1}[\text{LM}(.\vert \rho, x)=y]$或对数概率：$p_\text{LM}(y \mid \rho, x)$。
使用迭代的蒙特卡洛搜索方法通过提示提出语义相似的变体来改进最佳候选项，例如生成以下指令的变体，保持语义含义。\n\n 输入：...\n\n 输出：...

为了自动构建思维链提示，Shum 等人（2023）建议增强-修剪-选择，一个三步过程：

增强：使用少样本或零样本 CoT 提示生成多个思维伪链；
修剪：根据生成的答案是否与基本事实匹配来修剪伪链。
选择：应用方差减少的策略梯度策略来学习所选示例的概率分布，同时考虑示例的概率分布作为策略和验证集准确性作为奖励。

Zhang 等人（2023）反而采用聚类技术来抽样问题，然后生成链。他们观察到 LLMs 倾向于产生某些类型的错误。一种类型的错误可能在嵌入空间中相似，因此被分组在一起。通过仅从频繁错误聚类中抽样一个或几个，我们可以防止一种错误类型产生过多错误演示，并收集多样化的示例。

问题聚类：嵌入问题并运行$k$-means 进行聚类。
演示选择：从每个聚类中选择一组代表性问题；即每个聚类中选择一个演示。每个聚类中的样本按与聚类中心的距离排序，距离聚类中心更近的先被选择。
理由生成：使用零-shot CoT 生成选定问题的推理链，并构建少-shot 提示来运行推理。

增强语言模型

Mialon 等人（2023）对增强语言模型进行了调查，涵盖了多个类别的具有推理技能和使用外部工具能力的语言模型。推荐一下。

检索

我们经常需要在模型预训练截止时间或内部/私有知识库之后完成需要最新知识的任务。在这种情况下，如果我们不在提示中明确提供上下文，模型将不知道上下文。许多开放领域问答的方法首先依赖于对知识库进行检索，然后将检索到的内容作为提示的一部分。这一过程的准确性取决于检索和生成步骤的质量。

Lazaridou 等人（2022）研究了如何利用 Google 搜索进行文档检索以增强 LLMs。给定一个问题$q$，从 Google 返回的 20 个 URL 中提取干净文本，得到一组文档。由于这些文档很长，每个文档被分成 6 句的段落$\{p\}$。段落根据证据段落和查询之间基于 TF-IDF 的余弦相似度进行排名。只使用最相关的段落来生成答案$a$的提示。

对于闭卷问答，每个演示的格式如下以构建少-shot 提示。发现将问题与证据互换（问题和答案之间的距离更远）通常会导致所有数据集的结果一致较低。

Evidence: ...
Question: ...
Answer: ...

答案概率有三种计算方式：

RAG风格，$p(a_i \mid q) = \sum_{i=1}^n p_\text{tf-idf} (p_i \mid q) \cdot p_\text{LM}(a_i \mid q, p_i)$，其中$p_\text{tf-idf} (p_i \mid q)$是 TF-IDF 段落和问题表示之间的归一化余弦相似度。
噪声信道推理，$p(a_i\mid q) = \frac{p_\text{LM}(q \mid a_i, p_i) \cdot p_\text{LM}(a_i \mid p_i)}{p_\text{LM}(q \mid p_i)}$
专家乘积（PoE），结合了上述所有概率以及 $p_\text{LM}(p_i \mid q)$。

根据他们在生成和分类任务上的实验，三个答案重新排名得分中 - PoE > Noisy channel > RAG。在个别概率中，$p_\text{LM}(a \mid q, p_i)$ 和 $p_\text{LM}(q \mid p_i, a)$ 被发现是最具信息量的。$p_\text{LM}(q \mid p_i, a)$ 捕捉了 LM 在给定证据段落和答案的情况下解释问题的能力，并可可靠用于重新排列答案候选者。

对于基于不同日期的问题的SituatedQA数据集的一个观察是，尽管 LM（预训练截止年份为 2020 年）通过 Google 搜索可以获取最新信息，但其在 2020 年后的问题上的表现仍然比在 2020 年前的问题上差很多。这表明上下文信息和模型内部知识之间存在一些不一致或冲突的参数。

有趣的是，即使只有“内部检索”，即在回答问题之前生成关于主题的知识也是有益的（Liu et al. 2022）。首先，我们可以使用以下模板提取知识：

Generate some knowledge about the input. Examples:

Input: What type of water formation is formed by clouds?
Knowledge: Clouds are made of water vapor.

Input: {question}
Knowledge:

然后通过模型生成的知识，进一步提示 LM 获取答案。

编程语言

PAL（程序辅助语言模型；Gao et al. 2022）和 PoT（思维方案提示程序；Chen et al. 2022）都要求 LLM 生成编程语言语句来解决自然语言推理问题，从而将解决步骤转移到运行时，如 Python 解释器。这种设置将复杂的计算和推理分离开来。它依赖于具有足够良好编码技能的 LM。

图 3。比较 CoT 和 PoT。（图片来源：Chen et al. 2022）。

外部 APIs

TALM（工具增强语言模型；Parisi et al. 2022）是一个通过文本到文本 API 调用增强的语言模型。LM 被引导生成|tool-call和tool input text，条件是任务输入文本以构建 API 调用请求。当|result出现时，指定的工具 API 被调用，并返回的结果被附加到文本序列中。最终输出遵循|output标记。

图 4。TALM 中 API 调用的格式。（图片来源：Parisi et al. 2022）。

TALM 采用自我对弈方法来迭代地引导工具使用示例数据集，并用其对 LM 进行微调。这种自我对弈被定义为模型与工具 API 交互，根据新添加的工具 API 是否能改善模型输出来迭代地扩展数据集。Toolformer 中也采用了相同的思想，下面将更详细地描述。该流程松散地模拟了一个强化学习过程，其中 LM 是策略网络，并通过二进制奖励信号进行策略梯度训练。

图 5. 自我对弈迭代有助于提升模型性能。

(图片来源：Parisi 等人 2022)。

Toolformer (Schick 等人 2023) 是一个 LM，可以通过简单的 API 使用外部工具，以自监督方式构建，并且每个 API 只需要少量演示。Toolformer 的工具箱包括：

计算器 帮助 LM 解决数学技能不精确的问题；
问答系统 帮助处理不忠实内容和幻觉；
搜索引擎 在预训练截止时间后提供最新信息；
翻译系统 以提高低资源语言的性能；
日历使 LM 意识到时间的推移。

图 6. 如何构建 Toolformer 的示意图。

(图片来源：Schick 等人 2023)。

Toolformer 的训练如下：

提示注释潜在的 API 调用。通过少量示例 API 调用使用预训练 LM 对数据集进行注释。格式示例：

图 7. 如何对数据集进行注释以进行 API 调用。

(图片来源：Schick 等人 2023)。
- 每个 API 调用表示为 (API 名称，相应输入) 的元组，$c=(a_c, i_c)$，其相应结果表示为 $r$。具有结果和无结果的 API 调用序列分别标记如下：
  
  \[\begin{aligned} e(c) &= \langle\texttt{API}\rangle a_c(i_c) \langle\texttt{/API}\rangle \\ e(c, r) &= \langle\texttt{API}\rangle a_c(i_c) \to r \langle\texttt{/API}\rangle \end{aligned} \]
- 基于概率 $p_\text{LM}(\langle\texttt{API}\rangle \mid \text{prompt}(\mathbf{x}), \mathbf{x}_{1:i})$ 的样本 API 调用，并在概率大于阈值时选择在位置 $i$ 进行 API 调用的前 $k$ 个候选位置。
- 然后我们从 LM 中给定序列 $[\text{prompt}(\mathbf{x}), x_1, \dots, x_{i-1}, \langle\texttt{API}\rangle]$ 作为前缀和 $\langle\texttt{/API}\rangle$ 作为后缀中抽样潜在的 API 调用。
根据 API 调用是否帮助模型预测未来标记来筛选注释。使用自监督损失来决定哪些 API 调用实际上是有帮助的。
- 执行每个 API 调用 $c_i$ 以获得相应结果 $r_i$。
- 当模型以提示为前缀时，计算 LM 在标记$x_i, \dots, x_n$上的加权交叉熵损失。计算两个版本，一个带有 API 结果，另一个带有空序列$\varepsilon$。
  
  \[\begin{aligned} L^+_i &= L_i(e(c_i, r_i)) \\ L^-_i &= \min(L_i(\varepsilon), L_i(e(c_i, \varepsilon))) \\ \end{aligned} \]
  只有$L^-_i - L^+_i$大于阈值的 API 调用会被保留，这意味着添加此 API 调用及其结果有助于模型预测未来的标记。
在这个注释数据集上微调 LM。 新的训练序列构建为$\mathbf{x}^* = x_{1:i-1}, e(c_i, r_i), x_{i:n}$。训练数据是原始数据集的组合（例如，如论文中所述的 CCNet 的子集）及其增强版本。

推理时，解码会一直运行，直到模型产生“$\to$”标记，表示它正在等待下一个 API 调用的响应。

Toolformer 目前不支持链式工具使用（即使用一个工具的输出作为另一个工具的输入）或交互方式（即在人类选择后采用 API 响应）。这两种方式都是未来扩展模型的有趣方向。

引用

引用为：

翁，莉莉安。 (2023 年 3 月)。提示工程。Lil’Log。https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/。

或

@article{weng2023prompt,
  title   = "Prompt Engineering",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2023",
  month   = "Mar",
  url     = "https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/"
}

有用资源

OpenAI Cookbook有许多深入的示例，展示如何高效利用 LLM。
LangChain，一个用于将语言模型与其他组件结合构建应用程序的库。
Prompt Engineering Guide存储库包含了关于提示工程的教育材料的相当全面的收集。
learnprompting.org
PromptPerfect
Semantic Kernel

参考文献

[1] 赵等人 “使用前校准：改善语言模型的少样本性能。” ICML 2021

[2] 刘等人 “GPT-3 的上下文示例是什么使之优秀？” arXiv 预印本 arXiv:2101.06804 (2021)。

[3] 卢等人 “奇妙有序的提示及其发现之处：克服少样本提示顺序敏感性。” ACL 2022

[4] 叶等人 “上下文指导学习。” arXiv 预印本 arXiv:2302.14691 (2023)。

[5] 苏等人 “选择性注释使语言模型更好的少样本学习者。” arXiv 预印本 arXiv:2209.01975 (2022)。

[6] 鲁宾等人 “学习为上下文学习检索提示。” NAACL-HLT 2022

[7] 魏等人 “思维链提示引发大型语言模型的推理。” NeurIPS 2022

[8] 王等人 “自一致性改善语言模型中的思维链推理。” ICLR 2023.

[9] 刁等人 “大型语言模型的主动提示与思维链。” arXiv 预印本 arXiv:2302.12246 (2023).

[10] 泽利克曼等人 “STaR：用推理引导推理。” arXiv 预印本 arXiv:2203.14465 (2022).

[11] 叶 & 达雷特 “少样本情境学习中解释的不可靠性。” arXiv 预印本 arXiv:2205.03401 (2022).

[12] 特里韦迪等人 “交错检索与思维链推理相结合，用于知识密集型多步问题。” arXiv 预印本 arXiv:2212.10509 (2022).

[13] 普雷斯等人 “衡量和缩小语言模型中的组合性差距。” arXiv 预印本 arXiv:2210.03350 (2022).

[14] 姚等人 “ReAct：在语言模型中协同推理和行动。” ICLR 2023.

[15] 傅等人 “基于复杂性的多步推理提示。” arXiv 预印本 arXiv:2210.00720 (2022).

[16] 王等人 “基于原因的集成在语言模型中。” arXiv 预印本 arXiv:2207.00747 (2022).

[17] 张等人 “大型语言模型中的自动思维链提示。” arXiv 预印本 arXiv:2210.03493 (2022).

[18] 沈等人 “使用标记数据的思维链自动提示增强和选择。” arXiv 预印本 arXiv:2302.12822 (2023).

[19] 周等人 “大型语言模型是人类级别的提示工程师。” ICLR 2023.

[20] 拉扎里多等人 “通过少样本提示增强互联网语言模型，用于开放域问答。” arXiv 预印本 arXiv:2203.05115 (2022).

[21] 陈等人 “思维提示程序：将计算与推理分离，用于数值推理任务。” arXiv 预印本 arXiv:2211.12588 (2022).

[22] 高等人 “PAL：程序辅助语言模型。” arXiv 预印本 arXiv:2211.10435 (2022).

[23] 帕里西等人 “TALM：工具增强语言模型” arXiv 预印本 arXiv:2205.12255 (2022).

[24] 施克等人 “Toolformer：语言模型可以自我教导使用工具。” arXiv 预印本 arXiv:2302.04761 (2023).

[25] 米亚隆等人 “增强语言模型：一项调查” arXiv 预印本 arXiv:2302.07842 (2023).

[26] 姚等人 “思维之树：大型语言模型的刻意问题解决。” arXiv 预印本 arXiv:2305.10601 (2023).

变压器家族版本 2.0

原文：lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/

自从我三年前关于变压器家族的最后一篇文章以来，许多新的变压器架构改进已经被提出。在这里，我对那篇 2020 年的文章进行了大规模的重构和丰富 — 重新构建了各个部分的层次结构，并用更多最新的论文改进了许多部分。版本 2.0 是旧版本的超集，长度大约是旧版本的两倍。

符号说明

符号	含义
$d$	模型大小 / 隐藏状态维度 / 位置编码大小。
$h$	多头注意力层中的头数。
$L$	输入序列的段长度。
$N$	模型中的注意力层总数；不考虑 MoE。
$\mathbf{X} \in \mathbb{R}^{L \times d}$	输入序列，其中每个元素都映射为形状为 $d$ 的嵌入向量，与模型大小相同。
$\mathbf{W}^k \in \mathbb{R}^{d \times d_k}$	键权重矩阵。
$\mathbf{W}^q \in \mathbb{R}^{d \times d_k}$	查询权重矩阵。
$\mathbf{W}^v \in \mathbb{R}^{d \times d_v}$	值权重矩阵。通常情况下 $d_k = d_v = d$。
$\mathbf{W}^k_i, \mathbf{W}^q_i \in \mathbb{R}^{d \times d_k/h}; \mathbf{W}^v_i \in \mathbb{R}^{d \times d_v/h}$	每个头部的权重矩阵。
$\mathbf{W}^o \in \mathbb{R}^{d_v \times d}$	输出权重矩阵。
$\mathbf{Q} = \mathbf{X}\mathbf{W}^q \in \mathbb{R}^{L \times d_k}$	查询嵌入输入。
$\mathbf{K} = \mathbf{X}\mathbf{W}^k \in \mathbb{R}^{L \times d_k}$	键嵌入输入。
$\mathbf{V} = \mathbf{X}\mathbf{W}^v \in \mathbb{R}^{L \times d_v}$	值嵌入输入。
$\mathbf{q}_i, \mathbf{k}_i \in \mathbb{R}^{d_k}, \mathbf{v}_i \in \mathbb{R}^{d_v}$	查询、键、值矩阵中的行向量，$\mathbf{Q}$、$\mathbf{K}$ 和 $\mathbf{V}$。
$S_i$	第 $i$ 个查询 $\mathbf{q}_i$ 要关注的键位置集合。
$\mathbf{A} \in \mathbb{R}^{L \times L}$	输入序列长度为 $L$ 时，自注意力矩阵。$\mathbf{A} = \text{softmax}(\mathbf{Q}\mathbf{K}^\top / \sqrt{d_k})$。
$a_{ij} \in \mathbf{A}$	查询 $\mathbf{q}_i$ 和键 $\mathbf{k}_j$ 之间的标量注意力分数。
$\mathbf{P} \in \mathbb{R}^{L \times d}$	位置编码矩阵，第 $i$ 行 $\mathbf{p}_i$ 是输入 $\mathbf{x}_i$ 的位置编码。

变压器基础知识

Transformer（将被称为“普通 Transformer”以区别于其他增强版本；Vaswani 等人，2017）模型具有编码器-解码器架构，与许多NMT模型中常用的相同。后来简化的 Transformer 在语言建模任务中表现出色，例如仅编码器的BERT或仅解码器的GPT。

注意力和自注意力

注意力机制 是神经网络中的一种机制，模型可以通过有选择地关注给定的数据集来进行预测。注意力的多少由学习到的权重来量化，因此输出通常形成加权平均。

自注意力 是一种注意力机制的类型，模型通过使用关于同一样本的其他部分的观察来预测数据样本的一部分。从概念上讲，它与非局部均值感觉相似。还要注意自注意力是排列不变的；换句话说，它是对集合的操作。

注意力/自注意力有各种形式，Transformer（Vaswani 等人，2017）依赖于缩放点积注意力：给定一个查询矩阵$\mathbf{Q}$，一个键矩阵$\mathbf{K}$和一个值矩阵$\mathbf{V}$，输出是值向量的加权和，其中分配给每个值槽的权重由查询与相应键的点积确定：

\[\text{attn}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}(\frac{\mathbf{Q} {\mathbf{K}}^\top}{\sqrt{d_k}})\mathbf{V} \]

对于查询和键向量$\mathbf{q}_i, \mathbf{k}_j \in \mathbb{R}^d$（查询和键矩阵中的行向量），我们有一个标量分数：

\[a_{ij} = \text{softmax}(\frac{\mathbf{q}_i {\mathbf{k}_j}^\top}{\sqrt{d_k}}) = \frac{\exp(\mathbf{q}_i {\mathbf{k}_j}^\top)}{ \sqrt{d_k} \sum_{r \in \mathcal{S}_i} \exp(\mathbf{q}_i {\mathbf{k}_r}^\top) } \]

其中$\mathcal{S}_i$是第$i$个查询要关注的键位置的集合。

如果感兴趣，可以查看我以前的帖子中的其他类型的注意力。

多头自注意力

多头自注意力 模块是 Transformer 中的一个关键组件。与仅计算一次注意力不同，多头机制将输入分成较小的块，然后并行计算每个子空间上的缩放点积注意力。独立的注意力输出简单地连接并线性转换为期望的维度。

\[\begin{aligned} \text{MultiHeadAttn}(\mathbf{X}_q, \mathbf{X}_k, \mathbf{X}_v) &= [\text{head}_1; \dots; \text{head}_h] \mathbf{W}^o \\ \text{where head}_i &= \text{Attention}(\mathbf{X}_q\mathbf{W}^q_i, \mathbf{X}_k\mathbf{W}^k_i, \mathbf{X}_v\mathbf{W}^v_i) \end{aligned} \]

其中$[.;.]$是一个连接操作。$\mathbf{W}^q_i, \mathbf{W}^k_i \in \mathbb{R}^{d \times d_k/h}, \mathbf{W}^v_i \in \mathbb{R}^{d \times d_v/h}$是权重矩阵，用于将大小为$L \times d$的输入嵌入映射到查询、键和值矩阵。而$\mathbf{W}^o \in \mathbb{R}^{d_v \times d}$是输出的线性变换。所有权重都应在训练过程中学习。

图 1。多头缩放点积注意力机制的示意图。（图片来源：Vaswani 等人，2017 年中的图 2）

编码器-解码器架构

编码器生成基于注意力的表示，具有从大背景中定位特定信息的能力。它由 6 个身份模块堆叠而成，每个包含两个子模块，一个多头自注意力层和一个逐点全连接前馈网络。逐点意味着它将相同的线性变换（使用相同的权重）应用于序列中的每个元素。这也可以看作是一个滤波器大小为 1 的卷积层。每个子模块都有一个残差连接和层归一化。所有子模块的输出数据维度都是$d$。

Transformer 解码器的功能是从编码表示中检索信息。其架构与编码器非常相似，只是解码器包含两个多头注意力子模块，而不是每个相同重复模块中的一个。第一个多头注意力子模块是掩码的，以防止位置关注未来。

图 2。香草 Transformer 模型的架构。（图片来源：Figure 17）

位置编码

因为自注意力操作是置换不变的，所以使用适当的位置编码来为模型提供顺序信息是很重要的。位置编码$\mathbf{P} \in \mathbb{R}^{L \times d}$与输入嵌入具有相同的维度，因此可以直接添加到输入上。香草 Transformer 考虑了两种编码类型：

正弦位置编码

正弦位置编码定义如下，给定令牌位置$i=1,\dots,L$和维度$\delta=1,\dots,d$：

\[\text{PE}(i,\delta) = \begin{cases} \sin(\frac{i}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta'\\ \cos(\frac{i}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta' + 1\\ \end{cases} \]

这样，位置编码的每个维度对应于不同维度中不同波长的正弦波，从$2\pi$到$10000 \cdot 2\pi$。

图 3. 具有$L=32$和$d=128$的正弦位置编码。数值介于-1（黑色）和 1（白色）之间，数值 0 为灰色。

学习的位置编码

学习的位置编码为每个元素分配一个学习的列向量，该向量编码其绝对位置（Gehring 等人，2017），并且这种编码可以在每一层中以不同的方式学习（Al-Rfou 等人，2018）。

相对位置编码

Shaw 等人（2018）)将相对位置信息合并到$\mathbf{W}^k$和$\mathbf{W}^v$中。最大相对位置被剪切到最大绝对值$k$，这种剪切操作使模型能够推广到看不见的序列长度。因此，考虑$2k + 1$个唯一的边标签，让我们将$\mathbf{P}^k, \mathbf{P}^v \in \mathbb{R}^{2k+1}$表示为可学习的相对位置表示。

\[A_{ij}^k = P^k_{\text{clip}(j - i, k)} \quad A_{ij}^v = P^v_{\text{clip}(j - i, k)} \quad \text{where }\text{clip}(x, k) = \text{clip}(x, -k, k) \]

Transformer-XL（Dai 等人，2019）提出了一种基于键和查询的点积重新参数化的相对位置编码类型。为了使位置信息在各个段之间流动一致，Transformer-XL 编码相对位置，因为知道位置偏移量足以进行良好的预测，即一个键向量$\mathbf{k}_{\tau, j}$和其查询$\mathbf{q}_{\tau, i}$之间的$i-j$。

如果省略标量$1/\sqrt{d_k}$和 softmax 中的归一化项，但包括位置编码，我们可以将位置$i$处的查询和位置$j$处的键之间的注意力分数写为：

\[\begin{aligned} a_{ij} &= \mathbf{q}_i {\mathbf{k}_j}^\top = (\mathbf{x}_i + \mathbf{p}_i)\mathbf{W}^q ((\mathbf{x}_j + \mathbf{p}_j)\mathbf{W}^k)^\top \\ &= \mathbf{x}_i\mathbf{W}^q {\mathbf{W}^k}^\top\mathbf{x}_j^\top + \mathbf{x}_i\mathbf{W}^q {\mathbf{W}^k}^\top\mathbf{p}_j^\top + \mathbf{p}_i\mathbf{W}^q {\mathbf{W}^k}^\top\mathbf{x}_j^\top + \mathbf{p}_i\mathbf{W}^q {\mathbf{W}^k}^\top\mathbf{p}_j^\top \end{aligned} \]

Transformer-XL 将上述四个术语重新参数化如下：

\[a_{ij}^\text{rel} = \underbrace{ \mathbf{x}_i\mathbf{W}^q \color{blue}{ {\mathbf{W}_E^k}^\top } \mathbf{x}_j^\top }_\text{基于内容的寻址} + \underbrace{ \mathbf{x}_i\mathbf{W}^q \color{blue}{ {\mathbf{W}_R^k}^\top } \color{green}{\mathbf{r}_{i-j}^\top} }_\text{基于内容的位置偏差} + \underbrace{ \color{red}{\mathbf{u}} \color{blue}{ {\mathbf{W}_E^k}^\top } \mathbf{x}_j^\top }_\text{全局内容偏差} + \underbrace{ \color{red}{\mathbf{v}} \color{blue}{ {\mathbf{W}_R^k}^\top } \color{green}{\mathbf{r}_{i-j}^\top} }_\text{全局位置偏差} \]

将 $\mathbf{p}_j$ 替换为相对位置编码 $\mathbf{r}_{i-j} \in \mathbf{R}^{d}$；
将 $\mathbf{p}_i\mathbf{W}^q$ 替换为两个可训练参数 $\mathbf{u}$（用于内容）和 $\mathbf{v}$（用于位置）在两个不同的术语中；
将 $\mathbf{W}^k$ 分为两个矩阵，$\mathbf{W}^k_E$ 用于内容信息，$\mathbf{W}^k_R$ 用于位置信息。

旋转位置嵌入

旋转位置嵌入（RoPE；苏等人，2021）用旋转矩阵对绝对位置进行编码，并将每个注意力层的键和值矩阵与之相乘，以在每一层注入相对位置信息。

当将相对位置信息编码到第 $i$ 个键和第 $j$ 个查询的内积中时，我们希望以一种方式构建函数，使内积仅涉及相对位置 $i-j$。旋转位置嵌入（RoPE）利用欧几里得空间中的旋转操作，并将相对位置嵌入简单地构建为通过与其位置索引成比例的角度旋转特征矩阵。

给定一个向量 $\mathbf{z}$，如果我们想将其逆时针旋转 $\theta$，我们可以将其乘以一个旋转矩阵得到 $R\mathbf{z}$，其中旋转矩阵 $R$ 定义为：

\[R = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix} \]

当推广到更高维空间时，RoPE 将 $d$ 维空间分为 $d/2$ 个子空间，并为位置 $i$ 处的令牌构造一个大小为 $d \times d$ 的旋转矩阵 $R$：

\[R^d_{\Theta, i} = \begin{bmatrix} \cos i\theta_1 & -\sin i\theta_1 & 0 & 0 & \dots & 0 & 0 \\ \sin i\theta_1 & \cos i\theta_1 & 0 & 0 & \dots & 0 & 0 \\ 0 & 0 & \cos i\theta_2 & -\sin i\theta_2 & \dots & 0 & 0 \\ 0 & 0 & \sin i\theta_1 & \cos i\theta_1 & \dots & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \dots & \cos i\theta_{d/2} & -\sin i\theta_{d/2} \\ 0 & 0 & 0 & 0 & \dots & \sin i\theta_{d/2} & \cos i\theta_{d/2} \\ \end{bmatrix} \]

在论文中，我们有 $\Theta = {\theta_i = 10000^{-2(i−1)/d}, i \in [1, 2, …, d/2]}$。请注意，这本质上等同于正弦位置编码，但被构造为一个旋转矩阵。

然后，键和查询矩阵通过与这个旋转矩阵相乘来包含位置信息：

\[ \begin{aligned} & \mathbf{q}_i^\top \mathbf{k}_j = (R^d_{\Theta, i} \mathbf{W}^q\mathbf{x}_i)^\top (R^d_{\Theta, j} \mathbf{W}^k\mathbf{x}_j) = \mathbf{x}_i^\top\mathbf{W}^q R^d_{\Theta, j-i}\mathbf{W}^k\mathbf{x}_j \\ & \text{ where } R^d_{\Theta, j-i} = (R^d_{\Theta, i})^\top R^d_{\Theta, j} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/43e8e9cee2dde05dee16abdf3d3a5998.png) 图 4。展示了旋转位置嵌入是如何实现的的视觉说明。（图片来源：[Su 等人，2021](https://arxiv.org/abs/2104.09864)) # 更长的上下文推理时变压器模型的输入序列长度由用于训练的上下文长度上限。简单地增加上下文长度会导致时间（$\mathcal{O}(L²d)$）和内存（$\mathcal{O}(L²)$）的高消耗，并且可能由于硬件限制而无法支持。本节介绍了改进变压器架构以更好地支持推理中的长上下文的几种方法；例如，使用额外的内存，设计更好的上下文外推，或者循环机制。 ## 上下文记忆原始变压器具有固定且有限的注意力跨度。模型在每个更新步骤中只能关注同一段中的其他元素，且信息无法在分隔的固定长度段之间流动。这种*上下文分割*会导致几个问题： + 模型无法捕捉非常长期的依赖关系。 + 在没有或很少上下文的情况下，很难预测每个段中的前几个标记。 + 评估是昂贵的。每当段向右移动一个位置时，新段都会从头开始重新处理，尽管存在许多重叠的标记。 **Transformer-XL**（[Dai 等人，2019](https://arxiv.org/abs/1901.02860)；“XL”表示“额外长”）修改了架构，通过额外的内存在段之间重复使用隐藏状态。模型引入了段之间的循环连接，通过持续使用先前段的隐藏状态。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/dec9642949c6ad269bb7f1a874ede635.png) 图 5。原始变压器和具有段长度 4 的 Transformer-XL 的训练阶段的比较。（图片来源：[Dai 等人，2019](https://arxiv.org/abs/1901.02860)中图 2 的左侧部分）。让我们将模型中第$n$层的第$(\tau + 1)$段的隐藏状态标记为$\mathbf{h}_{\tau+1}^{(n)} \in \mathbb{R}^{L \times d}$。除了同一段的最后一层的隐藏状态$\mathbf{h}_{\tau+1}^{(n-1)}$外，它还取决于前一段的同一层的隐藏状态$\mathbf{h}_{\tau}^{(n)}$。通过合并来自先前隐藏状态的信息，模型将注意力跨度延长到过去更长的时间，跨越多个段。 $$ \begin{aligned} \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} &= [\text{stop-gradient}(\mathbf{h}_{\tau}^{(n-1)}) \circ \mathbf{h}_{\tau+1}^{(n-1)}] \\ \mathbf{Q}_{\tau+1}^{(n)} &= \mathbf{h}_{\tau+1}^{(n-1)}\mathbf{W}^q \\ \mathbf{K}_{\tau+1}^{(n)} &= \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} \mathbf{W}^k \\ \mathbf{V}_{\tau+1}^{(n)} &= \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} \mathbf{W}^v \\ \mathbf{h}_{\tau+1}^{(n)} &= \text{transformer-layer}(\mathbf{Q}_{\tau+1}^{(n)}, \mathbf{K}_{\tau+1}^{(n)}, \mathbf{V}_{\tau+1}^{(n)}) \end{aligned} \]

请注意，键和值都依赖于扩展的隐藏状态，而查询只消耗当前步骤的隐藏状态。连接操作 $[. \circ .]$ 沿着序列长度维度。Transformer-XL 需要使用相对位置编码，因为如果我们编码绝对位置，之前和当前的段将被分配相同的编码，这是不希望的。

压缩变压器（Rae et al. 2019）通过压缩过去的记忆来支持更长的序列，扩展了 Transformer-XL。它明确地为每层添加了大小为 $m_m$ 的记忆插槽，用于存储该层过去激活的记忆，以保留长期上下文。当一些过去的激活变得足够陈旧时，它们被压缩并保存在每层大小为 $m_{cm}$ 的额外 压缩记忆 中。

图 6. 压缩变压器维护两种类型的记忆插槽，记忆和压缩记忆，以支持长期上下文。（图片来源：Rae et al. 2019）。

记忆和压缩记忆都是先进先出队列。给定模型上下文长度 $L$，压缩率为 $c$ 的压缩函数定义为 $f_c: \mathbb{R}^{L \times d} \to \mathbb{R}^{[\frac{L}{c}] \times d}$，将 $L$ 最旧的激活映射到 $[\frac{L}{c}]$ 个压缩记忆元素。有几种压缩函数的选择：

最大/平均池化，使用内核和步幅大小 $c$；
1D 卷积，使用内核和步幅大小 $c$（需要学习额外参数）；
扩张卷积（需要学习额外参数）。在他们的实验中，卷积压缩在 EnWik8 数据集上效果最好；
最常用的记忆；

压缩变压器有两个额外的训练损失：

自动编码损失（无损压缩目标）衡量我们能够从压缩记忆中多好地重构原始记忆

\[ \mathcal{L}_{ac} = \| \textbf{old_mem}^{(i)} - g(\textbf{new_cm}^{(i)}) \|_2 $$其中 $g: \mathbb{R}^{[\frac{L}{c}] \times d} \to \mathbb{R}^{L \times d}$ 反转压缩函数 $f$。 \]
\[\mathcal{L}_{ar} = \|\text{attn}(\mathbf{h}^{(i)}, \textbf{old_mem}^{(i)}) − \text{attn}(\mathbf{h}^{(i)}, \textbf{new_cm}^{(i)})\|_2 \]

具有大小为$m$的记忆的 Transformer-XL 具有最大时间范围为$m \times N$，其中$N$是模型中的层数，注意力成本为$\mathcal{O}(L² + Lm)$。相比之下，压缩 Transformer 具有时间范围为$(m_m + c \cdot m_{cm}) \times N$和注意力成本$\mathcal{O}(L² + L(m_m + m_{cm}))$。更大的压缩率$c$在时间范围长度和注意力成本之间提供更好的权衡。

注意权重，从最老到最新，存储在三个位置：压缩记忆 → 记忆 → 因果屏蔽序列。在实验中，他们观察到从存储在常规记忆中的最老激活到存储在压缩记忆中的激活的注意权重增加，这意味着网络正在学习保留显著信息。

图 7. 注意权重与记忆位置的一个标准差作为误差条之间的关系，从最老（左）到最新（右）。（图片来源：Rae et al. 2019）。

不可微的外部记忆

$k$NN-LM（Khandelwal et al. 2020）通过线性插值预测由两个模型预测的下一个标记概率来增强预训练 LM。$k$NN 模型建立在一个外部键值存储上，该存储可以存储任何大型预训练数据集或 OOD 新数据集。这个数据存储经过预处理以保存大量的对（上下文的 LM 嵌入表示，下一个标记），并且最近邻检索发生在 LM 嵌入空间中。由于数据存储可能是巨大的，我们需要依赖于快速稠密向量搜索的库，如FAISS或ScaNN。索引过程只发生一次，并且推理时易于实现并行处理。

在推理时，下一个标记的概率是两个预测的加权和：

\[\begin{aligned} p(y \vert \mathbf{x}) &= \lambda \; p_\text{kNN}(y \vert \mathbf{x}) + (1- \lambda) \; p_\text{LM}(y \vert \mathbf{x}) \\ p_\text{kNN}(y \vert \mathbf{x}) &\propto \sum_{(k_i, w_i) \in \mathcal{N}} \mathbb{1}[y = w_i] \exp(-d(k_i, f(\mathbf{x}))) \end{aligned} \]

其中$\mathcal{N}$包含由$k$NN 检索的一组最近邻数据点；$d(., .)$是诸如 L2 距离之类的距离函数。

根据实验结果，更大的数据存储大小或更大的$k$与更好的困惑度相关。加权标量$\lambda$应该进行调整，但一般来说，与域内数据相比，预计在域外数据中应该更大，并且更大的数据存储可以承受更大的$\lambda$。

SPALM（自适应半参数语言模型；Yogatama 等人 2021）结合了（1）来自外部上下文的隐藏状态的 Transformer-XL 风格记忆作为短期记忆和（2）$k$NN-LM 风格的键值存储作为长期记忆。

图 8. 展示了 SPALM 如何将过去隐藏状态的上下文记忆（短期记忆）与外部键值数据存储（长期记忆）结合起来，以支持更长的上下文。（图片来源：Yogatama 等人 2021）。

SPALM 运行 $k$NN 搜索以获取与最相关上下文的 $k$ 个标记。对于每个标记，我们可以获得相同的嵌入表示，由预训练的 LM 提供，表示为 $\{\mathbf{y}_i\}_{i=1}^k$。门控机制首先使用 $\mathbf{h}^R_t$（第 $R$ 层中标记 $x_t$ 的隐藏状态）作为查询，通过简单的注意力层聚合检索到的标记嵌入，然后学习一个门控参数 $\mathbf{g}_t$ 来平衡局部信息 $\mathbf{h}^R_t$ 和长期信息 $\mathbf{m}_t$。

\[\begin{aligned} \mathbf{m}_t &= \sum_{i=1}^k \frac{\exp(\mathbf{y}_i^\top \mathbf{h}^R_t)}{\sum_{j=1}^k \exp(\mathbf{y}_j^\top \mathbf{h}^R_t)} \cdot \mathbf{y}_i \\ \mathbf{g}_t &= \sigma(\mathbf{w}_g^\top \mathbf{h}_t^R) \\ \mathbf{z}_t &= (1 - \mathbf{g}_t) \odot \mathbf{m}_t + \mathbf{g}_t \odot \mathbf{h}^R_t \\ p(x_{t+1}\mid \mathbf{x}_{\leq t}) &= \text{softmax}(\mathbf{z}_t; \mathbf{W}) \end{aligned} \]

其中 $\mathbf{w}_g$ 是一个要学习的参数向量；$\sigma(.)$ 是 sigmoid 函数；$\mathbf{W}$ 是输入和输出标记之间共享的词嵌入矩阵。与 $k$NN-LM 不同，他们发现最近邻距离对于检索标记的聚合并不有用。

在训练过程中，长期记忆中的关键表示保持不变，由预训练的 LM 生成，但值编码器，也就是词嵌入矩阵，会被更新。

Memorizing Transformer（Wu 等人 2022）在解码器-仅架构的 Transformer 顶部堆栈附近添加了一个 $k$NN 增强的注意力层。这个特殊层维护了一个类似 Transformer-XL 风格的过去键值对的 FIFO 缓存。

相同的 QKV 值用于本地注意力和 $k$NN 机制。$k$NN 查找返回输入序列中每个查询的前 $k$ 个（键，值）对，然后它们通过自注意力堆栈处理以计算检索值的加权平均值。两种类型的注意力通过可学习的每头门控参数进行组合。为了防止值的大小分布变化，缓存中的键和值都被归一化。

他们在使用 Memorizing Transformer 进行实验时发现：

在一些实验中观察到，首先用小内存训练模型，然后用较大内存微调比从头开始用大内存训练效果更好。
只有 8k 记忆标记的较小的记忆变压器可以匹配具有 5 倍可训练参数的更大的普通变压器的困惑度。
增加外部记忆的大小一直可以提供一致的增益，直到大小为 262K。
非记忆变压器可以微调以使用记忆。

图 9. 使用键值记忆微调普通变压器可以实现与从头开始训练记忆变压器相似的性能。（图片来源：吴等人，2022）。

距离增强的注意力分数

距离感知变压器（DA-Transformer；吴等人，2021）和带线性偏差的注意力（ALiBi；Press 等人，2022）受到类似的思想启发——为了鼓励模型在训练时超出模型训练的更长上下文，我们可以明确地将位置信息附加到每对基本注意力分数上，基于关键和查询标记之间的距离。

请注意，普通变压器中的默认位置编码仅向输入序列添加位置信息，而后来改进的编码机制改变了每一层的注意力分数，例如旋转位置嵌入，它们的形式非常类似于距离增强的注意力分数。

DA-Transformer（吴等人，2021）在每一层将注意力分数乘以一个可学习的偏差，该偏差被制定为关键和查询之间距离的函数。不同的注意力头使用不同的参数来区分对短期和长期上下文的不同偏好。给定两个位置，$i, j$，DA-Transformer 使用以下加权函数来改变自注意力分数：

\[\begin{aligned} \mathbf{R}^{(i)} &= \alpha_i \mathbf{R} \quad \text{where }R_{ij} = \vert i-j \vert\\ f(\mathbf{R}^{(i)}; \beta_i) &= \frac{1 + \exp(\beta_i)}{1 + \exp(\beta_i - \mathbf{R}^{(i)})} \\ \text{attn}(\mathbf{Q}^{(i)}, \mathbf{K}^{(i)}, \mathbf{V}^{(i)}) &= \text{row-softmax}\Big(\frac{\text{ReLU}(\mathbf{Q}^{(i)}\mathbf{K}^{(i)\top})f(\mathbf{R}^{(i)})}{\sqrt{d}}\Big) \mathbf{V}^{(i)} \end{aligned} \]

其中 $\alpha_i$ 是一个可学习参数，用于根据头部索引来不同加权相对距离；$\beta_i$ 是一个可学习参数，用于控制第 $i$ 个注意力头部的距离的上限和上升斜率。加权函数 $f(.)$ 的设计如下：（1）$f(0)=1$；（2）当 $\mathbf{R}^{(i)} \to -\infty$ 时，$f(\mathbf{R}^{(i)}) = 0$；（3）当 $\mathbf{R}^{(i)} \to +\infty$ 时，$f(\mathbf{R}^{(i)})$ 有界；（4）比例可调；（5）函数单调递增。由 $f(\mathbf{R}^{(i)})$ 带来的额外时间复杂度为 $\mathcal{O}(L²)$，相对于自注意力的时间复杂度 $\mathcal{O}(L² d)$ 很小。额外的内存消耗是最小的，约为 ~$\mathcal{O}(2h)$。

ALiBi（Press et al. 2022）不像乘法器那样，而是在查询-键注意力分数上添加一个恒定的偏差项，与成对距离成比例。该偏差引入了强烈的最近优先偏好，并惩罚那些距离太远的键。在不同头部内，惩罚的增加速率不同。$$ \text{softmax}(\mathbf{q}_i \mathbf{K}^\top + \alpha_i \cdot [0, -1, -2, \dots, -(i-1)]) $$ 其中 $\alpha_i$ 是一个头部特定的加权标量。与 DA-transformer 不同，$\alpha_i$ 不是可学习的，而是固定为几何序列；例如，对于 8 个头部，${\alpha_i} = {\frac{1}{2}, \frac{1}{2²}, \dots, \frac{1}{2⁸}}$。总体思想与相对位置编码的解决目标非常相似。

Fig. 10. ALiBi 如何通过位置偏差项增强注意力分数的示意图。 (图片来源：Press et al. 2021).

使用 ALiBi，Press et al. (2022) 在训练时使用上下文长度为 1024 的 13 亿规模模型，并在推理时扩展到 2046。

Fig. 11. 使用不同配置的 Transformer 进行推理的外推实验，包括正弦位置编码、旋转位置编码、T5 中简化的相对位置编码和 ALiBi。所有模型在训练时都使用较小的上下文长度，但推理时使用更长的上下文。（图片来源：Press et al. 2021）。

使其具有循环性

通用变压器（Dehghani 等人，2019 年）将 Transformer 中的自注意力机制与 RNN 中的循环机制相结合，旨在同时获益于 Transformer 的长期全局感受野和 RNN 的学习归纳偏差。通用变压器不是通过固定数量的层，而是通过使用自适应计算时间动态调整步数。如果我们固定步数，通用变压器等效于具有跨层共享参数的多层 Transformer。

从高层次来看，通用变压器可以被视为用于学习每个标记的隐藏状态表示的循环函数。循环函数在标记位置之间并行演变，并且通过自注意力共享位置之间的信息。

图 12. 通用变压器如何重复为每个位置并行地细化一组隐藏状态表示。（图片来源：Dehghani 等人，2019 年中的图 1）。

给定长度为$L$的输入序列，通用变压器在可调整的步数上迭代更新表示$\mathbf{h}^t \in \mathbb{R}^{L \times d}$。在第 0 步，$\mathbf{h}⁰$被初始化为与输入嵌入矩阵相同。所有位置在多头自注意力机制中并行处理，然后经过循环过渡函数。

\[\begin{aligned} \mathbf{A}^t &= \text{LayerNorm}(\mathbf{h}^{t-1} + \text{MultiHeadAttention}(\mathbf{h}^{t-1} + \mathbf{P}^t) \\ \mathbf{h}^t &= \text{LayerNorm}(\mathbf{A}^{t-1} + \text{Transition}(\mathbf{A}^t)) \end{aligned} \]

其中$\text{Transition}(.)$是一个可分离卷积或一个完全连接的神经网络，由两个位置逐行（即分别应用于$\mathbf{A}^t$的每一行）的仿射变换+一个 ReLU 组成。

位置编码$\mathbf{P}^t$使用正弦位置信号，但具有额外的时间维度：

\[ \text{PE}(i, t, \delta) = \begin{cases} \sin(\frac{i}{10000^{2\delta'/d}}) \oplus \sin(\frac{t}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta'\\ \cos(\frac{i}{10000^{2\delta'/d}}) \oplus \cos(\frac{t}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta' + 1\\ \end{cases} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/a38955ccb0535f33a5f4f62ef58ee405.png) 图 13. 通用变压器的简化示意图。编码器和解码器共享相同的基本循环结构。但解码器还会关注最终编码器表示$\mathbf{h}^T$。（图片来源：[Dehghani 等人，2019 年](https://arxiv.org/abs/1807.03819)中的图 2）在通用 Transformer 的自适应版本中，递归步数$T$由[ACT](https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/#adaptive-computation-time-act)动态确定。每个位置都配备了动态 ACT 停止机制。一旦一个每标记递归块停止，它就停止接受更多的递归更新，而只是将当前值复制到下一步，直到所有块停止或直到模型达到最大步数限制。 # 自适应建模自适应建模指的是根据不同的输入调整计算量的机制。例如，一些标记可能只需要局部信息，因此需要较短的注意力跨度；或者一些标记相对容易预测，不需要通过整个注意力堆栈进行处理。 ## 自适应注意跨度 Transformer 的一个关键优势是捕捉长期依赖关系的能力。根据上下文，模型可能更倾向于在某些时候比其他时候更远的地方进行关注；或者一个注意力头可能与另一个头有不同的注意力模式。如果注意力跨度能够灵活地调整其长度，并且只在需要时才进一步关注更远的地方，这将有助于减少模型中支持更长最大上下文大小所需的计算和内存成本。这就是**自适应注意跨度**的动机。[Sukhbaatar 等人（2019）](https://arxiv.org/abs/1905.07799)提出了一种寻求最佳注意跨度的自注意机制。他们假设不同的注意力头可能在相同的上下文窗口内分配分数不同（见图 14），因此最佳跨度将针对每个头单独进行训练。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/ce988273f24b2cc8c682bb66a3fd0b15.png) 图 14. 同一模型中的两个注意力头，A 和 B，在相同的上下文窗口内分配不同的注意力。头 A 更多地关注最近的标记，而头 B 均匀地向过去看得更远。（图片来源：[Sukhbaatar 等人，2019](https://arxiv.org/abs/1905.07799)）给定第$i$个标记，我们需要计算该标记与其注意力跨度内大小为$s$的其他键之间的注意力权重： $$ \begin{aligned} e_{ij} &= \mathbf{q}_i {\mathbf{k}_j}^\top \\ a_{ij} &= \text{softmax}(e_{ij}) = \frac{\exp(e_{ij})}{\sum_{r=i-s}^{i-1} \exp(e_{ir})} \\ \mathbf{y}_i &= \sum_{r=i-s}^{i-1}a_{ir}\mathbf{v}_r = \sum_{r=i-s}^{i-1}a_{ir}\mathbf{x}_r\mathbf{W}^v \end{aligned} \]

添加了一个软掩码函数 $m_z$ 来控制有效可调节的注意跨度，将查询和键之间的距离映射为[0, 1]值。$m_z$由$z \in [0, s]$参数化，$z$是要学习的：

\[m_z(x) = \text{clip}(\frac{1}{R}(R+z-x), 0, 1) \]

其中$R$是一个超参数，定义了$m_z$的软度。

图 15. 自适应注意力跨度中使用的软掩码函数。（图片来源：Sukhbaatar 等人，2019）

软掩码函数应用于注意权重中的 softmax 元素：

\[a_{ij} = \frac{m_z(i-j)\exp(s_{ij})}{\sum_{r=i-s}^{i-1}m_z(i-r) \exp(s_{ir})} \]

在上述方程中，$z$是可微的，因此与模型的其他部分一起进行训练。参数$z^{(i)}, i=1, \dots, h$是每个头部单独学习的。此外，损失函数对$\sum_{i=1}^h z^{(i)}$有额外的 L1 惩罚。

使用自适应计算时间，该方法可以进一步增强灵活的注意力跨度长度，动态地适应当前输入。时间$t$处的注意力头的跨度参数$z_t$是一个 S 形函数，$z_t = S \sigma(\mathbf{v} \cdot \mathbf{x}_t +b)$，其中向量$\mathbf{v}$和偏置标量$b$与其他参数一起联合学习。

在具有自适应注意力跨度的 Transformer 的实验中，Sukhbaatar 等人（2019）发现一个普遍趋势，即较低层不需要非常长的注意跨度，而较高层的少数注意头可能使用异常长的跨度。自适应注意跨度还有助于大大减少 FLOPS 的数量，特别是在具有许多注意力层和大上下文长度的大型模型中。

深度自适应 Transformer

在推断时，自然地假设某些标记更容易预测，因此不需要像其他标记那样多的计算。因此，我们可能只通过有限数量的层处理其预测，以在速度和性能之间取得良好的平衡。

深度自适应 Transformer（Elabyad 等人，2020）和自信自适应语言模型（CALM；Schuster 等人，2022）都受到这一思想的启发，并学会预测不同输入标记所需的最佳层数。

深度自适应 Transformer (Elabyad 等人，2020) 在每一层附加一个输出分类器，根据该层的激活产生退出预测。分类器权重矩阵可以在每一层之间不同或在各层之间共享。在训练过程中，模型对不同的退出序列进行采样，以便使用不同层的隐藏状态进行优化。学习目标包括在不同层预测的似然概率，$n=1, \dots, N$：

\[\text{LL}^n_t = \log p(y_t \vert \mathbf{h}^n_{t-1}) \quad \text{LL}^n = \sum_{t=1}^{\vert\mathbf{y}\vert} LL^n_t \]

自适应深度分类器输出一个参数化分布$q_t$。它通过交叉熵损失与一个 oracle 分布$q^*_t$进行训练。该论文探讨了如何学习这样一个分类器$q_t$的三种配置。

图 16. 三种自适应深度分类器的示意图。

（图片来源：Elabyad et al. 2020)。

序列特定深度分类器：同一序列的所有令牌共享相同的退出块。它取决于序列的编码器表示的平均值。给定长度为$L$的输入序列$\mathbf{x}$，分类器将取$\bar{\mathbf{x}} = \frac{1}{L} \sum_{t=1}^L \mathbf{x}_t$作为输入，并输出$N$维的多项式分布，对应于$N$层。

\[\begin{aligned} q(n \vert \mathbf{x}) &=\text{softmax}(\mathbf{W}_n \bar{\mathbf{x}} + b_n) \in \mathbb{R}^N \\ q_\text{lik}^*(\mathbf{x}, \mathbf{y}) &= \delta(\arg\max_n \text{LL}^n - \lambda n) \\ \text{or }q_\text{corr}^*(\mathbf{x}, \mathbf{y}) &= \delta(\arg\max_n C^n - \lambda n) \text{ where }C^n = \vert\{t \vert y_t = \arg\max_y p(y \vert \mathbf{h}^n_{t-1})\}\vert \\ \end{aligned} \]
其中$\delta$是dirac delta（单位冲激）函数，$-\lambda n$是鼓励较低层退出的正则化项。基于最大似然$q_\text{lik}^*$或正确性$q_\text{corr}^*$，可以以两种方式准备地面真值$q^*$。
特定令牌深度分类器（多项式）：每个令牌都会使用不同的退出块进行解码，条件是基于第一个解码器隐藏状态$\mathbf{h}¹_t$进行预测：

\[q_t(n \vert \mathbf{x}, \mathbf{y}_{< t}) = \text{softmax}(\mathbf{W}_n \mathbf{h}¹_t + b_n) \]
特定令牌深度分类器（几何类似）：每个令牌每层都会做出二进制退出预测分布，$\mathcal{X}^n_t$。使用 RBF 核函数$\kappa(t, t’) = \exp(\frac{\vert t - t’ \vert²}{\sigma})$来平滑预测，以纳入当前决策对未来时间步的影响。

\[\begin{aligned} \mathcal{X}^n_t &= \text{sigmoid}(\mathbf{w}_n^\top \mathbf{h}^n_t + b_n)\quad \forall n \in [1, \dots, N-1] \\ q_t(n \vert \mathbf{x}, \mathbf{y}_{< t}) &= \begin{cases} \mathcal{X}^n_t \prod_{n' < n} (1 - \mathcal{X}^{n'}_t) & \text{if } n < N\\ \prod_{n' < N} (1 - \mathcal{X}^{n'}_t) & \text{otherwise} \end{cases} \\ q_\text{lik}^*(\mathbf{x}, \mathbf{y}) &= \delta(\arg\max_n \widetilde{\text{LL}}^n_t - \lambda n) \text{ where } \widetilde{\text{LL}}^n_t = \sum_{t'=1}^{\vert\mathbf{y}\vert}\kappa(t, t') LL^n_{t'} \\ \text{or }q_\text{cor}^*(\mathbf{x}, \mathbf{y}) &= \delta(\arg\max_n \tilde{C}_t^n - \lambda n) \text{ where }C_t^n = \mathbb{1}[y_t = \arg\max_y p(y \vert \mathbf{h}^n_{t-1})],\; \tilde{C}^n_t = \sum_{t'=1}^{\vert\mathbf{y}\vert}\kappa(t, t') C^n_{t'} \\ \end{aligned} \]

在推断时，用于做出退出决策的置信度阈值需要校准。深度自适应变换器通过网格搜索在验证集上找到这样一个阈值。CALM（Schuster et al. 2022）应用了学习然后测试（LTT）框架（Angelopoulos et al. 2021）来识别一组有效阈值，并选择最小值作为推断的阈值。除了训练每层退出分类器，CALM 还探索了其他用于自适应深度预测的方法，包括 softmax 响应（即前两个 softmax 输出之间的差异）和隐藏状态饱和度（即$\cos(\mathbf{h}^n_t, \mathbf{h}^{n+1}_t)$）作为退出决策的置信度分数。他们发现 softmax 响应导致最佳推断加速。

高效的注意力

原始变换器的计算和内存成本随着序列长度的平方增长，因此很难应用于非常长的序列。许多变换器架构的效率改进与自注意力模块有关 - 使其更便宜、更小或更快运行。参见关于高效变换器的调查论文（Tay et al. 2020）。

稀疏注意力模式

固定的本地上下文

使自注意力变得更加经济的一个简单替代方法是将每个令牌的注意力范围限制在本地上下文中，这样自注意力随着序列长度线性增长。

这个想法是由图像变换器（Parmer, et al 2018）引入的，它将图像生成形式化为使用编码器-解码器变换器架构进行序列建模：

编码器生成源图像的上下文化、每像素通道的表示；
然后解码器自回归地生成输出图像，每个时间步骤每个像素一个通道。

让我们将要生成的当前像素的表示标记为查询$\mathbf{q}$。用于计算$\mathbf{q}$的其他位置的表示将用作键向量$\mathbf{k}_1, \mathbf{k}_2, \dots$，它们一起形成一个记忆矩阵$\mathbf{M}$。$\mathbf{M}$的范围定义了像素查询$\mathbf{q}$的上下文窗口。

图像变换器引入了两种局部化的$\mathbf{M}$类型，如下图所示。

图 17。图像变换器中视觉输入的 1D 和 2D 注意力范围示意图。黑线标记了一个查询块，青色轮廓标记了像素 q 的实际注意力范围。（图片来源：Parmer et al, 2018中的图 2）

1D 本地注意力：输入图像按照光栅扫描顺序展平，即从左到右，从上到下。然后将线性化的图像分割为不重叠的查询块。上下文窗口由与$\mathbf{q}$相同的查询块中的像素以及在此查询块之前生成的固定数量的额外像素组成。
2D 本地注意力：图像被分割为多个不重叠的矩形查询块。查询像素可以关注同一内存块中的所有其他像素。为了确保左上角的像素也能有有效的上下文窗口，内存块分别向上、向左和向右扩展了固定数量。

分层上下文

稀疏变压器（Child 等人，2019）引入了分解自注意力，通过稀疏矩阵分解，使得在长度为 16,384 的序列上训练具有数百层的密集注意力网络成为可能，否则在现代硬件上是不可行的。

给定一组注意力连接模式$\mathcal{S} = \{S_1, \dots, S_n\}$，其中每个$S_i$记录第$i$个查询向量关注的一组关键位置。

\[\begin{aligned} \text{Attend}(\mathbf{X}, \mathcal{S}) &= \Big( a(\mathbf{x}_i, S_i) \Big)_{i \in \{1, \dots, L\}} \\ \text{其中 } a(\mathbf{x}_i, S_i) &= \text{softmax}\Big(\frac{(\mathbf{x}_i \mathbf{W}^q)(\mathbf{x}_j \mathbf{W}^k)_{j \in S_i}^\top}{\sqrt{d_k}}\Big) (\mathbf{x}_j \mathbf{W}^v)_{j \in S_i} \end{aligned} \]

请注意，尽管$S_i$的大小不固定，但$a(\mathbf{x}_i, S_i)$始终为大小为$d_v$，因此$\text{Attend}(\mathbf{X}, \mathcal{S}) \in \mathbb{R}^{L \times d_v}$。

在自回归模型中，一个注意力跨度被定义为$S_i = \{j: j \leq i\}$，因为它允许每个标记关注过去所有位置。

在分解自注意力中，集合$S_i$被分解为依赖关系树，对于每对$(i, j)$，其中$j \leq i$，都存在连接$i$返回到$j$的路径，且$i$可以直接或间接关注$j$。

具体来说，集合$S_i$被分成$p$ 不重叠子集，其中第$m$个子集表示为$A^{(m)}_i \subset S_i, m = 1,\dots, p$。因此，输出位置$i$和任何$j$之间的路径的最大长度为$p + 1$。例如，如果$(j, a, b, c, \dots, i)$是$i$和$j$之间的索引路径，则我们会有$j \in A_a^{(1)}, a \in A_b^{(2)}, b \in A_c^{(3)}, \dots$，依此类推。

稀疏分解注意力

稀疏变压器提出了两种类型的分解注意力。通过以 2D 图像输入为例在图 10 中说明这些概念会更容易理解。

图 18. 顶部行展示了(a) Transformer、(b) 具有跨距注意力的稀疏 Transformer 和(c) 具有固定注意力的稀疏 Transformer 中的注意力连接模式。底部行包含相应的自注意力连接矩阵。请注意，顶部行和底部行的比例不同。（图片来源：Child 等人，2019 + 一些额外注释。）

跨距注意力，跨距 $\ell \sim \sqrt{n}$。这在处理图像数据时效果很好，因为结构与跨距对齐。在图像情况下，每个像素会关注栅格扫描顺序中之前的所有 $\ell$ 个像素（自然覆盖整个图像的宽度），然后这些像素会关注同一列中的其他像素（由另一个注意力连接子集定义）。

\[\begin{aligned} A_i^{(1)} &= \{ t, t+1, \dots, i\} \text{，其中 } t = \max(0, i - \ell) \\ A_i^{(2)} &= \{j: (i-j) \mod \ell = 0\} \end{aligned} \]
固定注意力。一小组令牌总结先前的位置并将该信息传播到所有未来的位置。

\[\begin{aligned} A_i^{(1)} &= \{j: \lfloor \frac{j}{\ell} \rfloor = \lfloor \frac{i}{\ell} \rfloor \} \\ A_i^{(2)} &= \{j: j \mod \ell \in \{\ell-c, \dots, \ell-1\} \} \end{aligned} \]
其中 $c$ 是一个超参数。如果 $c=1$，它会限制表示，而许多依赖于少数位置。该论文选择了 $c\in \{ 8, 16, 32 \}$ 对于 $\ell \in \{ 128, 256 \}$。

在 Transformer 中使用分解自注意力

在 Transformer 架构中有三种使用稀疏分解注意力模式的方式：

每个残差块中有一种注意力类型，然后交错它们，

$\text{attn}(\mathbf{X}) = \text{Attend}(\mathbf{X}, A^{(n \mod p)}) \mathbf{W}^o$，其中 $n$ 是当前残差块的索引。
设置一个单头，它关注所有分解头关注的位置，

$\text{attn}(\mathbf{X}) = \text{Attend}(\mathbf{X}, \cup_{m=1}^p A^{(m)}) \mathbf{W}^o $。
使用多头注意力机制，但与普通 Transformer 不同，每个头可能采用上述的模式 1 或 2。$\rightarrow$ 这个选项通常表现最佳。

稀疏 Transformer 还提出了一系列改变，以便训练 Transformer 达到数百层，包括梯度检查点、在反向传播过程中重新计算注意力和 FF 层、混合精度训练、高效的块稀疏实现等。请查看论文以获取更多详细信息，或查看我之前关于模型训练扩展技术的帖子。

Blockwise Attention（Qiu et al. 2019）引入了一个稀疏块矩阵，只允许每个标记仅关注一小组其他标记。每个大小为$L \times L$的注意力矩阵被分成大小为$\frac{L}{n}\times\frac{L}{n}$的$n \times n$个较小块，并且通过一个排列$\pi$定义了一个稀疏块矩阵$\mathbf{M} \in \{0, 1\}^{L \times L}$，记录了块矩阵中每行的列索引。

\[\begin{aligned} \text{attn}(\mathbf{Q}, \mathbf{K}, \mathbf{V}, \mathbf{M}) &= \text{softmax}\Big(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d}} \odot \mathbf{M}\Big)\mathbf{V} \\ (\mathbf{A} \odot \mathbf{M})_{ij} &= \begin{cases} A_{ij} & \text{if }M_{ij} = 1 \\ -\infty & \text{if }M_{ij} = 0 \\ \end{cases} \\ \text{where } M_{ij} &= \begin{cases} 1 & \text{if }\pi\big(\lfloor\frac{(i-1)n}{L} + 1\rfloor\big) = \lfloor\frac{(j-1)n}{L} + 1\rfloor \\ 0 & \text{otherwise} \end{cases} \end{aligned} \]

Blockwise Attention 的实际实现仅将 QKV 存储为大小为$n\times n$的块矩阵：

\[\text{Blockwise-attn}(\mathbf{Q}, \mathbf{K}, \mathbf{V}, \mathbf{M}) = \begin{bmatrix} \text{softmax}\big(\frac{\hat{\mathbf{q}}_1\hat{\mathbf{k}}_{\pi(1)}^\top}{\sqrt{d}} \Big)\hat{\mathbf{v}}_{\pi(1)} \\ \vdots \\ \text{softmax}\big(\frac{\hat{\mathbf{q}}_n\hat{\mathbf{k}}_{\pi(n)}^\top}{\sqrt{d}} \odot \Big)\hat{\mathbf{v}}_{\pi(n)} \\ \end{bmatrix} \]

其中$\hat{\mathbf{q}}_i$，$\hat{\mathbf{k}}_i$和$\hat{\mathbf{v}}_i$分别是 QKV 块矩阵中的第$i$行。每个$\mathbf{q}_i\mathbf{k}_{\pi(i)}^\top, \forall i = 1, \dots, n$的大小为$\frac{N}{n}\times\frac{N}{n}$，因此 Blockwise Attention 能够将注意力矩阵的内存复杂度从$\mathcal{O}(L²)$降低到$\mathcal{O}(\frac{L}{n}\times\frac{L}{n} \times n) = \mathcal{O}(L²/n)$。

结合局部和全局上下文

ETC（Extended Transformer Construction；Ainslie et al. 2019），Longformer（Beltagy et al. 2020）和Big Bird（Zaheer et al. 2020）模型在构建注意力矩阵时结合了局部和全局上下文。所有这些模型都可以从现有的预训练模型中初始化。

ETC的全局-局部注意力（Ainslie 等人，2019）接受两个输入，（1）大小为$n_l$的长输入$\mathbf{x}^l$，即常规输入序列，和（2）包含较少辅助标记的大小为$n_g$的全局输入$\mathbf{x}^g$，$n_g \ll n_l$。因此，基于这两个输入之间的方向性注意力，注意力被分为四个组件：g2g、g2l、l2g 和 l2l。由于 l2l 注意力部分可能非常大，因此将其限制为固定大小的注意力跨度$w$（即局部注意力跨度），并且 l2l 矩阵可以重塑为$n_l \times (2w+1)$。

ETC 利用四个二进制矩阵来处理结构化输入，$\mathbf{M}^{g2g}$、$\mathbf{M}^{g2l}$、$\mathbf{M}^{l2g}$和$\mathbf{M}^{l2l}$。例如，g2g 注意力部分的注意力输出$z^g = (z^g_1, \dots, z^g_{n_g})$中的每个元素$z^g_i \in \mathbb{R}^d$格式化为：

\[\begin{aligned} a^{g2g}_{ij} = \frac{1}{\sqrt{d}} x^g_i \mathbf{W}^Q (x^g_j \mathbf{W}^K + P^K_{ij})^\top - (1- M^{g2g}_{ij})C \\ A^{g2g}_{ij} = \frac{\exp(a^{g2g}_{ij})}{\sum_{k=1}^{n_g} \exp(a^{g2g}_{ik})} \quad z^g_i = \sum^{n_g}_{j=1} A^{g2g}_{ij} x^g_j \mathbf{W}^V \end{aligned} \]

其中$P^K_{ij}$是用于相对位置编码的可学习向量，$C$是一个非常大的常数（在论文中$C=10000$），用于抵消当掩码关闭时的任何注意力权重。

图 19. ETC、Longformer 和 Big Bird 的注意力模式。

ETC 中的另一个更新是在预训练阶段将 CPC（对比预测编码）任务使用整合进来，除了MLM任务：当一个句子被屏蔽时，该句子的表示应该与其周围上下文的表示相似。

ETC 的全局输入$\mathbf{x}^g$构建如下：假设长输入中有一些段落（例如按句子划分），每个段落都附带一个辅助标记以学习全局输入。相对位置编码用于标记全局段落标记的位置。在一个方向上的硬掩码（即，标记前后的标记不同）在某些数据集中被发现能带来性能提升。

Longformer 中的注意力模式包含三个组件：

局部注意力：类似于 ETC，局部注意力由一个固定大小为$w$的滑动窗口控制；
预选标记的全局注意力：Longformer 有一些预选标记（例如[CLS]标记）分配了全局注意力跨度，即，关注输入序列中的所有其他标记。
扩张注意力：固定大小为$r$的扩张滑动窗口和扩张大小为$d$的间隔，类似于稀疏 Transformer；

Big Bird与 Longformer 非常相似，具有局部注意力和少量预选的具有全局注意力跨度的标记，但 Big Bird 用一种新机制替换了扩张注意力，其中所有标记都与一组随机标记进行关注。该设计的动机是注意力模式可以被视为一个有向图，而随机图具有信息能够在任意一对节点之间快速流动的特性。

Longformer在较低层使用较小的窗口大小，在较高层使用较大的窗口大小。消融研究表明，这种设置比反向或固定大小配置效果更好。较低层没有扩张滑动窗口，以更好地学习使用即时的局部上下文。Longformer 还有一个分阶段的训练过程，最初模型使用较小的窗口大小进行训练，以从局部上下文中学习，然后随后的训练阶段窗口大小增加，学习率降低。

基于内容的注意力

Reformer（Kitaev, et al. 2020）提出的改进旨在解决普通 Transformer 中的以下痛点：

自注意力模块内的二次时间和内存复杂度。
具有$N$层的模型的内存比单层模型大$N$倍，因为我们需要存储用于反向传播的激活。
中间的 FF 层通常非常大。

Reformer 提出了两个主要变化：

用局部敏感哈希（LSH）注意力替换点积注意力，将复杂度从$\mathcal{O}(L²)$降低到$\mathcal{O}(L\log L)$。
用可逆残差层替换标准残差块，这样在训练期间只需存储激活一次，而不是$N$次（即与层数成比例）。

局部敏感哈希注意力

在注意力公式的$\mathbf{Q} \mathbf{K}^\top$部分中，我们只对最大的元素感兴趣，因为只有大的元素在 softmax 之后才会有很大的贡献。对于每个查询$\mathbf{q}_i \in \mathbf{Q}$，我们正在寻找在$\mathbf{K}$中最接近$\mathbf{q}_i$的行向量。为了在高维空间中快速找到最近邻居，Reformer 将局部敏感哈希（LSH）引入其注意力机制中。

如果一个哈希方案$x \mapsto h(x)$是局部敏感的，那么它会保留数据点之间的距离信息，使得接近的向量获得相似的哈希值，而远离的向量具有非常不同的哈希值。Reformer 采用了这样的哈希方案，给定一个固定的随机矩阵$\mathbf{R} \in \mathbb{R}^{d \times b/2}$（其中$b$是一个超参数），哈希函数为$h(x) = \arg\max([xR; −xR])$。

图 20. 展示了局部敏感哈希（LSH）注意力的示意图。（图片来源：Kitaev 等人，2020中图 1 的右部）。

在 LSH 注意力机制中，一个查询只能关注同一个哈希桶中的位置，$S_i = \{j: h(\mathbf{q}_i) = h(\mathbf{k}_j)\}$。如图 20 所示，这是通过以下过程实现的：

(a) 完全注意力的注意力矩阵通常是稀疏的。
(b) 使用 LSH，我们可以将键和查询排序，使其根据它们的哈希桶对齐。
(c) 设置$\mathbf{Q} = \mathbf{K}$（精确地说是$\mathbf{k}_j = \mathbf{q}_j / |\mathbf{q}_j|$），这样一个桶中的键和查询数量相等，更容易进行批处理。有趣的是，这种“共享-QK”配置不会影响 Transformer 的性能。
(d) 进行批处理，将$m$个连续查询分组在一起。

图 21. LSH 注意力包括 4 个步骤：分桶、排序、分块和注意力计算。（图片来源：Kitaev 等人，2020中图 1 的左部）。

可逆残差网络

Reformer 的另一个改进是使用可逆残差层（Gomez 等人，2017）。可逆残差网络的动机是设计架构，使得在任何给定层的激活可以从后续层的激活中恢复，只使用模型参数。因此，我们可以通过在反向传播过程中重新计算激活而不是存储所有激活来节省内存。

给定一个层$x \mapsto y$，普通的残差层执行$y = x + F(x)$，但可逆层将输入和输出都分成一对$(x_1, x_2) \mapsto (y_1, y_2)$，然后执行以下操作：

\[y_1 = x_1 + F(x_2),\; y_2 = x_2 + G(y_1) \]

并且反转很容易：

\[x_2 = y_2 - G(y_1), \; x_1 = y_1 − F(x_2) \]

Reformer 通过在可逆网络块内结合注意力($F$)和前馈层($G$)来将相同的思想应用于 Transformer：

\[Y_1 = X_1 + \text{Attention}(X_2), \; Y_2 = X_2 + \text{FeedForward}(Y_1) \]

通过对前馈计算进行分块，可以进一步减少内存消耗：

\[Y_2 = [Y_2^{(1)}; \dots; Y_2^{(c)}] = [X_2^{(1)} + \text{FeedForward}(Y_1^{(1)}); \dots; X_2^{(c)} + \text{FeedForward}(Y_1^{(c)})] \]

结果可逆的 Transformer 不需要在每一层存储激活。

路由 Transformer（Roy 等人，2021）也是基于键和查询的内容聚类构建的。它不像 LSH 那样使用静态哈希函数，而是利用在线$k$-means 聚类，并将其与本地、时间稀疏注意力结合起来，将注意力复杂度从$O(L²)$降低到$O(L^{1.5})$。

在路由注意力中，键和查询都使用$k$-means 聚类方法进行聚类，并具有相同的质心集合$\boldsymbol{\mu} = (\mu_1, \dots, \mu_k) \in \mathbb{R}^{k \times d}$。将查询路由到被分配到相同质心的键上。总复杂度为$O(Lkd + L²d/k)$，其中$O(Lkd)$用于运行聚类分配，$O(L²d/k)$用于注意力计算。通过使用所有相关的键和查询来使用 EMA（指数移动平均）更新聚类质心。

在 Routing Transformer 的实验中，一些最佳配置仅在模型的最后两层启用路由注意力，并且一半的注意力头，而另一半利用局部注意力。他们还观察到局部注意力是一个相当强大的基线，更大的注意力窗口总是导致更好的结果。

低秩注意力

Linformer（Wang 等人，2020）用低秩矩阵近似完整的注意力矩阵，将时间和空间复杂度降低为线性。Linformer 不使用昂贵的 SVD 来识别低秩分解，而是为键和值矩阵分别添加两个线性投影$\mathbf{E}_i，\mathbf{F}_i \in \mathbb{R}^{L \times k}$，将它们的维度从$L \times d$减少到$k \times d$。只要$k \ll L$，注意力内存就可以大大减少。

\[\begin{aligned} \overline{\text{head}}_i &= \text{attn}(\mathbf{X}_q\mathbf{W}^q_i, \mathbf{E}_i\mathbf{X}_k\mathbf{W}^k_i, \mathbf{F}_i\mathbf{X}_v\mathbf{W}^v_i) \\ &= \underbrace{\text{softmax}\Big( \frac{\mathbf{X}_q\mathbf{W}^q_i (\mathbf{E}_i \mathbf{X}_k\mathbf{W}^k_i)^\top}{\sqrt{d}} \Big)}_{\text{低秩注意力矩阵 }\bar{A} \in \mathbb{R}^{k \times d}} \mathbf{F}_i \mathbf{X}_v\mathbf{W}^v_i \end{aligned} \]

可以应用其他技术来进一步提高 Linformer 的效率：

投影层之间的参数共享，例如逐头共享，键-值共享和层间共享（跨所有层）。
在不同层使用不同的$k$，因为更高层的头往往具有更倾斜的分布（较低的秩），因此我们可以在更高层使用较小的$k$。
使用不同类型的投影；例如均值/最大池化，卷积层，核和步长为$L/k$。

图 22.（左）Informer 为键和值添加了两个投影层。（右）推理时间作为序列长度的函数的绘图。（图片来源：Wang 等人，2020）。

随机特征注意力 (RFA; Peng et al. 2021) 依赖于随机特征方法 () 来近似自注意力中的 softmax 操作，使用低秩特征图以实现线性时间和空间复杂度。表演者 (Choromanski et al. 2021) 也采用随机特征注意力，并通过改进核构造来进一步减少核逼近误差。

RFA 背后的主要定理来自 Rahimi & Recht, 2007：

让 $\phi: \mathbb{R}^d \to \mathbb{R}^{2D}$ 成为一个非线性变换：

\[\phi(\mathbf{x}) = \frac{1}{\sqrt{D}}[\sin(\mathbf{w}_1^\top \mathbf{x}), \dots, \sin(\mathbf{w}_D^\top \mathbf{x}), \cos(\mathbf{w}_1^\top \mathbf{x}), \dots, \cos(\mathbf{w}_D^\top \mathbf{x})]^\top $$当 $d$ 维随机向量 $\mathbf{w}_i$ 从 $\mathcal{N}(\mathbf{0}, \sigma²\mathbf{I}_d)$ 独立同分布时，$$ \mathbb{E}_{\mathbf{w}_i} [\phi(\mathbf{x}) \cdot \phi(\mathbf{y})] = \exp(-\frac{\| \mathbf{x} - \mathbf{y} \|²}{2\sigma²}) \]

$\exp(\mathbf{x} \cdot \mathbf{y})$ 的无偏估计为：

\[\begin{aligned} \exp(\mathbf{x} \cdot \mathbf{y} / \sigma²) &= \exp(\frac{1}{2\sigma²}(\|\mathbf{x}\|² + \|\mathbf{y}\|² - \|\mathbf{x} - \mathbf{y}\|²) \\ &= \exp(\frac{\|\mathbf{x}\|²}{2\sigma²}) \exp(\frac{\|\mathbf{y}\|²}{2\sigma²}) ( - \frac{\|\mathbf{x} - \mathbf{y}\|²}{2\sigma²}) \\ &\approx \exp(\frac{\|\mathbf{x}\|²}{2\sigma²}) \exp(\frac{\|\mathbf{y}\|²}{2\sigma²})\;\phi(\mathbf{x})\cdot\phi(\mathbf{y}) \\ &= \exp(\frac{1}{\sigma²})\;\phi(\mathbf{x})\cdot\phi(\mathbf{y}) & \text{; unit vectors} \end{aligned} \]

然后我们可以将注意力函数写成如下形式，其中 $\otimes$ 是外积操作，$\sigma²$ 是温度：

\[ \begin{aligned} \text{attn}(\mathbf{q}_t, \{\mathbf{k}_i\}, \{\mathbf{v}_i\}) &= \sum_i \frac{\exp(\mathbf{q}_t\cdot\mathbf{k}_i/\sigma²)}{\sum_j \exp(\mathbf{q}_t\cdot\mathbf{k}_j/\sigma²)}\mathbf{v}_i^\top \approx \sum_i \frac{\phi(\mathbf{q}_t)\phi(\mathbf{k}_i)\mathbf{v}_i^\top}{\sum_j \phi(\mathbf{q}_t)\phi(\mathbf{k}_j)} \\ &= \color{green}{\frac{\phi(\mathbf{q}_t)^\top \sum_i \phi(\mathbf{k}_i)\otimes\mathbf{v}_i}{\phi(\mathbf{q}_t)^\top \sum_j \phi(\mathbf{k}_j)} = \text{RFA}(\mathbf{q}_t, \{\mathbf{k}_i\}, \{\mathbf{v}_i\})} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d8866683a65836681401c85c1463100e.png) 图 23\. (左) 默认 softmax 操作的计算顺序。 (右) 使用随机特征注意力时的计算顺序，比默认 softmax 要便宜得多。 (图片来源：[Peng et al. 2021](https://arxiv.org/abs/2103.02143))。 **因果注意 RFA**在时间步$t$的令牌只关注较早的键和值$\{\mathbf{k}_i\}_{i \leq t}, \{\mathbf{v}_i\}_{i \leq t}$。让我们使用一个变量元组，$(\mathbf{S}_t \in \mathbb{R}^{2D \times d}, \mathbf{z} \in \mathbb{R}^{2D})$，来跟踪时间步$t$的隐藏状态历史，类似于 RNN： $$ \begin{aligned} &\text{因果-RFA}(\mathbf{q}_t, \{\mathbf{k}_i\}_{i \leq t}, \{\mathbf{v}_i\}_{i \leq t}) = \frac{\phi(\mathbf{q}_t)^\top \mathbf{S}_t}{\phi(\mathbf{q}_t) \cdot \mathbf{z}_t} \\ &\text{其中 } \mathbf{S}_t = \mathbf{S}_{t-1} + \phi(\mathbf{k}_t)\otimes\mathbf{v}_t, \quad \mathbf{z}_t = \mathbf{z}_{t-1} + \phi(\mathbf{k}_t) \end{aligned} \]

其中$2D$是$\phi(.)$的大小，$D$应不小于模型大小$d$以获得合理的近似。

RFA 在自回归解码中导致显著加速，并且记忆复杂度主要取决于构建核$\phi(.)$时选择的$D$。

Performer 通过正随机特征映射修改随机特征注意力，以减少估计误差。它还保持随机抽样的$\mathbf{w}_1, \dots, \mathbf{w}_D$正交，以进一步减少估计器的方差。

图 24. 使用（左）独立同分布 vs 正交特征和（右）sin/cos vs 正随机特征时的近似误差比较。（图片来源：Choromanski 等人，2021）。

用于强化学习的 Transformer

自注意机制避免将整个过去压缩为固定大小的隐藏状态，并且不像 RNN 那样容易受到梯度消失或爆炸的影响。强化学习任务肯定可以从这些特性中受益。然而，即使在监督学习中，训练 Transformer 也是相当困难的，更不用说在 RL 环境中了。让一个 LSTM 代理自己稳定并训练起来可能会非常具有挑战性。

门控 Transformer-XL（GTrXL；Parisotto 等人，2019）是将 Transformer 用于 RL 的一次尝试。 GTrXL 通过对 Transformer-XL 进行两项修改成功稳定了训练：

层归一化仅应用于残差模块中的输入流，而不应用于快捷流。这种重新排序的一个关键好处是允许原始输入从第一层流向最后一层。
残差连接被一个类似 GRU 风格（门控循环单元；Chung 等人，2014）的门控机制所取代。

\[\begin{aligned} r &= \sigma(W_r^{(l)} y + U_r^{(l)} x) \\ z &= \sigma(W_z^{(l)} y + U_z^{(l)} x - b_g^{(l)}) \\ \hat{h} &= \tanh(W_g^{(l)} y + U_g^{(l)} (r \odot x)) \\ g^{(l)}(x, y) &= (1-z)\odot x + z\odot \hat{h} \end{aligned} \]

门控函数参数明确初始化为接近单位映射 - 这就是为什么有一个$b_g$项。$b_g > 0$对于学习速度的提升非常有帮助。

图 25. Transformer-XL、重新排序的带有层归一化的 Transformer-XL 和门控 Transformer-XL 的模型架构比较。 (图片来源：Parisotto 等人 2019中的图 1)

决策变压器将强化学习问题形式化为条件序列建模的过程，输出基于期望回报、过去状态和动作的最优动作。因此，使用 Transformer 架构变得直观。决策变压器用于离策略强化学习，其中模型只能访问由其他策略收集的固定轨迹集合。

为了鼓励模型学习如何行动以实现期望回报，它将模型提供的期望未来回报$\hat{R} = \sum_{t’=t}^T r_{t’}$而不是当前奖励。轨迹由三元组列表（回报到目标$\hat{R}_t$、状态$s_t$、动作$a_t$）组成，并用作 Transformer 的输入序列：

\[\tau = (\hat{R}_1, s_1, a_1, \hat{R}_2, s_2, a_2, \dots, \hat{R}_T, s_T, a_T) \]

为了提取令牌嵌入，添加并训练了三个线性层，分别用于回报、状态和动作。预测头学习预测与输入令牌$s_t$对应的动作$a_t$。训练使用交叉熵损失用于离散动作或均方误差用于连续动作。在实验中发现，预测状态或回报对于提高性能并没有帮助。

实验将 DT 与几种无模型强化学习算法基线进行了比较，并显示：

在数据稀缺的情况下，决策变压器比行为克隆更有效率；
决策变压器（DT; Chen 等人 2021) 很好地建模了回报的分布；
拥有长期上下文对于获得良好结果至关重要；
决策变压器可以处理稀疏奖励。

引用

引用为：

Weng, Lilian. (2023 年 1 月). 变压器家族版本 2.0. Lil’Log. https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/.

或

@article{weng2023transformer,
  title   = "The Transformer Family Version 2.0",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2023",
  month   = "Jan",
  url     = "https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/"
}

参考文献

[1] Ashish Vaswani 等人。“注意力机制就是你所需要的一切。” NIPS 2017。

[2] Rami Al-Rfou 等人。“使用更深的自注意力进行字符级语言建模。” AAAI 2019。

[3] Olah & Carter，“注意力和增强循环神经网络”，Distill，2016 年。

[4] Sainbayar Sukhbaatar 等人。“变压器中的自适应注意力跨度”。ACL 2019。

[5] Rewon Child 等人。“使用稀疏 Transformer 生成长序列” arXiv:1904.10509 (2019)。

[6] Nikita Kitaev 等人 “Reformer: 高效 Transformer” ICLR 2020 年。

[7] Alex Graves. “适应循环神经网络的计算时间”

[8] Niki Parmar 等人 “图像 Transformer” ICML 2018 年。

[9] Zihang Dai 等人 “Transformer-XL：超越固定长度上下文的关注语言模型。” ACL 2019 年。

[10] Aidan N. Gomez 等人 “可逆残差网络：无需存储激活的反向传播” NIPS 2017 年。

[11] Mostafa Dehghani 等人 “通用 Transformer” ICLR 2019 年。

[12] Emilio Parisotto 等人 “用于强化学习的稳定 Transformer” arXiv:1910.06764 (2019 年)。

[13] Rae 等人 “用于长距离序列建模的压缩 Transformer。” 2019 年。

[14] Press 等人 “短训练，长测试：具有线性偏差的注意力使输入长度外推成为可能。” ICLR 2022 年。

[15] Wu 等人 “DA-Transformer: 距离感知 Transformer” 2021 年。

[16] Elabyad 等人 “深度自适应 Transformer。” ICLR 2020 年。

[17] Schuster 等人 “自信的自适应语言建模” 2022 年。

[18] Qiu 等人 “用于长文档理解的分块自注意力” 2019 年。

[19] Roy 等人 “使用路由 Transformer 实现高效基于内容的稀疏注意力。” 2021 年。

[20] Ainslie 等人 “ETC: 在 Transformer 中编码长和结构化输入。” EMNLP 2019 年。

[21] Beltagy 等人 “Longformer: 长文档 Transformer。” 2020 年。

[22] Zaheer 等人 “Big Bird: 用于更长序列的 Transformer。” 2020 年。

[23] Wang 等人 “Linformer: 具有线性复杂度的自注意力。” arXiv 预印本 arXiv:2006.04768 (2020 年)。

[24] Tay 等人 2020 “Sparse Sinkhorn Attention.” ICML 2020 年。

[25] Peng 等人 “随机特征注意力。” ICLR 2021 年。

[26] Choromanski 等人 “用表演者重新思考注意力。” ICLR 2021 年。

[27] Khandelwal 等人 “通过记忆实现泛化：最近邻语言模型。” ICLR 2020 年。

[28] Yogatama 等人 “自适应半参数语言模型。” ACL 2021 年。

[29] Wu 等人 “记忆 Transformer。” ICLR 2022 年。

[30] Su 等人 “Roformer: 带有旋转位置嵌入的增强 Transformer。” arXiv 预印本 arXiv:2104.09864 (2021 年)。

[31] Shaw 等人 “具有相对位置表示的自注意力。” arXiv 预印本 arXiv:1803.02155 (2018).

[32] Tay 等人 “高效 Transformer：一项调查。” ACM 计算调查 55.6 (2022): 1-28.

[33] 陈等人，“决策 Transformer：通过序列建模进行强化学习” arXiv 预印本 arXiv:2106.01345 (2021).

大型变压器模型推断优化

原文：lilianweng.github.io/posts/2023-01-10-inference-optimization/

2023-01-24 更新：在[蒸馏上添加一个小节。]

大型变压器模型如今已成为主流，为各种任务创造了 SoTA 结果。它们强大但训练和使用成本非常昂贵。在时间和内存方面极高的推断成本是采用强大变压器解决规模化真实世界任务的一个重要瓶颈。

为什么运行大型变压器模型的推断很困难？ 除了 SoTA 模型尺寸不断增加外，还有两个主要因素导致推断挑战（Pope 等人，2022）：

大内存占用。在推断时需要模型参数和中间状态都保存在内存中。例如，
- 在解码时应将 KV 缓存存储在内存中；例如，对于批量大小为 512 和上下文长度为 2048，KV 缓存总共为 3TB，即模型大小的 3 倍（！）。
- 注意机制的推断成本随输入序列长度呈二次方增长。
低并行性。推断生成以自回归方式执行，使得解码过程难以并行化。

在本文中，我们将探讨几种使变压器推断更高效的方法。有些是通用网络压缩方法，而另一些是特定于变压器架构的。

方法概述

我们通常将以下作为模型推断优化的目标：

通过使用更少的 GPU 设备和更少的 GPU 内存来减少模型的内存占用；
通过降低所需的 FLOP 数量来减少所需的计算复杂度；
减少推断延迟，使事情运行更快。

可以使用几种方法使推断在内存上更便宜或/和在时间上更快。

应用各种并行性来扩展模型跨多个 GPU。模型组件和数据的智能并行性使得可以运行具有数万亿参数的模型。
将内存卸载以将暂时未使用的数据卸载到 CPU，并在稍后需要时读取。这有助于内存使用，但会导致更高的延迟。
智能分批策略；例如，EffectiveTransformer将连续序列打包在一起，以消除一个批次内的填充。
网络压缩技术，如修剪、量化、蒸馏。在参数数量或位宽方面更小的模型应该需要更少的内存并且运行更快。
针对目标模型架构的改进。许多架构变化，特别是用于注意力层的变化，有助于提高变压器解码速度。

查看关于大型模型训练的先前文章，介绍了不同类型的训练并行性和内存节省设计，包括 CPU 内存卸载。本文重点介绍了用于 Transformer 模型的网络压缩技术和特定架构的改进。

蒸馏

知识蒸馏 (KD; Hinton et al. 2015, Gou et al. 2020) 是一种直接的方法，通过将预训练的昂贵模型(“教师模型”)的技能转移到一个更小、更便宜的模型(“学生模型”)，以加快推理速度。对于学生架构的构建并没有太多限制，除了需要与教师匹配输出空间以构建适当的学习目标。

Fig. 1. 师生知识蒸馏训练的通用框架。 (图片来源: Gou et al. 2020)

给定一个数据集，通过蒸馏损失训练学生模型来模仿教师的输出。通常神经网络有一个 softmax 层；例如，LLM 输出一个关于标记的概率分布。我们将教师和学生模型之间 softmax 之前的 logits 层分别表示为$\mathbf{z}_t$和$\mathbf{z}_s$。蒸馏损失通过高温$T$最小化两个 softmax 输出之间的差异。当已知地面真实标签$\mathbf{y}$时，我们可以将其与学生的软性 logits 之间的监督学习目标结合起来，例如使用交叉熵。

\[\mathcal{L}_\text{KD} = \mathcal{L}_\text{distll}(\text{softmax}(\mathbf{z}_t, T), \text{softmax}(\mathbf{z}_s, T)) + \lambda\mathcal{L}_\text{CE}(\mathbf{y}, \mathbf{z}_s) \]

其中$\lambda$是一个超参数，用于平衡软性和硬性学习目标。$\mathcal{L}_\text{distll}$的常见选择是 KL 散度/交叉熵。

一个成功的早期尝试是DistilBERT (Sanh et al. 2019)，能够将 BERT 的参数减少 40%，同时在精调后的下游任务上保持 BERT 97%的性能，并且运行速度提高了 71%。DistilBERT 的预训练损失包括软蒸馏损失、监督训练损失(即在 BERT 情况下的掩码语言建模损失 $\mathcal{L}_\text{MLM}$)和一种特殊的余弦嵌入损失，用于调整教师和学生之间的隐藏状态向量。

蒸馏可以轻松与量化、剪枝或稀疏化技术结合，其中教师模型是原始的全精度、稠密模型，而学生模型是量化、剪枝或修剪以具有更高稀疏度水平的模型。

量化

对深度神经网络应用量化有两种常见方法：

后训练量化（PTQ）：首先将模型训练到收敛，然后将其权重转换为较低精度而无需更多训练。与训练相比，实现起来通常要便宜得多。
量化感知训练（QAT）：在预训练或进一步微调期间应用量化。QAT 能够获得更好的性能，但需要额外的计算资源和代表性训练数据。

我们应该意识到理论最佳量化策略与硬件内核支持之间的差距。由于 GPU 内核对某些类型的矩阵乘法（例如 INT4 x FP16）缺乏支持，下面的方法并不都会导致实际推断速度的提升。

Transformer 量化的挑战

许多关于 Transformer 模型量化的研究都有相同的观察结果：简单的低精度（例如 8 位）后训练量化会导致显著的性能下降，主要是由于激活的高动态范围和天真的激活量化策略无法保持容量。

图 2。仅将模型权重量化为 8 位，同时保持激活在完整精度（W8A32）时，无论权重是否在较低精度（W8A8和W32A8）时，激活量化为 8 位都能取得更好的结果。（图片来源：Bondarenko 等人 2021）

Bondarenko 等人（2021）在一个小型 BERT 模型中观察到 FFN 的输入和输出具有非常不同的动态范围，因为输出张量中存在强烈的异常值。因此，对于 FFN 的残差和总和进行每张量量化可能会导致显着的误差。

随着模型规模继续增长到数十亿个参数，所有 Transformer 层中开始出现高幅度的异常值特征，导致简单的低位量化失败。Dettmers 等人（2022）观察到对于大于 6.7B 参数的OPT模型出现了这种现象。更大的模型具有更多具有极端异常值的层，并且这些异常值特征对模型性能有显著影响。在少数维度中，激活异常值的规模可能比其他大多数值大 100 倍。

图 3。随着 OPT 模型规模增加，一组语言任务（WinoGrande、HellaSwag、PIQA、LAMBADA）的零样本准确率均值。（图片来源：Dettmers 等人 2022)

后训练量化（PTQ）

混合精度量化

解决上述量化挑战最直接的方法是为权重和激活实现不同精度的量化。

GOBO（Zadeh 等人，2020）是第一个在 transformers 上应用后训练量化的模型之一（即一个小型 BERT 模型）。它假设每层模型权重遵循高斯分布，因此通过跟踪每层的均值和标准差来检测异常值。异常特征保留在原始形式中，而其他值被分成多个箱，并且只存储权重的相应箱索引和质心值。

基于观察到 BERT 中只有某些激活层（例如 FFN 后的残差连接）会导致性能大幅下降，Bondarenko 等人（2021）采用了混合精度量化，对问题激活使用 16 位量化，而对其他激活使用 8 位量化。

LLM.int8()中的混合精度量化（Dettmers 等人，2022）通过两种混合精度分解实现：

因为矩阵乘法包含一组独立的行向量和列向量之间的内积，我们可以对每个内积进行独立的量化：每行和每列都按绝对最大值进行缩放，然后量化为 INT8。
异常激活特征（例如比其他维度大 20 倍）保留在 FP16 中，但它们仅占总权重的一小部分。如何识别异常值是经验性的。

图 4。LLM.int8()的两种混合精度分解。（图片来源：Dettmers 等人，2022）

细粒度粒度的量化

图 5。不同粒度的量化比较。$d$是模型大小/隐藏状态维度，$h$是一个 MHSA（多头自注意力）组件中的头数。

在一个层中天真地对整个权重矩阵进行量化（“每张量”或“每层”量化）最容易实现，但不会导致良好的量化粒度。

Q-BERT（Shen，Dong＆Ye 等人，2020）对一个经过微调的 BERT 模型应用分组量化，将 MHSA（多头自注意力）中每个头对应的矩阵$W$视为一组，然后应用基于 Hessian 的混合精度量化。

每嵌入组（PEG）激活量化的动机是观察到异常值仅出现在$d$（隐藏状态/模型大小）个维度中的少数维度中（Bondarenko 等人，2021）。每嵌入组在计算上非常昂贵。相比之下，PEG 量化将激活张量分成几个沿嵌入维度均匀大小的组，其中同一组中的元素共享量化参数。为了确保所有异常值被分组在一起，他们应用了一种确定性基于范围的嵌入维度排列，其中维度按其值范围排序。

ZeroQuant（Yao 等人，2022）对权重使用分组量化，与 Q-BERT 相同，并对激活使用令牌量化。为了避免昂贵的量化和去量化计算，ZeroQuant 构建了定制的内核来融合量化操作与其先前的运算符。

用于量化的二阶信息

Q-BERT（Shen, Dong & Ye 等人，2020）为其混合精度量化开发了 Hessian AWare Quantization（HAWQ）。其动机是，具有更高 Hessian 谱（即更大的顶部特征值）的参数对量化更敏感，因此需要更高的精度。这本质上是一种识别异常值的方法。

从另一个角度来看，量化问题是一个优化问题。给定一个权重矩阵$\mathbf{W}$和一个输入矩阵$\mathbf{X}$，我们希望找到一个量化的权重矩阵$\hat{\mathbf{W}}$来最小化均方误差：

\[\hat{\mathbf{W}}^* = {\arg\min}_{\hat{\mathbf{W}}} | \mathbf{W}\mathbf{X} - \hat{\mathbf{W}}\mathbf{X}| \]

GPTQ（Frantar 等人，2022）将权重矩阵$\mathbf{W}$视为一组行向量${\mathbf{w}}$，并对每行独立应用量化。GPTQ 迭代地量化更多被贪婪选择以最小化量化误差的权重。对所选权重的更新具有闭合形式的公式，利用 Hessian 矩阵。如果感兴趣，可以在论文和 OBQ（Optimal Brain Quantization；Frantar & Alistarh，2022）方法中阅读更多细节。GPTQ 可以将 OPT-175B 中的权重位宽降至 3 或 4 位而几乎不损失性能，但仅适用于模型权重而不是激活。

异常值平滑

众所周知，在变压器模型中，激活比权重更难量化。SmoothQuant（Xiao & Lin，2022）提出了一个聪明的解决方案，通过数学上等效的转换将激活中的异常特征平滑到权重上，然后在权重和激活上启用量化（W8A8）。由于这个原因，SmoothQuant 比混合精度量化具有更好的硬件效率。

图 6. SmoothQuant 将激活的尺度变化迁移到权重上，以降低激活量化的难度。得到的新权重和激活矩阵都容易量化。（图片来源：Xiao & Lin 2022）

考虑每个通道的平滑因子 $\mathbf{s}$，SmoothQuant 根据以下方式调整权重：

\[\mathbf{Y} = (\mathbf{X} \text{diag}(\mathbf{s})^{-1}) \cdot (\text{diag}(\mathbf{s})\mathbf{W}) = \hat{\mathbf{X}}\hat{\mathbf{W}} \]

平滑因子可以轻松地离线融入到先前层的参数中。一个超参数 $\alpha$ 控制我们将量化难度从激活迁移到权重的程度：$\mathbf{s} = \max (\vert \mathbf{X}_j \vert)^\alpha / \max( \vert \mathbf{W}_j \vert )^{1-\alpha}$。论文发现在实验中，对于许多 LLM 模型，$\alpha=0.5$ 是一个最佳选择。对于激活中有更显著异常值的模型，$\alpha$ 可以调整得更大。

量化感知训练（QAT）

量化感知训练将量化操作融入到预训练或微调过程中。它直接学习低比特表示的模型权重，并在额外的训练时间和计算成本下实现更好的性能。

最直接的方法是在量化后在与预训练数据集相同或代表性的训练数据集上微调模型。训练目标可以与预训练相同（例如一般语言模型训练中的 NLL/MLM）或特定于我们关心的下游任务（例如分类中的交叉熵）。

另一种方法是将全精度模型视为教师，将低精度模型视为学生，然后用蒸馏损失优化低精度模型。蒸馏通常不需要使用原始数据集；例如，维基百科数据集是一个不错的选择，甚至随机标记也可以带来相当不错的性能提升。逐层知识蒸馏（LKD；Yao et al. 2022）方法逐层量化网络，并使用其原始的、未量化的版本作为教师模型。给定相同的输入，LKD 最小化了层权重乘法和量化层权重乘法之间的均方误差。

剪枝

网络剪枝是通过修剪不重要的模型权重或连接来减小模型大小，同时保持模型容量。可能需要重新训练，也可能不需要。剪枝可以是非结构化或结构化的。

非结构化剪枝允许丢弃任何权重或连接，因此不保留原始网络架构。非结构化剪枝通常与现代硬件不兼容，也不会导致实际推理加速。
结构化修剪旨在保持稠密矩阵乘法形式，其中一些元素为零。它们可能需要遵循某些模式限制，以便与硬件内核支持的内容配合使用。在这里，我们专注于结构化修剪以在变压器模型中实现高稀疏性。

构建修剪网络的常规工作流程有三个步骤：

训练一个密集网络直到收敛；
修剪网络以去除不需要的结构；
可选地重新训练网络以恢复性能与新权重。

通过网络修剪在稠密模型中发现稀疏结构的想法，而稀疏网络仍然可以保持类似的性能，受到彩票票据假设（LTH）的启发：一个随机初始化的、密集的、前馈网络包含一组子网络，其中只有一个子集（一个稀疏网络）是“中奖票”，当单独训练时可以达到最佳性能。

如何进行修剪？

幅度修剪是最简单但相当有效的修剪方法 - 剪掉绝对值最小的权重。事实上，一些研究（Gale 等人，2019）发现简单的幅度修剪方法可以达到与复杂修剪方法（如变分辍学（Molchanov 等人，2017）和$l_0$正则化（Louizos 等人，2017））相媲美甚至更好的结果。幅度修剪易于应用于大型模型，并在各种超参数范围内实现相当一致的性能。

Zhu & Gupta（2017）发现大型稀疏模型能够比它们小但密集的对应物性能更好。他们提出了渐进幅度修剪（GMP）算法，该算法在训练过程中逐渐增加网络的稀疏性。在每个训练步骤中，绝对值最小的权重被掩盖为零，以达到所需的稀疏水平$s$，掩盖的权重在反向传播过程中不会获得梯度更新。所需的稀疏水平$s$随着更多的训练步骤而增加。GMP 的过程对学习率调度很敏感，学习率应该高于密集网络训练中使用的学习率，但不要太高以防止收敛。

迭代修剪（Renda 等人，2020）多次迭代步骤 2（修剪）和步骤 3（重新训练）：每次修剪只修剪一小部分权重，并在每次迭代中重新训练模型。该过程重复，直到达到所需的稀疏水平。

如何进行重新训练？

重新训练步骤可以简单地使用相同的预训练数据或其他特定任务的数据进行微调。

彩票票假设提出了一种权重回退重新训练技术：剪枝后，未剪枝的权重重新初始化为训练早期的原始值，然后按相同的学习率计划重新训练。

学习率回退（Renda 等人，2020）仅将学习率重置回早期值，而未剪枝的权重自上次训练阶段结束以来保持不变。他们观察到（1）使用权重回退重新训练优于在各种网络和数据集上进行微调重新训练，以及（2）学习率回退在所有测试场景中与权重回退相匹配或优于其表现。

稀疏性

稀疏性是一种有效的方式，可以在保持模型推断计算效率的同时扩展模型容量。在这里，我们考虑变压器的两种稀疏性：

稀疏化的密集层，包括自注意力和 FFN 层。
稀疏模型架构；即通过整合专家混合（MoE）组件。

通过剪枝实现的 N:M 稀疏性

N:M 稀疏性是一种结构化稀疏模式，与现代 GPU 硬件优化配合良好，其中每$M$个连续元素中有$N$个为零。例如，Nvidia A100 GPU 的稀疏张量核支持 2:4 稀疏性，以实现更快的推断（Nvidia，2020）。

图 7. 2:4 结构稀疏性矩阵及其压缩表示。（图片来源：Nvidia 博客）

要将密集神经网络稀疏化以遵循 N:M 结构稀疏模式，Nvidia（2020）建议使用三步常规工作流程来训练剪枝网络：训练 –> 剪枝以满足 2:4 稀疏性 –> 重新训练。

对列进行排列可以在剪枝过程中提供更多选项，以保持大幅度参数或满足特殊限制（如 N:M 稀疏性）的参数（Pool & Yu，2021）。只要两个矩阵的配对轴按相同顺序排列，矩阵乘法的结果就不会改变。例如，

（1）在自注意力模块中，如果在查询嵌入矩阵$\mathbf{Q}$的轴 1 和键嵌入矩阵$\mathbf{K}^\top$的轴 0 上应用相同的排列顺序，则矩阵乘法$\mathbf{Q}\mathbf{K}^\top$的最终结果将保持不变。

图 8. 展示了对$\mathbf{Q}$（轴 1）和$\mathbf{K}^\top$（轴 0）进行相同排列以保持自注意力模块的结果不变。

(2) 在包含两个 MLP 层和一个 ReLU 非线性层的 FFN 层内，我们可以按照相同顺序沿轴 1 排列第一个线性权重矩阵$\mathbf{W}_1$和沿轴 0 排列第二个线性权重矩阵$\mathbf{W}_2$。

图 9. 展示了对$\mathbf{W}_1$（轴 1）和$\mathbf{W}_2$（轴 0）进行相同排列以保持 FFN 层输出不变。为简单起见，跳过了偏置项，但偏置项也应该进行相同排列。

为了强制 N:M 结构稀疏性，让我们将一个矩阵的列分成多个包含$M$列的滑块（称为“条纹”），我们可以很容易地观察到每个条纹内列的顺序以及条纹的顺序对 N:M 稀疏性限制没有影响。

Pool & Yu（2021）提出了一种迭代贪婪算法，以找到最大化 N:M 稀疏性权重幅度的最佳排列。所有通道对都被推测性地交换，只有导致幅度最大增加的交换被采纳，生成一个新排列并完成单次迭代。贪婪算法可能只找到局部最小值，因此他们引入了两种技术来避开局部最小值：

有界回归：在实践中，随机交换两个通道，最多固定次数。解决方案搜索仅限于一次通道交换的深度，以保持搜索空间广泛且浅显。
狭窄、深度搜索：选择多个条纹并同时优化它们。

图 10. 贪婪迭代地寻找 N:M 稀疏性最佳排列的算法。（图片来源：Pool & Yu 2021）

如果在剪枝之前对网络进行排列，网络可以实现更好的性能，与在其默认通道顺序中剪枝相比。

要从头开始训练一个具有 N:M 稀疏性的模型，周和马等人（2021）扩展了 STE（直通估计器；Bengio 等人 2013），这在模型量化的反向传播更新中常用，以适用于幅度剪枝和稀疏参数更新。

STE 计算密集参数相对于被剪枝网络$\widetilde{W}$的梯度，$\partial \mathcal{L}/\partial \widetilde{W}$，并将其应用于密集网络$W$作为近似：

\[W_{t+1} \gets W_t - \gamma \frac{\partial\mathcal{L}}{\partial\widetilde{W}} \]

扩展版本SR-STE（稀疏精化 STE）通过以下方式更新密集权重$W$：

\[ W_{t+1} \gets W_t - \gamma \frac{\partial\mathcal{L}}{\partial\widetilde{W}} + \lambda_W (\bar{\mathcal{E}} \odot W_t) $$ 其中 $\bar{\mathcal{E}}$ 是 $\widetilde{W}$ 的掩码矩阵，$\odot$ 是逐元素乘法。SR-STE 旨在通过（1）限制 $\widetilde{W}_t$ 中被修剪的权重的值，以及（2）促进 $\widetilde{W}_t$ 中未被修剪的权重，防止二进制掩码的大变化。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c48d040c45d3faf10e894b208fe7a9ee.png) 图 11\. STE 和 SR-STE 的比较。$\odot$ 是逐元素乘积；$\otimes$ 是矩阵乘法。（图片来源：[Zhou & Ma, et al. 2021](https://arxiv.org/abs/2102.04010)）与 STE 或 SR-STE 不同，**Top-KAST**（[Jayakumar et al. 2021](https://arxiv.org/abs/2106.03517)）方法可以在前向和反向传播中保持恒定的稀疏性，但不需要具有稠密参数或稠密梯度的前向传播。在一个训练步骤 $t$ 中，Top-KAST 的处理方式如下： 1. *稀疏前向传播*：选择参数子集 $A^t \subset \Theta$，每层按大小包含前 $K$ 个参数，限制在前 $D$ 比例的权重中。在时间 $t$ 的参数化 $\alpha^t$ 中，如果不在 $A^t$ 中（活跃权重），则将参数归零。 $$ \alpha^t_i = \begin{cases} \theta^t_i & \text{ if } i \in A^t = \{i \mid \theta^t_i \in \text{TopK}(\theta^t, D) \}\\ 0 & \text{ otherwise} \end{cases} \]

其中 $\text{TopK}(\theta, x)$ 从 $\theta$ 中基于大小选择前 $x$ 比例的权重。

稀疏反向传播：然后将梯度应用于更大的参数子集 $B \subset \Theta$，其中 $B$ 包含 $(D+M)$ 比例的权重，$A \subset B$。更新更大比例的权重能够更有效地探索不同的修剪掩码，更有可能导致前 $D$ 比例的活跃权重中的排列。

\[\Delta_{\theta^t_i} = \begin{cases} -\eta \nabla_{\alpha_t} \mathcal{L}(y, x, \alpha^t)_i & \text{ if } i\in B^t = \{i \mid \theta^t_i \in \text{TopK}(\theta^t, D+M) \} \\ 0 & \text{ otherwise } \end{cases} \]

训练分为两个阶段，集合 $B \setminus A$ 中的额外坐标控制引入多少探索。预计探索量会逐渐减少，并且掩码最终会稳定下来。

图 12. Top-KAST 的修剪掩码随时间稳定。（图片来源：Jayakumar et al. 2021）

为了防止富者愈富现象，Top-KAST 通过 L2 正则化损失惩罚活跃权重的大小，以鼓励对新项目进行更多的探索。在更新过程中，$B \setminus A$ 中的参数受到比 $A$ 更高的选择门槛的惩罚，以稳定掩码。

\[L_\text{penalty}(\alpha^t_i) = \begin{cases} \vert \theta^t_i\vert & \text{ if } i \in A^t \\ \vert \theta^t_i\vert / D & \text{ if } i \in B^t \setminus A^t \\ 0 & \text{ otherwise} \end{cases} \]

稀疏化 Transformer

Scaling Transformer（Jaszczur 等人，2021）在 transformer 架构中稀疏化了自注意力和 FFN 层，实现了单个示例推理的 37 倍加速。

图 13. 当在不同层应用稀疏化时，transformer 模型解码单个标记（非批量推理）的速度。 (图片来源：Jaszczur 等人，2021)

稀疏 FFN 层：每个 FFN 层包含 2 个 MLP 和一个 ReLU 层。由于 ReLU 会引入大量零值，它们在激活上实现了一个固定的结构，以强制每个$N$元素块中只有 1 个非零值。稀疏模式是动态的，对于每个标记都不同。

\[\begin{aligned} Y_\text{sparse} &= \max(0, xW_1 + b_1) \odot \text{Controller}(x) \\ \text{SparseFFN}(x) &= Y_\text{sparse} W_2 + b_2 \\ \text{Controller}(x) &= \arg\max(\text{Reshape}(x C_1 C_2, (-1, N))) \end{aligned} \]

其中$Y_\text{sparse}$中的每个激活对应于$W_1$中的一列和$W_2$中的一行。控制器实现为一个低秩瓶颈密集层，$C_1 \in \mathbb{R}^{d_\text{model} \times d_\text{lowrank}}, C_2 \in \mathbb{R}^{d_\text{lowrank} \times d_\text{ff}}$，$d_\text{lowrank} = d_\text{model} / N$。在推理中，它使用$\arg\max$来选择哪些列应该是非零的，并在训练期间使用 Gumbel-softmax 技巧（Jang 等人，2016）。因为我们可以在加载 FFN 权重矩阵之前计算$\text{Controller}(x)$，所以我们知道哪些列将被置零，因此选择不加载它们以加快推理速度。

图 14. (a) 稀疏 FFN 层；红色列在内存中未加载，以加快推理速度。 (b) 1:4 稀疏 FFN 控制器。 (图片来源：Jaszczur 等人，2021) 莉莲的侧记：论文插图中的(a)实际上是$Y_\text{sparse} = \max\big(0, (xW_1 + b_1) \odot \text{Controller}(x)\big)$，但这并不改变结果。

稀疏 QKV（注意力）层：在注意力层中，维度$d_\text{model}$被分成$S$个模块，每个大小为$M=d_\text{model} /S$。为了确保每个子分区都可以访问嵌入的任何部分，Scaling Transformer 引入了一个乘法层（即，一个乘法层逐元素地将来自多个神经网络层的输入相乘），它可以表示任意排列，但包含的参数比密集层少。

给定输入向量$x \in \mathbb{R}^{d_\text{model}}$，乘法层输出$y \in \mathbb{R}^{S \times M}$：

\[y_{s,m} = \sum_i x_i D_{i,s} E_{i,m} \quad\text{其中 }D \in \mathbb{R}^{d_\text{model} \times S}, D \in \mathbb{R}^{d_\text{model} \times M} \]

乘法层的输出是一个大小为$\in \mathbb{R}^{\text{批量大小}\times \text{长度} \times S \times M}$的张量。然后通过一个二维卷积层处理，其中$\text{长度}$和$S$被视为图像的高度和宽度。这样的卷积层进一步减少了注意力层的参数数量和计算时间。

图 15. (a) 引入了一个乘法层，使分区可以访问嵌入的任何部分。 (b) 乘法密集层和二维卷积层的组合减少了注意力层的参数数量和计算时间。 (图片来源：Jaszczur 等人 2021)

为了更好地处理长序列，Scaling Transformer 进一步配备了来自Reformer（Kitaev, et al. 2020）的 LSH（局部敏感哈希）注意力和 FFN 块的循环，从而形成Terraformer。

专家混合

混合专家（MoE）模型依赖于一组“专家”网络，每个示例仅激活一部分网络以进行预测。这个想法最早可以追溯到上世纪 90 年代（Jacobs et al. 1991），与集成方法密切相关。有关如何将 MoE 模块整合到 Transformer 中的详细信息，请查看我的关于大型模型训练技术的先前文章以及Fedus 等人 2022 年的 MoE 综述论文。

使用 MoE 架构，解码时仅利用部分参数，因此节省了推理成本。每个专家的容量可以通过超参数，容量因子$C$进行调整，专家容量定义为：

\[\text{专家容量} = \text{round}(C \cdot k \cdot \frac{\text{一个批次中的总标记数}}{\text{# 专家}}) \]

每个标记选择前$k$个专家。较大的$C$会导致更高的专家容量和更好的性能，但计算成本更高。当$C>1$时，会添加一定的松弛容量；否则，当$C<1$时，路由网络需要忽略一些标记。

路由策略改进

MoE 层具有一个路由网络，为每个输入标记分配一组专家。香草 MoE 模型中的路由策略是根据自然顺序将每个标记路由到不同的首选专家。如果一个标记被路由到已达到容量的专家，该标记将被标记为“溢出”并跳过。

V-MoE（视觉 MoE；Riquelme 等人，2021）将 MoE 层添加到 ViT（视觉 Transformer）中。它与先前的最先进技术性能相匹配，但只需要一半的推理计算。V-MoE 可以扩展到 15B 参数。他们的实验使用了$k=2$，32 个专家和每 2 个专家放置一次（这意味着 MoE 层放置在每隔一层）。

由于每个专家的容量有限，如果一些重要且信息丰富的标记出现得太晚（例如句子中的单词顺序或图像块的顺序），则可能不得不丢弃它们。为了避免在普通路由方案中出现这种缺点，V-MoE 采用BPR（批量优先路由）来首先为具有高优先级分数的标记分配专家。BPR 在专家分配之前为每个标记计算优先级分数（路由器分数的最大值或前$k$个的总和），并相应地改变标记的顺序。这确保了专家容量缓冲区首先填满关键标记。

图 16。当$C < 1$时，根据优先级分数丢弃图像块的方式。（图片来源：Riquelme 等人，2021）

当$C\leq 0.5$时，BPR 比普通路由效果要好得多，模型开始丢弃大量标记。即使在非常低的容量下，它也使模型能够与密集网络竞争。

当研究如何解释图像类别专家关联时，他们观察到早期的 MoE 层更为通用，而后期的 MoE 层可能会专门针对少数图像类别。

任务 MoE（任务级混合专家；Kudugunta 等人，2021）考虑了任务信息，并在机器翻译的任务级别而不是单词或标记级别上路由标记。他们以 MNMT（多语言神经机器翻译）为例，并根据目标语言或语言对对翻译任务进行分组。

标记级别的路由是动态的，每个标记的路由决策是独立进行的。因此，在推理时，服务器需要预加载所有专家。相比之下，任务级别的路由是静态的，给定一个固定的任务，因此一个任务的推理服务器只需要预加载$k$个专家（假设是前$k$个路由）。根据他们的实验，与密集模型基线相比，任务 MoE 可以实现类似的性能提升，具有 2.6 倍更高的峰值吞吐量和 1.6%的解码器大小。

任务级 MoE 基本上是根据预定义的启发式对任务分布进行分类，并将这种人类知识纳入路由器中。当这样的启发式不存在时（例如考虑一个通用的句子续写任务），如何利用任务 MoE 就不那么直接了。

PR-MoE（金字塔残差 MoE；Rajbhandari 等人，2022）使每个标记通过一个固定的 MLP 和一个选择的专家。由于观察到后续层的 MoE 更有益，PR-MoE 在后续层采用更多的专家。DeepSpeed 库实现了灵活的多专家、多数据并行，以便在不同层次上训练具有不同专家数量的 PR-MoE。

图 17. PR-MoE 架构与标准 MoE 的比较示意图（图片来源：Rajbhandari 等人，2022）

内核改进

专家网络可以托管在不同的设备上。然而，当 GPU 数量增加时，每个 GPU 上的专家数量减少，专家之间的通信（“全对全”）变得更加昂贵。跨多个 GPU 之间的全对全通信依赖于 NCCL 的 P2P API，这在大规模上无法饱和高速链接的带宽（例如 NVLink、HDR InfiniBand），因为随着使用更多节点，单个块变得更小。现有的全对全算法在大规模和小工作负载下表现不佳。有各种内核改进可以实现更高效的 MoE 计算，例如使全对全通信更便宜/更快。

DeepSpeed库（Rajbhandari 等人，2022）和 TUTEL（Hwang 等人，2022）都实现了基于树的分层全对全算法，该算法运行节点内全对全，然后是节点间全对全。它将通信跳数从$O(G)$减少到$O(G_\text{node} + G / G_\text{node})$，其中$G$是 GPU 节点的总数，$G_\text{node}$是每个节点的 GPU 核心数。尽管在这种实现中通信量翻倍，但它能够更好地扩展大规模下的小批量，因为瓶颈在于小批量时延迟而不是通信带宽。

DynaMoE（Kossmann 等人，2022）使用动态重新编译来适应专家之间的动态工作负载。RECOMPILE机制从头开始编译计算图，并且只在需要时重新分配资源。它测量每个专家分配了多少样本，并动态调整它们的容量因子$C$，以减少运行时的内存和计算需求。基于观察到样本-专家分配在训练早期就会收敛，样本分配缓存在收敛后引入，然后使用RECOMPILE来消除门控网络和专家之间的依赖关系。

架构优化

有关高效 Transformer的调查论文（Tay et al. 2020）审查了一系列新的 Transformer 架构，改进了更好的计算和内存效率。强烈推荐阅读。您还可以查看我的帖子“Transformer 家族 2.0 版”，深入介绍了一系列 Transformer 架构改进，包括使模型更便宜运行的变化。

第 18 图。高效 Transformer 模型的分类。

（图片来源：Tay et al. 2020）

由于自注意力机制具有二次时间和内存复杂度，这是提高 Transformer 解码效率的主要瓶颈，所有高效 Transformer 模型都对原本密集的注意力层应用了某种形式的稀疏性。这里仅列出一个高层次概述，其中几个源自Tay et al. 2020。

稀疏注意力模式

固定模式限制了注意力矩阵的视野，使用预定义的固定模式。
- 将输入序列分块成固定块，例如Blockwise Attention；
- Image Transformer使用局部注意力；
- Sparse Transformer使用跨步注意力模式。
组合模式学习对输入标记进行排序/聚类-实现序列的更优全局视图，同时保持固定模式的效率优势。
- Sparse Transformer结合了跨步和局部注意力；
- 给定高维输入张量，而不是对输入的扁平化版本应用注意力，Axial Transformer应用多个注意力，每个沿着输入张量的一个轴。
- ETC、Longformer 和 Big Bird结合了局部和全局上下文，以及跨步或随机注意力。
可学习模式通过学习确定最佳注意力模式。
- Reformer根据基于哈希相似性（LSH）将标记聚类到簇中；
- Routing Transformer在标记上运行$k$-means 聚类；
- Sinkhorn Sorting Network学习对输入序列的块进行排序。

循环

递归机制通过递归连接多个块/段。

Transformer-XL通过在段之间重用隐藏状态来利用更长的上下文。
通用变压器将自注意机制与 RNN 中的递归机制结合在一起。
压缩变压器是 Transformer-XL 的扩展，具有额外的记忆，包含一组用于过去激活的记忆槽和用于压缩激活的压缩记忆槽。每当模型接受新的输入段时，主要记忆中最老的激活被移动到压缩记忆中，其中应用了压缩函数。

节省内存设计

节省内存设计指的是对架构的更改，以使用更少的内存。

Linformer将键和值的长度维度投影到较低维度表示（$N \to k$），因此内存复杂度从$N \times N$减少到$N \times k$。
Shazeer (2019)提出了多查询注意力，其键和值在不同注意力“头”之间共享，大大减少了这些张量的大小和内存成本。
随机特征注意力和表演者使用核方法)来实现自注意机制的更便宜的数学格式。

自适应注意力

自适应注意力使模型能够学习每个输入令牌的最佳注意跨度或决定何时对不同输入令牌进行早期退出。

自适应注意跨度训练模型通过令牌和其他键之间的软掩码学习每个令牌每个头的最佳注意跨度。
通用变压器结合了递归机制，并使用ACT（自适应计算时间）动态决定递归步数。
深度自适应变压器和 CALM学习何时根据一些置信度度量来提前退出每个令牌的计算层，以实现良好的性能效率权衡。

引用

被引用为:

翁，莉莲。 (2023 年 1 月)。大型变压器模型推理优化。Lil’Log。https://lilianweng.github.io/posts/2023-01-10-inference-optimization/.

或

@article{weng2023inference,
  title   = "Large Transformer Model Inference Optimization",
  author  = "Weng, Lilian",
  journal = "Lil'Log",
  year    = "2023",
  month   = "Jan",
  url     = "https://lilianweng.github.io/posts/2023-01-10-inference-optimization/"
}

参考文献

[1] Bondarenko 等人 “理解和克服高效 Transformer 量化的挑战” ACL 2021.

[2] Dettmers 等人 “LLM.int8(): 用于规模化 Transformer 的 8 位矩阵乘法” NeuriPS 2022

[3] Zadeh 等人 “Gobo：为低延迟和高能效推理量化基于注意力的 NLP 模型。” MICRO 2020

[4] 沈，董 & 叶等人 “Q-BERT：基于 Hessian 的 BERT 超低精度量化” AAAI 2020.

[5] 姚等人 “ZeroQuant：大规模 Transformer 的高效且经济实惠的训练后量化” arXiv 预印本 arXiv:2206.01861 (2022).

[6] Frantar 等人 “GPTQ：用于生成式预训练 Transformer 的准确量化” arXiv 预印本 arXiv:2210.17323 (2022).

[7] 肖 & 林 “SmoothQuant：加速稀疏神经训练：一种可证明且高效的方法来找到 N:M 可转置掩码。” arXiv 预印本 arXiv:2211.10438 (2022). | code

[8] Pool & 余 “通道置换用于 N:M 稀疏性。” NeuriPS 2021. | code

[9] 周 & 马等人 “从头开始学习 N:M 细粒度结构稀疏神经网络。” arXiv 预印本 arXiv:2102.04010 (2021).

[10] Jayakumar 等人 “Top-KAST：始终稀疏的 Top-K 训练。” NeuriPS 2020.

[11] Nvidia “Nvidia A100 张量核 GPU 架构。” 2020.

[12] 盖尔，埃尔森 & 胡克 “深度神经网络中稀疏性的现状。” arXiv 预印本 arXiv:1902.09574 (2019).

[13] 朱 & 古普塔 “剪枝还是不剪枝：探索模型压缩的有效性。” arXiv 预印本 arXiv:1710.01878 (2017).

[14] Renda 等人 “神经网络剪枝中比较重绕和微调。” arXiv 预印本 arXiv:2003.02389 (2020).

[15] 周 & 马等人 “从头开始学习 N:M 细粒度结构稀疏神经网络。” arXiv 预印本 arXiv:2102.04010 (2021).

[16] Pool & 余 “通道置换用于 N:M 稀疏性。” NeuriPS 2021. | code

[17] Jaszczur 等人 “在扩展 Transformer 中稀疏就足够了。” NeuriPS 2021.

[18] Mishra et al. “神经网络压缩综述。” arXiv 预印本 arXiv:1710.09282 (2017).

[19] Fedus et al. “深度学习中稀疏专家模型综述。” arXiv 预印本 arXiv:2209.01667 (2022)。

[20] Riquelme et al. “利用稀疏专家混合扩展视觉。” NeuriPS 2021.

[21] Kudugunta et al. “超越蒸馏：任务级专家混合用于高效推理。” arXiv 预印本 arXiv:2110.03742 (2021).

[22] Rajbhandari et al. “DeepSpeed-MoE：推动下一代 AI 规模的专家混合推理和训练。” arXiv 预印本 arXiv:2201.05596 (2022).

[23] Kossmann et al. “使用动态重新编译优化专家混合。” arXiv 预印本 arXiv:2205.01848 (2022).

[24] Hwang et al. “Tutel：规模化自适应专家混合。” arXiv 预印本 arXiv:2206.03382 (2022)。| code

[25] Noam Shazeer. “快速 Transformer 解码：一个写头就够了。” arXiv 预印本 arXiv:1911.02150 (2019).

[26] Tay et al. “高效 Transformer：一项调查。” ACM 计算调查 55.6 (2022): 1-28.

[27] Pope et al. “高效扩展 Transformer 推理。” arXiv 预印本 arXiv:2211.05102 (2022).

[28] Frankle & Carbin. “抽奖票假设：寻找稀疏、可训练的神经网络” ICLR 2019.

[29] Elabyad et al. “深度自适应 Transformer” ICLR 2020.

[30] Schuster et al. “自信自适应语言建模” arXiv 预印本 arXiv:2207.07061 (2022).

[31] Gou et al. “https://arxiv.org/abs/2006.05525” arXiv 预印本 arXiv:2006.05525 (2020).

[32] Hinton et al. “提炼神经网络中的知识” NIPS 2014.

[33] Sanh et al. “DistilBERT，BERT 的精简版本：更小、更快、更便宜、更轻” NeuriPS 2019 能源高效机器学习和认知计算研讨会。

一些神经切向核背后的数学知识

原文：lilianweng.github.io/posts/2022-09-08-ntk/

众所周知，神经网络是过度参数化的，通常可以轻松拟合具有接近零训练损失的数据，并在测试数据集上具有良好的泛化性能。尽管所有这些参数都是随机初始化的，但优化过程可以始终导致类似的良好结果。即使模型参数的数量超过训练数据点的数量，这也是正确的。

神经切向核（NTK）（Jacot et al. 2018）是一个核，用于通过梯度下降解释神经网络在训练过程中的演变。它深入探讨了为什么具有足够宽度的神经网络在被训练以最小化经验损失时可以始终收敛到全局最小值。在本文中，我们将深入探讨 NTK 的动机和定义，以及在不同初始化条件下对具有无限宽度的神经网络的确定性收敛的证明，通过在这种设置中对 NTK 进行表征。

🤓 与我之前的文章不同，这篇主要关注少量核心论文，而不是广泛涵盖该领域的文献综述。NTK 之后有许多有趣的工作，对理解神经网络学习动态进行了修改或扩展，但它们不会在这里涵盖。目标是以清晰易懂的格式展示 NTK 背后的所有数学知识，因此本文具有相当高的数学密度。如果您发现任何错误，请告诉我，我将很乐意快速更正。提前感谢！

基础知识

本节包含对几个非常基本概念的回顾，这些概念是理解神经切向核的核心。随意跳过。

向量对向量的导数

给定输入向量 $\mathbf{x} \in \mathbb{R}^n$（作为列向量）和函数 $f: \mathbb{R}^n \to \mathbb{R}^m$，关于 $\mathbf{x}$ 的导数是一个 $m\times n$ 矩阵，也称为雅可比矩阵：

\[J = \frac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \dots &\frac{\partial f_1}{\partial x_n} \\ \vdots & & \\ \frac{\partial f_m}{\partial x_1} & \dots &\frac{\partial f_m}{\partial x_n} \\ \end{bmatrix} \in \mathbb{R}^{m \times n} \]

在本文中，我使用整数下标来指代向量或矩阵值中的单个条目；即 $x_i$ 表示向量 $\mathbf{x}$ 中的第 $i$ 个值，$f_i(.)$ 是函数输出中的第 $i$ 个条目。

对于向量关于向量的梯度定义为 $\nabla_\mathbf{x} f = J^\top \in \mathbb{R}^{n \times m}$，当 $m=1$（即，标量输出）时，这种形式也是有效的。

微分方程

微分方程描述一个或多个函数及其导数之间的关系。有两种主要类型的微分方程。

(1) ODE（常微分方程）只包含一个未知函数的一个随机变量。ODEs 是本文中使用的微分方程的主要形式。ODE 的一般形式如$(x, y, \frac{dy}{dx}, \dots, \frac{d^ny}{dx^n}) = 0$。
(2) PDE（偏微分方程）包含未知的多变量函数及其偏导数。

让我们回顾一下微分方程及其解的最简单情况。变量分离（傅立叶方法）可用于当所有包含一个变量的项都移到一边时，而其他项都移到另一边。例如，

\[\begin{aligned} \text{给定}a\text{是一个常数标量：}\quad\frac{dy}{dx} &= ay \\ \text{将相同变量移到同一侧：}\quad\frac{dy}{y} &= adx \\ \text{两侧加上积分：}\quad\int \frac{dy}{y} &= \int adx \\ \ln (y) &= ax + C' \\ \text{最终}\quad y &= e^{ax + C'} = C e^{ax} \end{aligned} \]

中心极限定理

给定一组独立同分布的随机变量，$x_1, \dots, x_N$，均值为$\mu$，方差为$\sigma²$，中心极限定理（CTL）表明当$N$变得非常大时，期望值将呈高斯分布。

\[\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i \sim \mathcal{N}(\mu, \frac{\sigma²}{n})\quad\text{当}N \to \infty \]

CTL 也可以应用于多维向量，然后我们需要计算随机变量$\Sigma$的协方差矩阵，而不是单一尺度$\sigma²$。

泰勒展开

泰勒展开是将一个函数表示为无限项的组成部分之和，每个部分都用该函数的导数表示。函数$f(x)$在$x=a$处的泰勒展开可以写成：$$ f(x) = f(a) + \sum_{k=1}^\infty \frac{1}{k!} (x - a)^k\nablak_xf(x)\vert_{x=a} $$其中$\nabla^k$表示第$k$阶导数。

第一阶泰勒展开通常用作函数值的线性近似：

\[f(x) \approx f(a) + (x - a)\nabla_x f(x)\vert_{x=a} \]

核函数和核方法

一个核函数本质上是两个数据点之间的相似性函数，$K: \mathcal{X} \times \mathcal{X} \to \mathbb{R$。它描述了对一个数据样本的预测对另一个数据样本的预测的敏感程度；或者换句话说，两个数据点有多相似。核函数应该是对称的，$K(x, x’) = K(x’, x)$。

根据问题结构，一些核函数可以分解为两个特征映射，一个对应一个数据点，核值是这两个特征的内积：$K(x, x’) = \langle \varphi(x), \varphi(x’) \rangle$。

核方法是一种非参数、基于实例的机器学习算法。假设我们已知所有训练样本$\{x^{(i)}, y^{(i)}\}$的标签，那么新输入$x$的标签通过加权和$\sum_{i} K(x^{(i)}, x)y^{(i)}$来预测。

高斯过程

高斯过程（GP）是一种通过对一组随机变量建模多元高斯概率分布的非参数方法。GP 假设函数的先验，然后根据观察到的数据点更新函数的后验。

给定数据点集合$\{x^{(1)}, \dots, x^{(N)}\}$，高斯过程假设它们遵循一个联合多元高斯分布，由均值$\mu(x)$和协方差矩阵$\Sigma(x)$定义。协方差矩阵$\Sigma(x)$中位置$(i,j)$处的每个条目由一个核$\Sigma_{i,j} = K(x^{(i)}, x^{(j)})$定义，也称为协方差函数。核心思想是 - 如果两个数据点被核视为相似，那么函数输出也应该接近。使用高斯过程对未知数据点进行预测等同于从该分布中抽取样本，通过给定观察到的数据点的未知数据点的条件分布。

查看这篇文章，了解高质量且高度可视化的关于高斯过程的教程。

符号

让我们考虑一个具有参数$\theta$的全连接神经网络，$f(.;\theta): \mathbb{R}^{n_0} \to \mathbb{R}^{n_L}$。层从 0（输入）到$L$（输出）进行索引，每一层包含$n_0, \dots, n_L$个神经元，包括大小为$n_0$的输入和大小为$n_L$的输出。总共有$P = \sum_{l=0}^{L-1} (n_l + 1) n_{l+1}$个参数，因此我们有$\theta \in \mathbb{R}^P$。

训练数据集包含$N$个数据点，$\mathcal{D}=\{\mathbf{x}^{(i)}, y^{(i)}\}_{i=1}^N$。所有输入被表示为$\mathcal{X}=\{\mathbf{x}^{(i)}\}_{i=1}^N$，所有标签被表示为$\mathcal{Y}=\{y^{(i)}\}_{i=1}^N$。

现在让我们详细看一下每一层中的前向传播计算。对于$l=0, \dots, L-1$，每一层$l$定义一个带有权重矩阵$\mathbf{w}^{(l)} \in \mathbb{R}^{n_{l} \times n_{l+1}}$和偏置项$\mathbf{b}^{(l)} \in \mathbb{R}^{n_{l+1}}$的仿射变换$A^{(l)}$，以及一个逐点非线性函数$\sigma(.)$，它是Lipschitz 连续的。

\[\begin{aligned} A^{(0)} &= \mathbf{x} \\ \tilde{A}^{(l+1)}(\mathbf{x}) &= \frac{1}{\sqrt{n_l}} {\mathbf{w}^{(l)}}^\top A^{(l)} + \beta\mathbf{b}^{(l)}\quad\in\mathbb{R}^{n_{l+1}} & \text{; 预激活}\\ A^{(l+1)}(\mathbf{x}) &= \sigma(\tilde{A}^{(l+1)}(\mathbf{x}))\quad\in\mathbb{R}^{n_{l+1}} & \text{; 后激活} \end{aligned} \]

注意，NTK 参数化 在转换上应用了一个重新缩放权重 $1/\sqrt{n_l}$，以避免与无限宽度网络的发散。常数标量 $\beta \geq 0$ 控制偏置项的影响程度。

所有网络参数在以下分析中都初始化为独立同分布的高斯分布 $\mathcal{N}(0, 1)$。

神经切向核

神经切向核 (NTK) (Jacot 等人，2018) 是通过梯度下降理解神经网络训练的重要概念。在其核心，它解释了更新模型参数对一个数据样本的预测如何影响其他样本。

让我们逐步了解 NTK 背后的直觉。

要在训练期间最小化的经验损失函数 $\mathcal{L}: \mathbb{R}^P \to \mathbb{R}_+$ 定义如下，使用每个样本的成本函数 $\ell: \mathbb{R}^{n_0} \times \mathbb{R}^{n_L} \to \mathbb{R}_+$：

\[\mathcal{L}(\theta) =\frac{1}{N} \sum_{i=1}^N \ell(f(\mathbf{x}^{(i)}; \theta), y^{(i)}) \]

根据链式法则，损失的梯度是：

\[\nabla_\theta \mathcal{L}(\theta)= \frac{1}{N} \sum_{i=1}^N \underbrace{\nabla_\theta f(\mathbf{x}^{(i)}; \theta)}_{\text{大小为 }P \times n_L} \underbrace{\nabla_f \ell(f, y^{(i)})}_{\text{大小为 } n_L \times 1} \]

当跟踪网络参数 $\theta$ 在时间上的演变时，每次梯度下降更新都引入了一个微小步长的微小增量变化。由于更新步长足够小，可以近似看作是时间维度上的导数：

\[\frac{d\theta}{d t} = - \nabla_\theta\mathcal{L}(\theta) = -\frac{1}{N} \sum_{i=1}^N \nabla_\theta f(\mathbf{x}^{(i)}; \theta) \nabla_f \ell(f, y^{(i)}) \]

再次，根据链式法则，网络输出根据导数的演变如下：

\[\frac{df(\mathbf{x};\theta)}{dt} = \frac{df(\mathbf{x};\theta)}{d\theta}\frac{d\theta}{dt} = -\frac{1}{N} \sum_{i=1}^N \color{blue}{\underbrace{\nabla_\theta f(\mathbf{x};\theta)^\top \nabla_\theta f(\mathbf{x}^{(i)}; \theta)}_\text{神经切向核}} \color{black}{\nabla_f \ell(f, y^{(i)})} \]

在这里，我们找到了上述公式中蓝色部分定义的 神经切向核 (NTK)，$K: \mathbb{R}^{n_0}\times\mathbb{R}^{n_0} \to \mathbb{R}^{n_L \times n_L}$：

\[K(\mathbf{x}, \mathbf{x}'; \theta) = \nabla_\theta f(\mathbf{x};\theta)^\top \nabla_\theta f(\mathbf{x}'; \theta) \]

输出矩阵中每个位置 $(m, n), 1 \leq m, n \leq n_L$ 的每个条目是：

\[K_{m,n}(\mathbf{x}, \mathbf{x}'; \theta) = \sum_{p=1}^P \frac{\partial f_m(\mathbf{x};\theta)}{\partial \theta_p} \frac{\partial f_n(\mathbf{x}';\theta)}{\partial \theta_p} \]

一个输入 $\mathbf{x}$ 的“特征映射”形式是 $\varphi(\mathbf{x}) = \nabla_\theta f(\mathbf{x};\theta)$。

无限宽度网络

要理解为什么一个梯度下降的效果对于网络参数的不同初始化如此相似，一些开创性的理论工作从无限宽度的网络开始。我们将通过使用 NTK 来详细证明，无限宽度的网络在训练以最小化经验损失时可以收敛到全局最小值。

与高斯过程的连接

深度神经网络与高斯过程有深刻的联系（Neal 1994）。$L$ 层网络的输出函数 $f_i(\mathbf{x}; \theta)$ 对于 $i=1, \dots, n_L$，是具有协方差 $\Sigma^{(L)}$ 的独立同分布的中心化高斯过程，递归定义如下：

\[\begin{aligned} \Sigma^{(1)}(\mathbf{x}, \mathbf{x}') &= \frac{1}{n_0}\mathbf{x}^\top{\mathbf{x}'} + \beta² \\ \lambda^{(l+1)}(\mathbf{x}, \mathbf{x}') &= \begin{bmatrix} \Sigma^{(l)}(\mathbf{x}, \mathbf{x}) & \Sigma^{(l)}(\mathbf{x}, \mathbf{x}') \\ \Sigma^{(l)}(\mathbf{x}', \mathbf{x}) & \Sigma^{(l)}(\mathbf{x}', \mathbf{x}') \end{bmatrix} \\ \Sigma^{(l+1)}(\mathbf{x}, \mathbf{x}') &= \mathbb{E}_{f \sim \mathcal{N}(0, \lambda^{(l)})}[\sigma(f(\mathbf{x})) \sigma(f(\mathbf{x}'))] + \beta² \end{aligned} \]

Lee & Bahri 等人 (2018) 通过数学归纳法展示了一个证明：

(1) 让我们从 $L=1$ 开始，当没有非线性函数且输入仅通过简单的仿射变换处理时：

\[\begin{aligned} f(\mathbf{x};\theta) = \tilde{A}^{(1)}(\mathbf{x}) &= \frac{1}{\sqrt{n_0}}{\mathbf{w}^{(0)}}^\top\mathbf{x} + \beta\mathbf{b}^{(0)} \\ \text{其中 }\tilde{A}_m^{(1)}(\mathbf{x}) &= \frac{1}{\sqrt{n_0}}\sum_{i=1}^{n_0} w^{(0)}_{im}x_i + \beta b^{(0)}_m\quad \text{对于 }1 \leq m \leq n_1 \end{aligned} \]

由于权重和偏置是独立同分布初始化的，这个网络的所有输出维度 ${\tilde{A}^{(1)}_1(\mathbf{x}), \dots, \tilde{A}^{(1)}_{n_1}(\mathbf{x})}$ 也是独立同分布的。给定不同的输入，第 $m$ 个网络输出 $\tilde{A}^{(1)}_m(.)$ 具有联合多元高斯分布，相当于具有协方差函数的高斯过程（我们知道均值 $\mu_w=\mu_b=0$ 和方差 $\sigma²_w = \sigma²_b=1$）

\[\begin{aligned} \Sigma^{(1)}(\mathbf{x}, \mathbf{x}') &= \mathbb{E}[\tilde{A}_m^{(1)}(\mathbf{x})\tilde{A}_m^{(1)}(\mathbf{x}')] \\ &= \mathbb{E}\Big[\Big( \frac{1}{\sqrt{n_0}}\sum_{i=1}^{n_0} w^{(0)}_{i,m}x_i + \beta b^{(0)}_m \Big) \Big( \frac{1}{\sqrt{n_0}}\sum_{i=1}^{n_0} w^{(0)}_{i,m}x'_i + \beta b^{(0)}_m \Big)\Big] \\ &= \frac{1}{n_0} \sigma²_w \sum_{i=1}^{n_0} \sum_{j=1}^{n_0} x_i{x'}_j + \frac{\beta \mu_b}{\sqrt{n_0}} \sum_{i=1}^{n_0} w_{im}(x_i + x'_i) + \sigma²_b \beta² \\ &= \frac{1}{n_0}\mathbf{x}^\top{\mathbf{x}'} + \beta² \end{aligned} \]

(2) 使用归纳法，我们首先假设命题对于 $L=l$，一个 $l$ 层网络成立，因此 $\tilde{A}^{(l)}_m(.)$ 是一个具有协方差 $\Sigma^{(l)}$ 的高斯过程，且 $\{\tilde{A}^{(l)}_i\}_{i=1}^{n_l}$ 是独立同分布的。

然后我们需要证明对于 $L=l+1$ 时命题也成立。我们通过计算输出来：

\[\begin{aligned} f(\mathbf{x};\theta) = \tilde{A}^{(l+1)}(\mathbf{x}) &= \frac{1}{\sqrt{n_l}}{\mathbf{w}^{(l)}}^\top \sigma(\tilde{A}^{(l)}(\mathbf{x})) + \beta\mathbf{b}^{(l)} \\ \text{其中 }\tilde{A}^{(l+1)}_m(\mathbf{x}) &= \frac{1}{\sqrt{n_l}}\sum_{i=1}^{n_l} w^{(l)}_{im}\sigma(\tilde{A}^{(l)}_i(\mathbf{x})) + \beta b^{(l)}_m \quad \text{对于 }1 \leq m \leq n_{l+1} \end{aligned} \]

我们可以推断前几个隐藏层贡献的期望为零：

\[\begin{aligned} \mathbb{E}[w^{(l)}_{im}\sigma(\tilde{A}^{(l)}_i(\mathbf{x}))] &= \mathbb{E}[w^{(l)}_{im}]\mathbb{E}[\sigma(\tilde{A}^{(l)}_i(\mathbf{x}))] = \mu_w \mathbb{E}[\sigma(\tilde{A}^{(l)}_i(\mathbf{x}))] = 0 \\ \mathbb{E}[\big(w^{(l)}_{im}\sigma(\tilde{A}^{(l)}_i(\mathbf{x}))\big)²] &= \mathbb{E}[{w^{(l)}_{im}}²]\mathbb{E}[\sigma(\tilde{A}^{(l)}_i(\mathbf{x}))²] = \sigma_w² \Sigma^{(l)}(\mathbf{x}, \mathbf{x}) = \Sigma^{(l)}(\mathbf{x}, \mathbf{x}) \end{aligned} \]

由于 $\{\tilde{A}^{(l)}_i(\mathbf{x})\}_{i=1}^{n_l}$ 是独立同分布的，根据中心极限定理，当隐藏层变得无限宽时 $n_l \to \infty$，$\tilde{A}^{(l+1)}_m(\mathbf{x})$ 服从高斯分布，方差为 $\beta² + \text{Var}(\tilde{A}_i^{(l)}(\mathbf{x}))$。注意 ${\tilde{A}^{(l+1)}_1(\mathbf{x}), \dots, \tilde{A}^{(l+1)}_{n_{l+1}}(\mathbf{x})}$ 仍然是独立同分布的。

$\tilde{A}^{(l+1)}_m(.)$ 等价于具有协方差函数的高斯过程：

\[\begin{aligned} \Sigma^{(l+1)}(\mathbf{x}, \mathbf{x}') &= \mathbb{E}[\tilde{A}^{(l+1)}_m(\mathbf{x})\tilde{A}^{(l+1)}_m(\mathbf{x}')] \\ &= \frac{1}{n_l} \sigma\big(\tilde{A}^{(l)}_i(\mathbf{x})\big)^\top \sigma\big(\tilde{A}^{(l)}_i(\mathbf{x}')\big) + \beta² \quad\text{；类似于我们得到的 }\Sigma^{(1)} \end{aligned} \]

当 $n_l \to \infty$ 时，根据中心极限定理，

\[\Sigma^{(l+1)}(\mathbf{x}, \mathbf{x}') \to \mathbb{E}_{f \sim \mathcal{N}(0, \Lambda^{(l)})}[\sigma(f(\mathbf{x}))^\top \sigma(f(\mathbf{x}'))] + \beta² \]

上述过程中的高斯过程形式被称为神经网络高斯过程（NNGP）（Lee & Bahri et al. (2018)）。

确定性神经切向核

最后，我们现在准备好深入研究 NTK 论文中最关键的命题：

当 $n_1, \dots, n_L \to \infty$（无限宽度的网络）时，NTK 收敛为：

(1) 在初始化时是确定性的，意味着核与初始化值无关，仅由模型架构决定；以及
(2) 在训练过程中保持不变。

证明依赖于数学归纳法：

(1) 首先，我们总是有 $K^{(0)} = 0$。当 $L=1$ 时，我们可以直接得到 NTK 的表示。它是确定性的，不依赖于网络初始化。没有隐藏层，因此没有无限宽度可取。

\[\begin{aligned} f(\mathbf{x};\theta) &= \tilde{A}^{(1)}(\mathbf{x}) = \frac{1}{\sqrt{n_0}} {\mathbf{w}^{(0)}}^\top\mathbf{x} + \beta\mathbf{b}^{(0)} \\ K^{(1)}(\mathbf{x}, \mathbf{x}';\theta) &= \Big(\frac{\partial f(\mathbf{x}';\theta)}{\partial \mathbf{w}^{(0)}}\Big)^\top \frac{\partial f(\mathbf{x};\theta)}{\partial \mathbf{w}^{(0)}} + \Big(\frac{\partial f(\mathbf{x}';\theta)}{\partial \mathbf{b}^{(0)}}\Big)^\top \frac{\partial f(\mathbf{x};\theta)}{\partial \mathbf{b}^{(0)}} \\ &= \frac{1}{n_0} \mathbf{x}^\top{\mathbf{x}'} + \beta² = \Sigma^{(1)}(\mathbf{x}, \mathbf{x}') \end{aligned} \]

(2) 现在当 $L=l$ 时，我们假设一个总共有 $\tilde{P}$ 个参数的 $l$ 层网络，$\tilde{\theta} = (\mathbf{w}^{(0)}, \dots, \mathbf{w}^{(l-1)}, \mathbf{b}^{(0)}, \dots, \mathbf{b}^{(l-1)}) \in \mathbb{R}^\tilde{P}$，在 $n_1, \dots, n_{l-1} \to \infty$ 时收敛到确定性极限。

\[K^{(l)}(\mathbf{x}, \mathbf{x}';\tilde{\theta}) = \nabla_{\tilde{\theta}} \tilde{A}^{(l)}(\mathbf{x})^\top \nabla_{\tilde{\theta}} \tilde{A}^{(l)}(\mathbf{x}') \to K^{(l)}_{\infty}(\mathbf{x}, \mathbf{x}') \]

注意 $K_\infty^{(l)}$ 不依赖于 $\theta$。

接下来让我们来看看 $L=l+1$ 的情况。与 $l$ 层网络相比，一个 $(l+1)$ 层网络有额外的权重矩阵 $\mathbf{w}^{(l)}$ 和偏置 $\mathbf{b}^{(l)}$，因此总参数包含 $\theta = (\tilde{\theta}, \mathbf{w}^{(l)}, \mathbf{b}^{(l)})$。

这个 $(l+1)$ 层网络的输出函数是：

\[f(\mathbf{x};\theta) = \tilde{A}^{(l+1)}(\mathbf{x};\theta) = \frac{1}{\sqrt{n_l}} {\mathbf{w}^{(l)}}^\top \sigma\big(\tilde{A}^{(l)}(\mathbf{x})\big) + \beta \mathbf{b}^{(l)} \]

我们知道它对不同参数集的导数；为了简便起见，在以下方程中用 $\tilde{A}^{(l)} = \tilde{A}^{(l)}(\mathbf{x})$ 表示：

\[\begin{aligned} \nabla_{\color{blue}{\mathbf{w}^{(l)}}} f(\mathbf{x};\theta) &= \color{blue}{ \frac{1}{\sqrt{n_l}} \sigma\big(\tilde{A}^{(l)}\big)^\top } \color{black}{\quad \in \mathbb{R}^{1 \times n_l}} \\ \nabla_{\color{green}{\mathbf{b}^{(l)}}} f(\mathbf{x};\theta) &= \color{green}{ \beta } \\ \nabla_{\color{red}{\tilde{\theta}}} f(\mathbf{x};\theta) &= \frac{1}{\sqrt{n_l}} \nabla_\tilde{\theta}\sigma(\tilde{A}^{(l)}) \mathbf{w}^{(l)} \\ &= \color{red}{ \frac{1}{\sqrt{n_l}} \begin{bmatrix} \dot{\sigma}(\tilde{A}_1^{(l)})\frac{\partial \tilde{A}_1^{(l)}}{\partial \tilde{\theta}_1} & \dots & \dot{\sigma}(\tilde{A}_{n_l}^{(l)})\frac{\partial \tilde{A}_{n_l}^{(l)}}{\partial \tilde{\theta}_1} \\ \vdots \\ \dot{\sigma}(\tilde{A}_1^{(l)})\frac{\partial \tilde{A}_1^{(l)}}{\partial \tilde{\theta}_\tilde{P}} & \dots & \dot{\sigma}(\tilde{A}_{n_l}^{(l)})\frac{\partial \tilde{A}_{n_l}^{(l)}}{\partial \tilde{\theta}_\tilde{P}}\\ \end{bmatrix} \mathbf{w}^{(l)} \color{black}{\quad \in \mathbb{R}^{\tilde{P} \times n_{l+1}}} } \end{aligned} \]

其中$\dot{\sigma}$是$\sigma$的导数，矩阵$\nabla_{\tilde{\theta}} f(\mathbf{x};\theta)$中位置$(p, m), 1 \leq p \leq \tilde{P}, 1 \leq m \leq n_{l+1}$的每个条目可以写成

\[\frac{\partial f_m(\mathbf{x};\theta)}{\partial \tilde{\theta}_p} = \sum_{i=1}^{n_l} w^{(l)}_{im} \dot{\sigma}\big(\tilde{A}_i^{(l)} \big) \nabla_{\tilde{\theta}_p} \tilde{A}_i^{(l)} \]

这个$(l+1)$层网络的 NTK 可以相应地定义为：

\[ \begin{aligned} & K^{(l+1)}(\mathbf{x}, \mathbf{x}'; \theta) \\ =& \nabla_{\theta} f(\mathbf{x};\theta)^\top \nabla_{\theta} f(\mathbf{x};\theta) \\ =& \color{blue}{\nabla_{\mathbf{w}^{(l)}} f(\mathbf{x};\theta)^\top \nabla_{\mathbf{w}^{(l)}} f(\mathbf{x};\theta)} + \color{green}{\nabla_{\mathbf{b}^{(l)}} f(\mathbf{x};\theta)^\top \nabla_{\mathbf{b}^{(l)}} f(\mathbf{x};\theta)} + \color{red}{\nabla_{\tilde{\theta}} f(\mathbf{x};\theta)^\top \nabla_{\tilde{\theta}} f(\mathbf{x};\theta)} \\ =& \frac{1}{n_l} \Big[ \color{blue}{\sigma(\tilde{A}^{(l)})\sigma(\tilde{A}^{(l)})^\top} + \color{green}{\beta²} \\ &+ \color{red}{ {\mathbf{w}^{(l)}}^\top \begin{bmatrix} \dot{\sigma}(\tilde{A}_1^{(l)})\dot{\sigma}(\tilde{A}_1^{(l)})\sum_{p=1}^\tilde{P} \frac{\partial \tilde{A}_1^{(l)}}{\partial \tilde{\theta}_p}\frac{\partial \tilde{A}_1^{(l)}}{\partial \tilde{\theta}_p} & \dots & \dot{\sigma}(\tilde{A}_1^{(l)})\dot{\sigma}(\tilde{A}_{n_l}^{(l)})\sum_{p=1}^\tilde{P} \frac{\partial \tilde{A}_1^{(l)}... 矩阵 $K^{(l+1)}$ 中位置 $(m, n), 1 \leq m, n \leq n_{l+1}$ 处的每个单独条目可写为： $$ \begin{aligned} K^{(l+1)}_{mn} =& \frac{1}{n_l}\Big[ \color{blue}{\sigma(\tilde{A}_m^{(l)})\sigma(\tilde{A}_n^{(l)})} + \color{green}{\beta²} + \color{red}{ \sum_{i=1}^{n_l} \sum_{j=1}^{n_l} w^{(l)}_{im} w^{(l)}_{in} \dot{\sigma}(\tilde{A}_i^{(l)}) \dot{\sigma}(\tilde{A}_{j}^{(l)}) K_{ij}^{(l)} } \Big] \end{aligned} \]

当 $n_l \to \infty$ 时，蓝色和绿色部分的极限为（请参见前一节中的证明）：

\[\frac{1}{n_l}\sigma(\tilde{A}^{(l)})\sigma(\tilde{A}^{(l)}) + \beta²\to \Sigma^{(l+1)} \]

红色部分的极限为：

\[\sum_{i=1}^{n_l} \sum_{j=1}^{n_l} w^{(l)}_{im} w^{(l)}_{in} \dot{\sigma}(\tilde{A}_i^{(l)}) \dot{\sigma}(\tilde{A}_{j}^{(l)}) K_{ij}^{(l)} \to \sum_{i=1}^{n_l} \sum_{j=1}^{n_l} w^{(l)}_{im} w^{(l)}_{in} \dot{\sigma}(\tilde{A}_i^{(l)}) \dot{\sigma}(\tilde{A}_{j}^{(l)}) K_{\infty,ij}^{(l)} \]

后来，Arora 等人（2019）提供了一个证明，具有更弱的极限，不需要所有隐藏层都是无限宽的，只需要最小宽度足够大。

线性化模型

根据前一节，根据导数链规则，我们已经知道宽度无限网络输出的梯度更新如下；为简洁起见，我们在以下分析中省略输入：

\[\begin{aligned} \frac{df(\theta)}{dt} &= -\eta\nabla_\theta f(\theta)^\top \nabla_\theta f(\theta) \nabla_f \mathcal{L} & \\ &= -\eta\nabla_\theta f(\theta)^\top \nabla_\theta f(\theta) \nabla_f \mathcal{L} & \\ &= -\eta K(\theta) \nabla_f \mathcal{L} \\ &= \color{cyan}{-\eta K_\infty \nabla_f \mathcal{L}} & \text{；对于宽度无限的网络}\\ \end{aligned} \]

为了追踪$\theta$随时间的演变，让我们将其视为时间步长$t$的函数。通过泰勒展开，网络学习动态可以简化为：

\[f(\theta(t)) \approx f^\text{lin}(\theta(t)) = f(\theta(0)) + \underbrace{\nabla_\theta f(\theta(0))}_{\text{形式上 }\nabla_\theta f(\mathbf{x}; \theta) \vert_{\theta=\theta(0)}} (\theta(t) - \theta(0)) \]

这种形式通常被称为线性化模型，假设$\theta(0)$，$f(\theta(0))$和$\nabla_\theta f(\theta(0))$都是常数。假设增量时间步$t$非常小，参数通过梯度下降更新：

\[\begin{aligned} \theta(t) - \theta(0) &= - \eta \nabla_\theta \mathcal{L}(\theta) = - \eta \nabla_\theta f(\theta)^\top \nabla_f \mathcal{L} \\ f^\text{lin}(\theta(t)) - f(\theta(0)) &= - \eta\nabla_\theta f(\theta(0))^\top \nabla_\theta f(\mathcal{X};\theta(0)) \nabla_f \mathcal{L} \\ \frac{df(\theta(t))}{dt} &= - \eta K(\theta(0)) \nabla_f \mathcal{L} \\ \frac{df(\theta(t))}{dt} &= \color{cyan}{- \eta K_\infty \nabla_f \mathcal{L}} & \text{；对于宽度无限的网络}\\ \end{aligned} \]

最终我们得到了相同的学习动态，这意味着一个宽度无限的神经网络可以被大大简化为上述线性化模型（Lee & Xiao, et al. 2019）所控制。

在一个简单的情况下，当经验损失是均方误差损失时，$\nabla_\theta \mathcal{L}(\theta) = f(\mathcal{X}; \theta) - \mathcal{Y}$，网络的动态变为简单的线性 ODE，并且可以以封闭形式解决：

\[\begin{aligned} \frac{df(\theta)}{dt} =& -\eta K_\infty (f(\theta) - \mathcal{Y}) & \\ \frac{dg(\theta)}{dt} =& -\eta K_\infty g(\theta) & \text{；让}g(\theta)=f(\theta) - \mathcal{Y} \\ \int \frac{dg(\theta)}{g(\theta)} =& -\eta \int K_\infty dt & \\ g(\theta) &= C e^{-\eta K_\infty t} & \end{aligned} \]

当$t=0$时，我们有$C=f(\theta(0)) - \mathcal{Y}$，因此，

\[f(\theta) = (f(\theta(0)) - \mathcal{Y})e^{-\eta K_\infty t} + \mathcal{Y} \\ = f(\theta(0))e^{-K_\infty t} + (I - e^{-\eta K_\infty t})\mathcal{Y} \]

懒惰训练

人们观察到，当神经网络过度参数化时，模型能够快速收敛到零的训练损失，但网络参数几乎不会改变。懒惰训练指的就是这种现象。换句话说，当损失$\mathcal{L}$有相当大的减少时，网络$f$的微分（也称为雅可比矩阵）的变化仍然非常小。

让$\theta(0)$为初始网络参数，$\theta(T)$为损失最小化为零时的最终网络参数。参数空间的变化可以用一阶泰勒展开来近似：

\[\begin{aligned} \hat{y} = f(\theta(T)) &\approx f(\theta(0)) + \nabla_\theta f(\theta(0)) (\theta(T) - \theta(0)) \\ \text{因此 }\Delta \theta &= \theta(T) - \theta(0) \approx \frac{\|\hat{y} - f(\theta(0))\|}{\| \nabla_\theta f(\theta(0)) \|} \end{aligned} \]

仍然遵循一阶泰勒展开，我们可以跟踪$f$的微分的变化：

\[\begin{aligned} \nabla_\theta f(\theta(T)) &\approx \nabla_\theta f(\theta(0)) + \nabla²_\theta f(\theta(0)) \Delta\theta \\ &= \nabla_\theta f(\theta(0)) + \nabla²_\theta f(\theta(0)) \frac{\|\hat{y} - f(\mathbf{x};\theta(0))\|}{\| \nabla_\theta f(\theta(0)) \|} \\ \text{因此 }\Delta\big(\nabla_\theta f\big) &= \nabla_\theta f(\theta(T)) - \nabla_\theta f(\theta(0)) = \|\hat{y} - f(\mathbf{x};\theta(0))\| \frac{\nabla²_\theta f(\theta(0))}{\| \nabla_\theta f(\theta(0)) \|} \end{aligned} \]

让$\kappa(\theta)$表示$f$的微分相对于参数空间变化的相对变化：

\[\kappa(\theta) = \frac{\Delta\big(\nabla_\theta f\big)}{\| \nabla_\theta f(\theta(0)) \|} = \|\hat{y} - f(\theta(0))\| \frac{\nabla²_\theta f(\theta(0))}{\| \nabla_\theta f(\theta(0)) \|²} \]

Chizat et al. (2019)证明了对于一个两层神经网络，当隐藏神经元的数量$\to \infty$时，$\mathbb{E}[\kappa(\theta_0)] \to 0$（进入懒惰状态）。此外，推荐阅读这篇文章以获取更多关于线性化模型和懒惰训练的讨论。

引用

引用为：

Weng, Lilian. (Sep 2022). Some math behind neural tangent kernel. Lil’Log. https://lilianweng.github.io/posts/2022-09-08-ntk/.

或者

@article{weng2022ntk,
  title   = "Some Math behind Neural Tangent Kernel",
  author  = "Weng, Lilian",
  journal = "Lil'Log",
  year    = "2022",
  month   = "Sep",
  url     = "https://lilianweng.github.io/posts/2022-09-08-ntk/"
}

参考文献

[1] Jacot 等人 “神经切向核：神经网络中的收敛和泛化。” NeuriPS 2018.

[2] Radford M. Neal. “无限网络的先验。” 神经网络的贝叶斯学习。Springer, 纽约, 纽约, 1996. 29-53.

[3] 李和巴里等人 “深度神经网络作为高斯过程。” ICLR 2018.

[4] Chizat 等人 “关于可微编程中的懒惰训练” NeuriPS 2019.

[5] 李和肖等人 “任意深度的宽神经网络在梯度下降下演变为线性模型。” NeuriPS 2019.

[6] Arora 等人 “关于无限宽神经网络的精确计算。” NeurIPS 2019.

[7] (YouTube 视频) “神经切向核：神经网络中的收敛和泛化” 由 Arthur Jacot, 2018 年 11 月.

[8] (YouTube 视频) “讲座 7 - 深度学习基础：神经切向核” 由 Soheil Feizi, 2020 年 9 月.

[9] “理解神经切向核。” Rajat 的博客.

[10] “神经切向核。” 应用概率笔记, 2021 年 3 月.

[11] “关于神经切向核的一些直觉。” inFERENCe, 2020 年 11 月.

通用视觉语言模型

原文：lilianweng.github.io/posts/2022-06-09-vlm/

处理图像以生成文本，如图像字幕和视觉问答，已经研究多年。传统上，这种系统依赖于对象检测网络作为视觉编码器来捕获视觉特征，然后通过文本解码器生成文本。鉴于大量现有文献，在本文中，我只想专注于解决视觉语言任务的一种方法，即扩展预训练的通用语言模型以能够接收视觉信号。

我大致将这种视觉语言模型（VLMs）分为四类：

将图像翻译为嵌入特征，可以与标记嵌入一起进行联合训练。
学习良好的图像嵌入，可以作为冻结的、预训练语言模型的前缀。
使用特殊设计的交叉注意力机制将视觉信息融入语言模型的层中。
将视觉和语言模型结合而无需任何训练。

与图像和文本联合训练

将视觉信息融入语言模型的一种直接方法是将图像视为普通文本标记，并在同时表示文本和图像的序列上训练模型。具体来说，图像被划分为多个较小的补丁，每个补丁被视为输入序列中的一个“标记”。

VisualBERT（Li 等，2019）将文本输入和图像区域输入到BERT中，以便通过自注意机制发现图像和文本之间的内部对齐。

图 1。VisualBERT 在文本和图像嵌入的组合上进行训练。（图片来源：Li 等，2019）

类似于BERT 中的文本嵌入，VisualBERT 中的每个视觉嵌入也总结了三种类型的嵌入，标记化特征 $f_o$，分段嵌入 $f_s$ 和位置嵌入 $f_p$，具体如下：

$f_o$ 是由卷积神经网络计算出的图像边界区域的视觉特征向量；
$f_s$ 是一个段落嵌入，用于指示嵌入是否用于视觉而非文本；
$f_p$ 是用于对齐边界区域顺序的位置嵌入。

该模型在 MS COCO 图像字幕数据集上进行训练，同时将文本和图像作为输入，以预测文本字幕，使用两种视觉基础语言模型目标：

MLM与图像。模型需要预测被屏蔽的文本标记，而图像嵌入始终保持未被屏蔽。
句子-图像预测。当提供一张图像和两个相关的字幕时，其中一个字幕可能是一个与之无关的随机字幕，概率为 50%。模型被要求区分这两种情况。

根据消融实验，最重要的配置是将视觉信息早期融入到变压器层中，并在 COCO 字幕数据集上对模型进行预训练。从预训练的 BERT 初始化和采用句子-图像预测训练目标对模型影响较小。

图 2。VisualBERT 在 NLVR 上的消融研究结果。

(图片来源：李等人，2019)

VisualBERT 在 NLVR 和 Flickr30K 上的表现超越了当时的最先进技术，但在 VQA 上仍存在一些性能差距。

SimVLM（简单视觉语言模型；王等人，2022）是一个简单的前缀语言模型，其中前缀序列像 BERT 一样进行双向注意力处理，但主要输入序列只有像 GPT 那样的因果关注。图像被编码为前缀标记，以便模型可以充分利用视觉信息，然后以自回归方式生成相关文本。

受ViT和CoAtNet的启发，SimVLM 将图像分割成较小的补丁，在一个扁平的 1D 补丁序列中。他们使用由 ResNet 的前 3 个块组成的卷积阶段来提取具有上下文的补丁，这种设置被发现比天真的线性投影效果更好。

图 3。SimVLM 的训练架构，其中图像补丁由交叉注意力编码器处理，文本解码器具有因果关注。（图片来源：王等人，2022)

SimVLM 的训练数据包括来自 ALIGN 的大量图像-文本对（贾等人，2021）和来自 C4 数据集的仅文本数据（Raffel 等人，2019）。他们在每个批次中混合这两个预训练数据集，包含 4,096 个图像-文本对（ALIGN）和 512 个仅文本文档（C4）。

根据消融研究，对于训练来说同时拥有图像-文本和仅文本数据是重要的。PrefixLM 目标优于span corruption和天真 LM。

图 4。SimVLM 在 VQA 上的消融研究结果。

(图片来源：王等人，2022)

CM3（因果屏蔽多模态建模；Aghajanyan 等人，2022）是一个超文本语言模型，学习生成 CC-NEWS 和维基百科文章的大规模 HTML 网页的内容（超文本标记、超链接和图像）。生成的 CM3 模型可以在任意屏蔽文档上下文的条件下生成丰富结构化的多模态输出。

在架构上，CM3 是一个自回归模型。然而，为了结合因果和屏蔽语言建模，CM3 还会屏蔽一小部分长标记跨度，并尝试在序列的末尾生成它们。

图 5. 描述因果屏蔽语言模型的工作原理。

(图片来源：Aghajanyan 等人，2022)

CM3 的训练数据集包含接近 1T 的 Web 数据。在预处理过程中，首先从src下载图像，并将其调整大小为 256 x 256，并进行随机裁剪。然后，它们通过VQVAE-GAN进行标记化，每个图像产生 256 个标记。这些标记与空格连接后插入回src属性。

CM3 可以通过提示工程完成几种类型的任务：

图像填充：

Infilling Prompt: <img src="{prefix}<mask:0>{postfix}"><mask:0>

有条件的图像填充：

Conditional Infilling Prompt:
<img alt="Photo: {text}" src="{prefix}<mask:0>{postfix}"><mask:0>

有条件的图像生成：

Conditional Generation Prompt: <img alt="{prompt}

图片说明：

Captioning Masked Prompt #1: 
<img alt="Photo: A photo taken of<mask:0>" src="{image}">

Captioning Causal Prompt #1: 
<img src="{image}" title="Photo: A photo taken of

实体消歧

Original: Manetho writes that these kings ruled from <a title="Memphis, Egypt">Memphis</a>

Prompt: Manetho writes that these kings ruled from <a title="<mask:0>">Memphis</a>...<mask:0>

Target: Manetho writes that these kings ruled from <a title="<mask:0>">Memphis</a>...<mask:0> Memphis, Egypt

作为（Frozen）LM 前缀的学习图像嵌入

如果我们不想在调整语言模型以处理视觉信号时改变语言模型参数怎么办？相反，我们学习这样一个图像嵌入空间，使其与语言模型兼容。

受到prefix或prompt 调整的启发，Frozen（Tsimpoukelli 等人，2021）和ClipCap（Mokady, Hertz & Hertz, 2021）在训练期间仅更新视觉模块的参数，以生成可以与预训练的冻结语言模型配合使用的图像嵌入。两者都是使用对齐的图像标题数据集进行训练，以在图像和先前文本标记的条件下生成标题中的下一个文本标记。通过冻结 LM 参数来保留强大的语言能力。此外，即使这种设置是使用有限的图像标题数据进行训练的，它们在测试时也可以依赖语言模型的百科知识。

Frozen 的视觉编码器基于 NF-ResNet-50，并在全局池化层之后使用 NF-Resnet 的最终输出向量。Frozen VLM 可以作为多模型少样本学习器，在测试时用于零样本或少样本转移，使用交错图像和文本序列。

图 6. 冻结模型（左）训练架构和（右）测试流程的示意图。（图片来源：Tsimpoukelli 等人，2021）

实验证明，微调预训练的 LM 有趣地导致 VQA 任务表现更差。从预训练版本初始化语言模型非常重要，因为从头开始训练（${Frozen}_\text{scratch}$）没有显示出任何有意义的进展。基线${Frozen}_\text{train-blind}$虽然将图像变黑，但仍然能够取得不错的表现，这是因为预训练 LM 的固有能力。

图 7. 在概念字幕上训练的 Frozen 不同版本在（左）VQAv2 和（右）OKVQA 上的表现。“Frozen scratch”不加载预训练的 LM，而是从头开始训练。“Frozen finetuned”对语言模型进行了微调，而“Frozen”保持 LM 冻结。“Frozen train-blind”将图像变黑。（图片来源：Tsimpoukelli 等人，2021）

ClipCap 依赖于CLIP（Radford 等人，2021）进行视觉编码，但需要通过一个轻量级映射网络$F$进行处理，使图像嵌入向量转换为与预训练 LM 相同的语义空间。网络$F$将 CLIP 嵌入映射为一系列$k$个嵌入向量，每个向量的维度与 GPT2 中的单词嵌入相同。增加前缀大小$k$有助于提高性能。在训练期间，CLIP 视觉编码器和 LM 都是冻结的，只有映射网络$F$是可学习的。他们发现，当 LM 被冻结时，$F$应该是一个 transformer，具有 8 个多头自注意力层，每个层有 8 个头，但当 LM 可以进行微调时，一个 MLP 就足够了。

即使 ClipCap 只训练了一组最少的参数，它仍然在图像字幕任务上取得了不错的表现，与当时的最先进技术（例如Oscar，VLP，BUTD）相媲美。因此，他们假设“CLIP 空间已经包含了所需的信息，并且将其调整到特定风格并不会增加灵活性。”

图 8. ClipCap 训练流程概述，只需训练映射网络以将 CLIP 图像嵌入转换为与预训练 LM 配合的形式。（图片来源：Mokady，Hertz＆Hertz，2021）

有趣的事实是 - 因为 ClipCap 将 CLIP 图像嵌入转换为 LM 空间，处理后的前缀甚至可以被解释为单词。

图 9. 学习到的图像嵌入可以被解释为文本，包含与图像内容相关的词语。（图片来源：Mokady, Hertz & Hertz, 2021）

文本-图像交叉注意力融合机制

为了更有效地将视觉信息融入语言模型的不同层中，我们可以考虑一种特别设计的交叉注意力融合机制，以平衡文本生成能力和视觉信息的混合。

VisualGPT（Chen et al. 2021）采用了一种自我复活的编码器-解码器注意力机制，快速适应预训练的 LM 与少量领域内的图像文本数据。

图 10. VisualGPT 架构示意图。（图片来源：Chen et al. 2021）

设 $I$ 为视觉编码器的输出，$H$ 为 LM 解码器的隐藏状态。VisualGPT 引入了一种自我复活激活单元（SRAU），通过两个互补门 $B^\text{vis}$ 和 $B^\text{lan}$ 控制预训练语言信息 $H$ 和视觉组件 $\text{EncDecAttn}(H, I)$ 的权衡：

\[ \begin{aligned} & B^\text{vis} \otimes \text{EncDecAttn}(H, I) + B^\text{lan} \otimes H \\ \text{其中 } & B^\text{vis}[i,j] = \sigma(H[i,j]) \mathbb{1}[\sigma(H[i,j]) > \tau] \\ & B^\text{lan}[i,j] = (1 - \sigma(H[i,j])) \mathbb{1}[1 - \sigma(H[i,j]) > \tau] \\ \end{aligned} $$ 其中 $\otimes$ 是逐元素乘法，$[i,j]$ 表示矩阵中的一个元素。$\tau$ 是预定义的阈值超参数。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/f699949bce5910b8ce0d8c456f859880.png) 图 11\. 在 MS COCO 和 Conceptual Caption 数据集的 0.1% 和 1% 训练的不同模型的比较。（图片来源：[Chen et al. 2021](https://arxiv.org/abs/2102.10407)） **VC-GPT**（Visual Conditioned GPT；[Luo et al. 2022](https://arxiv.org/abs/2201.12723)）将预训练的视觉变换器（CLIP-ViT）作为视觉编码器，将预训练的 LM 作为语言解码器。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/3811e2d7c934aafafc838cc40d1aff29.png) 图 12\. VC-GPT 训练框架示意图。（图片来源：[Luo et al. 2022](https://arxiv.org/abs/2201.12723)） CLIP-ViT 将一系列图像块作为输入，并为每个块输出表示。为了避免灾难性遗忘，VC-GPT 在视觉编码器和语言解码器的输出之上引入了额外的交叉注意力层。然后，一个 *自我集成* 模块线性组合了单模型语言解码器 logits $h^G$ 和跨模型视觉-语言融合模块 logits $h^\text{fuse}$。自我集成模块（见图 13 中的 “VC-GPT w/o SE”）对性能至关重要。 $$ \text{logits} = W^G h^G + W^\text{fuse}h^\text{fuse} \]

其中 $W^G$ 是语言解码器的线性投影，由 GPT2 的词嵌入矩阵初始化，而 $W^\text{fuse}$ 是融合模块的线性投影，随机初始化。

图 13. VC-GPT 在 MS COCO 测试集上的性能，与其他端到端图像字幕基线模型进行比较。指标缩写：C = CIDEr；B = BLEU；M = METEOR；S = SPICE。（图片来源：Luo et al. 2022)

MERLOT (Zellers, et al. 2021) 是通过对带有转录语音的 600 万个 YouTube 视频（YT-Temporal-180M）进行训练而得到的，以学习空间（帧级）和时间（视频级）目标，并在微调时在 VQA 和视觉推理任务上表现出色。

每个视频 $\mathcal{V}$ 被分割成多个片段 $\{ \boldsymbol{s}_t \}$，每个片段 $\boldsymbol{s}_t$ 包含从中间时间步提取的图像帧 $\mathbf{I}_t$ 和 $L=32$ 个相关的单词标记。图像由学习的图像编码器编码，单词使用学习的嵌入进行编码。然后两者在联合视觉-语言变压器中一起进行编码。

MERLOT 有 3 个学习目标：

掩码语言建模（MLM）特别有用，因为在视频中，人们往往会啰嗦，导致许多重复的关键词或填充词。
对比帧-标题匹配 使用联合视觉-语言变压器中的仅语言部分。每个帧 $\mathbf{I}_t$ 和标题 $\boldsymbol{w}_t$ 的匹配表示被视为正例，而负例来自小批量中的所有其他帧-标题对。
时间重新排序 学习时间推理：打乱随机 $i$ 帧，并用随机和唯一的位置嵌入替换段级位置嵌入。学习随机位置嵌入，使模型能够在正确排序的帧的条件下对这些“‘打乱’”帧进行整理。损失是为每个帧-帧对预测 $t_i < t_j$ 或 $t_j < t_i$。

图 14. MERLOT 训练框架示意图：（左）对比帧-标题匹配训练；（右）联合视觉-语言变压器使用 MLM 损失进行训练，同时进行时间重新排序任务以对打乱的视频帧进行整理。（图片来源：Zellers, et al. 2021）

消融研究表明，重要的是（1）在视频上进行训练而不是在图像上，（2）扩大训练数据集的规模和多样性，以及（3）使用多样的目标来鼓励全栈多模态推理。

Flamingo (Alayrac 等人 2022) 是一个接受文本交错图像/视频并输出自由文本的视觉语言模型。Flamingo 通过基于 transformer 的映射器连接了一个预训练语言模型和一个预训练视觉编码器（即 CLIP 图像编码器）。为了更有效地整合视觉信号，Flamingo 采用了基于 Perceiver 的架构，从大量的视觉输入特征中产生数百个标记，然后使用交错于语言模型层的交叉注意力层将视觉信息融入语言解码过程中。训练目标是自回归的 NLL 损失。

Perceiver 重采样器接收来自图像/视频输入的视觉编码器的时空特征，以生成固定大小的视觉标记。
冻结的语言模型配备了在预训练语言模型层之间交错初始化的交叉注意力层。因此，语言模型可以生成基于上述视觉标记的文本。

与 ClipCap 类似，训练期间两个预训练模型都是冻结的，因此 Flamingo 只是被训练来和谐地连接现有的强大语言和视觉模型。ClipCap 和 Flamingo 的主要区别在于前者将图像嵌入视为语言模型的简单前缀，而后者使用门控交叉注意力密集层来融合图像信息。此外，Flamingo 比 ClipCap 包含更多的训练数据。

图 15. Flamingo 模型概述。 (图片来源：Alayrac 等人 2022)

图 16. Flamingo 中门控交叉注意力密集层的架构示意图和伪代码。 (图片来源：Alayrac 等人 2022)

为了轻松处理文本与交错图像，Flamingo 中的掩码设计使得文本标记仅与最后一个前置图像对应的视觉标记进行交叉注意力，大大减少了某个文本标记可以看到的视觉标记数量。他们发现这比允许文本标记直接参与所有前置图像的效果更好。文本仍然可以参与所有先前的图像，因为文本编码器中存在因果自注意力依赖。这种设计可以处理上下文中任意数量的图像。

他们从互联网上爬取了 4300 万个网页，命名为 MultiModal MassiveWeb (M3W) 数据集，包含交错图像的文本。此外，Flamingo 还在配对的图像/文本和视频/文本数据集上进行训练，包括 ALIGN, LTIP 和 VTP。

互联网数据集的数据处理包括：

输入的网页文本通过在视觉输入位置插入<image>标签以及特殊标记<BOS>（句子开头）和<EOC>（块结束；始终在文档末尾，在任何图像标记之前）进行处理。
从每个文档中，他们随机抽取一个长度为$L = 256$的子序列，并在抽样序列中包含最多$N = 5$个图像（如果有更多，则仅使用该抽样子序列中的前$N$个，如果较少，则填充为$N$）
计算一个函数$\phi: [1,L] \to [0,N]$来跟踪文本和图像的交错顺序，为每个文本位置分配在该位置之前最后出现的图像/视频的索引；如果没有先前的视觉数据，则为 0。

由于 Flamingo 是在三种不同数据集的混合上进行训练的，它优化了数据集特定的 NLL 损失的加权和。调整数据集权重对最终性能非常重要。在实践中，他们实际上不是在数据集之间轮流，而是从每个数据集中抽取一个批次，并在每次更新中应用这些梯度的加权和。跨不同异构数据集的梯度累积可以被视为稳定训练的一种方法，因为它减少了每次更新之间的梯度方差。

在测试时，Flamingo 自然支持少样本学习，因为它可以处理任何交错文本和图像序列。在上下文中的更多示例有助于提高性能。

图 17。更大的模型尺寸和更多的少样本示例会带来更好的性能。 (图片来源：Alayrac 等人，2022)

尽管 Flamingo 在 16 项任务中有 6 项表现优于 SoTA 微调模型，即使在没有使用任何微调而仅使用少量提示的情况下。微调 Flamingo 很昂贵，很难进行超参数调整，但确实会带来更好的结果。

图 18。Flamingo 模型在使用不同数量的提示和不同大小时的性能，与 SoTA 微调基线进行比较。 (图片来源：Alayrac 等人，2022)

CoCa（对比式字幕生成器；Yu & Wang 等人，2022）捕捉了对比学习和图像到字幕生成的优点。它是一个模型，同时在 CLIP 风格表示上进行对比损失训练和在图像字幕生成上进行生成损失训练，实现了在各种多模态评估任务上的 SoTA 零样本转移。

图 19。CoCa 训练框架概述。

(图片来源：Yu & Wang 等人，2022)

CoCa 是从头开始预训练的，使用网络规模的 alt-text 数据 ALIGN 和通过将所有标签视为文本在 JTB-3B 中注释的图像。

CoCa 中有两个主要的训练组件。最终损失是以下两个损失的加权和，权重标量为$\lambda_\text{cap}=2.0, \lambda_\text{con} = 1.0$：

$\mathcal{L}_\text{con}$ - 双编码器对比学习 优化对称对比学习损失，类似于 CLIP。
$\mathcal{L}_\text{cap}$ - 编码器-解码器字幕生成使解码器基于图像编码器的潜在编码特征预测字幕，通过优化自回归损失。文本解码器分为两个组件，单模态和多模态；一个很好的平衡是将解码器一分为二：
- 底部的单模态组件使用因果屏蔽的自注意力来编码输入文本。
- 顶部的多模态组件对视觉编码器的输出应用因果屏蔽的自注意力和交叉注意力。

CoCa 在 VQA 上表现优于仅对比模型，并与仅字幕模型持平。发现字幕损失对零样本分类能力也有益处。

图 20。CoCa 如何在测试时用于解决各种下游任务的示意图。（图片来源：Yu & Wang 等人，2022）

他们使用任务特定的注意力池化，或者说注意力池器，作为一种自然的任务适配器，因为他们发现单个池化图像嵌入有助于视觉识别任务（例如 ImageNet 分类），而更精细的嵌入则有助于多模态理解任务（例如 VQA）。一个池化器是一个具有$n_\text{query}$可学习查询的单个多头注意力层（注意$\mathbf{X} \in \mathbb{R}^{L \times d}$，$\mathbf{W}^q \in \mathbb{R}^{d \times d_q}$，$d_k = d_q$），编码器输出作为键和值。CoCa 在预训练中使用注意力池器进行生成损失$n_\text{query} = 256$和对比损失$n_\text{query} = 1$。这使得模型能够在冻结编码器的情况下获得强大的性能，我们只学习一个新的池化器来聚合特征。

图 21。CoCa 架构和训练的伪代码。

（图片来源：Yu & Wang 等人，2022）

无需训练

最后，可以通过将预训练的语言和视觉模型拼接在一起来解决视觉语言任务，而无需训练任何额外的参数。

使用基于视觉得分的引导解码

MAGiC（iMAge-Guided 文本生成与 CLIP；Su 等人，2022）根据基于 CLIP 的魔法分数进行引导解码，以采样下一个标记，无需微调。生成的文本被鼓励与给定图像相关，同时仍然与先前生成的文本保持连贯。

下一个时间步 $t$ 的下一个标记 $x_t$ 根据以下方程选择。为了避免 LM 生成错误，模型置信度和退化惩罚（Su et al. 2022）被添加。

\[\begin{aligned} & x_t = \arg\max_{v \in \mathcal{V}^{(k)}} \big\{ (1-\alpha) \underbrace{p(v \vert \boldsymbol{x}_{<t})}_\text{模型置信度} - \alpha \underbrace{\max_{1 \leq j \leq t-1} { \text{cosine}(h_v, h_{x_j})}}_\text{退化惩罚} + \beta \underbrace{f_\text{magic}(v \vert \mathcal{I}, \boldsymbol{x}_{<t}, \mathcal{V}^{(k)})}_\text{魔法分数} \big\} \\ \text{其中 } & f_\text{magic} ( v \vert \mathcal{I}, \mathbf{x}_{<t}, \mathcal{V}^{(k)} ) = \frac{ \exp(\text{CLIP}(\mathcal{I}, [\boldsymbol{x}_{<t}:v])) }{ \sum_{z \in \mathcal{V}^{(k)}} \exp(\text{CLIP}(\mathcal{I}, [\boldsymbol{x}_{<t}:z])) } = \frac{ \exp\big({h^\text{image}(\mathcal{I})}^\top h^\text{text}([\boldsymbol{x}_{<t}:v])\big) }{ \sum_{z \in \mathcal{V}^{(k)}} \exp\big({h^\text{image}(\mathcal{I})}^\top h^\text{text}([\boldsymbol{x}_{<t}:z])\big) } \end{aligned} \]

其中 $\mathcal{I}$ 是输入图像；$\mathcal{V}^{(k)}$ 包含语言模型 $p$ 预测的前 $k$ 个可能标记；$\boldsymbol{x}_{<t}$ 指的是时间步 $t$ 之前生成的标记；$h_v$ 是 LM 在 $\boldsymbol{x}_{<t}$ 和 $v$ 的连接上计算的标记 $v$ 的表示；$h^\text{image}(.)$ 和 $h^\text{text}(.)$ 是由 CLIP 图像和文本编码器生成的嵌入。

与监督方法相比，MAGiC 的性能相当不错，但与无监督方法仍存在较大差距。

图 22. COCO 和 Flickr30k 上的图像字幕性能。 (图片来源：Su et al. 2022)

语言作为通信接口

对于基于知识的 VQA 任务，PICa（通过图像字幕提示 GPT-3；Yang et al. 2021）首先将图像转换为字幕或标记，然后使用少量示例提示 GPT3 提供答案。图像字幕或标记是由一些现有模型（例如 VinVL）或 Azure 标记 API 提取的。 GPT3 被视为一个非结构化的、隐式的知识库。

图 23. 在推理时，PICa 如何处理 $n$-shot VQA。 (图片来源：Yang et al. 2021)

PICa 探索了两种改进少量示例以获得更好结果的方法：

根据 CLIP 嵌入，选择与问题相似的上下文示例。
多次查询集成 是多次提示模型以获得多个答案，并选择具有最高对数概率的答案。

这种简单的方法只用了 16 个例子就在 OK-VQA 上提高了+8.6 分，并在 VQAv2 上表现出色。

图 24。PICa 在 OK-VQA 上的表现。“PICa-Base”具有随机的上下文示例，而“PICa-Full”结合了类似的上下文示例选择和多查询集成。（图片来源：Yang 等人，2021）

苏格拉底模型（SM）（曾等人，2022）是一个框架，用于通过语言（提示）将多个预训练模型组合成一个模型，无需进一步训练。在这里，语言被视为不同模型可以交换信息的中间表示。关键思想是使用多模型多模态提示，其中非语言模型的输出被插入到语言提示中，然后用于 LM 进行推理。

让我们看一个具体的例子。给定一个自我中心视频（图像+音频），SM 可以使用文本到文本 LM、图像到文本 VLM 和语音到文本 ALM 生成人物活动的摘要。它们的链接如下：

（图片来源：曾等人，2022）

VLM 检测视觉实体；
LM 建议可能听到的声音；
ALM 选择最可能的声音；
LM 建议可能的活动；
VLM 对最可能的活动进行排名；
LM 生成苏格拉底互动的摘要。

图 25。苏格拉底模型解决图像字幕的示意图。（图片来源：曾等人，2022）

SM 可以通过首先使用 VLM 零样本预测不同的地点类别、物体类别、图像类型和人数来生成图像字幕；然后将 VLM 填充的语言提示馈送到因果 LM 中生成字幕候选。苏格拉底方法在图像字幕方面仍然与 ClipCap 存在性能差距，但考虑到它不涉及任何训练，表现相当不错。

图 26。不同模型在随机 100 个 COCO 文本示例上的图像字幕性能比较。（图片来源：曾等人，2022）

SM 框架非常灵活，可以用于除图像字幕之外的更复杂的任务。例如，自我中心感知（用户输入+VLM+LM+ALM）任务是将自我中心视频作为输入，（1）总结内容；（2）回答自由形式的推理问题；（3）进行预测。

图 27。基于自我中心视频生成字幕和问答的苏格拉底模型方法。（图片来源：曾等人，2022）

数据集

图像字幕数据集

MS COCO（Chen 等人，2015）：包含了 32.8 万张图片，每张图片配有 5 个独立的标题。
NoCaps（Agrawal 等人，2019）旨在衡量对未见类别和概念的泛化能力，其中领域内包含仅展示 COCO 类别的图片，近领域包含 COCO 和新颖类别，领域外包含仅新颖类别。
Conceptual Captions（Sharma 等人，2018）包含了 300 万对图片和标题，从网络中挖掘并进行后处理。为了专注于概念，该数据集中的特定实体被替换为一般概念（例如，政治家的名字被替换为“政治家”）。
Crisscrossed Captions（CxC）（Parekh 等人，2021）包含了 247,315 个人工标注的注释，包括图片对、标题对和图片-标题对之间的正面和负面关联。
Concadia（Kreiss 等人，2021）是一个基于维基百科的数据集，包含了 96,918 张图片及其对应的英语描述、标题和周围环境。

图像-文本配对数据集

(*) 非公开数据集。

ALIGN（Jia 等人，2021）包含了 18 亿张带有替代文本的图片。该数据集规模庞大，但噪音较大，仅进行了最小程度的基于频率的过滤。
(*) LTIP（长文本和图像对；Alayrac 等人，2022）：3.12 亿张图片，配有描述性标题。
(*) VTP（视频和文本对；Alayrac 等人，2022）：2700 万个短视频（平均约 22 秒），配有描述性标题。
(*) JFT-300M / JFT-3B是 Google 内部数据集，包含了 300M / 3B 张图片，通过半自动化流程进行了大约 30k 标签的类层次标注。因此，数据和相关标签存在噪音。

评估任务

视觉问答

给定一张图片和一个问题，任务是正确回答这个问题。

VQAv2（Goyal 等人，2017）包含了来自 COCO 的约 200K 张图片的 100 多万个问题。
OK-VQA（Marino 等人，2019）包含了 14K 个需要外部知识（例如来自维基百科）的开放式问题。
- A-OKVQA：OK-VQA 的增强版本，与 OK-VAQ 没有重叠的问题。
TextVQA（Singh 等人，2019）包含了 28,408 张图片上的 45,336 个需要推理文本才能回答的问题。
VizWiz（Gurari 等人，2018）包含了来自盲人的超过 31,000 个视觉问题，每个问题都是一个使用手机拍摄的图片，并录制了一个关于图片的口头问题，以及每个视觉问题的 10 个众包答案。

视觉语言推理

VCR（视觉常识推理；Zellers et al. 2018）包含了从 110k 个电影场景衍生出的 290k 个多项选择问答问题，重点关注视觉常识。
NLVR2（自然语言视觉推理；Suhr et al. 2019）包含了 100k+个句子与网络图像配对的示例，任务是确定自然语言标题是否对一对图像正确，重点关注语义多样性。
Flickr30K（Jia et al. 2015）包含了从 Flickr 收集的 30k 张图片和 250k 个注释，任务是根据句子的跨度选择边界区域。
SNLI-VE（视觉蕴涵；Xie et al. 2019）建立在 SNLI 和 Flickr30K 之上，任务是推理图像前提和文本假设之间的关系。

视频问答和理解

MSR-VTT（MSR 视频到文本；Xu et al. 2016）包含了 10k 个网络视频剪辑，总时长 41.2 小时，共有 200k 个剪辑-句子对；任务是将视频翻译成文本。
ActivityNet-QA（Yu et al. 2019）包含了从流行的ActivityNet数据集中衍生出的 5,800 个视频上的 58,000 个人工注释问答对。
TGIF（Tumblr GIF；Li et al. .2016）包含了 100k 个动画 GIF 和 120k 个描述动画 GIF 视觉内容的句子，随机选择自 Tumblr 2015 年 5 月至 6 月发布的帖子。
- TGIF-QA 包含了来自 TGIF 数据集的 165K 个动画 GIF 的问答对。
LSMDC（大规模电影描述挑战赛；Rohrbach et al. 2015）包含了从 202 部电影中提取的 118,081 个短视频剪辑。每个视频都有一个标题，可以是从电影剧本中提取的，也可以是为视觉障碍者转录的 DVS（描述性视频服务）中提取的。
TVQA（Lei et al. 2018）/ TVQA+（Lei et al. 2019）是一个基于 6 个热门电视节目（Friends, The Big Bang Theory, How I Met Your Mother, House M.D., Grey’s Anatomy, Castle）的大规模视频问答数据集。它包含了来自 21.8k 个视频剪辑的 152.5k 个问答对，视频总时长超过 460 小时。
DramaQA（Choi et al. 2020）是一个基于韩国热门电视节目“另一个吴海”的大规模视频问答数据集。该数据集包含了四个难度级别和多级角色中心故事描述的问答。
VLEP（Video-and-Language Event Prediction；Lei et al. 2020）包含了来自 10,234 个不同的电视节目和 YouTube 生活视频剪辑的 28,726 个未来事件预测示例（以及它们的理由）。

引用

被引用为：

翁，莉莲。 (2022 年 6 月)。广义视觉语言模型。Lil’Log。https://lilianweng.github.io/posts/2022-06-09-vlm/。

或

@article{weng2022vlm,
  title   = "Generalized Visual Language Models",
  author  = "Weng, Lilian",
  journal = "Lil'Log",
  year    = "2022",
  month   = "Jun",
  url     = "https://lilianweng.github.io/posts/2022-06-09-vlm/"
}

参考文献

[1] 李等人“VisualBERT：视觉和语言的简单且高效基线。” arXiv 预印本:1908.03557 (2019)。

[2] 王等人“SimVLM: 简单的视觉语言模型预训练与弱监督。” ICLR 2022。

[3] 阿加加尼扬等人“CM3：互联网的因果蒙版多模态模型。” arXiv 预印本 arXiv:2201.07520 (2022)。

[4] Tsimpoukelli 等人“冻结语言模型的多模态少样本学习。” NeuriPS 2021。

[5] Mokady，赫兹和赫兹。“ClipCap: 用于图像字幕的 CLIP 前缀。” 2021。

[6] 陈等人“VisualGPT：用于图像字幕的预训练语言模型的数据高效适应。” arXiv 预印本 arXiv:2111.09734 (2021)。

[7] 罗等人“端到端图像字幕的一个令人沮丧地简单方法。” arXiv 预印本 arXiv:2201.12723 (2022)。

[8] Zellers 等人“MERLOT: 多模态神经脚本知识模型。” NeuriPS 2021。

[9] Alayrac 等人“Flamingo: 一种用于少样本学习的视觉语言模型。” arXiv 预印本 arXiv:2204.14198 (2022)。

[10] 于和王等人“CoCa：对比字幕生成器是图像文本基础模型。” arXiv 预印本 arXiv:2205.01917 (2022)。

[11] 杨等人“GPT-3 在少样本基于知识的 VQA 中的实证研究。” arXiv 预印本 arXiv:2109.05014 (2021)。

[12] 苏等人“语言模型可以看到：在文本生成中插入视觉控制。” arXiv 预印本 arXiv:2205.02655 (2022)。

[13] 曾等人“苏格拉底模型：用语言组合零样本多模态推理。” arXiv 预印本 arXiv:2204.00598 (2022)。

学习不足的情况下使用的数据生成第 3 部分

原文：lilianweng.github.io/posts/2022-04-15-data-gen/

这里是关于学习不足数据的第 3 部分（之前：第 1 部分和第 2 部分）。让我们考虑两种用于生成合成数据进行训练的方法。

增强数据。给定一组现有的训练样本，我们可以应用各种增强、失真和转换来推导出新的数据点，而不会丢失关键属性。我们在一篇先前的帖子中涵盖了关于文本和图像的一堆增强方法。为了帖子的完整性，我在这里复制了关于数据增强的部分，并进行了一些编辑。
新数据。即使只有少量甚至没有数据点，我们也可以依靠强大的预训练模型生成一些新数据点。尤其是在最近几年，由于大型预训练语言模型（LM）的快速进展，这一点尤为明显。Few shot prompting 已被证明对 LM 学习在上下文中没有额外训练是有效的。

数据增强

数据增强的目标是修改输入格式（例如文本措辞，视觉外观），同时语义含义保持不变。

图像增强

基本图像处理操作

有几种方法可以修改图像而保留其语义信息。我们可以使用以下任何一种增强或多个操作的组合。

随机裁剪然后调整回原始大小。
随机颜色失真
随机高斯模糊
随机颜色抖动
随机水平翻转
随机灰度转换
还有更多。查看PIL.ImageOps以获取灵感。

任务特定的增强策略

如果已知下游任务，可以学习最佳的增强策略（即使用哪些处理操作以及如何组合它们以最大化下游任务性能）。

AutoAugment（Cubuk 等，2018）受到神经架构搜索的启发，AutoAugment 将学习最佳数据增强操作（即剪切、旋转、反转等）的问题框架为图像分类的 RL 问题，并寻找导致评估集上最高准确性的组合。AutoAugment 可以以对抗方式执行（Zhang 等，2019）。
RandAugment（Cubuk 等，2019）通过控制单个幅度参数来控制不同转换操作的幅度，大大减少了 AutoAugment 的搜索空间。
基于种群的增强（PBA；何等，2019）将 PBT（“基于种群的训练”；Jaderberg 等，2017）与 AutoAugment 结合起来，使用进化算法并行训练一组子模型以演化出最佳的增强策略。
无监督数据增强（UDA；谢等，2019）在一组可能的增强策略中，选择一个子集以最小化未标记示例及其未标记增强版本之间的 KL 散度。

图像混合

图像混合方法可以从现有数据点构建新的训练示例。

Mixup（张等，2018）通过创建两个现有图像$I_1$和$I_2$的加权像素级组合来进行全局级别的混合：$I_\text{mixup} \gets \alpha I_1 + (1-\alpha) I_2$，其中$\alpha \in [0, 1]$。
Cutmix（尹等，2019）通过将一个图像的局部区域与另一个图像的其余部分结合生成一个新示例。$I_\text{cutmix} \gets \mathbf{M}_b \odot I_1 + (1-\mathbf{M}_b) \odot I_2$，其中$\mathbf{M}_b \in \{0, 1\}^I$是一个二进制掩码，$\odot$是逐元素乘法。它等同于用另一个图像的相同区域填充cutout（DeVries＆Taylor 2017）区域。
给定一个查询$\mathbf{q}$，MoCHi（“对比硬负例的混合”；Kalantidis 等，2020）维护一个由$K$个负特征$Q={\mathbf{n}_1, \dots, \mathbf{n}_K }$组成的队列，并按照与查询的相似性$\mathbf{q}^\top \mathbf{n}$降序排序这些负特征。队列中的前$N$个项目被视为最难的负例，$Q^N$。然后可以通过$\mathbf{h} = \tilde{\mathbf{h}} / |\tilde{\mathbf{h}}|_2$生成合成的硬例，其中$\tilde{\mathbf{h}} = \alpha\mathbf{n}_i + (1-\alpha) \mathbf{n}_j$，$\alpha \in (0, 1)$。甚至可以通过与查询特征混合来创建更难的例子，$\mathbf{h}’ = \tilde{\mathbf{h}’} / |\tilde{\mathbf{h}’}|_2$，其中$\tilde{\mathbf{h}’} = \beta\mathbf{q} + (1-\beta) \mathbf{n}_j$，$\beta \in (0, 0.5)$。

文本增强

词汇编辑

简单数据增强（EDA；魏＆邹，2019）为文本增强定义了一组简单但强大的操作。给定一个句子，EDA 随机选择并应用四种简单操作中的一种：

同义词替换（SR）：用其同义词替换$n$个随机非停用词。
随机插入（RI）：在句子中的随机位置放置一个随机选择的非停用词的同义词。
随机交换（RS）：随机交换两个单词并重复$n$次。
随机删除（RD）：以概率$p$随机删除句子中的每个单词。

其中$p=\alpha$且$n=\alpha \times \text{sentence_length}$，直觉上，较长的句子可以吸收更多噪音，同时保持原始标签。超参数$\alpha$大致表示一句话中可能被一个增强改变的单词的百分比。

EDA 已被证明在几个分类基准数据集上提高了分类准确性，与没有 EDA 的基准相比。在较小的训练集上，性能提升更为显著。EDA 中的四种操作都有助于提高分类准确性，但在不同的$\alpha$值下达到最佳。

图 1. EDA 导致几个分类基准的性能提升。（图片来源：Wei & Zou 2019）

上下文增强（Kobayashi, 2018）通过从双向 LM（如 BERT）学习的概率分布中采样，$p(.\mid S\setminus{w_i})$，将位置$i$处的单词$w_i$替换为同义词或适合上下文的类似单词。为确保这些操作不改变标签，LM 被设计为标签条件的双向 LM。条件 BERT（CBERT；Xing Wu 等，2018）将 BERT 扩展为在类别标签上预测掩码标记，并可用于上下文增强预测。

回译

回译通过将文本样本翻译成另一种语言，然后再翻译回来，产生增强数据。翻译以两种方式进行，两个方向都应具有足够良好的性能，以避免语义意义的显著损失。

混合

也可以将Mixup应用于文本（Guo 等，2019），但是在嵌入空间中以获得一些性能增益。所提出的方法依赖于专门设计的模型架构，在单词或句子嵌入上进行预测。在嵌入空间中添加对抗性噪声作为数据增强的方法已被证明可以提高模型训练的泛化能力（Zhu 等，2019）。

音频增强

这是一份由Wang & van den Oord (2021)总结的几种常用音频数据增强方法列表，操作在原始音频或频谱图上。

音频混合。 给定两个音频剪辑$\mathbf{x}_1$和$\mathbf{x}_2$，混合版本$\hat{\mathbf{x}} = \alpha \mathbf{x}_1 + (1-\alpha)\mathbf{x}_2$应该与更主导的输入标签相关联。音频混合通过更真实的噪声增强数据。

时间屏蔽。 可以屏蔽音频的一个小连续块，而不会丢失语义信息。

频率屏蔽。 频谱图上的少量频率分量可以被删除，而不应改变相关联的标签。

频率偏移。 频谱图可以通过介于$[-F, F]$之间的整数进行偏移，其中$F$是最大偏移量。这是一种廉价的增强方法，可以改变音频的音调。

架构增强

具有dropout层的模型可以通过在相同输入样本上应用不同的 dropout 掩码来创建增强样本。例如，在对比学习模型SimCSE（郭等人，2021）中，一个样本只需使用两个不同的 dropout 掩码两次输入到编码器中，这两个版本是正样本对，而其他批内样本被视为负样本对。

Dropout 通过向模型的内部表示添加噪声来增强数据。它可以以更有结构的方式应用，例如在cutoff（沈等人（2020））中，随机删除令牌嵌入矩阵的随机块。

数据合成

鉴于生成高质量、逼真的图像比生成类似人类自然语言文本更困难，并且最近大型预训练语言模型取得了成功，本节仅关注文本生成。要了解如何合成逼真图像，请查看关于GAN、VAE、flow和diffusion模型的帖子。

语言模型作为嘈杂标注者

王等人（2021）探索了通过少样本提示利用 GPT-3 作为弱标注者的方法，实现比人工标注便宜 10 倍。该论文认为，通过使用由 GPT-3 标记的数据，实质上执行了自训练：对未标记样本的预测对模型施加熵正则化，以避免高类别重叠，从而帮助提高模型性能。

图 2。展示如何使用 GPT-3 通过人在循环主动学习管道生成更多训练数据，以提高数据质量。 (图片来源：王等人，2021)

通过主动学习选择的 GPT-3 标注样本中最不确定的样本被发送给人类标注者重新注释。Few-shot 提示包含少量人类标记的示例，因此标注成本受限。合成样本按标签 $y$ 的预测 logits 排名，得分最低的样本经过重新标注。

GPT-3 标注在低成本范围内取得更好的结果，但在数据收集上花费足够的资金时与人类标注存在差距。这意味着以下不等式，尽管“很多”或“嘈杂”到什么程度取决于任务细节。

大量高质量数据 > 大量嘈杂数据 > 少量高质量数据。

图 3. GPT-3 标注技术改善了低成本范围内的分类性能。（图片来源：Wang 等人 2021）

语言模型作为数据生成器

如果对文本分类任务有足够的训练数据集，我们可以微调语言模型以根据标签合成更多训练样本（Anaby-Tavor 等人 2019，Kumar 等人 2021）。

基于语言模型的数据增强（LAMBADA；Anaby-Tavor 等人 2019）采用了这样一个想法，其中该过程涉及对分类器和样本生成模型进行微调。

使用现有的训练数据集训练基线分类器：$h = \mathcal{A}(\mathcal{D}_\text{train})$。
独立于步骤 1，对 LM $\mathcal{M}$ 在 $\mathcal{D}_{\text{train}}$ 上进行微调，得到 $\mathcal{M}_{\text{tuned}}$。
通过使用 $\mathcal{M}_\text{tuned}$ 生成序列 y[SEP] 直到 EOS 的延续来合成标记数据集 $\mathcal{D}^*$。
通过以下方式筛选合成数据集，
- （1）验证预测的标签是否正确 $h(x)=y$；
- （2）当样本按分类器概率排名时，选择排名靠前的样本。$\mathcal{D}_\text{syn} \subset \mathcal{D}^*$。它们生成了需要增强的样本的 10 倍，并且只保留了置信度最高的前 10%的合成样本。

最终分类器在 $\mathcal{D}_\text{syn} \cup \mathcal{D}_\text{train}$ 上进行训练。该过程可以多次重复，但不清楚好处是否会迅速减少或重复过程是否会带来自我偏见。

图 4. LAMBADA 的准确性与其他生成方法在所有数据集和分类器上的比较。（图片来源：Anaby-Tavor 等人 2019）

为了简化 LAMBADA，我们实际上可以消除精调生成模型和具有相当规模的现有训练数据集的依赖（上述步骤 2）。无监督数据生成（UDG；Wang 等人，2021）依赖于对大型预训练语言模型进行少样本提示，以生成高质量的合成数据进行训练。与上述方法相反，其中 LM 被要求在给定 $\mathbf{x}$ 的情况下预测 $y$，UDG 反之，合成输入 $\mathbf{x}$ 给定标签 $y$。然后在这个合成数据集上训练一个任务特定模型。

Schick & Schutze（2021）提出了一个类似的想法，但是在 NLI 任务上而不是分类任务上，要求 PLM 在提示任务特定指令的情况下编写相似或不同的句子对。

图 5. 无监督数据生成（UDG）框架的示意图。 (图片来源：Wang 等人，2021)

UDG 的少样本提示包含少量未标记示例，以及所需标签的任务特定自然语言描述。由于一些生成的示例存在噪声，他们实施了噪声标签退火（NLA）技术，在训练过程中过滤潜在的不对齐样本。在训练过程中，当模型开始与其伪标签高度不一致时，NLA 会逐渐在时间上去除嘈杂的训练信号。在每个训练步骤 $t$，如果给定示例 $(\mathbf{x}_i, \hat{y}_i)$ 被认为是嘈杂的并且应该被移除，则：

模型预测的概率高于阈值 $p(\bar{y}_i \vert \mathbf{x}_i) > \mu_t$，其中 $\bar{y}_i = \arg\max_y p(y \vert \mathbf{x}_i)$；
预测的标签与合成标签不同，$\bar{y}_i \neq \hat{y}_i$。

注意，阈值 $\mu_t$ 是时间相关的，初始化为 0.9，然后随时间逐渐退火至 $1/\text{num_of_classes}$。

正如他们的实验所示，UDG 相对于少样本推理的改进是相当显著的，NLA 带来了一些额外的提升。在几种情况下，结果甚至可以与监督微调相媲美。

图 6. UDG 和其他方法在不同分类数据集上准确率的比较。 (图片来源：Wang 等人，2021)

Han 等人（2021）在翻译任务上利用少样本数据生成、蒸馏和回译取得了 SOTA 结果。提出的方法包括以下步骤，假设没有访问配对翻译数据：

零-shot 生成。首先利用预训练 LM 的零-shot 翻译能力为一小组未标记的句子生成翻译。
少样本生成。然后通过将它们用作少样本演示来放大这些零样本翻译，以收集更大的合成数据集。
蒸馏。在这个数据集上对模型进行微调。翻译任务被制定为一个语言建模任务[L1] <seq1> [[TRANSLATE]] [L2] <seq2>.给定两种不同语言的两个序列<seq1, seq2>。在测试时，语言模型被提示为[L1] <seq> [[TRANSLATE]] [L2]，并且从采样完成中解析出一个候选翻译<sampledSeq>。
反向翻译。在反向翻译数据集上继续微调，其中样本顺序被颠倒，<sampledSeq, seq>。
步骤 1-4 可以重复。

图 7. 使用蒸馏和反向翻译训练语言模型进行翻译任务的算法。 (图片来源：Han 等人，2021)

上述方法的成功取决于一个良好的预训练语言模型，以启动初始翻译数据集。通过反向翻译的迭代式少样本生成和蒸馏是从预训练语言模型中提取和精炼翻译能力的有效方式，进一步将其蒸馏到一个新模型中。

图 8. 比较不同训练运行的翻译模型的 BLEU 分数，使用：仅蒸馏、反向翻译、两者以及更多单语训练数据。 (图片来源：Han 等人，2021)

如何量化生成数据的质量？

鉴于所有生成的数据，无论是通过数据增强还是数据合成，我们如何量化数据质量，以了解它们如何改善模型的泛化能力？Gontijo-Lopes 等人（2020）引入了两个跟踪维度，亲和力和多样性。

亲和力是一个对分布偏移敏感的度量，量化增强数据将训练数据分布从模型学习的内容偏移多少。
- 定义：在模型在干净数据上测试与在干净数据上训练时的性能差异。
- 作为比较，KL 也可以衡量分布偏移，但不考虑模型性能。
多样性是增强复杂性的度量，衡量增强数据相对于模型和学习过程的复杂性。
- 定义：使用给定增强训练的模型的最终训练损失。
- 另一个潜在的多样性度量是转换数据的熵。
- 第三个潜在的多样性度量是模型达到给定训练准确度阈值所需的训练时间。
- 上述三个指标之间存在相关性。

最终模型的性能取决于这两个指标都足够高。

图 9. (a) 左图：亲和力与多样性度量的散点图，每个点代表不同的增强方法，颜色表示最终的测试准确度。(b) 右图：在不同亲和力和多样性度量区域中，干净数据和增强数据之间的关系的概念图示。 (图片来源：Gontijo-Lopes et al. 2020)

有许多关于相关性和多样性的定量度量，根据是否有参考文献，形式各异，例如文本的困惑度、BLEU 以及图像的 Inception 分数。这里我跳过了关于质量的具体定量度量的列表，因为它可能会很长。

使用嘈杂数据进行训练

通过模型生成或数据增强方便地收集大量嘈杂数据，但很难保证增强和生成的数据能够 100%准确。深度神经网络很容易过拟合嘈杂标签并“记忆”损坏的标签，因此在使用生成的数据时，我们可以应用训练嘈杂标签的技术（噪声鲁棒训练）来稳定和优化性能。请查看这篇关于从嘈杂标签中学习的调查论文（Song et al. 2021）以更全面地了解相关工作。

正则化和稳健架构

一般来说，为了避免过拟合而设计的机制在处理适度嘈杂数据时应该有助于提高训练的稳健性，例如权重衰减、dropout、批归一化。事实上，良好的数据增强（即仅修改非必要属性）也可以被视为一种正则化的方式。

另一种方法是通过专门的嘈杂适应层来增强网络，以逼近标签损坏的未知投影（Sukhbaatar et al. 2015，Goldberger & Ben-Reuven, 2017）。

Sukhbaatar et al. (2015)在网络架构中引入了额外的线性层 $Q$，以使预测与嘈杂标签分布匹配。噪声矩阵 $Q$ 最初被固定为单位函数，只有基础模型参数被更新。一段时间后，$Q$开始被更新，并期望捕捉数据中的噪声。噪声矩阵通过正则化进行训练，以鼓励其匹配噪声分布，同时保持基础模型对真实标签的准确预测。

图 10. (a) 左图：在 softmax 和最终输出之间添加了一个噪声矩阵 $Q$ 用于损失计算。(b) 右图：噪声矩阵 $Q$ 最初被固定为单位函数，只有在一定训练后才会随着正则化进行更新。(图片来源：Sukhbaatar et al. 2015)

然而，很难保证这样一个噪声矩阵层只捕捉噪声转换分布，实际上学习起来并不是一件简单的事情。Goldberger & Ben-Reuven (2017)) 提出了在基础模型的端到端添加一个额外的 softmax 层，并应用EM 算法，将正确标签视为潜在随机变量，将噪声过程视为具有未知参数的通信通道。

鲁棒学习目标

除了最常用的交叉熵损失外，一些其他学习目标的选择被证明对嘈杂标签更具鲁棒性。

例如，MAE（平均绝对误差）比 CCE（分类交叉熵）对嘈杂标签更具鲁棒性，因为它平等对待每个样本（Ghosh et al. 2017）。MAE 在训练样本之间缺乏不同的加权导致训练时间显著延长。受 MAE 和 CCE 之间的权衡启发，Zhang & Sabuncu (2018)提出了广义交叉熵（GCE），将 CCE 损失的泛化以适应嘈杂数据。

为了充分利用 MAE 提供的抗噪性和 CCE 的隐式加权方案的好处，GCE 采用了负的 Box-Cox 转换作为损失函数：

\[\mathcal{L}_q(f(\mathbf{x}_i, y_i = j)) = \frac{1 - f^{(j)}(\mathbf{x}_i)^q}{q} \]

其中$f^{(j)}$表示$f(.)$的第$j$个元素，$q \in (0, 1]$。当$q \to 0$时，$\mathcal{L}_q$等同于 CCE，当$q=1$时变为 MAE。实证实验表明存在一个$q$的阈值，使得过拟合永远不会出现，数据越嘈杂，这种阈值就应该越高。

给定真实和预测标签，$y_i, \hat{y}_i \in \{0, 1\}$，令$u_i=y_i \cdot \hat{y}_i$，零一损失，$\mathcal{L}_{01}(\mathbf{u}) = \sum_{i=1}^n \mathbb{1}[u_i < 0]$，是另一种被证明对嘈杂数据具有鲁棒性的学习目标。通过最小化零一损失的经验风险等同于最小化经验对抗（最坏情况）风险（Hu et al 2018）。因为最坏情况风险是干净数据分布的分类风险的上界，最小化最坏情况风险可以导致真实风险的降低，这使得零一损失特别鲁棒。然而，零一损失是不可微的，不能直接优化。一种解决方案是近似零一损失的上界，并最小化上界损失。

铰链损失，$\mathcal{L}_\text{hinge}(\mathbf{u}) = \sum_{i=1}^n \max(0, 1 - u_i)$，定义了零一损失的一个粗略上界。Lyu & Tsang (2020)提出了一个课程损失（CL），它是一个比铰链损失等传统替代损失更紧的上界，$\mathcal{L}_\text{01}(\mathbf{u}) \leq \mathcal{L}_\text{CL}(\mathbf{u}) \leq \mathcal{L}_\text{hinge}(\mathbf{u})$。

\[\mathcal{L}_\text{CL}(\mathbf{u}) = \min_{\mathbf{w}\in\{0,1\}^n}\max(\sum_{i=1}^n w_i \ell(u_i), n - \sum_{i=1}^n w_i + \sum_{i=1}^n\mathbb{1}[u_i < 0]) \]

其中$\ell(u_i)$是零一损失的基本替代损失（例如铰链损失），最优加权变量$\mathbf{w}$是要学习的。

给定标签损坏率$\rho$，噪声修剪课程损失（NPCL）是基于这样的直觉构建的，即理想模型应该正确分类$n(1-\rho)$个带有干净标签的样本，但错误分类$n\rho$个损坏标签。如果$\rho$是一个已知的先验，我们将知道要修剪多少样本（具有最大损失）。假设$\ell(u_1) \leq \dots \leq \ell(u_n)$，那么$u_{n(1-\rho)+1} = \dots = u_n =0$，以下 NPCL 是仅针对$n(1-\rho)$个样本的基本 CL：

\[\text{NPCL}(\mathbf{u}) = \min_{\mathbf{w}\in\{0,1\}^{n(1-\rho)}} \max(\sum_{i=1}^{n(1-\rho)} w_i \ell(u_i), n(1-\rho) - \sum_{i=1}^{n(1-\rho)} w_i) \]

在 CIFAR-10 上进行实验时，NPCL 与 GCE 相当，并且在噪声率增加时表现更好。

标签校正

由于已知一些标签是不正确的，噪声鲁棒训练可以明确考虑标签校正。

一种方法是依赖于噪声转移矩阵的估计，并使用它来纠正前向或后向损失，称为F-correction（Patrini et al. 2017）。让我们首先假设有$k$个类别和噪声转移矩阵$C \in [0, 1]^{k\times k}$是可观测的，标签翻转概率不依赖于样本输入而只依赖于标签（即被称为随机分类噪声，RCN）。让$\tilde{y}$表示一个损坏的标签。$C$的每个条目表示一个标签翻转为另一个的概率^(1)，

\[C_{ij} = p(\tilde{y}= j \vert y =i, \mathbf{x}) \approx p(\tilde{y}= j \vert y =i) \]

然后我们可以进行前向标签校正过程，将嘈杂转移矩阵的先验知识纳入预测中。

\[\begin{aligned} \mathcal{L}(\hat{p}(\tilde{y}\vert\mathbf{x}), y) &= - \log \hat{p}(\tilde{y}=i\vert\mathbf{x}) \\ &= - \log \sum_{j=1}^k p(\tilde{y}=i\vert y=j) \hat{p}(y=j\vert\mathbf{x}) \\ &= - \log \sum_{j=1}^k C_{ji} \hat{p}(y=j\vert\mathbf{x}) \end{aligned} \]

以矩阵形式，我们有 $\mathcal{L}(\hat{p}(y \vert \mathbf{x})) = - \log C^\top \hat{p}(y \vert \mathbf{x})$。然而，这样的噪声转移矩阵通常是未知的。如果我们可以访问一个干净数据集，噪声矩阵 $C$ 可以通过在干净数据上计算混淆矩阵来估计 (Hendrycks et al. 2018)。让我们将一个干净可信的数据集表示为 $\mathcal{D}_c$，将一个嘈杂数据集表示为 $\mathcal{D}_n$。

\[\hat{C}_{ij} = \frac{1}{\vert \mathcal{A}_i\vert} \sum_{\mathbf{x} \in \mathcal{A}_i} \hat{p}(\tilde{y}=j \vert y=i, \mathbf{x}) \approx p(\tilde{y}=j \vert y=i) \]

这里 $\mathcal{A}_i$ 是来自带有标签 $i$ 的 $\mathcal{D}_c$ 数据点的子集。

令 $f(x) = \hat{p}(\tilde{y} \vert \mathbf{x}; \theta)$，这个模型应该在干净数据 $\mathcal{D}_c$ 上用 $\mathcal{L}(f(\mathbf{x}), y)$ 进行训练，并在嘈杂数据 $\mathcal{D}_n$ 上用 $\mathcal{L}(\hat{C}^\top f(\mathbf{x}), \hat{y})$ 进行训练。

图 11. 金标准损失校正（GLC）算法，使用可信数据集估计噪声转移矩阵。 (图片来源: Hendrycks et al. 2018)

如果可信的训练数据集 $\mathcal{D}_c$ 变大，我们可以仅在干净数据上训练一个神经网络，并将其知识提炼到主模型（即在测试时进行预测的最终模型）中，使用校正的伪标签 (Li et al. 2017)。主模型在整个数据集 $\mathcal{D} = \mathcal{D}_c \cup \mathcal{D}_n$ 上进行训练。可选地，如果可用，可以将知识图中标签关系的“侧”信息合并到提炼中，以帮助训练在有限数据上的网络的预测的鲁棒性。

标签校正提炼的工作如下：

首先从小的干净数据集 $\mathcal{D}_c$ 训练一个辅助模型 $f_c$，为每个样本 $x_i$ 提供一个软标签，$s_i = \delta(f_c(\mathbf{x}_i)/T)$ 是具有温度 $T$ 的 Sigmoid 激活。
由于干净数据集不大，$f_c$ 很可能会过拟合，Li et al. (2017) 转向一个定义标签空间关系并根据此在标签之间传播预测的知识图 $\mathcal{G$。新的软标签表示为 $\hat{s}_i = \mathcal{G}(s_i)$。
主模型 $f$ 是通过从 $f_c$ 的预测进行训练以模仿的，

\[\mathcal{L}(y_i, f(\mathbf{x}_i)) = \text{CE}(\underbrace{\lambda y_i + (1 - \lambda) \hat{s}_i}_\text{伪标签}, f(\mathbf{x}_i)) \]

样本重新加权和选择

一些样本可能更有可能具有不准确的标签。这种估计让我们直观地知道哪些样本在损失函数中应该被赋予更少或更多的权重。然而，考虑到训练数据中的两种偏差，类别不平衡和嘈杂标签，实际上存在矛盾的偏好 — 我们希望损失更大的样本来平衡标签分布，但那些损失较小的样本可以减轻潜在的噪声。一些研究（Ren 等人，2018）因此认为，为了学习训练数据偏差的一般形式，有必要拥有一个小而无偏的验证集来指导训练。本节介绍的样本重新加权方法都假设可以访问一小部分可信的干净数据。

考虑一个具有随机分类噪声的二元分类任务，$y, \hat{y} \in \{-1, +1\}$，标签翻转概率，$\rho_{-1}, \rho_{+1} \in [0, 0.5)$，定义如下：

\[\rho_{-1} = P(\tilde{y} = +1 \vert y=-1)\quad\rho_{+1} = P(\tilde{y}=-1 \vert y =+1) \]

Liu & Tao (2015)应用重要性重新加权来调整观察到的$\hat{y}$的加权分布，以匹配不可观测的$y$的分布。设$\mathcal{D}$为真实数据分布，$\mathcal{D}_\rho$为损坏版本。

\[\begin{aligned} \mathcal{L}_{\ell,\mathcal{D}}(f) &= \mathbb{E}_{(\mathbf{x},y)\sim \mathcal{D}}[\ell(f(\mathbf{x}), y)] \\ &= \mathbb{E}_{(\mathbf{x},\tilde{y})\sim \mathcal{D}_\rho} \Big[ \frac{P_\mathcal{D}(\mathbf{x}, y=\tilde{y})}{P_{\mathcal{D}_\rho}(\mathbf{x}, \tilde{y})} \ell(f(\mathbf{x}), \tilde{y}) \Big] \\ &= \mathbb{E}_{(\mathbf{x},\tilde{y})\sim \mathcal{D}_\rho} \Big[ \frac{P_\mathcal{D}(y=\tilde{y} \vert \mathbf{x})}{P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x})} \ell(f(\mathbf{x}), \tilde{y}) \Big] & \text{; 因为 }P_\mathcal{D}(\mathbf{x})=P_{\mathcal{D}_\rho}(\mathbf{x}) \\ &= \mathbb{E}_{(\mathbf{x},\tilde{y})\sim \mathcal{D}_\rho} [ w(\mathbf{x}, \hat{y})\ell(f(\mathbf{x}), \tilde{y}) ] = \mathcal{L}_{w\ell,\mathcal{D}}(f) \end{aligned} \]

因为，

\[\begin{aligned} P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x}) &= P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x}) P_{\mathcal{D}_\rho}(\tilde{y} \vert y=\tilde{y}) + P_\mathcal{D}(y = - \tilde{y} \vert \mathbf{x}) P_{\mathcal{D}_\rho}(\tilde{y} \vert y = - \tilde{y}) \\ &= P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x}) (1 - P_{\mathcal{D}_\rho}(- \tilde{y} \vert y=\tilde{y})) + (1 - P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x})) P_{\mathcal{D}_\rho}(\tilde{y} \vert y = - \tilde{y}) \\ &= P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x}) (1 - \rho_{\tilde{y}}) + (1 - P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x})) \rho_{-\tilde{y}} \\ &= P_\mathcal{D}(y = \tilde{y} \vert \mathbf{x})(1 - \rho_{\tilde{y}} - \rho_{-\tilde{y}}) + \rho_{-\tilde{y}} \end{aligned} \]

因此，给嘈杂样本分配的权重为，

\[w(x, \tilde{y}) = \frac{P_\mathcal{D}(y=\tilde{y} \vert \mathbf{x})}{P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x})} = \frac{P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x}) - \rho_{-\tilde{y}}}{(1-\rho_0-\rho_1) P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x})} \]

其中 $P_{\mathcal{D}_\rho}(\tilde{y} \vert \mathbf{x})$ 可以通过简单的逻辑回归进行估计，但估计音符率更具挑战性。天真的交叉验证可能行得通，但由于质量取决于可用的受信任标签数量，成本很高。该论文首先近似噪声率的上限，$\rho_\tilde{y} \leq P_{\mathcal{D}_\rho}(- \tilde{y} \vert \mathbf{x})$，然后使用温和的假设来高效地估计它们，$\hat{\rho}_{\tilde{y}} = \min_{\mathbf{x} \in {\mathbf{x}_1, \dots, \mathbf{x}_n}} \hat{P}_{\mathcal{D}_\rho}(- \tilde{y} \vert \mathbf{x})$。在他们的实验中，重要性重新加权的优势仅在数据集之间变化，并且在噪声率普遍较高时更为有益。

可以通过一个单独的网络学习样本重新加权方案。 学习重新加权 (L2R; Ren et al. 2018) 是一种元学习方法，直接优化权重以追求已知一组干净数据上的最佳验证性能。每个示例根据其梯度方向被分配权重。用于最小化 $\theta^*(\mathbf{w})$ 的加权损失涉及一组训练权重 $\{w_i\}_{i=1}^n$ 作为未知超参数。这些样本训练权重 $w_i$ 被学习以最小化在这个无偏验证集上的损失，$\mathcal{D}_c = \{x^\text{valid}_j\}_{j=1}^m$。

\[\begin{aligned} \theta^{*}(\mathbf{w}) &= \arg\min_\theta \sum_{i=1}^n w_i f(x_i; \theta) \\ \text{其中最优 }\mathbf{w}^{*} &= \arg\min_{\mathbf{w}, \mathbf{w} \geq \mathbf{0}} \frac{1}{m} \sum_{j=1}^m f(\mathbf{x}^\text{valid}_j; \theta^{*}(\mathbf{w})) \end{aligned} \]

学习过程涉及两个嵌套的优化循环，因此非常昂贵，训练时间增加 3 倍。

图 12. 展示了第二阶自动微分实现的更新。 (图片来源: Ren et al. 2018)

他们在 (1) 两类 MNIST 上进行实验，以测试 L2R 在类分布不平衡时的鲁棒性，以及 (2) 具有嘈杂标签的 CIFAR-10 上。 L2R 在两个任务上都表现出比当时其他基线方法更好的效果。

图 13. 左: MNIST 上的不平衡类（类 4 和 9）；右: 清洁样本数量的影响。任务是在 CIFAR-10 上，40% 的数据翻转为标签 3. (图片来源: Ren et al. 2018)

MentorNet (Jiang et al. 2018) 使用教师-学生课程学习来加权数据。它包含两个不同的网络，一个是导师，一个是学生。导师网络为学生提供了一个数据驱动的课程（即样本训练加权方案），让学生专注于学习可能是正确标签的内容。

让 $g_\psi$ 为由 $\psi$ 参数化的 MentorNet，$f_\theta$ 为由 $\theta$ 参数化的 StudentNet，$G$ 为由 $\lambda$ 参数化的预定义课程。给定用于$k$类分类任务的训练数据 $\mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i=1}^n$，MentorNet 需要预测一个随时间变化的潜在权重变量 $\mathbf{w} \in [0, 1]^{n \times k}$ 来引导 StudentNet 的学习，取学生网络处理的中间特征 $\mathbf{z}_i = \phi_{f_\theta}(\mathbf{x}_i, y_i)$：

\[g_{\psi^{*}}(\mathbf{z}_i) = \arg\min_{w_i \in [0,1]} \mathcal{L}(\theta, \mathbf{w}), \forall i \in [1, n] \]

StudentNet 学习最小化以下学习目标，

\[\begin{aligned} \mathcal{L}(\theta, \mathbf{w}) &= \frac{1}{n}\sum_{i=1}^n \mathbf{w}_i^\top \ell(y_i, f_\theta(\mathbf{x}_i)) + G_\lambda(\mathbf{w}) + \alpha |\theta|²_2 \\ &= \frac{1}{n}\sum_{i=1}^n g_\psi(\mathbf{z}_i)^\top \ell_i + G_\lambda(\mathbf{w}) + \alpha |\theta|²_2 & \text{; 让 }\ell_i = \ell(y_i, f_\theta(\mathbf{x}_i)) \\ \end{aligned} \]

导师网络 $g_\psi$ 在输入 $(\phi_{f_\theta}(\mathbf{x}_i, y_i), w^{*}_i)$ 上通过交叉熵进行训练，其中如果 $y_i$ 已知是正确标签，则 $v^*_i=1$，否则为 0。MentorNet 的架构不必非常复杂。在论文中，他们采用了一个 LSTM 层来捕捉时间上的预测方差。

图 14。MentorNet 和 StudentNet 的模型架构同时训练，其中 MentorNet 预测学生网络的样本权重以进行训练。（图片来源：Jiang et al. 2018）

与 MentorNet 不同的是，其中一个网络明确学习另一个网络的加权方案和课程，Co-teaching (Han et al. 2018) 同时训练两个神经网络，$f_1$ 和 $f_2$，让它们通过有选择地向彼此提供数据来互相教导。Co-teaching 包括三个步骤：

首先，每个网络前馈当前小批量数据并选择可能具有干净标签的样本；
然后，两个网络交换信息，确定批次中应该用于训练的样本。选择小损失实例，因为它们更有可能与正确标签相关联。选择批次的百分比由时间相关函数$R(T)$确定。$R(T)$的值随时间减少，因为随着训练的进行，网络更有可能过拟合和记忆噪声标签，因此我们使用较小的采样百分比来保持所选数据的质量高。
最后，每个网络都会通过其同行选择的数据运行反向传播更新。

根据他们的实验，当噪声率较高或破坏转移矩阵不对称时，共同教学的表现优于 F-校正。

图 15。共同教学算法，其中两个网络并行训练，每个网络选择另一个网络进行训练的样本。（图片来源：韩等人 2018）

引文

引用为：

翁，莉莉安。 (2022 年 4 月)。数据不足学习第 3 部分：数据生成。Lil’Log。链接。

或

@article{weng2022datagen,
  title   = "Learning with not Enough Data Part 3: Data Generation",
  author  = "Weng, Lilian",
  journal = "Lil'Log",
  year    = "2022",
  month   = "Apr",
  url     = "https://lilianweng.github.io/posts/2022-04-15-data-gen/"
}

参考文献

[1] 张等人。“对抗自动增强” ICLR 2020。

[2] Kumar 等人。“使用预训练转换器模型进行数据增强。” AACL 2020 Workshop。

[3] Anaby-Tavor 等人。“数据不足？深度学习来拯救！” AAAI 2020。

[4] 王等人。“想要减少标注成本？GPT-3 可以帮助。” EMNLP 2021。

[5] 王等人。“走向零标签语言学习。” arXiv:2109.09193 arXiv 预印本 arXiv:2109.09193 (2021)。

[6] Schick & Schutze。“使用预训练语言模型生成数据集。” EMNLP 2021。

[7] 韩等人。“仅使用生成语言模型进行无监督神经机器翻译。” arXiv:2110.05448 arXiv 预印本 arXiv:2110.05448 (2021)。

[8] 郭等人。“使用 mixup 增强数据进行句子分类：一项实证研究。” arXiv:1905.08941 arXiv 预印本 arXiv:1905.08941 (2019)。

[9] Ekin D. Cubuk 等人。“AutoAugment：从数据中学习增强策略。” arXiv:1805.09501 arXiv 预印本 arXiv:1805.09501 (2018)。

[10] Daniel Ho 等人。“基于人口的增强：有效学习增强策略计划。” ICML 2019。

[11] Cubuk & Zoph 等人。“RandAugment：具有减少搜索空间的实用自动化数据增强。” arXiv:1909.13719 arXiv 预印本 arXiv:1909.13719 (2019)。

[12] 张等人。“混合：超越经验风险最小化。” ICLR 2017。

[13] 云等. “CutMix：训练具有可定位特征的强分类器的正则化策略。” ICCV 2019.

[14] 卡兰蒂迪斯等. “对比硬负例的混合” NeuriPS 2020.

[15] 魏 & 邹. “EDA：用于提升文本分类任务性能的简易数据增强技术。” EMNLP-IJCNLP 2019.

[16] 小林. “上下文增强：通过具有范例关系的词进行数据增强。” NAACL 2018

[17] 方等. “CERT：用于语言理解的对比自监督学习。” arXiv 预印本 arXiv:2005.12766 (2020).

[18] 高等. “SimCSE：简单的对比学习句子嵌入。” arXiv 预印本 arXiv:2104.08821 (2020). [code]

[19] 沈等. “一种简单但难以超越的自然语言理解和生成数据增强方法。” arXiv 预印本 arXiv:2009.13818 (2020) [code]

[20] 王 & van den Oord. “音频表示的多格式对比学习。” NeuriPS Workshop 2020.

[21] 吴等. “条件 BERT 上下文增强” arXiv 预印本 arXiv:1812.06705 (2018).

[22] 朱等. “FreeLB：增强的自然语言理解对抗训练。” ICLR 2020.

[23] 亲和性和多样性：量化数据增强机制 Gontijo-Lopes 等. 2020 (arxiv.org/abs/2002.08973)

[24] 宋等. “使用深度神经网络学习带有噪声标签：一项调查。” TNNLS 2020.

[25] 张 & 萨邦库. “用于训练带有噪声标签的深度神经网络的广义交叉熵损失。” NeuriPS 2018.

[26] 戈德伯格 & 本-鲁文. “使用噪声适应层训练深度神经网络。” ICLR 2017.

[27] 苏克巴塔尔等. “用噪声标签训练卷积网络。” ICLR Workshop 2015.

[28] 帕特里尼等. “使深度神经网络对标签噪声具有鲁棒性：一种损失校正方法” CVPR 2017.

[29] 亨德里克斯等. “使用可信数据训练受严重噪声污染标签的深度网络。” NeuriPS 2018.

[30] 张 & 萨邦库. “用于训练带有噪声标签的深度神经网络的广义交叉熵损失。” NeuriPS 2018.

[31] 吕 & 曾. “课程损失：针对标签污染的稳健学习和泛化。” ICLR 2020.

[32] 韩等人。“共同教学：在极其嘈杂的标签下训练深度神经网络。” NeuriPS 2018. (code)

[33] 任等人。“学习为强大深度学习重新加权示例。” ICML 2018.

[34] 姜等人。“MentorNet：学习基于数据的课程设计用于受损标签的深度神经网络。” ICML 2018.

[35] 李等人。“通过蒸馏学习从带有噪声标签中学习。” ICCV 2017.

[36] 刘 & 陶。“通过重要性重新加权处理带有噪声标签的分类问题。” TPAMI 2015.

[37] 高仕等人。“针对深度神经网络标签噪声的鲁棒损失函数。” AAAI 2017.

[38] 胡等人。“分布鲁棒监督学习是否提供鲁棒分类器？” ICML 2018.

$y=i$ 并不是一种技术上正确的注释标签为特定值的方式，因为我们通常使用独热编码（即 $\mathbf{y} = \mathbf{e}_i$）。我们出于简单起见使用这种形式。 ↩︎

缺乏数据的学习第 2 部分：主动学习

原文：lilianweng.github.io/posts/2022-02-20-active-learning/

这是面对有限数量标记数据的监督学习任务时要做的第二部分。这次我们将涉及一定量的人工标记工作，但在预算限制内，因此在选择要标记的样本时需要聪明。

符号

符号	含义
$K$	唯一类别标签的数量。
$(\mathbf{x}^l, y) \sim \mathcal{X}, y \in \{0, 1\}^K$	已标记数据集。 $y$ 是真实标签的独热表示。
$\mathbf{u} \sim \mathcal{U}$	未标记数据集。
$\mathcal{D} = \mathcal{X} \cup \mathcal{U}$	整个数据集，包括已标记和未标记的示例。
$\mathbf{x}$	任何可以被标记或未标记的样本。
$\mathbf{x}_i$	第 $i$ 个样本。
$U(\mathbf{x})$	用于主动学习选择的评分函数。
$P_\theta(y \vert \mathbf{x})$	由 $\theta$ 参数化的 softmax 分类器。
$\hat{y} = \arg\max_{y \in \mathcal{Y}} P_\theta(y \vert \mathbf{x})$	分类器的最自信预测。
$B$	标记预算（要标记的最大样本数）。
$b$	批处理大小。

什么是主动学习？

给定一个未标记的数据集 $\mathcal{U}$ 和固定的标记成本 $B$，主动学习旨在从 $\mathcal{U}$ 中选择一个包含 $B$ 个示例的子集进行标记，以便最大化改善模型性能。这是一种有效的学习方法，特别适用于数据标记困难且昂贵的情况，例如医学图像。这篇经典的调查论文于 2010 年列出了许多关键概念。虽然一些传统方法可能不适用于深度学习，但本文讨论主要集中在深度神经模型和批处理模式训练上。

图 1. 主动学习的循环工作流程示意图，通过智能选择要标记的样本，更高效地生成更好的模型。

为简化讨论，我们假设任务是一个 $K$ 类分类问题，在接下来的所有部分中。具有参数 $\theta$ 的模型输出标签候选的概率分布，可能经过校准，$P_\theta(y \vert \mathbf{x})$，最可能的预测是 $\hat{y} = \arg\max_{y \in \mathcal{Y}} P_\theta(y \vert \mathbf{x})$。

获取函数

确定下一个最有价值的示例进行标记的过程称为“采样策略”或“查询策略”。采样过程中的评分函数称为“获取函数”，表示为 $U(\mathbf{x})$。具有较高分数的数据点预计在进行标记后会为模型训练带来更高的价值。

这里是一些基本的采样策略列表。

不确定性采样

不确定性采样选择模型产生最不确定预测的示例。在给定单个模型的情况下，可以通过预测概率来估计不确定性，尽管一个常见的抱怨是深度学习模型的预测通常不经校准，与真实不确定性关联不好。事实上，深度学习模型通常过于自信。

最不确定得分，也称为变异比率: $U(\mathbf{x}) = 1 - P_\theta(\hat{y} \vert \mathbf{x})$。
边际得分: $U(\mathbf{x}) = P_\theta(\hat{y}_1 \vert \mathbf{x}) - P_\theta(\hat{y}_2 \vert \mathbf{x})$，其中$\hat{y}_1$和$\hat{y}_2$是最可能和次可能的预测标签。
熵: $U(\mathbf{x}) = \mathcal{H}(P_\theta(y \vert \mathbf{x})) = - \sum_{y \in \mathcal{Y}} P_\theta(y \vert \mathbf{x}) \log P_\theta(y \vert \mathbf{x})$。

另一种量化不确定性的方法是依赖于一组专家模型的委员会，称为委员会查询（QBC）。QBC 根据一组意见来衡量不确定性，因此保持委员会成员之间的分歧是至关重要的。给定委员会池中的$C$个模型，每个模型由$\theta_1, \dots, \theta_C$参数化。

选票熵: $U(\mathbf{x}) = \mathcal{H}(\frac{V(y)}{C})$，其中$V(y)$计算委员会对标签$y$的投票数。
共识熵: $U(\mathbf{x}) = \mathcal{H}(P_\mathcal{C})$，其中$P_\mathcal{C}$是委员会预测的平均值。
KL 散度: $U(\mathbf{x}) = \frac{1}{C} \sum_{c=1}^C D_\text{KL} (P_{\theta_c} | P_\mathcal{C})$

多样性采样

多样性采样旨在找到一组能够很好代表整个数据分布的样本。多样性很重要，因为期望模型在野外的任何数据上都能很好地工作，而不仅仅是在一个狭窄的子集上。所选样本应该代表潜在分布。常见方法通常依赖于量化样本之间的相似性。

预期模型变化

预期模型变化指的是样本对模型训练带来的影响。这种影响可以是对模型权重的影响，也可以是对训练损失的改进。后续章节将回顾几项关于如何衡量由选定数据样本触发的模型影响的工作。

混合策略

上述许多方法并不是相互排斥的。混合采样策略重视数据点的不同属性，将不同的采样偏好结合在一起。通常我们希望选择不确定但也高度代表性的样本。

深度获取函数

测量不确定性

模型不确定性通常分为两个类别（Der Kiureghian & Ditlevsen 2009，Kendall & Gal 2017）：

偶然不确定性是由数据中的噪声引入的（例如传感器数据、测量过程中的噪声），它可以是依赖于输入的或独立于输入的。由于对真实情况缺乏信息，它通常被认为是不可减少的。
认知不确定性指的是模型参数内部的不确定性，因此我们不知道模型是否能最好地解释数据。这种类型的不确定性在理论上是可减少的，只要有更多数据。

集成和近似集成

在机器学习中，使用集成来提高模型性能有着悠久的传统。当模型之间存在显著的差异时，预期集成会产生更好的结果。这种集成理论已被许多 ML 算法证明是正确的；例如，AdaBoost聚合了许多弱学习器，表现出与单个强学习器相似甚至更好的性能。自助法对多次重新采样进行集成，以获得更准确的指标估计。随机森林或GBM也是集成有效性的良好示例。

为了获得更好的不确定性估计，将一组独立训练的模型聚合起来是直观的。然而，训练单个深度神经网络模型就很昂贵，更不用说训练多个了。在强化学习中，Bootstrapped DQN（Osband 等人，2016）配备了多个值头，并依赖于 Q 值近似集合中的不确定性来引导 RL 中的探索。

在主动学习中，一种常见的方法是使用dropout来“模拟”概率高斯过程（Gal＆Ghahramani，2016）。因此，我们从同一模型收集的多个样本进行集成，但在前向传递过程中应用不同的 dropout 掩码来估计模型的不确定性（认知不确定性）。这个过程被称为MC dropout（蒙特卡洛 dropout），其中在每个权重层之前应用 dropout，被证明在需要有效模型不确定性估计的场景中对小数据集的分类非常有效，并被广泛采用。

DBAL（深度贝叶斯主动学习；Gal 等人，2017）使用 MC dropout 近似贝叶斯神经网络，从而学习模型权重的分布。在他们的实验中，MC dropout 表现优于随机基线和均值标准差（Mean STD），类似于变化率和熵测量。

图 2. DBAL 在 MNIST 上的主动学习结果。（图片来源：Gal 等人 2017）。

Beluch 等人（2018）比较了基于集成的模型与 MC dropout，并发现天真集成（即分别独立训练多个模型）与变化率的组合产生比其他方法更好校准的预测。然而，天真集成非常昂贵，因此他们探索了一些替代更便宜的选项：

快照集成：使用循环学习率计划训练隐式集成，使其收敛到不同的局部最小值。
鼓励多样性的集成（DEE）：使用一个训练了少量时代的基础网络作为$n$个不同网络的初始化，每个网络都使用 dropout 进行训练以鼓励多样性。
分头方法：一个基础模型有多个头部，每个对应一个分类器。

不幸的是，上述所有便宜的隐式集成选项都表现不如天真集成。考虑到计算资源的限制，MC dropout 仍然是一个相当不错且经济的选择。自然地，人们也尝试结合集成和 MC dropout（Pop＆Fulop 2018）通过随机集成获得额外的性能提升。

参数空间中的不确定性

贝叶斯后验推断（Blundell 等人 2015）直接测量神经网络中的权重不确定性。该方法维护了对权重$\mathbf{w}$的概率分布，该分布被建模为变分分布$q(\mathbf{w} \vert \theta)$，因为真实后验$p(\mathbf{w} \vert \mathcal{D})$不能直接计算。损失函数是最小化$q(\mathbf{w} \vert \theta)$和$p(\mathbf{w} \vert \mathcal{D})$之间的 KL 散度，

\[\begin{aligned} \mathcal{L}(\theta) &= \text{KL}[q(\mathbf{w}\vert\theta) \| p(\mathbf{w} \vert \mathcal{D})] \\ &= \int q(\mathbf{w}\vert\theta) \log \frac{q(\mathbf{w}\vert\theta)}{p(\mathbf{w}) p(\mathcal{D}\vert \mathbf{w})} d\mathbf{w} \\ &= \text{KL}[q(\mathbf{w}\vert\theta) \| p(w)] - \mathbb{E}_{q(\mathbf{w}\vert\theta)} [\log p(\mathcal{D} \vert \mathbf{w})] \\ &\approx \log q(\mathbf{w} \vert \theta) - \log p(\mathbf{w}) p(\mathcal{D}\vert \mathbf{w}) & \text{；蒙特卡洛采样；}q(\mathbf{w} \vert \theta)\text{和}p(\mathbf{w})\text{接近。} \end{aligned} \]

变分分布$q$通常是一个具有对角协方差的高斯分布，每个权重从$\mathcal{N}(\mu_i, \sigma_i²)$中采样。为了确保$\sigma_i$的非负性，进一步通过 softplus 参数化，$\sigma_i = \log(1 + \exp(\rho_i))$，其中变分参数为$\theta = \{\mu_i , \rho_i\}^d_{i=1}$。

贝叶斯后验推断的过程可以总结为：

采样$\epsilon \sim \mathcal{N}(0, I)$
令$\mathbf{w} = \mu + \log(1+ \exp(\rho)) \circ \epsilon`
让$\theta = (\mu, \rho)$
让$f(\mathbf{w}, \theta) = \log q(\mathbf{w} \vert \theta) - \log p(\mathbf{w})p(\mathcal{D}\vert \mathbf{w})$
计算$f(\mathbf{w}, \theta)$关于$\mu$和$\rho$的梯度，然后更新$\theta$。
不确定性通过在推断过程中对不同模型权重进行采样来衡量。

损失预测

损失目标指导模型训练。低损失值表示模型可以做出良好和准确的预测。Yoo & Kweon (2019)设计了一个损失预测模块，用于预测未标记输入的损失值，作为模型在给定数据上的预测有多好的估计。如果损失预测模块对数据样本做出不确定的预测（高损失值），则选择这些数据样本。损失预测模块是一个简单的带有 dropout 的 MLP，它以几个中间层特征作为输入，并在全局平均池化后连接它们。

图 3. 使用带有损失预测模块的模型进行主动学习选择。（图片来源：Yoo & Kweon 2019）

让$\hat{l}$为损失预测模块的输出，$l$为真实损失。在训练损失预测模块时，简单的 MSE 损失$=(l - \hat{l})²$不是一个好选择，因为随着模型学会更好地行为，损失会随时间减少。一个好的学习目标应该独立于目标损失的尺度变化。他们依赖于样本对的比较。在每个大小为$b$的批次中，有$b/2$对样本$(\mathbf{x}_i, \mathbf{x}_j)$，损失预测模型应该正确预测哪个样本具有更大的损失。

\[\begin{aligned} \mathcal{L}_\text{loss}(\mathbf{x}_i, \mathbf{x}_j) &= \max\big( 0, -\mathbb{1}(l(\mathbf{x}_i), l(\mathbf{x}_j)) \cdot (\hat{l}(\mathbf{x}_i) - \hat{l}(\mathbf{x}_j)) + \epsilon \big) \\ \text{where } \mathbb{1}(l_i, l_j) &= \begin{cases} +1 & \text{if }l_i > l_j \\ -1 & \text{otherwise} \end{cases} \end{aligned} \]

其中$\epsilon$是预定义的正边距常数。

在三个视觉任务的实验中，基于损失预测的主动学习选择表现优于随机基线、基于熵的获取和核心集。

图 4. 基于损失预测模块的主动学习结果，与其他方法进行比较。（图片来源：Yoo & Kweon 2019）

对抗设置

Sinha et al. (2019)提出了一个类似 GAN 的设置，名为VAAL（变分对抗主动学习），其中鉴别器被训练来区分未标记数据和标记数据。有趣的是，在 VAAL 中，主动学习获取标准不依赖于任务性能。

图 5. VAAL（变分对抗主动学习）的示意图。 (图片来源: Sinha et al. 2019)

$\beta$-VAE 学习一个潜在特征空间 $\mathbf{z}^l \cup \mathbf{z}^u$，分别用于标记和未标记数据，旨在欺骗鉴别器 $D(.)$，使其认为所有数据点都来自标记池;
鉴别器 $D(.)$ 根据潜在表示 $\mathbf{z}$ 预测样本是否被标记为（1）或未被标记为（0）。VAAL 选择具有低鉴别器分数的未标记样本，这表明这些样本与先前标记的样本足够不同。

VAAL 中 VAE 表示学习的损失包含重构部分（最小化给定样本的 ELBO）和对抗部分（标记和未标记数据都是从相同的概率分布 $q_\phi$ 中抽取的）:

\[\begin{aligned} \mathcal{L}_\text{VAE} &= \lambda_1 \mathcal{L}^\text{rec}_\text{VAE} + \lambda_2 \mathcal{L}^\text{adv}_\text{VAE} \\ \mathcal{L}^\text{rec}_\text{VAE} &= \mathbb{E}[\log p_\theta(\mathbf{x}^l \vert \mathbf{z}^l)] - \beta \text{KL}(q_\phi(\mathbf{z}^l \vert \mathbf{x}^l) \| p(\mathbf{\tilde{z}})) + \mathbb{E}[\log p_\theta(\mathbf{u} \vert \mathbf{z}^u)] - \beta \text{KL}(q_\phi(\mathbf{z}^u \vert \mathbf{u}) \| p(\mathbf{\tilde{z}})) \\ \mathcal{L}^\text{adv}_\text{VAE} &= - \mathbb{E}[\log D(q_\phi (\mathbf{z}^l \vert \mathbf{x}^l))] - \mathbb{E}[\log D(q_\phi(\mathbf{z}^u \vert \mathbf{u}))] \end{aligned} \]

其中 $p(\mathbf{\tilde{z}})$ 是预定义的单位高斯先验，$\beta$ 是拉格朗日参数。

鉴别器损失为:

\[ \mathcal{L}_D = -\mathbb{E}[\log D(q_\phi (\mathbf{z}^l \vert \mathbf{x}^l))] - \mathbb{E}[\log (1 - D(q_\phi (\mathbf{z}^u \vert \mathbf{u})))] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/1c8b9b30b39bb5a2a156c8e310461876.png) 图 6\. VAAL（变分对抗主动学习）在几个图像分类任务上的实验结果。 (图片来源: [Sinha et al. 2019](https://arxiv.org/abs/1904.00370)) 消融研究表明，联合训练 VAE 和鉴别器至关重要。他们的结果对初始有偏的标记池、不同的标记预算和有噪声的预言都很稳健。 **MAL**（极小极大主动学习; [Ebrahimiet al. 2021](https://arxiv.org/abs/2012.10467)）是 VAAL 的扩展。MAL 框架由一个熵最小化的特征编码网络 $F$ 和一个熵最大化的分类器 $C$ 组成。这种极小极大设置减小了标记和未标记数据之间的分布差异。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/01f999023b8b364f99c950362021113f.png) 图 7\. MAL（极小极大主动学习）框架的示意图。 (图片来源: [Ebrahimiet al. 2021](https://arxiv.org/abs/2012.10467)) 特征编码器 $F$ 将样本编码为一个 $\ell_2$-归一化的 $d$ 维潜在向量。假设有 $K$ 个类别，分类器 $C$ 的参数化为 $\mathbf{W} \in \mathbb{R}^{d \times K}$。 (1) 首先，$F$ 和 $C$ 通过简单的交叉熵损失在标记样本上进行训练，以获得良好的分类结果， $$ \mathcal{L}_\text{CE} = -\mathbb{E}_{(\mathbf{x}^l, y) \sim \mathcal{X}} \sum_{k=1}^K \mathbb{1}[k=y] \log\Big( \sigma(\frac{1}{T} \frac{\mathbf{W}^\top F\big(\mathbf{x}^l)}{\|F(\mathbf{x}^l)\|}\big) \Big) \]

(2) 在未标记样本上训练时，MAL 依赖于 minimax 游戏设置

\[\begin{aligned} \mathcal{L}_\text{Ent} &= -\sum^K_{k=1} p(y=k \vert \mathbf{u}) \log p(y=k\vert \mathbf{u}) \\ \theta^*_F, \theta^*_C &= \min_F\max_C \mathcal{L}_\text{Ent} \\ \theta_F &\gets \theta_F - \alpha_1 \nabla \mathcal{L}_\text{Ent} \\ \theta_C &\gets \theta_C + \alpha_2 \nabla \mathcal{L}_\text{Ent} \end{aligned} \]

其中，

首先，最小化 $F$ 中的熵鼓励与相似预测标签相关的未标记样本具有相似的特征。
在 $C$ 中最大化熵对抗性地使预测遵循更均匀的类分布。（我在这里的理解是，因为未标记样本的真实标签未知，所以我们不应该立即优化分类器以最大化预测标签。）

判别器的训练方式与 VAAL 中相同。

MAL 中的采样策略考虑了多样性和不确定性：

多样性：$D$ 的分数表示样本与先前看到的样本有多相似。分数越接近 0，选择不熟悉的数据点就越好。
不确定性：使用 $C$ 获得的熵。更高的熵分数表示模型尚不能做出自信的预测。

实验将 MAL 与随机、熵、核心集、BALD 和 VAAL 基线进行了比较，涉及图像分类和分割任务。结果看起来相当强大。

图 8. MAL 在 ImageNet 上的表现。 (表格来源：Ebrahimiet al. 2021)

CAL（对比主动学习；Margatina et al. 2021）旨在选择对比样本。如果具有不同标签的两个数据点在网络表示 $\Phi(.)$ 中具有相似性，则在 CAL 中它们被视为对比样本。给定一对对比样本 $(\mathbf{x}_i, \mathbf{x}_j)$，它们应该

\[d(\Phi(\mathbf{x}_i), \Phi(\mathbf{x}_j)) < \epsilon \quad\text{and}\quad \text{KL}(p(y\vert \mathbf{x}_i) \| p(y\vert \mathbf{x}_j)) \rightarrow \infty \]

给定一个未标记样本 $\mathbf{x}$，CAL 运行以下过程：

在模型特征空间中选择前 $k$ 个最近邻的标记样本，$\{(\mathbf{x}^l_i, y_i\}_{i=1}^M \subset \mathcal{X}$。
计算$\mathbf{x}$的模型输出概率与$\{\mathbf{x}^l\}$中每个的 KL 散度。$\mathbf{x}$的对比分数是这些 KL 散度值的平均值：$s(\mathbf{x}) = \frac{1}{M} \sum_{i=1}^M \text{KL}(p(y \vert \mathbf{x}^l_i | p(y \vert \mathbf{x}))$。
选择具有高对比分数的样本进行主动学习。

在各种分类任务上，CAL 的实验结果与熵基线相似。

衡量代表性

核心集方法

核心集是计算几何学中的一个概念，指的是近似表示较大点集的小点集。近似可以通过某些几何度量来捕捉。在主动学习中，我们期望经过核心集训练的模型表现与整个数据点上的模型相当。

Sener & Savarese (2018)将主动学习视为核心集选择问题。假设在训练期间总共可以访问$N$个样本。在主动学习过程中，每个时间步$t$都会对一小部分数据点进行标记，表示为$\mathcal{S}^{(t)}$。学习目标的上限可以写成以下形式，其中核心集损失定义为标记样本上的平均经验损失与包括未标记样本在内的整个数据集上的损失之间的差异。

\[\begin{aligned} \mathbb{E}_{(\mathbf{x}, y) \sim p} [\mathcal{L}(\mathbf{x}, y)] \leq& \bigg\vert \mathbb{E}_{(\mathbf{x}, y) \sim p} [\mathcal{L}(\mathbf{x}, y)] - \frac{1}{N} \sum_{i=1}^N \mathcal{L}(\mathbf{x}_i, y_i) \bigg\vert & \text{; 泛化误差}\\ +& \frac{1}{\vert \mathcal{S}^{(t)} \vert} \sum_{j=1}^{\vert \mathcal{S}^{(t)} \vert} \mathcal{L}(\mathbf{x}^l_j, y_j) & \text{; 训练误差}\\ +& \bigg\vert \frac{1}{N} \sum_{i=1}^N \mathcal{L}(\mathbf{x}_i, y_i) - \frac{1}{\vert \mathcal{S}^{(t)} \vert} \sum_{j=1}^{\vert \mathcal{S}^{(t)} \vert} \mathcal{L}(\mathbf{x}^l_j, y_j) \bigg\vert & \text{; 核心集误差} \end{aligned} \]

然后，主动学习问题可以重新定义为：

\[\min_{\mathcal{S}^{(t+1)} : \vert \mathcal{S}^{(t+1)} \vert \leq b} \bigg\vert \frac{1}{N}\sum_{i=1}^N \mathcal{L}(\mathbf{x}_i, y_i) - \frac{1}{\vert \mathcal{S}^{(t)} \cup \mathcal{S}^{(t+1)} \vert} \sum_{j=1}^{\vert \mathcal{S}^{(t)} \cup \mathcal{S}^{(t+1)} \vert} \mathcal{L}(\mathbf{x}^l_j, y_j) \bigg\vert \]

这等同于k-Center 问题：选择$b$个中心点，使数据点与其最近中心点之间的最大距离最小化。这个问题是 NP 难的。近似解取决于贪婪算法。

图 9. 在 CIFAR-10、CIFAR-100、SVHN 上，核心集算法的主动学习结果与几种常见基线的比较。 (图片来源：Sener & Savarese 2018)

当类别数量较少时，核心集方法在图像分类任务上表现良好。当类别数量增多或数据维度增加（“维度诅咒”）时，核心集方法变得不那么有效（Sinha 等人，2019）。

由于核心集选择很昂贵，Coleman 等人（2020）尝试使用一个较弱的模型（例如较小、较弱的架构，未完全训练）进行实验，并发现经验上使用一个较弱的模型作为代理可以显著缩短每个重复数据选择周期的训练模型和选择样本，而不会对最终错误造成太大影响。他们的方法被称为SVP（通过代理进行选择）。

多样化梯度嵌入

BADGE（通过多样化梯度嵌入进行批量主动学习；Ash 等人，2020）在梯度空间中跟踪模型不确定性和数据多样性。不确定性是通过相对于网络最后一层的梯度大小来衡量的，而多样性则由涵盖梯度空间中的多样样本集合来捕获。

不确定性。给定一个未标记的样本$\mathbf{x}$，BADGE 首先计算预测$\hat{y}$以及关于最后一层参数的损失在$(\mathbf{x}, \hat{y})$上的梯度$g_\mathbf{x}$。他们观察到$g_\mathbf{x}$的范数保守地估计了样本对模型学习的影响，高置信度样本往往具有较小幅度的梯度嵌入。
多样性。给定许多样本的许多梯度嵌入$g_\mathbf{x}$，BADGE 运行$k$-means++来相应地对数据点进行采样。

图 10. BADGE 算法（通过多样化梯度嵌入进行批量主动学习）。（图片来源：Ash 等人，2020）

测量训练效果

量化模型变化

Settles 等人（2008）引入了一种主动学习查询策略，名为EGL（预期梯度长度）。其动机是找到一些样本，如果它们的标签已知，可以在模型上触发最大的更新。

让$\nabla \mathcal{L}(\theta)$表示损失函数相对于模型参数的梯度。具体来说，给定一个未标记的样本$\mathbf{x}_i$，我们需要计算假设标签为$y \in \mathcal{Y}$时的梯度，$\nabla \mathcal{L}^{(y)}(\theta)$。由于真实标签$y_i$是未知的，EGL 依赖于当前模型信念来计算预期梯度变化：

\[\text{EGL}(\mathbf{x}_i) = \sum_{y_i \in \mathcal{Y}} p(y=y_i \vert \mathbf{x}) \|\nabla \mathcal{L}^{(y_i)}(\theta)\| \]

BALD（贝叶斯主动学习通过分歧；Houlsby 等人 2011）旨在识别最大化关于模型权重的信息增益的样本，这等同于最大化期望后验熵的减少。

\[\begin{aligned} I[\boldsymbol{\theta}, y \vert x,\mathcal{D}] &= H(\boldsymbol{\theta} \vert \mathcal{D}) - \mathbb{E}_{y \sim p(y \vert \boldsymbol{x}, \mathcal{D})} \big[ H(\boldsymbol{\theta} \vert y, \boldsymbol{x}, \mathcal{D}) \big] & \text{; 期望后验熵的减少}\\ &= H(y \vert \boldsymbol{x}, \mathcal{D}) - \mathbb{E}_{\boldsymbol{\theta} \sim p(\boldsymbol{\theta} \vert \mathcal{D})} \big[ H(y \vert \boldsymbol{x}, \mathcal{\theta}) \big] \end{aligned} \]

其基本解释是“寻找$\mathbf{x}$，使得模型对$y$的不确定性最大（高$H(y \vert \mathbf{x}, \mathcal{D})$），但参数的个别设置是自信的（低$H(y \vert \mathbf{x}, \boldsymbol{\theta})$）。换句话说，每个个别的后验抽样是自信的，但一系列抽样具有不同的观点。

BALD 最初是针对单个样本提出的，Kirsch 等人（2019）将其扩展为批处理模式。

遗忘事件

为了调查神经网络是否有遗忘先前学到的信息的倾向，Mariya Toneva 等人（2019）设计了一个实验：他们在训练过程中跟踪每个样本的模型预测，并计算每个样本从被正确分类到错误分类或反之的转换次数。然后可以相应地对样本进行分类，

易忘记（冗余）的样本：如果类别标签在训练周期内发生变化。
难以忘怀的样本：如果类别标签分配在训练周期内保持一致。一旦学会，这些样本就永远不会被遗忘。

他们发现有大量的难以忘怀的例子一旦学会就永远不会被遗忘。具有嘈杂标签或具有“不寻常”特征的图像（在视觉上难以分类的复杂图像）是最容易被遗忘的例子之一。实验证明，可以安全地删除难以忘怀的例子而不会影响模型性能。

在实现中，遗忘事件仅在样本包含在当前训练批次中时计算；也就是说，他们跨后续小批次的呈现计算遗忘。每个样本的遗忘事件数量在不同种子之间非常稳定，易忘记的例子有一定倾向在训练后期首次学习。遗忘事件还发现在整个训练期间和不同架构之间是可转移的。

如果我们假设模型在训练过程中改变预测是模型不确定性的指标，则遗忘事件可以用作主动学习获取的信号。然而，未标记样本的地面真相是未知的。Bengar 等人（2021）提出了一个名为标签离散度的新度量指标。让我们看看在训练时间内，$c^*$ 是输入 $\mathbf{x}$ 最常预测的标签，而标签离散度衡量模型在这个样本上不分配 $c^*$ 的训练步骤的比例：

\[\text{离散度}(\mathbf{x}) = 1 - \frac{f_\mathbf{x}}{T} \text{ 其中 } f_\mathbf{x} = \sum_{t=1}^T \mathbb{1}[\hat{y}_t = c^*], c^* = \arg\max_{c=1,\dots,C}\sum_{t=1}^T \mathbb{1}[\hat{y}_t = c] \]

在他们的实现中，每个时期都计算离散度。如果模型一直将相同的标签分配给相同的样本，则标签离散度低，但如果预测经常变化，则标签离散度高。如图 11 所示，标签离散度与网络不确定性相关。

图 11. 标签离散度与网络不确定性相关。在 x 轴上，数据点按照标签离散度得分排序。y 轴是模型在尝试推断这些样本的标签时的预测准确性。（图片来源：Bengar 等人，2021）

混合

在批量模式下运行主动学习时，控制批次内的多样性非常重要。建议性注释（SA；Yang 等人，2017）是一种两步混合策略，旨在选择既具有高不确定性又高度代表性的标记样本。它利用从在标记数据上训练的模型集成中获得的不确定性和核心集来选择代表性数据样本。

首先，SA 选择具有高不确定性得分的前 $K$ 个图像，形成候选池 $\mathcal{S}_c \subseteq \mathcal{S}_U$。不确定性是通过多个使用自举法训练的模型之间的不一致性来衡量的。
下一步是找到具有最高代表性的子集 $\mathcal{S}_a \subseteq \mathcal{S}_c$。两个输入的特征向量之间的余弦相似度近似了它们的相似程度。$\mathcal{S}_a$ 对于 $\mathcal{S}_U$ 的代表性反映了 $\mathcal{S}_a$ 能多好地代表 $\mathcal{S}_u$ 中的所有样本，定义为：

\[F(\mathcal{S}_a, \mathcal{S}_u) = \sum_{\mathbf{x}_j \in \mathcal{S}_u} f(\mathcal{S}_a, \mathbf{x}_j) = \sum_{\mathbf{x}_j \in \mathcal{S}_u} \max_{\mathbf{x}_i \in \mathcal{S}_a} \text{sim}(\mathbf{x}_i, \mathbf{x}_j) \]

将 $\mathcal{S}_a \subseteq \mathcal{S}_c$ 与 $k$ 个数据点形成的 $F(\mathcal{S}_a, \mathcal{S}_u)$ 最大化是最大集合覆盖问题的一个泛化版本。这是 NP 难题，其最佳多项式时间近似算法是一个简单的贪心方法。

最初，$\mathcal{S}_a = \emptyset$，$F(\mathcal{S}_a, \mathcal{S}_u) = 0$。
然后，迭代地添加 $\mathbf{x}_i \in \mathcal{S}_c$，使得 $F(\mathcal{S}_a \cup I_i, \mathcal{S}_u)$ 在 $\mathcal{S}_a$ 上最大化，直到 $\mathcal{S}_s$ 包含 $k$ 张图片。

Zhdanov (2019) 运行与 SA 类似的过程，但在第 2 步中，它依赖于 $k$-means 而不是核心集，其中候选池的大小相对于批量大小进行配置。给定批量大小 $b$ 和一个常数 $beta$（在 10 和 50 之间），它遵循以下步骤：

在有标签数据上训练分类器；
测量每个未标记示例的信息量（例如使用不确定性度量）；
预过滤前 $\beta b \geq b$ 个最具信息量的示例；
将 $\beta b$ 个示例聚类成 $B$ 个簇；
选择本轮主动学习中距离聚类中心最近的 $b$ 个不同示例。

主动学习可以进一步与半监督学习结合以节省预算。CEAL（成本效益主动学习；杨等人 2017）同时运行两个任务：

通过主动学习选择不确定样本并对其进行标记；
选择具有最自信预测的样本并为其分配伪标签。自信预测是通过预测熵是否低于阈值 $\delta$ 来判断的。随着模型的不断改进，阈值 $\delta$ 也会随时间衰减。

图 12。CEAL（成本效益主动学习）的示意图。 (图片来源：杨等人 2017)

引用

被引用为：

翁，莉莲。 (2022 年 2 月)。不足数据学习第 2 部分：主动学习。Lil’Log。https://lilianweng.github.io/posts/2022-02-20-active-learning/。

或

@article{weng2022active,
  title   = "Learning with not Enough Data Part 2: Active Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2022",
  month   = "Feb",
  url     = "https://lilianweng.github.io/posts/2022-02-20-active-learning/"
}

参考文献

[1] 布尔·塞特尔斯。主动学习文献综述。威斯康星大学麦迪逊分校，52(55-66):11，2010 年。

[2] jacobgil.github.io/deeplearning/activelearning

[3] 杨等人。“深度图像分类的成本效益主动学习” TCSVT 2016。

[4] Yarin Gal 等人。“Dropout 作为贝叶斯近似：在深度学习中表示模型不确定性。” ICML 2016。

[5] Blundell 等人。“神经网络中的权重不确定性（贝叶斯逆向传播）。” ICML 2015。

[6] 塞特尔斯等人。“多实例主动学习。” NIPS 2007。

[7] 霍尔斯比等人。用于分类和偏好学习的贝叶斯主动学习。 arXiv 预印本 arXiv:1112.5745 (2020)。

[8] Kirsch et al. “BatchBALD：深度贝叶斯主动学习的高效和多样化批量获取。” NeurIPS 2019.

[9] Beluch et al. “集成在图像分类中的主动学习的力量。” CVPR 2018.

[10] Sener & Savarese. “卷积神经网络的主动学习：核心集方法。” ICLR 2018.

[11] Donggeun Yoo & In So Kweon. “主动学习的学习损失。” CVPR 2019.

[12] Margatina et al. “通过获取对比示例进行主动学习。” EMNLP 2021.

[13] Sinha et al. “变分对抗主动学习” ICCV 2019

[14] Ebrahimiet al. “Minmax 主动学习” arXiv 预印本 arXiv:2012.10467 (2021).

[15] Mariya Toneva et al. “深度神经网络学习过程中的示例遗忘的实证研究。” ICLR 2019.

[16] Javad Zolfaghari Bengar et al. “当深度学习者改变主意：主动学习的学习动态。” CAIP 2021.

[17] Yang et al. “建议性注释：生物医学图像分割的深度主动学习框架。” MICCAI 2017.

[18] Fedor Zhdanov. “多样化小批量主动学习” arXiv 预印本 arXiv:1901.05954 (2019).

学习不足数据第 1 部分：半监督学习

原文：lilianweng.github.io/posts/2021-12-05-semi-supervised/

面对有限数量的有标签数据进行监督学习任务时，通常讨论四种方法。

预训练 + 微调：在大型无监督数据语料库上预训练一个强大的任务无关模型，例如在自由文本上预训练语言模型，或者通过自监督学习在未标记图像上预训练视觉模型，然后用少量标记样本在下游任务上进行微调。
半监督学习：从有标签和无标签样本一起学习。在这种方法中，对视觉任务进行了大量研究。
主动学习：标记是昂贵的，但我们仍然希望在给定成本预算的情况下收集更多数据。主动学习学习选择最有价值的未标记样本以便下一步收集，并帮助我们在有限的预算下聪明地行动。
预训练 + 数据集自动生成：给定一个能力强大的预训练模型，我们可以利用它自动生成更多有标签样本。这在语言领域特别受欢迎，受到少样本学习成功的推动。

我计划写一系列关于“学习不足数据”的主题的文章。第一部分是关于半监督学习。

什么是半监督学习？

半监督学习使用有标签和无标签数据来训练模型。

有趣的是，大多数现有的关于半监督学习的文献都集中在视觉任务上。而对于语言任务，预训练 + 微调是一种更常见的范式。

本文介绍的所有方法都有一个结合两部分的损失：$\mathcal{L} = \mathcal{L}_s + \mu(t) \mathcal{L}_u$。监督损失$\mathcal{L}_s$很容易得到，因为有所有标记样本。我们将重点关注无监督损失$\mathcal{L}_u$的设计。一个常见的权重项$\mu(t)$的选择是一个斜坡函数，随着时间增加$\mathcal{L}_u$的重要性，其中$t$是训练步骤。

免责声明：本文不会涵盖重点放在模型架构修改上的半监督方法。查看这份调查报告了解如何在半监督学习中使用生成模型和基于图的方法。

符号

符号	含义
$L$	唯一标签的数量。
$(\mathbf{x}^l, y) \sim \mathcal{X}, y \in \{0, 1\}^L$	有标签数据集。$y$是真实标签的独热表示。
$\mathbf{u} \sim \mathcal{U}$	未标记数据集。
$\mathcal{D} = \mathcal{X} \cup \mathcal{U}$	整个数据集，包括有标签和无标签样本。
$\mathbf{x}$	任何样本，可以是有标签或无标签的。
$\bar{\mathbf{x}}$	应用增强后的$\mathbf{x}$。
$\mathbf{x}_i$	第 $i$ 个样本。
$\mathcal{L}$, $\mathcal{L}_s$, $\mathcal{L}_u$	损失、监督损失和无监督损失。
$\mu(t)$	无监督损失权重，随时间增加。
$p(y \vert \mathbf{x}), p_\theta(y \vert \mathbf{x})$	给定输入的标签集的条件概率。
$f_\theta(.)$	具有权重 $\theta$ 的实现的神经网络，我们要训练的模型。
$\mathbf{z} = f_\theta(\mathbf{x})$	$f$ 输出的 logits 向量。
$\hat{y} = \text{softmax}(\mathbf{z})$	预测的标签分布。
$D[.,.]$	两个分布之间的距离函数，例如 MSE、交叉熵、KL 散度等。
$\beta$	教师模型权重的 EMA 加权超参数。
$\alpha, \lambda$	MixUp 的参数，$\lambda \sim \text{Beta}(\alpha, \alpha)$。
$T$	用于加强预测分布的温度。
$\tau$	用于选择合格预测的置信阈值。

假设

文献中讨论了几个假设，以支持半监督学习方法中的某些设计决策。

H1: 平滑性假设：如果两个数据样本在特征空间的高密度区域中接近，它们的标签应该相同或非常相似。
H2: 聚类假设：特征空间既有密集区域又有稀疏区域。密集分组的数据点自然形成一个聚类。同一聚类中的样本预期具有相同的标签。这是 H1 的一个小扩展。
H3: 低密度分离假设：类之间的决策边界倾向于位于稀疏的低密度区域，否则决策边界将把高密度聚类切割成两个类，对应于两个聚类，这将使 H1 和 H2 无效。
H4: 流形假设：高维数据倾向于位于低维流形上。即使真实世界的数据可能在非常高的维度中观察到（例如真实世界物体/场景的图像），它们实际上可以被捕捉在一个较低维度的流形上，其中某些属性被捕捉，相似的点被紧密分组（例如真实世界物体/场景的图像并不是从所有像素组合的均匀分布中绘制的）。这使我们能够学习一个更有效的表示，以便发现和衡量未标记数据点之间的相似性。这也是表示学习的基础。[参见一个有用的链接]。

一致性正则化

一致性正则化，也称为一致性训练，假设神经网络内部的随机性（例如使用 Dropout）或数据增强转换不应该在给定相同输入时修改模型预测。本节中的每种方法都有一致性正则化损失 $\mathcal{L}_u$。

这个想法已经被应用在几种自监督学习方法中，如 SimCLR、BYOL、SimCSE 等。同一样本的不同增强版本应该产生相同的表示。交叉视图训练在语言建模中以及自监督学习中的多视图学习都有相同的动机。

Π-模型

图 1. Π-模型的概览。通过网络传递具有不同随机增强和 dropout 掩模的相同输入的两个版本，并期望输出保持一致。（图片来源：Laine & Aila (2017)）

Sajjadi et al. (2016) 提出了一种无监督学习损失，用于最小化通过网络进行两次随机变换（例如 dropout，随机最大池化）的相同数据点之间的差异。标签没有被明确使用，因此该损失可以应用于无标签数据集。Laine & Aila (2017) 后来为这种设置创造了名字，Π-模型。

\[\mathcal{L}_u^\Pi = \sum_{\mathbf{x} \in \mathcal{D}} \text{MSE}(f_\theta(\mathbf{x}), f'_\theta(\mathbf{x})) \]

其中$f'$是应用不同随机增强或 dropout 掩模的相同神经网络。这种损失利用整个数据集。

时间集成

图 2. 时间集成的概览。每个样本的 EMA 标签预测是学习目标。（图片来源：Laine & Aila (2017)）

Π-模型要求网络对每个样本运行两次，使计算成本加倍。为了减少成本，时间集成（Laine & Aila 2017）维护每个训练样本的模型预测的指数移动平均值（EMA）作为学习目标，该值仅在每个时期评估和更新一次。由于集成输出$\tilde{\mathbf{z}}_i$初始化为$\mathbf{0}$，因此通过$(1-\alpha^t)$进行归一化以纠正这种启动偏差。Adam 优化器也有这种偏差校正项出于同样的原因。

\[\tilde{\mathbf{z}}^{(t)}_i = \frac{\alpha \tilde{\mathbf{z}}^{(t-1)}_i + (1-\alpha) \mathbf{z}_i}{1-\alpha^t} \]

其中$\tilde{\mathbf{z}}^{(t)}$是第$t$个时期的集成预测，$\mathbf{z}_i$是当前轮次的模型预测。请注意，由于$\tilde{\mathbf{z}}^{(0)} = \mathbf{0}$，经过校正，$\tilde{\mathbf{z}}^{(1)}$在第 1 个时期简单等同于$\mathbf{z}_i$。

严厉的老师

图 3. Mean Teacher 框架概述。（图片来源：Tarvaninen & Valpola, 2017）

时间集成跟踪每个训练样本的标签预测的 EMA 作为学习目标。然而，这种标签预测仅在每个时代更改，使得当训练数据集很大时，这种方法变得笨拙。Mean Teacher（Tarvaninen & Valpola, 2017）被提出来克服目标更新速度慢的问题，通过跟踪模型权重的移动平均而不是模型输出。让我们将具有权重$\theta$的原始模型称为学生模型，将连续学生模型之间的移动平均权重$\theta'$的模型称为平均老师：$\theta' \gets \beta \theta' + (1-\beta)\theta$

一致性正则化损失是学生和老师的预测之间的距离，学生-老师间隙应该被最小化。平均老师预计会提供比学生更准确的预测。这在经验实验中得到了确认，如图 4 所示。

图 4. Mean Teacher 和Π模型在 SVHN 上的分类错误。平均老师（橙色）比学生模型（蓝色）表现更好。（图片来源：Tarvaninen & Valpola, 2017）

根据他们的消融研究，

输入增强（例如输入图像的随机翻转，高斯噪声）或学生模型的辍学对于良好的性能是必要的。老师模型不需要辍学。
性能对 EMA 衰减超参数$\beta$敏感。一个好的策略是在上升阶段使用小的$\beta=0.99$，当学生模型改进减缓时，在后期阶段使用较大的$\beta=0.999$。
他们发现作为一致性成本函数的 MSE 比其他成本函数如 KL 散度表现更好。

以嘈杂样本作为学习目标

几种最近的一致性训练方法学习最小化原始未标记样本与其对应增强版本之间的预测差异。这与Π模型非常相似，但一致性正则化损失仅应用于未标记数据。

图 5. 使用嘈杂样本进行一致性训练。

对抗训练（Goodfellow 等人，2014）将对抗性噪声施加到输入上，并训练模型对此类对抗性攻击具有鲁棒性。该设置适用于监督学习，

\[\begin{aligned} \mathcal{L}_\text{adv}(\mathbf{x}^l, \theta) &= D[q(y\mid \mathbf{x}^l), p_\theta(y\mid \mathbf{x}^l + r_\text{adv})] \\ r_\text{adv} &= {\arg\max}_{r; \|r\| \leq \epsilon} D[q(y\mid \mathbf{x}^l), p_\theta(y\mid \mathbf{x}^l + r_\text{adv})] \\ r_\text{adv} &\approx \epsilon \frac{g}{\|g\|_2} \approx \epsilon\text{sign}(g)\quad\text{where }g = \nabla_{r} D[y, p_\theta(y\mid \mathbf{x}^l + r)] \end{aligned} \]

其中 $q(y \mid \mathbf{x}^l)$ 是真实分布，通过独热编码地面实际标签 $y$ 近似得到。$p_\theta(y \mid \mathbf{x}^l)$ 是模型预测。$D[.,.]$ 是衡量两个分布之间差异的距离函数。

虚拟对抗训练（VAT；Miyato et al. 2018）将这一思想扩展到半监督学习中。由于 $q(y \mid \mathbf{x}^l)$ 是未知的，VAT 用当前模型对原始输入的预测替换它，使用当前权重 $\hat{\theta}$。注意 $\hat{\theta}$ 是模型权重的固定副本，因此 $\hat{\theta}$ 上没有梯度更新。

\[\begin{aligned} \mathcal{L}_u^\text{VAT}(\mathbf{x}, \theta) &= D[p_{\hat{\theta}}(y\mid \mathbf{x}), p_\theta(y\mid \mathbf{x} + r_\text{vadv})] \\ r_\text{vadv} &= {\arg\max}_{r; \|r\| \leq \epsilon} D[p_{\hat{\theta}}(y\mid \mathbf{x}), p_\theta(y\mid \mathbf{x} + r)] \end{aligned} \]

VAT 损失适用于有标签和无标签样本。它是当前模型在每个数据点处预测流形的负平滑度量。这种损失的优化促使流形更加平滑。

插值一致性训练（ICT；Verma et al. 2019）通过添加更多数据点的插值来增强数据集，并期望模型预测与相应标签的插值一致。MixUp（Zheng et al. 2018）操作通过简单的加权和混合两个图像，并结合标签平滑。在 MixUp 的思想指导下，ICT 期望预测模型在混合样本上产生一个标签，以匹配相应输入的预测插值：

\[\begin{aligned} \text{mixup}_\lambda (\mathbf{x}_i, \mathbf{x}_j) &= \lambda \mathbf{x}_i + (1-\lambda)\mathbf{x}_j \\ p(\text{mixup}_\lambda (y \mid \mathbf{x}_i, \mathbf{x}_j)) &\approx \lambda p(y \mid \mathbf{x}_i) + (1-\lambda) p(y \mid \mathbf{x}_j) \end{aligned} \]

其中 $\theta'$ 是 $\theta$ 的移动平均值，是 mean teacher。

Fig. 6. Interpolation Consistency Training 概述。MixUp 用于生成更多插值样本，插值标签作为学习目标。（图片来源：Verma et al. 2019）

因为两个随机选择的未标记样本属于不同类别的概率很高（例如 ImageNet 中有 1000 个对象类别），所以通过在两个随机未标记样本之间应用混合可能会发生在决策边界附近。根据低密度分离的假设，决策边界倾向于位于低密度区域。

\[\mathcal{L}^\text{ICT}_{u} = \mathbb{E}_{\mathbf{u}_i, \mathbf{u}_j \sim \mathcal{U}} \mathbb{E}_{\lambda \sim \text{Beta}(\alpha, \alpha)} D[p_\theta(y \mid \text{mixup}_\lambda (\mathbf{u}_i, \mathbf{u}_j)), \text{mixup}_\lambda(p_{\theta’}(y \mid \mathbf{u}_i), p_{\theta'}(y \mid \mathbf{u}_j)] \]

其中$\theta’$是$\theta$的移动平均值。

与 VAT 类似，无监督数据增强 (UDA; Xie et al. 2020) 学习为未标记的示例和增强后的示例预测相同的输出。 UDA 特别关注研究噪声的“质量”如何影响一致性训练的半监督学习性能。使用先进的数据增强方法产生有意义且有效的噪声样本至关重要。良好的数据增强应产生有效的（即不更改标签）和多样化的噪声，并携带有针对性的归纳偏差。

对于图像，UDA 采用了 RandAugment (Cubuk et al. 2019)，它均匀地采样PIL中可用的增强操作，无需学习或优化，因此比 AutoAugment 要便宜得多。

Fig. 7. CIFAR-10 分类上各种半监督学习方法的比较。在没有 RandAugment 的情况下，完全监督的 Wide-ResNet-28-2 和 PyramidNet+ShakeDrop 在训练 50,000 个示例时的错误率分别为5.4和2.7。 (图片来源: Xie et al. 2020)

对于语言，UDA 结合了反向翻译和基于 TF-IDF 的词替换。反向翻译保留了高层次的含义，但可能不保留某些词，而基于 TF-IDF 的词替换则删除具有低 TF-IDF 分数的无信息词。在语言任务的实验中，他们发现 UDA 对于迁移学习和表示学习是互补的；例如，在领域内未标记数据上微调的 BERT（即图 8 中的$\text{BERT}_\text{FINETUNE}$）可以进一步提高性能。

Fig. 8. UDA 在不同初始化配置下在各种文本分类任务上的比较。 (图片来源: Xie et al. 2020)

在计算$\mathcal{L}_u$时，UDA 发现两种训练技巧有助于改善结果。

低置信度掩码：如果低于阈值$\tau$，则屏蔽预测置信度低的示例。
加强预测分布：在 softmax 中使用低温$T$来加强预测的概率分布。
领域内数据过滤：为了从大型领域外数据集中提取更多领域内数据，他们训练了一个分类器来预测领域内标签，然后保留具有高置信度预测的样本作为领域内候选样本。

\[\begin{aligned} &\mathcal{L}_u^\text{UDA} = \mathbb{1}[\max_{y'} p_{\hat{\theta}}(y'\mid \mathbf{x}) > \tau ] \cdot D[p^\text{(sharp)}_{\hat{\theta}}(y \mid \mathbf{x}; T), p_\theta(y \mid \bar{\mathbf{x}})] \\ &\text{其中 } p_{\hat{\theta}}^\text{(sharp)}(y \mid \mathbf{x}; T) = \frac{\exp(z^{(y)} / T)}{ \sum_{y'} \exp(z^{(y')} / T) } \end{aligned} \]

其中$\hat{\theta}$是模型权重的固定副本，与 VAT 中相同，因此没有梯度更新，$\bar{\mathbf{x}}$是增强的数据点。$\tau$是预测置信度阈值，$T$是分布加热温度。

伪标签

伪标签（Lee，2013）根据当前模型预测的最大 softmax 概率为未标记样本分配虚假标签，然后在纯监督设置中同时对标记和未标记样本进行训练。

为什么伪标签有效？伪标签实际上等效于熵正则化（Grandvalet＆Bengio，2004），它最小化未标记数据的类概率的条件熵，以支持类之间的低密度分离。换句话说，预测的类概率实际上是类重叠的度量，最小化熵等效于减少类重叠，从而实现低密度分离。

图 9. 通过在 60000 个未标记样本上进行伪标记的模型训练，在 MNIST 测试集上的 t-SNE 可视化输出，（a）没有和（b）使用伪标签。伪标签导致学习嵌入空间中更好的分离。（图片来源：Lee，2013）

使用伪标签进行训练自然是一个迭代过程。我们将产生伪标签的模型称为教师，学习伪标签的模型称为学生。

标签传播

标签传播（Iscen 等人，2019）是一种基于特征嵌入构建样本之间相似性图的想法。然后，伪标签从已知样本“扩散”到未标记的样本，其中传播权重与图中成对相似性分数成比例。从概念上讲，它类似于 k-NN 分类器，两者都存在无法很好地处理大型数据集的问题。

图 10. 标签传播的工作原理示意图（图片来源：Iscen 等人 2019）

自训练

自训练不是一个新概念（斯卡德 1965、尼格拉姆＆加尼 CIKM 2000）。它是一个迭代算法，交替执行以下两个步骤，直到每个未标记样本都有一个标签分配：

最初在有标签数据上构建分类器。
然后使用这个分类器预测未标记数据的标签，并将最有信心的转换为标记样本。

谢等人（2020）在深度学习中应用了自训练，并取得了很好的结果。在 ImageNet 分类任务中，他们首先训练了一个 EfficientNet（谭＆莱 2019）模型作为老师，为 3 亿个未标记图像生成伪标签，然后训练一个更大的 EfficientNet 作为学生，使用真实标记和伪标记图像进行学习。在他们的设置中，一个关键元素是在学生模型训练过程中引入噪音，但老师产生伪标签时没有噪音。因此他们的方法被称为嘈杂学生。他们对学生应用了随机深度（黄等人 2016）、辍学和 RandAugment 来为学生引入噪音。噪音对于学生表现优于老师至关重要。添加的噪音具有复合效应，鼓励模型在有标记和无标记数据上的决策边界变得平滑。

在嘈杂的学生自训练中的一些其他重要技术配置是：

学生模型应该足够大（即比老师大）以适应更多数据。
嘈杂学生应该与数据平衡配对，特别重要的是平衡每个类别中的伪标记图像数量。
软伪标签比硬标签效果更好。

尽管模型并非针对对抗性鲁棒性进行优化，但嘈杂学生也提高了对 FGSM（快速梯度符号攻击 = 该攻击使用损失相对于输入数据的梯度，并调整输入数据以最大化损失）攻击的对抗性鲁棒性。

SentAugment，由杜等人（2020）提出，旨在解决语言领域自训练中没有足够的领域内未标记数据的问题。它依赖于句子嵌入来从大型语料库中找到未标记的领域内样本，并使用检索到的句子进行自训练。

减少确认偏见

确认偏见是由不完美的老师模型提供的错误伪标签的问题。过度拟合错误标签可能不会给我们带来更好的学生模型。

为了减少确认偏见，Arazo et al. (2019)提出了两种技术。一种是采用带软标签的 MixUp。给定两个样本，$(\mathbf{x}_i, \mathbf{x}_j)$及其对应的真实或伪标签$(y_i, y_j)$，插值标签方程可以转化为具有 softmax 输出的交叉熵损失：

\[\begin{aligned} &\bar{\mathbf{x}} = \lambda \mathbf{x}_i + (1-\lambda) \mathbf{x}_j \\ &\bar{y} = \lambda y_i + (1-\lambda) y_j \Leftrightarrow \mathcal{L} = \lambda [y_i^\top \log f_\theta(\bar{\mathbf{x}})] + (1-\lambda) [y_j^\top \log f_\theta(\bar{\mathbf{x}})] \end{aligned} \]

如果标记样本太少，Mixup 是不够的。他们通过过采样标记样本在每个小批次中设置了最小数量的标记样本。这比加权标记样本更好，因为它导致更频繁的更新而不是较大幅度的少量更新，这可能不太稳定。像一致性正则化、数据增强和丢弃对于伪标记工作良好也很重要。

元伪标签(Pham et al. 2021)不断调整教师模型，根据学生在标记数据集上的表现反馈。教师和学生并行训练，其中教师学习生成更好的伪标签，学生从伪标签中学习。

让教师和学生模型的权重分别为$\theta_T$和$\theta_S$。学生模型在标记样本上的损失被定义为$\theta^\text{PL}_S(.)$的函数，我们希望通过相应地优化教师模型来最小化这个损失。

\[\begin{aligned} \min_{\theta_T} &\mathcal{L}_s(\theta^\text{PL}_S(\theta_T)) = \min_{\theta_T} \mathbb{E}_{(\mathbf{x}^l, y) \in \mathcal{X}} \text{CE}[y, f_{\theta_S}(\mathbf{x}^l)] \\ \text{其中 } &\theta^\text{PL}_S(\theta_T) = \arg\min_{\theta_S} \mathcal{L}_u (\theta_T, \theta_S) = \arg\min_{\theta_S} \mathbb{E}_{\mathbf{u} \sim \mathcal{U}} \text{CE}[(f_{\theta_T}(\mathbf{u}), f_{\theta_S}(\mathbf{u}))] \end{aligned} \]

但是，优化上述方程并不是一件简单的事情。借鉴MAML的思想，它用$\theta_S$的一步梯度更新来近似多步$\arg\min_{\theta_S}$，

\[\begin{aligned} \theta^\text{PL}_S(\theta_T) &\approx \theta_S - \eta_S \cdot \nabla_{\theta_S} \mathcal{L}_u(\theta_T, \theta_S) \\ \min_{\theta_T} \mathcal{L}_s (\theta^\text{PL}_S(\theta_T)) &\approx \min_{\theta_T} \mathcal{L}_s \big( \theta_S - \eta_S \cdot \nabla_{\theta_S} \mathcal{L}_u(\theta_T, \theta_S) \big) \end{aligned} \]

使用软伪标签，上述目标是可微的。但是如果使用硬伪标签，它是不可微的，因此我们需要使用 RL，例如 REINFORCE。

优化过程在训练两个模型之间交替进行：

学生模型更新：给定一批未标记样本$\{ \mathbf{u} \}$，我们通过$f_{\theta_T}(\mathbf{u})$生成伪标签，并用一步 SGD 优化$\theta_S$：$\theta’_S = \color{green}{\theta_S - \eta_S \cdot \nabla_{\theta_S} \mathcal{L}_u(\theta_T, \theta_S)}$。
教师模型更新：给定一批标记样本$\{(\mathbf{x}^l, y)\}$，我们重复使用学生的更新来优化$\theta_T$：$\theta’_T = \theta_T - \eta_T \cdot \nabla_{\theta_T} \mathcal{L}_s ( \color{green}{\theta_S - \eta_S \cdot \nabla_{\theta_S} \mathcal{L}_u(\theta_T, \theta_S)} )$。此外，UDA 目标应用于教师模型以整合一致性正则化。

图 11。Meta Pseudo Labels 与其他图像分类任务上的半监督或自监督学习方法的比较。（图片来源：Pham et al. 2021）

具有一致性正则化的伪标记

可以将上述两种方法结合在一起，同时运行具有伪标记和一致性训练的半监督学习。

MixMatch

MixMatch（Berthelot et al. 2019）作为半监督学习的一种整体方法，利用未标记数据通过合并以下技术：

一致性正则化：鼓励模型在扰动的未标记样本上输出相同的预测。
熵最小化：鼓励模型对未标记数据输出自信的预测。
MixUp增强：鼓励模型在样本之间具有线性行为。

给定一批标记数据$\mathcal{X}$和未标记数据$\mathcal{U}$，我们通过$\text{MixMatch}(.)$创建它们的增强版本，$\bar{\mathcal{X}}$和$\bar{\mathcal{U}}$，包含增强样本和对未标记示例的猜测标签。

\[\begin{aligned} \bar{\mathcal{X}}, \bar{\mathcal{U}} &= \text{MixMatch}(\mathcal{X}, \mathcal{U}, T, K, \alpha) \\ \mathcal{L}^\text{MM}_s &= \frac{1}{\vert \bar{\mathcal{X}} \vert} \sum_{(\bar{\mathbf{x}}^l, y)\in \bar{\mathcal{X}}} D[y, p_\theta(y \mid \bar{\mathbf{x}}^l)] \\ \mathcal{L}^\text{MM}_u &= \frac{1}{L\vert \bar{\mathcal{U}} \vert} \sum_{(\bar{\mathbf{u}}, \hat{y})\in \bar{\mathcal{U}}} \| \hat{y} - p_\theta(y \mid \bar{\mathbf{u}}) \|²_2 \\ \end{aligned} \]

其中$T$是用于减少猜测标签重叠的锐化温度；$K$是每个未标记示例生成的增强数量；$\alpha$是 MixUp 中的参数。

对于每个$\mathbf{u}$，MixMatch 生成$K$个增强，$\bar{\mathbf{u}}^{(k)} = \text{Augment}(\mathbf{u})$，$k=1, \dots, K$，并且基于平均值猜测伪标签：$\hat{y} = \frac{1}{K} \sum_{k=1}^K p_\theta(y \mid \bar{\mathbf{u}}^{(k)})$。

图 12。在 MixMatch 中“标签猜测”的过程：对$K$个增强进行平均，校正预测的边际分布，最后锐化分布。（图片来源：Berthelot 等人，2019）

根据他们的消融研究，特别是在未标记数据上使用 MixUp 至关重要。去除伪标签分布上的温度调整会严重影响性能。对于标签猜测，需要对多个增强进行平均。

ReMixMatch（Berthelot 等人，2020）通过引入两种新机制改进了 MixMatch：

图 13。ReMixMatch 相对于 MixMatch 引入的两个改进的示意图。（图片来源：Berthelot 等人，2020）

分布对齐。它鼓励边际分布$p(y)$接近地面真实标签的边际分布。设$p(y)$为真实标签中的类分布，$\tilde{p}(\hat{y})$为未标记数据中预测的类分布的滑动平均。对于未标记样本上的模型预测$p_\theta(y \vert \mathbf{u})$被归一化为$\text{Normalize}\big( \frac{p_\theta(y \vert \mathbf{u}) p(y)}{\tilde{p}(\hat{y})} \big)$以匹配真实的边际分布。
- 请注意，如果边际分布不均匀，则熵最小化不是一个有用的目标。
- 我确实觉得假设标记数据和未标记数据上的类分布应该匹配的假设太强了，在现实世界的设置中未必成立。
增强锚定。给定一个未标记的样本，首先生成一个带有弱增强的“锚定”版本，然后使用 CTAugment（控制理论增强）对$K$个强增强版本进行平均。 CTAugment 仅对保持模型预测在网络容差范围内的增强进行采样。

ReMixMatch 损失是几个项的组合，

一个带有数据增强和 MixUp 的监督损失；
一个无监督的损失函数，应用数据增强和 MixUp，使用伪标签作为目标；
在单个经过大量增强的未标记图像上进行的 CE 损失，没有 MixUp；
一个旋转损失，就像自监督学习中的那样。

DivideMix

DivideMix（Junnan Li 等人 2020）将半监督学习与带有噪声标签的学习（LNL）相结合。它通过一个 GMM 模型来建模每个样本的损失分布，动态地将训练数据分为一个带有干净示例的标记集和一个带有嘈杂示例的未标记集。遵循 Arazo 等人 2019 的思路，他们在每个样本的交叉熵损失 $\ell_i = y_i^\top \log f_\theta(\mathbf{x}_i)$ 上拟合一个两分量的 GMM。干净样本预计比嘈杂样本更快地获得较低的损失。均值较小的分量是对应于干净标签的簇，我们将其表示为 $c$。如果 GMM 后验概率 $w_i = p_\text{GMM}(c \mid \ell_i)$（即样本属于干净样本集的概率）大于阈值 $\tau$，则将该样本视为干净样本，否则视为嘈杂样本。

数据聚类步骤被命名为 协同分割。为了避免确认偏差，DivideMix 同时训练两个分歧网络，其中每个网络使用另一个网络的数据集划分；例如，考虑双 Q 学习的工作原理。

图 14. DivideMix 独立训练两个网络以减少确认偏差。它们同时运行协同分割、协同细化和协同猜测。（图片来源：Junnan Li 等人 2020）

与 MixMatch 相比，DivideMix 在训练过程中具有额外的 协同分割 阶段来处理嘈杂样本，并且在训练过程中有以下改进：

标签协同细化：它线性组合了地面真实标签 $y_i$ 和网络的预测 $\hat{y}_i$，后者在多次对 $\mathbf{x}_i$ 进行增强后取平均，由另一个网络产生的干净集概率 $w_i$ 引导。
标签协同猜测：它对未标记数据样本的两个模型的预测进行平均。

图 15. DivideMix 算法。（图片来源：Junnan Li 等人 2020）

FixMatch

FixMatch（Sohn 等人 2020）在未标记样本上生成伪标签，并仅保留高置信度的预测。这里，弱数据增强和高置信度过滤都有助于生成高质量可信赖的伪标签目标。然后 FixMatch 学习预测这些伪标签，给定一个经过大量增强的样本。

图 16. FixMatch 工作原理示意图。（图片来源：Sohn 等人 2020）

\[\begin{aligned} \mathcal{L}_s &= \frac{1}{B} \sum^B_{b=1} \text{CE}[y_b, p_\theta(y \mid \mathcal{A}_\text{weak}(\mathbf{x}_b))] \\ \mathcal{L}_u &= \frac{1}{\mu B} \sum_{b=1}^{\mu B} \mathbb{1}[\max(\hat{y}_b) \geq \tau]\;\text{CE}(\hat{y}_b, p_\theta(y \mid \mathcal{A}_\text{strong}(\mathbf{u}_b))) \end{aligned} \]

其中 $\hat{y}_b$ 是无标签样本的伪标签；$\mu$ 是一个超参数，确定了 $\mathcal{X}$ 和 $\mathcal{U}$ 的相对大小。

弱数据增强 $\mathcal{A}_\text{weak}(.)$：标准的翻转和平移增强
强数据增强 $\mathcal{A}_\text{strong}(.)$：AutoAugment、Cutout、RandAugment、CTAugment

图 17. FixMatch 和其他几种半监督学习方法在图像分类任务上的性能。 (图片来源：Sohn et al. 2020)

根据 FixMatch 的消融研究，

使用温度参数 $T$ 调整预测分布并不会对使用阈值 $\tau$ 时产生显著影响。
Cutout 和 CTAugment 作为强数据增强的一部分对于良好性能是必要的。
当用强数据增强替换标签猜测的弱数据增强时，模型在训练早期就会发散。如果完全丢弃弱数据增强，则模型会过拟合猜测的标签。
使用弱数据增强而不是强数据增强进行伪标签预测会导致性能不稳定。强数据增强至关重要。

结合强大的预训练

这是一种常见的范式，特别是在语言任务中，首先在大型无监督数据语料库上通过自监督学习对任务不可知模型进行预训练，然后在小型标记数据集上微调它以适应下游任务。研究表明，如果将半监督学习与预训练相结合，我们可以获得额外的收益。

Zoph et al. (2020) 研究了自我训练比预训练效果更好的程度。他们的实验设置是使用 ImageNet 进行预训练或自我训练以提高 COCO 的性能。请注意，当使用 ImageNet 进行自我训练时，会丢弃标签，只使用 ImageNet 样本作为无标签数据点。He et al. (2018) 已经证明，如果下游任务非常不同，例如目标检测，那么 ImageNet 分类预训练效果不佳。

图 18. (a) 数据增强（从弱到强）和 (b) 标记数据集大小对目标检测性能的影响。图例中：Rand Init 表示使用随机权重初始化的模型；ImageNet 使用预训练检查点初始化，准确率为 84.5%；ImageNet++ 使用准确率更高的检查点初始化，准确率为 86.9%。 (图片来源：Zoph et al. 2020)

他们的实验展示了一系列有趣的发现：

随着下游任务可用的标记样本数量增加，预训练的有效性会降低。预训练在低数据情况下（20%）有帮助，但在高数据情况下是中性或有害的。
自训练有助于高数据/强数据增强情况，即使预训练有害。
自训练可以在预训练的基础上带来额外的改进，即使使用相同的数据源。
自监督预训练（例如通过 SimCLR）在高数据量情况下会降低性能，类似于监督预训练的情况。
联合训练监督和自监督目标有助于解决预训练和下游任务之间的不匹配。预训练、联合训练和自训练都是增量的。
嘈杂的标签或非目标标记（即，预训练标签与下游任务标签不对齐）比有针对性的伪标记更糟糕。
自训练的计算成本比在预训练模型上进行微调更高。

Chen 等人 (2020) 提出了一个三步程序，将自监督预训练、监督微调和自训练的好处合并在一起：

无监督或自监督预训练一个大模型。
在少量标记示例上进行监督微调。使用一个大（深且宽）的神经网络是重要的。更大的模型在使用更少标记样本时表现更好。
通过在自训练中采用伪标签对未标记的示例进行蒸馏。
- 可以将大模型的知识蒸馏到小模型中，因为任务特定的使用不需要学习表示的额外容量。
- 蒸馏损失的格式如下，其中教师网络的权重$\hat{\theta}_T$是固定的。

\[ \mathcal{L}_\text{distill} = - (1-\alpha) \underbrace{\sum_{(\mathbf{x}^l_i, y_i) \in \mathcal{X}} \big[ \log p_{\theta_S}(y_i \mid \mathbf{x}^l_i) \big]}_\text{监督损失} - \alpha \underbrace{\sum_{\mathbf{u}_i \in \mathcal{U}} \Big[ \sum_{i=1}^L p_{\hat{\theta}_T}(y^{(i)} \mid \mathbf{u}_i; T) \log p_{\theta_S}(y^{(i)} \mid \mathbf{u}_i; T) \Big]}_\text{使用未标记数据进行蒸馏损失} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/0ad25e14e91d8b9cec2d0b69ea82fb6c.png) 图 19\. 半监督学习框架通过（左）任务无关的无监督预训练和（右）任务特定的自训练和蒸馏来利用未标记的数据语料库。 (图片来源: [Chen 等人，2020](https://arxiv.org/abs/2006.10029)) 他们在 ImageNet 分类任务上进行了实验。自监督预训练使用了 SimCLRv2，这是[SimCLR](https://lilianweng.github.io/posts/2021-05-31-contrastive/#simclr)的直接改进版本。在他们的实证研究中观察到的一些发现与[Zoph 等人，2020](https://arxiv.org/abs/2006.06882)一致： + 更大的模型更具标签效率； + SimCLR 中更大/更深的项目头可以改进表示学习； + 使用未标记数据进行蒸馏可以改进半监督学习。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/09996939cecbf6bd979092ebcc9dc6af.png) 图 20。通过 SimCLRv2 +半监督蒸馏在 ImageNet 分类上的性能比较。（图片来源：[Chen 等人 2020](https://arxiv.org/abs/2006.10029)） * * * 💡 最近半监督学习方法中常见主题的快速摘要，许多旨在减少确认偏见： + 通过先进的数据增强方法对样本应用有效和多样化的噪声。 + 处理图像时，MixUp 是一种有效的增强方法。 Mixup 也可以用于语言，从而导致小幅改进（[Guo 等人 2019](https://arxiv.org/abs/1905.08941)）。 + 设置阈值并丢弃置信度低的伪标签。 + 设置每个小批量的标记样本的最小数量。 + 锐化伪标签分布以减少类别重叠。 # 引用被引用为： > Weng，Lilian。（2021 年 12 月）。数据不足的学习第 1 部分：半监督学习。 Lil’Log。 https://lilianweng.github.io/posts/2021-12-05-semi-supervised/。或 ```py @article{weng2021semi, title = "Learning with not Enough Data Part 1: Semi-Supervised Learning", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2021", month = "Dec", url = "https://lilianweng.github.io/posts/2021-12-05-semi-supervised/" } ``` # 参考文献 [1] Ouali，Hudelot 和 Tami。[“深度半监督学习概述”](https://arxiv.org/abs/2006.05278) arXiv 预印本 arXiv:2006.05278（2020）。 [2] Sajjadi，Javanmardi 和 Tasdizen [“使用随机变换和扰动进行深度半监督学习的正则化。”](https://arxiv.org/abs/1606.04586) arXiv 预印本 arXiv:1606.04586（2016）。 [3] 范等人。[“元伪标签。”](https://arxiv.org/abs/2003.10580) CVPR 2021。 [4] 莱因和艾拉。[“用于半监督学习的时间集成”](https://arxiv.org/abs/1610.02242) ICLR 2017。 [5] Tarvaninen 和 Valpola。[“平均教师更好：加权一致性目标改进半监督深度学习结果。”](https://arxiv.org/abs/1703.01780) NeuriPS 2017 [6] 谢等人。[“一致性训练的无监督数据增强。”](https://arxiv.org/abs/1904.12848) NeuriPS 2020。 [7] 宫本等人。[“虚拟对抗训练：监督和半监督学习的正则化方法。”](https://arxiv.org/abs/1704.03976) IEEE 模式分析与机器智能交易 41.8（2018）。 [8] Verma 等人。[“用于半监督学习的插值一致性训练。”](https://arxiv.org/abs/1903.03825) IJCAI 2019 [9] 李。[“伪标签：深度神经网络的简单高效半监督学习方法。”](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.664.3543&rep=rep1&type=pdf) ICML 2013 研讨会：表示学习中的挑战。 [10] Iscen 等人。[“用于深度半监督学习的标签传播。”](https://arxiv.org/abs/1904.04717) CVPR 2019。 [11] 谢等人。[“自我训练与有噪声学生改进 ImageNet 分类”](https://arxiv.org/abs/1911.04252) CVPR 2020。 [12] 杜静飞等人 [“自训练改善自然语言理解的预训练。”](https://arxiv.org/abs/2010.02194) 2020 [13] Iscen 等人 [“用于深度半监督学习的标签传播。”](https://arxiv.org/abs/1904.04717) CVPR 2019 [14] Arazo 等人 [“伪标记和深度半监督学习中的确认偏差。”](https://arxiv.org/abs/1908.02983) IJCNN 2020. [15] Berthelot 等人 [“MixMatch: 一种全面的半监督学习方法。”](https://arxiv.org/abs/1905.02249) NeuriPS 2019 [16] Berthelot 等人 [“ReMixMatch: 具有分布对齐和增强锚定的半监督学习。”](https://arxiv.org/abs/1911.09785) ICLR 2020 [17] Sohn 等人 [“FixMatch: 用一致性和信心简化半监督学习。”](https://arxiv.org/abs/2001.07685) CVPR 2020 [18] 李俊楠等人 [“DivideMix: 将有噪声标签的学习作为半监督学习。”](https://arxiv.org/abs/2002.07394) 2020 [[代码](https://github.com/LiJunnan1992/DivideMix)] [19] Zoph 等人 [“重新思考预训练和自训练。”](https://arxiv.org/abs/2006.06882) 2020. [20] Chen 等人 [“大型自监督模型是强大的半监督学习者”](https://arxiv.org/abs/2006.10029) 2020 # 如何在许多 GPU 上训练真正大型模型？ > 原文：[`lilianweng.github.io/posts/2021-09-25-train-large/`](https://lilianweng.github.io/posts/2021-09-25-train-large/) 更新于 2022-03-13：添加[专家选择路由。] [更新于 2022-06-10]：[Greg](https://gregbrockman.com/)和我写了这篇文章的缩短和升级版本，发表在 OpenAI 博客上：[“训练大型神经网络的技术”](https://openai.com/blog/techniques-for-training-large-neural-networks/) 近年来，我们在许多 NLP 基准任务上看到了更好的结果，使用了更大的预训练[语言模型](https://lilianweng.github.io/posts/2019-01-31-lm/)。如何训练大型和深度神经网络是具有挑战性的，因为它需要大量的 GPU 内存和长时间的训练。然而，个别 GPU 工作者的内存有限，许多大型模型的大小已经超出了单个 GPU 的范围。有几种并行性范式可以实现跨多个 GPU 的模型训练，以及各种模型架构和节省内存设计，以帮助训练*非常大*的神经网络。 # 训练并行性训练非常大的神经网络模型的主要瓶颈是对大量 GPU 内存的强烈需求，远远超出个别 GPU 机器所能承载的范围。除了模型权重（例如数十亿的浮点数），通常存储中间计算输出（如梯度和优化器状态，例如 Adam 中的动量和变化）的成本更高。此外，训练大型模型通常需要大量的训练语料库，因此单个进程可能需要很长时间。因此，并行性是必要的。并行性可以在不同的维度上发生，包括数据、模型架构和张量操作。 ## 数据并行性 **数据并行性（DP）**最朴素的方法是将相同的模型权重复制到多个工作者中，并将数据的一部分分配给每个工作者同时处理。如果模型大小大于单个 GPU 节点的内存，则朴素的 DP 无法很好地工作。像*GeePS*（[Cui 等人，2016](https://www.pdl.cmu.edu/PDL-FTP/CloudComputing/GeePS-cui-eurosys16.pdf)）这样的方法会将暂时未使用的参数传输回 CPU，以便在模型太大无法适应一台机器时，使用有限的 GPU 内存。数据交换传输应该在后端进行，不干扰训练计算。在每个小批次结束时，工作者需要同步梯度或权重以避免陈旧。有两种主要的同步方法，两者都有明显的优缺点。 1. *批量同步并行（BSP）*：工作者在每个小批次结束时同步数据。它可以防止模型权重陈旧，具有良好的学习效率，但每台机器必须停止并等待其他机器发送梯度。 1. *异步并行（ASP）*：每个 GPU 工作人员异步处理数据，无需等待或停顿。然而，这很容易导致使用过时的权重，从而降低统计学习效率。即使增加了计算时间，也可能不会加快收敛的训练时间。在中间某处是每$x$次迭代全局同步梯度一次（$x > 1$）。这个特性在 Pytorch v1.5（[Li 等人 2021](https://arxiv.org/abs/2006.15704)）中被称为“梯度累积”在分布式数据并行（[DDP](https://pytorch.org/tutorials/intermediate/ddp_tutorial.html)）中。梯度分桶避免立即进行`AllReduce`操作，而是将多个梯度分桶到一个`AllReduce`中以提高吞吐量。可以根据计算图进行计算和通信调度优化。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/34e8644725d2af58db26fd6952864d73.png) 图 1。Pytorch DDP 的伪代码。（图片来源：[Li 等人 2021](https://arxiv.org/abs/2006.15704)） ## 模型并行 **模型并行（MP）** 旨在解决模型权重无法适应单个节点的情况。计算和模型参数被分割到多台机器上。与数据并行不同，其中每个工作人员托管整个模型的完整副本，MP 仅在一个工作人员上分配部分模型参数，因此内存使用和计算都减少了。由于深度神经网络通常包含一堆垂直层，因此通过层来分割大型模型似乎很直接，其中一小组连续的层被分组到一个工作人员的一个分区中。然而，通过多个这样的工作人员运行每个数据批次的天真实现会导致等待时间的大量“气泡”和计算资源的严重低效利用。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/7a90f3f6fd6afd22c299d17120d6e29e.png) 图 2。一个天真的模型并行设置，其中模型被垂直分割为 4 个分区。由于顺序依赖性，数据一次由一个工作人员处理，导致大量空闲时间的“气泡”。（图片来源：[Huang 等人 2019](https://arxiv.org/abs/1811.06965)） ## 管道并行 **管道并行（PP）** 将模型并行和数据并行结合起来，以减少低效的时间“气泡”。其主要思想是将一个小批量分成多个微批量，并使每个阶段的工作人员同时处理一个微批量。需要注意的是，每个微批量需要进行两次传递，一次前向传递和一次反向传递。工作人员之间的通信仅传输激活（前向）和梯度（反向）。这些传递如何安排以及梯度如何聚合在不同方法中有所不同。分区（工作人员）的数量也被称为*管道深度*。在*GPipe*（[Huang 等人，2019](https://arxiv.org/abs/1811.06965)）中，来自多个微批次的梯度在最后同步聚合和应用。同步梯度下降保证了学习的一致性和效率，不受工作者数量的影响。如图 3 所示，泡沫仍然存在，但比图 2 中的要小得多。假设均匀分割的微批次数为$m$，分区数为$d$，假设每个微批次的前向和后向传递都需要一单位时间，泡沫的比例为： $$ 1 - \frac{2md}{(2m + 2(d-1))d} = \frac{d-1}{m+d-1} \]

GPipe 论文观察到，如果微批次的数量大于分区数量的 4 倍以上 $m > 4d$（当应用激活重计算时），泡沫开销几乎可以忽略不计。

图 3。GPipe 中管道并行的示意图，有 4 个微批次和 4 个分区。GPipe 在每个批次结束时同步跨设备聚合和更新梯度。（图片来源：Huang 等人，2019）

GPipe 几乎实现了与设备数量成线性增长的吞吐量，尽管如果模型参数在工作者之间分布不均匀，则不能始终保证。

PipeDream（Narayanan 等人，2019）安排每个工作者交替处理前向和后向传递（1F1B）。PipeDream 将每个模型分区命名为“阶段”，每个阶段工作者可以有多个副本来运行数据并行。在这个过程中，PipeDream 使用确定性的轮询负载平衡策略来分配工作在多个阶段的副本之间，以确保同一微批次的前向和后向传递发生在同一个副本上。

图 4。PipeDream 中1F1B微批次调度的示意图。（图片来源：Harlap 等人，2018)

由于 PipeDream 没有跨所有工作者进行批次结束全局梯度同步，1F1B 的本地实现很容易导致一个微批次的前向和后向传递使用不同版本的模型权重，从而降低学习效率。PipeDream 提出了一些设计来解决这个问题：

权重存储：每个工作者跟踪几个模型版本，并确保在给定一个数据批次时，前向和后向传递中使用相同版本的权重。
垂直同步（可选）：模型权重的版本与阶段工作者之间的流动，连同激活和梯度一起。然后计算采用从上一个工作者传播的相应存储版本。这个过程保持了工作者之间的版本一致性。请注意，这是异步的，与 GPipe 不同。

在训练开始时，PipeDream 首先对模型中每个层的计算内存成本和时间进行分析，然后优化将层分割成阶段的解决方案，这是一个动态规划问题。

图 5. 在 ILSVRC12 上的 VGG16 结果。（上）准确率 vs 时间。整数表示阶段工作者的数量。 ASP = 异步并行 & BSP = 批量同步并行。（下）不同并行配置的训练时间加速。直线管道指的是没有数据并行的管道并行。（图片来源：Harlap 等人 2018）

后来提出了 PipeDream 的两种变体，通过存储模型版本来减少内存占用（Narayanan 等人 2021）。

PipeDream-flush 定期添加全局同步的管道刷新，就像 GPipe 一样。这样一来，通过牺牲一点吞吐量，大大减少了内存占用（即只维护一个模型权重版本）。

图 6. PipeDream-flush 中的管道调度示意图。（图片来源：(Narayanan 等人 2021）

PipeDream-2BW 仅维护两个版本的模型权重，其中“2BW” 是“双缓冲权重”的缩写。它每 $k$ 个微批次生成一个新的模型版本，$k$ 应该大于管道深度 $d$，$k > d$。由于一些残留的反向传播仍依赖于旧版本，新更新的模型版本不能立即完全替换旧版本。总共只需要保存两个版本，因此内存成本大大降低。

图 7. PipeDream-2BW 中的管道调度示意图。（图片来源：(Narayanan 等人 2021）

张量并行

模型和管道并行都是垂直拆分模型。另一方面，我们可以横向分割一个张量操作的计算到多个设备上，称为张量并行（TP）。

让我们以 transformer 为例，考虑到其受欢迎程度。transformer 模型主要由 MLP 层和自注意力块组成。Megatron-LM（Shoeybi 等人 2020）采用了一种简单的方式来并行化 MLP 和自注意力的层内计算。

一个 transformer 中的 MLP 层包含一个 GEMM（通用矩阵乘法），后跟一个非线性的 GeLU 转换。让我们按列拆分权重矩阵 $A$：

\[\begin{aligned} \text{拆分 }A &= [A_1, A_2] \\ Y &=\text{GeLU}(XA) \\ [Y_1, Y_2] &= [\text{GeLU}(XA_1), \text{GeLU}(XA_2)] \end{aligned} \]

注意力块使用查询（$Q$）、键（$K$）和值（$V$）权重进行 GEMM 运算，根据上述分区并行运行，然后将它们与另一个 GEMM 结合以生成注意力头结果。

\[ \text{Attention}(X, Q, K, V) = \text{softmax}(\frac{(XQ) (XK)^\top}{\sqrt{d_k}}) XV $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/8aa32f72c1ab42850e313bb0523a3bce.png) 图 8. Megatron-LM 中提出的关键变压器组件的张量并行示意图。（图片来源：[Shoeybi 等人，2020](https://arxiv.org/abs/1909.08053)） [Narayanan 等人（2021）](https://arxiv.org/abs/2104.04473)将管道、张量和数据并行与新的管道调度策略相结合，并将其方法命名为*PTD-P*。每个工作者不仅可以在设备上定位一组连续的层（“模型块”），而且还可以分配多个较小连续层子集的多个块（例如，设备 1 有层 1、2、9、10；设备 2 有层 3、4、11、12；每个有两个模型块）。一个批次中的微批次数量应该被工作者数量整除（$m % d = 0$）。如果每个工作者有$v$个模型块，与 GPipe 调度相比，管道气泡时间可以通过$v$的倍数减少。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/51fc1bb09f79a52a4ed5e25c2821e2c7.png) 图 9.（顶部）PipeDream-flush 中的默认`1F1B`管道调度。（底部）交错的 1F1B 管道调度。第一个模型块为深色，第二个模块为浅色。（图片来源：[Narayanan 等人，202)](https://arxiv.org/abs/2104.04473)） # 专家混合（MoE） **专家混合（MoE）**方法最近吸引了很多关注，因为研究人员（主要来自谷歌）试图推动模型规模的极限。这个想法的核心是[集成学习](https://en.wikipedia.org/wiki/Ensemble_learning)：*多个弱学习器的组合会给你一个强学习器！* 在一个深度神经网络中，集成可以通过一个门控机制来实现，连接多个专家（[Shazeer 等人，2017](https://arxiv.org/abs/1701.06538)）。门控机制控制着网络的哪个子集（例如哪些专家）应该被激活以产生输出。该论文将其命名为“稀疏门控专家混合”（MoE）层。精确地说，一个 MoE 层包含 + $n$个前馈网络作为专家$\{E_i\}^n_{i=1}$ + 一个可训练的门控网络$G$，学习$n$个专家之间的概率分布，以便将流量路由到少数选定的专家。根据门控输出，不必评估每个专家。当专家数量过多时，我们可以考虑使用两级分层 MoE。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/0c9daa61b841bfac6ccff6a8aac3ffbb.png) 图 10. 专家混合（MoE）层的示意图。只有$n$个专家中的 2 个被门控网络选中并激活。（图片来源：[Shazeer 等人，2017](https://arxiv.org/abs/1701.06538)） $G$的一个简单选择是将输入与可训练的权重矩阵$G_g$相乘，然后进行 softmax：$G_\sigma (x) = \text{softmax}(x W_g)$。然而，这会产生一个密集的控制向量用于门控，并且不会帮助节省计算资源，因为我们只有在$G^{(i)}(x)=0$时才需要评估一个专家。因此，MoE 层仅保留前$k$个值。它还向$G$中添加可调节的高斯噪声以改善负载平衡。这种机制称为*有噪声的 top-k 门控*。 $$ \begin{aligned} G(x) &= \text{softmax}( \text{topk}(H(x), k)) \\ H^{(i)}(x) &= (xW_g)^{(i)} + \epsilon \cdot \text{softplus}((xW_\text{noise})^{(i)} ); \quad \epsilon \sim \mathcal{N}(0, \mathbf{1}) \\ \text{topk}^{(i)}(v, k) &= \begin{cases} v^{(i)} & \text{if }v^{(i)}\text{ is in the top }k\text{ elements of }v \\ -\infty & \text{otherwise} \end{cases} \end{aligned} \]

其中上标$v^{(i)}$表示向量$v$的第 i 维。函数$\text{topk}(., k)$通过将其他维度设置为$-\infty$来选择具有最高值的前$k$个维度。

为了避免门控网络可能始终偏爱少数强专家的自我强化效应，Shazeer 等人（2017）提出了通过额外的重要性损失软约束来鼓励所有专家具有相同的权重。这等同于每个专家的批次平均值的变异系数的平方。

\[L_\text{aux} = w_\text{aux} \cdot \text{CV}(\sum_{x \in X} G(x))² \]

其中$\text{CV}$是变异系数，损失权重$w_\text{aux}$是一个需要调整的超参数。

由于每个专家网络只能获得训练样本的一部分（“缩小的批次问题”），我们应该尽量使用尽可能大的批次大小在 MoE 中。然而，这受限于 GPU 内存。数据并行和模型并行可以应用于提高吞吐量。

图 11. 在 1 亿字语言建模基准测试中的测试困惑度。（左）模型容量从左到右增加，包含 4、32、256、256、1024 和 4096 个专家。（右）4 亿参数 MoE 模型的性能，是左图中最大的模型，在不同计算预算下的表现。（图片来源：Shazeer et al., 2017）

GShard（Lepikhin et al., 2020）通过分片将 MoE 变压器模型扩展到 6000 亿参数。MoE 变压器用 MoE 层替换每个其他前馈层。分片 MoE 变压器只在多台机器上分片 MoE 层，而其他层只是简单地复制。

有几种改进的设计用于 GShard 中的门控函数$G$：

专家容量：通过一个专家的令牌数量不应超过一个名为“专家容量”的阈值。如果一个令牌被路由到已达到容量的专家，该令牌将被标记为“溢出”，并且门控输出将更改为零向量。
本地组调度：令牌被均匀分成多个本地组，并在组级别上强制执行专家容量。
辅助损失：动机与原始 MoE 辅助损失类似。他们添加了一个辅助损失，以最小化路由到每个专家的数据比例的均方。
随机路由：以与其权重成比例的概率选择第二优秀的专家；否则，GShard 将遵循随机路由，以增加一些随机性。

图 12. GShard 中带有辅助损失的组级前 2 门控机制的伪代码。（图片来源：Lepikhin 等人，2020）

Switch Transformer（Fedus 等人，2021）通过将密集前馈层替换为稀疏开关 FFN 层，将模型规模扩展到了数万亿个参数（!!）。在这种结构中，每个输入仅路由到一个专家网络。用于负载平衡的辅助损失为$\text{loss}_\text{aux} = w_\text{aux} \sum_{i=1}^n f_i p_i$，其中$n$为专家数量，$f_i$为路由到第$i$个专家的令牌比例，$p_i$为由门控网络预测的专家$i$的路由概率。

图 13. Switch Transformer。稀疏开关 FFN 层位于蓝色框中。（图片来源：Fedus 等人，2021）

为了提高训练稳定性，Switch Transformer 融入了以下设计：

选择性精度。他们表明，仅将模型的局部部分选择性地转换为 FP32 精度可以提高稳定性，同时避免 FP32 张量的昂贵通信成本。FP32 精度仅在路由器函数的主体中使用，并且结果被重新转换为 FP16。
更小的初始化。权重矩阵的初始化是从截断的正态分布中采样，均值为$\mu=0$，标准差为$\sigma = \sqrt{s/n}$。他们还建议将变压器初始化比例参数$s=1$减少到$s=0.1$。
使用更高的专家丢弃率。微调通常适用于小数据集。为避免过拟合，每个专家内的丢弃率增加了相当多。有趣的是，他们发现增加所有层的丢弃率会导致性能下降。在论文中，他们在非专家层使用了 0.1 的丢弃率，但在专家 FF 层内使用了 0.4 的丢弃率。

Switch Transformer 论文总结了用于训练大型模型的不同数据和模型并行策略，并配有一张精美的插图：

图 14. 各种并行策略的示意图，展示了如何（顶部）将模型权重和（底部）数据分割到多个 GPU 核心上。在顶部一行，每种颜色代表一个独特的权重矩阵。在底部一行，不同颜色表示不同的令牌集合。（图片来源：Fedus 等人，2021）

GShard top-2 和 Switch Transformer top-1 都依赖于令牌选择，其中每个令牌选择最佳的一个或两个专家进行路由。它们都采用辅助损失来鼓励更平衡的负载分配，但这并不保证最佳性能。此外，专家容量限制可能导致令牌浪费，因为如果专家达到其容量限制，这些令牌将被丢弃。

导出选择（EC）（周等人，2022）路由使每个专家选择前$k$个令牌。通过这种方式，每个专家自然保证了固定的容量，每个令牌可能被路由到多个专家。EC 可以实现完美的负载平衡，并且据显示可以将训练收敛速度提高 2 倍。

给定$e$个专家和输入矩阵$X \in \mathbb{R}^{n \times d}$，通过以下方式计算令牌与专家的关联分数：$$ S = \text{softmax}(X \cdot W_g), \text{其中 } W_g \in \mathbb{R}^{d \times e}, S \in \mathbb{R}^{n \times e} $$

令牌与专家的分配由三个矩阵表示，$I, G \in \mathbb{R}^{e\times k}$和$P \in \mathbb{R}^{e \times k \times n}$。$I[i,j]$注释第$i$个专家选择的第$j$个令牌。门控矩阵$G$存储所选令牌的路由权重。$P$是$I$的独热版本，用于生成门控 FFN 层的输入矩阵（$P \cdot X \in \mathbb{R}^{e \times k \times d}$）。$$ G, I = \text{top-k}(S^\top, k)\quad P = \text{one-hot}(I) $$

导出选择路由探索的一种正则化是限制每个令牌的最大专家数量。

\[\begin{aligned} & \max_A \langle S^\top, A\rangle + \lambda H(A) \\ \text{s.t.} & \forall i: \sum_{j'} A[i, j'] = k,\quad \forall j: \sum_{i'} A[i', j] \leq b,\quad \forall i,j: 0 \leq A[i,j] \leq 1 \end{aligned} \]

其中矩阵$A \in \mathbb{R}^{e \times n}$中的每个条目$A[i,j]$标记第$i$个专家是否选择第$j$个令牌。解决这个问题并不容易。该论文使用Dykstra 算法运行一系列多次迭代计算步骤。在实验中，限制专家选择会导致微调性能略微下降。

参数$k$由$k=nc/e$确定，其中$n$是一个批次中的总标记数，$c$是一个容量因子，表示一个标记平均使用的专家数量。在大多数实验中，论文使用$c=2$，但是$c=1$的 EC 仍然优于最佳的 top-1 标记选择门控。有趣的是，$c=0.5$只会轻微影响训练性能。

EC 的一个很大的缺点是，当批量大小太小时，它无法工作，也不适用于自回归文本生成，因为它需要知道未来的标记才能进行 top-$k$选择。

其他节省内存的设计

CPU 卸载

当 GPU 内存已满时，一个选择是将暂时未使用的数据卸载到 CPU，并在以后需要时读取它们（Rhu 等人，2016）。CPU 卸载的想法很简单，但由于它带来的训练时间延迟，近年来变得不那么流行。

激活重新计算

激活重新计算（也称为“激活检查点”或“梯度检查点”；Chen 等人，2016）是一种聪明而简单的想法，可以减少内存占用，但会增加计算时间。它将训练一个$\ell$层深度神经网络的内存成本降低到$O(\sqrt{\ell})$，每批次只额外消耗一个额外的前向传播计算。

假设我们将一个$\ell$层网络均匀分成$d$个分区。只有在分区边界处保存并在工作节点之间传递激活。在分区内层的中间激活仍然需要用于计算梯度，因此在反向传播期间重新计算。通过激活重新计算，训练$M(\ell)$的内存成本为：

\[M(\ell) =\max_{i=1,\dots,k} \underbrace{\text{cost-of-one-partition}(i)}_\text{第 i 个分区的反向传播成本} + \underbrace{O(d)}_\text{存储中间输出} = O(\frac{\ell}{d}) + O(d) \]

最小成本为$d=\sqrt{\ell}$时的$O(\sqrt{\ell})$。

激活重新计算技巧可以相对于模型大小给出次线性的内存成本。

图 15. 不同内存节省算法的内存成本。共享：当不再需要中间结果时，中间结果使用的内存被回收。原地：直接将输出保存到输入值的内存中。（图片来源：Chen 等人，2016）

混合精度训练

Narang & Micikevicius 等人（2018）提出了一种使用半精度浮点（FP16）数字训练模型的方法，而不会丢失模型准确性。

图 16. 一个层的混合精度训练过程。（图片来源：Narang & Micikevicius 等人，2018）

避免在半精度下丢失关键信息的三种技术：

完整精度的权重主副本。维护一个完整精度（FP32）的模型权重副本，用于累积梯度。这些数字在前向和反向传递中被舍入为半精度。其动机是每次梯度更新（即梯度乘以学习率）可能太小，无法完全包含在 FP16 范围内（即 $2^{-24}$ 在 FP16 中变为零）。
损失缩放。将损失放大以更好地处理梯度幅度较小的情况（见图 16）。放大梯度有助于将它们移动到占据表示范围右侧（包含较大值）的较大部分，保留否则会丢失的值。
算术精度。对于常见的网络算术运算（例如向量点积，通过对向量元素求和来减少），我们可以在 FP32 中累积部分结果，然后在保存到内存之前将最终输出保存为 FP16。逐点操作可以在 FP16 或 FP32 中执行。

图 17. 完整精度梯度的直方图。一旦模型切换到 FP16，左侧部分直到 $2^{-24}$ 将被清零。（图片来源：Narang & Micikevicius 等人，2018）

在他们的实验中，某些网络（例如图像分类，Faster R-CNN）不需要损失缩放，但对于其他网络（例如 Multibox SSD，大型 LSTM 语言模型）则是必要的。

压缩

中间结果通常消耗大量内存，尽管它们只在一个前向传递和一个反向传递中需要。这两次使用之间存在明显的时间间隔。因此Jain 等人（2018）提出了一种数据编码策略，在第一次使用后压缩中间结果，然后在后续的反向传播中解码回来。

他们的系统Gist包含两种编码方案：特定层无损编码；专注于 ReLU-Pool（“二值化”）和 ReLU-Conv（“稀疏存储和密集计算”）模式。激进的有损编码；使用延迟精度降低（DPR）。他们观察到，特征图的第一次即时使用应保持高精度，但第二次使用可以容忍较低精度。

实验表明，Gist 可以在 5 个 SOTA 图像分类 DNN 中将内存成本降低 2 倍，平均降低 1.8 倍，仅有 4% 的性能开销。

内存高效优化器

优化器对内存消耗渴望。以流行的 Adam 优化器为例，内部需要维护动量和方差，都与梯度和模型参数在相同的规模上。突然之间，我们需要保存模型权重的 4 倍内存。

已经提出了几种优化器来减少内存占用。例如，Adafactor（Shazeer 等人 2018）不像 Adam 那样存储完整的动量和变化，而是仅跟踪移动平均值的每行和每列总和，然后基于这些总和估计第二时刻。SM3（Anil 等人 2019）描述了一种不同的自适应优化方法，也大大减少了内存。

ZeRO（零冗余优化器；Rajbhandari 等人 2019）根据对大型模型训练的两个主要内存消耗的观察进行了优化：

大部分被模型状态占据，包括优化器状态（例如 Adam 动量和方差）、梯度和参数。混合精度训练需要大量内存，因为优化器需要保留 FP32 参数和其他优化器状态的副本，除了 FP16 版本。
剩余部分被激活、临时缓冲区和无法使用的碎片化内存（在论文中称为残余状态）消耗。

ZeRO 结合了两种方法，ZeRO-DP和ZeRO-R。ZeRO-DP 是一种增强的数据并行 ism，以避免模型状态上的简单冗余。它通过动态通信时间表将优化器状态、梯度和参数分区到多个数据并行进程中，以最小化通信量。ZeRO-R 通过使用分区激活重计算、恒定缓冲区大小和即时内存碎片整理来优化残余状态的内存消耗。

引用

引用为：

Weng，Lilian。（2021 年 9 月）。如何在许多 GPU 上训练非常大的模型？ Lil’Log。 https://lilianweng.github.io/posts/2021-09-25-train-large/。

或

@article{weng2021large,
  title   = "How to Train Really Large Models on Many GPUs?",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2021",
  month   = "Sep",
  url     = "https://lilianweng.github.io/posts/2021-09-25-train-large/"
}

参考文献

[1] Li 等人。“PyTorch 分布式：加速数据并行训练的经验” VLDB 2020。

[2] Cui 等人。“GeePS: 在分布式 GPU 上进行可扩展的深度学习，带有 GPU 专用参数服务器” EuroSys 2016。

[3] Shoeybi 等人。“Megatron-LM：使用模型并行 ism 训练多十亿参数语言模型。” arXiv 预印本 arXiv:1909.08053（2019 年）。

[4] Narayanan 等人。“在 GPU 集群上使用 Megatron-LM 进行高效的大规模语言模型训练。” arXiv 预印本 arXiv:2104.04473（2021 年）。

[5] Huang 等人。“GPipe: 使用管道并行性高效训练巨型神经网络。” arXiv 预印本 arXiv:1811.06965（2018 年）。

[6] Narayanan 等人。“PipeDream: 用于 DNN 训练的广义管道并行性。” SOSP 2019。

[7] Narayanan 等人。“内存高效的管道并行 DNN 训练。” ICML 2021。

[8] Shazeer 等人。“稀疏门控专家混合层 Noam。” arXiv 预印本 arXiv:1701.06538（2017 年）。

[9] Lepikhin 等人。“GShard：使用条件计算和自动分片扩展巨型模型。” arXiv 预印本 arXiv:2006.16668（2020 年）。

[10] Fedus 等人。“Switch Transformers：使用简单高效的稀疏性扩展到万亿参数模型。” arXiv 预印本 arXiv:2101.03961（2021 年）。

[11] Narang & Micikevicius 等人。“混合精度训练。” ICLR 2018。

[12] Chen 等人。2016 年“使用次线性内存成本训练深度网络。” arXiv 预印本 arXiv:1604.06174（2016 年）。

[13] Jain 等人。“Gist：用于深度神经网络训练的高效数据编码。” ISCA 2018。

[14] Shazeer & Stern。“Adafactor：具有次线性内存成本的自适应学习率。” arXiv 预印本 arXiv:1804.04235（2018 年）。

[15] Anil 等人。“内存高效的自适应优化。” arXiv 预印本 arXiv:1901.11150（2019 年）。

[16] Rajbhandari 等人。“ZeRO：面向训练万亿参数模型的内存优化 Samyam。” arXiv 预印本 arXiv:1910.02054（2019 年）。

[17] Zhou 等人。“具有专家选择路由的专家混合模型” arXiv 预印本 arXiv:2202.09368（2022 年）。

什么是扩散模型？

原文：lilianweng.github.io/posts/2021-07-11-diffusion-models/

[2021-09-19 更新：强烈推荐这篇关于基于分数的生成建模的博文，作者是杨松（参考文献中几篇关键论文的作者）。

2022-08-27 更新：添加 [无分类器引导、GLIDE、unCLIP 和 Imagen。

2022-08-31 更新：添加 [潜在扩散模型。

到目前为止，我已经写了关于三种生成模型的文章，GAN、VAE 和基于流的模型。它们在生成高质量样本方面取得了巨大成功，但每种模型都有自己的局限性。GAN 模型以潜在不稳定的训练和生成中的多样性较少而闻名，因为它们的对抗性训练性质。VAE 依赖于替代损失。流模型必须使用专门的架构来构建可逆变换。

扩散模型受非平衡热力学启发。它们定义了一个扩散步骤的马尔可夫链，逐渐向数据添加随机噪声，然后学习逆转扩散过程以从噪声中构建所需的数据样本。与 VAE 或流模型不同，扩散模型是通过固定程序学习的，潜变量具有高维度（与原始数据相同）。

图 1. 不同类型生成模型的概览。

什么是扩散模型？

已经提出了几种基于扩散的生成模型，其背后有类似的思想，包括 扩散概率模型 (Sohl-Dickstein et al., 2015)、噪声条件评分网络 (NCSN; Yang & Ermon, 2019) 和 去噪扩散概率模型 (DDPM; Ho et al. 2020)。

正向扩散过程

给定从真实数据分布中采样的数据点 $\mathbf{x}_0 \sim q(\mathbf{x})$，让我们定义一个 正向扩散过程，在其中我们在 $T$ 步中向样本添加少量高斯噪声，产生一系列嘈杂样本 $\mathbf{x}_1, \dots, \mathbf{x}_T$。步长由方差调度 $\{\beta_t \in (0, 1)\}_{t=1}^T$ 控制。

\[q(\mathbf{x}_t \vert \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t\mathbf{I}) \quad q(\mathbf{x}_{1:T} \vert \mathbf{x}_0) = \prod^T_{t=1} q(\mathbf{x}_t \vert \mathbf{x}_{t-1}) \]

数据样本 $\mathbf{x}_0$ 随着步骤 $t$ 的增大逐渐失去其可区分特征。最终当 $T \to \infty$ 时，$\mathbf{x}_T$ 等同于各向同性高斯分布。

图 2. 通过缓慢添加（移除）噪声生成样本的正向（反向）扩散过程的马尔可夫链。 (图片来源: Ho et al. 2020 并附有一些额外注释)

上述过程的一个很好的特性是，我们可以使用重参数化技巧在任意时间步 $t$ 中以闭合形式对 $\mathbf{x}_t$ 进行采样。令 $\alpha_t = 1 - \beta_t$ 和 $\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$：

\[\begin{aligned} \mathbf{x}_t &= \sqrt{\alpha_t}\mathbf{x}_{t-1} + \sqrt{1 - \alpha_t}\boldsymbol{\epsilon}_{t-1} & \text{ ;其中 } \boldsymbol{\epsilon}_{t-1}, \boldsymbol{\epsilon}_{t-2}, \dots \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\ &= \sqrt{\alpha_t \alpha_{t-1}} \mathbf{x}_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \bar{\boldsymbol{\epsilon}}_{t-2} & \text{ ;其中 } \bar{\boldsymbol{\epsilon}}_{t-2} \text{ 合并了两个高斯分布 (*)} \\ &= \dots \\ &= \sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon} \\ q(\mathbf{x}_t \vert \mathbf{x}_0) &= \mathcal{N}(\mathbf{x}_t; \sqrt{\bar{\alpha}_t} \mathbf{x}_0, (1 - \bar{\alpha}_t)\mathbf{I}) \end{aligned} \]

(*) 回想一下，当我们合并两个具有不同方差的高斯分布，$\mathcal{N}(\mathbf{0}, \sigma_1²\mathbf{I})$ 和 $\mathcal{N}(\mathbf{0}, \sigma_2²\mathbf{I})$，新的分布是 $\mathcal{N}(\mathbf{0}, (\sigma_1² + \sigma_2²)\mathbf{I})$。这里合并后的标准差是 $\sqrt{(1 - \alpha_t) + \alpha_t (1-\alpha_{t-1})} = \sqrt{1 - \alpha_t\alpha_{t-1}$。

通常情况下，当样本变得更加嘈杂时，我们可以承受更大的更新步长，因此 $\beta_1 < \beta_2 < \dots < \beta_T$，因此 $\bar{\alpha}_1 > \dots > \bar{\alpha}_T$。

与随机梯度 Langevin 动力学的联系

Langevin 动力学是物理学中的一个概念，用于统计建模分子系统。结合随机梯度下降，随机梯度 Langevin 动力学 (Welling & Teh 2011) 可以仅使用梯度 $\nabla_\mathbf{x} \log p(\mathbf{x})$ 在更新的马尔可夫链中生成概率密度 $p(\mathbf{x})$ 的样本：

\[\mathbf{x}_t = \mathbf{x}_{t-1} + \frac{\delta}{2} \nabla_\mathbf{x} \log p(\mathbf{x}_{t-1}) + \sqrt{\delta} \boldsymbol{\epsilon}_t ,\quad\text{其中 } \boldsymbol{\epsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \]

其中 $\delta$ 是步长。当 $T \to \infty, \epsilon \to 0$ 时，$\mathbf{x}_T$ 等于真实概率密度 $p(\mathbf{x})$。

与标准 SGD 相比，随机梯度 Langevin 动力学将高斯噪声注入参数更新中，以避免陷入局部最小值。

反向扩散过程

如果我们能够反转上述过程并从$q(\mathbf{x}_{t-1} \vert \mathbf{x}_t)$中采样，我们将能够从高斯噪声输入中重新创建真实样本，$\mathbf{x}_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$。请注意，如果$\beta_t$足够小，$q(\mathbf{x}_{t-1} \vert \mathbf{x}_t)$也将是高斯的。不幸的是，我们无法轻松估计$q(\mathbf{x}_{t-1} \vert \mathbf{x}_t)$，因为它需要使用整个数据集，因此我们需要学习一个模型$p_\theta$来近似这些条件概率，以便运行反向扩散过程。

\[ p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_T) \prod^T_{t=1} p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t) \quad p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_\theta(\mathbf{x}_t, t), \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t)) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/ec159c0c3b1f345fcac8da0493ec53e0.png) 图 3。训练扩散模型以建模 2D 瑞士卷数据的示例。（图片来源：[Sohl-Dickstein 等人，2015](https://arxiv.org/abs/1503.03585)）值得注意的是，当条件为$\mathbf{x}_0$时，反向条件概率是可计算的： $$ q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \color{blue}{\tilde{\boldsymbol{\mu}}}(\mathbf{x}_t, \mathbf{x}_0), \color{red}{\tilde{\beta}_t} \mathbf{I}) \]

使用贝叶斯规则，我们有：

\[\begin{aligned} q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) &= q(\mathbf{x}_t \vert \mathbf{x}_{t-1}, \mathbf{x}_0) \frac{ q(\mathbf{x}_{t-1} \vert \mathbf{x}_0) }{ q(\mathbf{x}_t \vert \mathbf}_0) } \\ &\propto \exp \Big(-\frac{1}{2} \big(\frac{(\mathbf{x}_t - \sqrt{\alpha_t} \mathbf{x}_{t-1})²}{\beta_t} + \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0)²}{1-\bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)²}{1-\bar{\alpha}_t} \big) \Big) \\ &= \exp \Big(-\frac{1}{2} \big(\frac{\mathbf{x}_t² - 2\sqrt{\alpha_t} \mathbf{x}_t \color{blue}{\mathbf{x}_{t-1}} \color{black}{+ \alpha_t} \color{red}{\mathbf{x}_{t-1}²} }{\beta_t} + \frac{ \color{red}{\mathbf{x}_{t-1}²} \color{black}{- 2 \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_0} \color{blue}{\mathbf{x}_{t-1}} \color{black}{+ \bar{\alpha}_{t-1} \mathbf{x}_0²} }{1-\bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t} \mathbf{x}_0)²}{1-\bar{\alpha}_t} \big) \Big) \\ &= \exp\Big( -\frac{1}{2} \big( \color{red}{(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}})} \mathbf{x}_{t-1}² - \color{blue}{(\frac{2\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{2\sqrt{\bar{\alpha}_{t-1}}}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0)} \mathbf{x}_{t-1} \color{black}{ + C(\mathbf{x}_t, \mathbf{x}_0) \big) \Big)} \end{aligned} \]

其中$C(\mathbf{x}_t, \mathbf{x}_0)$是一些不涉及$\mathbf{x}_{t-1}$的函数，细节被省略。根据标准高斯密度函数，均值和方差可以参数化如下（回想一下$\alpha_t = 1 - \beta_t$和$\bar{\alpha}_t = \prod_{i=1}^T \alpha_i$）：

\[\begin{aligned} \tilde{\beta}_t &= 1/(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}}) = 1/(\frac{\alpha_t - \bar{\alpha}_t + \beta_t}{\beta_t(1 - \bar{\alpha}_{t-1})}) = \color{green}{\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \cdot \beta_t} \\ \tilde{\boldsymbol{\mu}}_t (\mathbf{x}_t, \mathbf{x}_0) &= (\frac{\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1} }}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0)/(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}}) \\ &= (\frac{\sqrt{\alpha_t}}{\beta_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1} }}{1 - \bar{\alpha}_{t-1}} \mathbf{x}_0) \color{green}{\frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \cdot \beta_t} \\ &= \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1 - \bar{\alpha}_t} \mathbf{x}_0\\ \end{aligned} \]

多亏了良好的性质，我们可以表示$\mathbf{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t)$，将其代入上述方程式并得到：

\[\begin{aligned} \tilde{\boldsymbol{\mu}}_t &= \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1 - \bar{\alpha}_t} \frac{1}{\sqrt{\bar{\alpha}_t}}(\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t) \\ &= \color{cyan}{\frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_t \Big)} \end{aligned} \]

如图 2 所示，这样的设置与VAE非常相似，因此我们可以使用变分下界来优化负对数似然。

\[\begin{aligned} - \log p_\theta(\mathbf{x}_0) &\leq - \log p_\theta(\mathbf{x}_0) + D_\text{KL}(q(\mathbf{x}_{1:T}\vert\mathbf{x}_0) \| p_\theta(\mathbf{x}_{1:T}\vert\mathbf{x}_0) ) \\ &= -\log p_\theta(\mathbf{x}_0) + \mathbb{E}_{\mathbf{x}_{1:T}\sim q(\mathbf{x}_{1:T} \vert \mathbf{x}_0)} \Big[ \log\frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T}) / p_\theta(\mathbf{x}_0)} \Big] \\ &= -\log p_\theta(\mathbf{x}_0) + \mathbb{E}_q \Big[ \log\frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} + \log p_\theta(\mathbf{x}_0) \Big] \\ &= \mathbb{E}_q \Big[ \log \frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} \Big] \\ \text{Let }L_\text{VLB} &= \mathbb{E}_{q(\mathbf{x}_{0:T})} \Big[ \log \frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} \Big] \geq - \mathbb{E}_{q(\mathbf{x}_0)} \log p_\theta(\mathbf{x}_0) \end{aligned} \]

使用 Jensen 不等式也可以得到相同的结果。假设我们想要将交叉熵最小化作为学习目标，

\[\begin{aligned} L_\text{CE} &= - \mathbb{E}_{q(\mathbf{x}_0)} \log p_\theta(\mathbf{x}_0) \\ &= - \mathbb{E}_{q(\mathbf{x}_0)} \log \Big( \int p_\theta(\mathbf{x}_{0:T}) d\mathbf{x}_{1:T} \Big) \\ &= - \mathbb{E}_{q(\mathbf{x}_0)} \log \Big( \int q(\mathbf{x}_{1:T} \vert \mathbf{x}_0) \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} \vert \mathbf{x}_{0})} d\mathbf{x}_{1:T} \Big) \\ &= - \mathbb{E}_{q(\mathbf{x}_0)} \log \Big( \mathbb{E}_{q(\mathbf{x}_{1:T} \vert \mathbf{x}_0)} \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} \vert \mathbf{x}_{0})} \Big) \\ &\leq - \mathbb{E}_{q(\mathbf{x}_{0:T})} \log \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} \vert \mathbf{x}_{0})} \\ &= \mathbb{E}_{q(\mathbf{x}_{0:T})}\Big[\log \frac{q(\mathbf{x}_{1:T} \vert \mathbf{x}_{0})}{p_\theta(\mathbf{x}_{0:T})} \Big] = L_\text{VLB} \end{aligned} \]

为了将方程中的每一项转换为可解析计算的形式，该目标可以进一步重写为几个 KL 散度和熵项的组合（详细的逐步过程请参见Sohl-Dickstein et al., 2015中的附录 B）:

\[\begin{aligned} L_\text{VLB} &= \mathbb{E}_{q(\mathbf{x}_{0:T})} \Big[ \log\frac{q(\mathbf{x}_{1:T}\vert\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} \Big] \\ &= \mathbb{E}_q \Big[ \log\frac{\prod_{t=1}^T q(\mathbf{x}_t\vert\mathbf{x}_{t-1})}{ p_\theta(\mathbf{x}_T) \prod_{t=1}^T p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t) } \Big] \\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=1}^T \log \frac{q(\mathbf{x}_t\vert\mathbf{x}_{t-1})}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t)} \Big] \\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t\vert\mathbf{x}_{t-1})}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t)} + \log\frac{q(\mathbf{x}_1 \vert \mathbf{x}_0)}{p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1)} \Big] \\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=2}^T \log \Big( \frac{q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0)}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t)}\cdot \frac{q(\mathbf{x}_t \vert \mathbf{x}_0)}{q(\mathbf{x}_{t-1}\vert\mathbf{x}_0)} \Big) + \log \frac{q(\mathbf{x}_1 \vert \mathbf{x}_0)}{p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1)} \Big] \\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0)}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf{x}_t)} + \sum_{t=2}^T \log \frac{q(\mathbf{x}_t \vert \mathbf{x}_0)}{q(\mathbf{x}_{t-1} \vert \mathbf}_0)} + \log\frac{q(\mathbf{x}_1 \vert \mathbf}_0)}{p_\theta(\mathbf{x}_0 \vert \mathbf}_1)} \Big] \\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1} \vert \mathbf}_t, \mathbf}_0)}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf}_t)} + \log\frac{q(\mathbf{x}_T \vert \mathbf}_0)}{q(\mathbf{x}_1 \vert \mathbf}_0)} + \log \frac{q(\mathbf{x}_1 \vert \mathbf}_0)}{p_\theta(\mathbf{x}_0 \vert \mathbf}_1)} \Big]\\ &= \mathbb{E}_q \Big[ -\log p_\theta(\mathbf{x}_T) + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1} \vert \mathbf}_t, \mathbf}_0)}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf}_t)} + \log\frac{q(\mathbf{x}_T \vert \mathbf}_0)}{q(\mathbf{x}_1 \vert \mathbf}_0)} + \log\frac{q(\mathbf{x}_1 \vert \mathbf}_0)}{p_\theta(\mathbf{x}_0 \vert \mathbf}_1)} \Big]\\ &= \mathbb{E}_q \Big[ \log\frac{q(\mathbf{x}_T \vert \mathbf}_0)}{p_\theta(\mathbf}_T)} + \sum_{t=2}^T \log \frac{q(\mathbf{x}_{t-1} \vert \mathbf}_t, \mathbf}_0)}{p_\theta(\mathbf{x}_{t-1} \vert\mathbf}_t)} - \log p_\theta(\mathbf{x}_0 \vert \mathbf}_1)} \Big] \\ &= \mathbb{E}_q [\underbrace{D_\text{KL}(q(\mathbf{x}_T \vert \mathbf}_0)}{p_\theta(\mathbf}_T))}_{L_T} + \sum_{t=2}^T \underbrace{D_\text{KL}(q(\mathbf{x}_{t-1} \vert \mathbf}_t, \mathbf}_0)}{p_\theta(\mathbf}_{t-1} \vert\mathbf}_t))}_{L_{t-1}} \underbrace{- \log p_\theta(\mathbf{x}_0 \vert \mathbf}_1)}{L_0} ] \end{aligned} \]

让我们分别标记变分下界损失中的每个组件：

\[\begin{aligned} L_\text{VLB} &= L_T + L_{T-1} + \dots + L_0 \\ \text{where } L_T &= D_\text{KL}(q(\mathbf{x}_T \vert \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_T)) \\ L_t &= D_\text{KL}(q(\mathbf{x}_t \vert \mathbf{x}_{t+1}, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_t \vert\mathbf{x}_{t+1})) \text{ for }1 \leq t \leq T-1 \\ L_0 &= - \log p_\theta(\mathbf{x}_0 \vert \mathbf{x}_1) \end{aligned} \]

$L_\text{VLB}$ 中的每个 KL 项（除了 $L_0$）都比较两个高斯分布，因此它们可以以闭合形式计算。$L_T$ 是常数，在训练过程中可以忽略，因为 $q$ 没有可学习参数，$\mathbf{x}_T$ 是高斯噪声。Ho 等人 2020 使用一个单独的离散解码器来建模 $L_0$，该解码器源自 $\mathcal{N}(\mathbf{x}0; \boldsymbol{\mu}\theta(\mathbf{x}1, 1), \boldsymbol{\Sigma}\theta(\mathbf{x}_1, 1))。

用于训练损失的 $L_t$ 参数化

回想一下，我们需要学习一个神经网络来逼近逆扩散过程中的条件概率分布，$p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_\theta(\mathbf{x}_t, t), \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t))$。我们希望训练 $\boldsymbol{\mu}_\theta$ 来预测 $\tilde{\boldsymbol{\mu}}_t = \frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_t \Big)$。因为在训练时 $\mathbf{x}_t$ 作为输入是可用的，我们可以重新参数化高斯噪声项，使其从输入 $\mathbf{x}_t$ 在时间步 $t$ 预测 $\boldsymbol{\epsilon}_t$：

\[\begin{aligned} \boldsymbol{\mu}_\theta(\mathbf{x}_t, t) &= \color{cyan}{\frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \Big)} \\ \text{因此 }\mathbf{x}_{t-1} &= \mathcal{N}(\mathbf{x}_{t-1}; \frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \Big), \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t)) \end{aligned} \]

损失项 $L_t$ 被参数化以最小化与 $\tilde{\boldsymbol{\mu}}$ 的差异：

\[\begin{aligned} L_t &= \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \Big[\frac{1}{2 \| \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t) \|²_2} \| \color{blue}{\tilde{\boldsymbol{\mu}}_t(\mathbf{x}_t, \mathbf{x}_0)} - \color{green}{\boldsymbol{\mu}_\theta(\mathbf{x}_t, t)} \|² \Big] \\ &= \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \Big[\frac{1}{2 \|\boldsymbol{\Sigma}_\theta \|²_2} \| \color{blue}{\frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_t \Big)} - \color{green}{\frac{1}{\sqrt{\alpha_t}} \Big( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\boldsymbol{\epsilon}}_\theta(\mathbf{x}_t, t) \Big)} \|² \Big] \\ &= \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \Big[\frac{ (1 - \alpha_t)² }{2 \alpha_t (1 - \bar{\alpha}_t) \| \boldsymbol{\Sigma}_\theta \|²_2} \|\boldsymbol{\epsilon}_t - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)\|² \Big] \\ &= \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \Big[\frac{ (1 - \alpha_t)² }{2 \alpha_t (1 - \bar{\alpha}_t) \| \boldsymbol{\Sigma}_\theta \|²_2} \|\boldsymbol{\epsilon}_t - \boldsymbol{\epsilon}_\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t, t)\|² \Big] \end{aligned} \]

简化

根据经验，Ho et al. (2020)发现，训练扩散模型使用一个忽略加权项的简化目标效果更好：

\[\begin{aligned} L_t^\text{simple} &= \mathbb{E}_{t \sim [1, T], \mathbf{x}_0, \boldsymbol{\epsilon}_t} \Big[\|\boldsymbol{\epsilon}_t - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)\|² \Big] \\ &= \mathbb{E}_{t \sim [1, T], \mathbf{x}_0, \boldsymbol{\epsilon}_t} \Big[\|\boldsymbol{\epsilon}_t - \boldsymbol{\epsilon}_\theta(\sqrt{\bar{\alpha}_t}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t}\boldsymbol{\epsilon}_t, t)\|² \Big] \end{aligned} \]

最终简单目标是：

\[L_\text{simple} = L_t^\text{simple} + C \]

其中$C$是一个不依赖于$\theta$的常数。

图 4. DDPM 中的训练和采样算法（图片来源：Ho et al. 2020）

噪声条件评分网络（NCSN）的连接

Song & Ermon (2019)提出了一种基于评分的生成建模方法，其中样本是通过使用评分匹配估计的数据分布梯度的 Langevin 动力学生成的。每个样本$\mathbf{x}$的密度概率的评分定义为其梯度$\nabla_{\mathbf{x}} \log q(\mathbf{x})$。训练一个评分网络$\mathbf{s}_\theta: \mathbb{R}^D \to \mathbb{R}^D$来估计它，$\mathbf{s}\theta(\mathbf{x}) \approx \nabla{\mathbf{x}} \log q(\mathbf{x})。

为了使其在深度学习环境中适用于高维数据，他们提出使用 去噪分数匹配（Vincent, 2011）或 切片分数匹配（使用随机投影；Song et al., 2019）。去噪分数匹配向数据 $q(\tilde{\mathbf{x}} \vert \mathbf{x})$ 添加预先指定的小噪声，并用分数匹配估计 $q(\tilde{\mathbf{x}})$。

回顾 Langevin 动力学可以使用迭代过程中的分数 $\nabla_{\mathbf{x}} \log q(\mathbf{x})$ 从概率密度分布中采样数据点。

然而，根据流形假设，大多数数据预计会集中在低维流形中，即使观察到的数据可能看起来只是任意高维的。这对分数估计带来了负面影响，因为数据点无法覆盖整个空间。在数据密度较低的区域，分数估计不太可靠。通过向扰动数据分布添加一点高斯噪声，使其覆盖整个空间 $\mathbb{R}^D$，得分估计网络的训练变得更加稳定。Song & Ermon (2019) 通过用 不同水平 的噪声扰动数据并训练一个噪声条件的分数网络来联合估计不同噪声水平下所有扰动数据的分数。

增加噪声水平的时间表类似于前向扩散过程。如果我们使用扩散过程的注释，得分近似为 $\mathbf{s}_\theta(\mathbf{x}_t, t) \approx \nabla_{\mathbf{x}_t} \log q(\mathbf{x}_t)$。给定高斯分布 $\mathbf{x} \sim \mathcal{N}(\mathbf{\mu}, \sigma² \mathbf{I})$，我们可以将其密度函数的导数写为 $\nabla_{\mathbf{x}}\log p(\mathbf{x}) = \nabla_{\mathbf{x}} \Big(-\frac{1}{2\sigma²}(\mathbf{x} - \boldsymbol{\mu})² \Big) = - \frac{\mathbf{x} - \boldsymbol{\mu}}{\sigma²} = - \frac{\boldsymbol{\epsilon}}{\sigma}$ 其中 $\boldsymbol{\epsilon} \sim \mathcal{N}(\boldsymbol{0}, \mathbf{I})$。回顾 $q(\mathbf{x}_t \vert \mathbf{x}_0) \sim \mathcal{N}(\sqrt{\bar{\alpha}_t} \mathbf{x}_0, (1 - \bar{\alpha}_t)\mathbf{I})$ 因此，

\[\mathbf{s}_\theta(\mathbf{x}_t, t) \approx \nabla_{\mathbf{x}_t} \log q(\mathbf{x}_t) = \mathbb{E}_{q(\mathbf{x}_0)} [\nabla_{\mathbf{x}_t} q(\mathbf{x}_t \vert \mathbf{x}_0)] = \mathbb{E}_{q(\mathbf{x}_0)} \Big[ - \frac{\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)}{\sqrt{1 - \bar{\alpha}_t}} \Big] = - \frac{\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)}{\sqrt{1 - \bar{\alpha}_t}} \]

$\beta_t$ 的参数化

在Ho et al. (2020)中，前向方差被设置为一系列线性增加的常数，从 $\beta_1=10^{-4}$ 到 $\beta_T=0.02$。它们相对于归一化的图像像素值在 $[-1, 1]$ 之间是相对较小的。他们的实验中扩散模型展示了高质量的样本，但仍无法达到其他生成模型的竞争性模型对数似然。

Nichol & Dhariwal (2021) 提出了几种改进技术，以帮助扩散模型获得更低的负对数似然。其中一种改进是使用基于余弦的方差调度。调度函数的选择可以是任意的，只要它在训练过程中提供了接近线性的下降，并在 $t=0$ 和 $t=T$ 附近有微妙的变化。

\[\beta_t = \text{clip}(1-\frac{\bar{\alpha}_t}{\bar{\alpha}_{t-1}}, 0.999) \quad\bar{\alpha}_t = \frac{f(t)}{f(0)}\quad\text{其中 }f(t)=\cos\Big(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2}\Big)² \]

其中小偏移 $s$ 是为了防止 $\beta_t$ 在接近 $t=0$ 时过小。

图 5. 在训练过程中比较 $\beta\_t$ 的线性和基于余弦的调度。（图片来源：Nichol & Dhariwal, 2021）

反向过程方差 $\boldsymbol{\Sigma}_\theta$ 的参数化

Ho et al. (2020) 选择将 $\beta_t$ 固定为常数，而不是使其可学习，并设置 $\boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t) = \sigma²_t \mathbf{I}$，其中 $\sigma_t$ 不是可学习的，而是设置为 $\beta_t$ 或 $\tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \cdot \beta_t$。因为他们发现学习对角方差 $\boldsymbol{\Sigma}_\theta$ 会导致不稳定的训练和较差的样本质量。

Nichol & Dhariwal (2021) 提出学习 $\boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t)$ 作为 $\beta_t$ 和 $\tilde{\beta}_t$ 之间的插值，通过模型预测一个混合向量 $\mathbf{v}$：

\[\boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t) = \exp(\mathbf{v} \log \beta_t + (1-\mathbf{v}) \log \tilde{\beta}_t) \]

但是，简单的目标函数 $L_\text{simple}$ 不依赖于 $\boldsymbol{\Sigma}_\theta$ 。为了增加依赖性，他们构建了一个混合目标函数 $L_\text{hybrid} = L_\text{simple} + \lambda L_\text{VLB}$，其中 $\lambda=0.001$ 很小，并在 $L_\text{VLB}$ 项中停止 $\boldsymbol{\mu}_\theta$ 的梯度，使得 $L_\text{VLB}$ 只引导 $\boldsymbol{\Sigma}_\theta$ 的学习。实证上，他们观察到 $L_\text{VLB}$ 很难优化，可能是由于梯度噪声，因此他们建议使用时间平均平滑版本的 $L_\text{VLB}$ 进行重要性采样。

图 6. 改进的 DDPM 与其他基于似然的生成模型的负对数似然度比较。NLL 以 bits/dim 为单位报告。（图片来源：Nichol & Dhariwal, 2021）

加速扩散模型采样

沿着逆扩散过程的马尔可夫链生成 DDPM 的样本非常缓慢，因为 $T$ 可以达到一千步甚至更多。来自 Song 等人 2020 的一条数据： “例如，从 DDPM 生成尺寸为 32 × 32 的 50k 张图像大约需要 20 小时，但从 Nvidia 2080 Ti GPU 上的 GAN 中生成这些图像不到一分钟。”

一种简单的方法是通过运行分层采样计划 (Nichol & Dhariwal, 2021)，每 $\lceil T/S \rceil$ 步进行一次采样更新，将过程从 $T$ 减少到 $S$ 步。用于生成的新采样计划是 $\{\tau_1, \dots, \tau_S\}$，其中 $\tau_1 < \tau_2 < \dots <\tau_S \in [1, T]$，且 $S < T$。

对于另一种方法，让我们将 $q_\sigma(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0)$ 重新参数化为由所需标准差 $\sigma_t$ 参数化，根据 nice property：

\[\begin{aligned} \mathbf{x}_{t-1} &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1}}\boldsymbol{\epsilon}_{t-1} \\ &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t²} \boldsymbol{\epsilon}_t + \sigma_t\boldsymbol{\epsilon} \\ &= \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t²} \frac{\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0}{\sqrt{1 - \bar{\alpha}_t}} + \sigma_t\boldsymbol{\epsilon} \\ q_\sigma(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) &= \mathcal{N}(\mathbf{x}_{t-1}; \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t²} \frac{\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0}{\sqrt{1 - \bar{\alpha}_t}}, \sigma_t² \mathbf{I}) \end{aligned} \]

回想一下，在 $q(\mathbf{x}_{t-1} \vert \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\boldsymbol{\mu}}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I)$ 中，因此我们有：

\[\tilde{\beta}_t = \sigma_t² = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \cdot \beta_t \]

让 $\sigma_t² = \eta \cdot \tilde{\beta}_t$，这样我们可以调整 $\eta \in \mathbb{R}^+$ 作为一个超参数来控制采样的随机性。特殊情况下的 $\eta = 0$ 使得采样过程 确定性。这样的模型被命名为 去噪扩散隐式模型 (DDIM; Song 等人，2020)。DDIM 具有相同的边际噪声分布，但将噪声确定地映射回原始数据样本。

在生成过程中，我们只对 $S$ 个扩散步骤 $\{\tau_1, \dots, \tau_S\}$ 进行采样，推断过程变为：

\[q_{\sigma, \tau}(\mathbf{x}_{\tau_{i-1}} \vert \mathbf{x}_{\tau_t}, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{\tau_{i-1}}; \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t²} \frac{\mathbf{x}_{\tau_i} - \sqrt{\bar{\alpha}_t}\mathbf{x}_0}{\sqrt{1 - \bar{\alpha}_t}}, \sigma_t² \mathbf{I}) \]

在实验中，所有模型都是在 $T=1000$ 个扩散步骤下训练的，他们观察到当 $S$ 较小时，DDIM ($\eta=0$) 可以产生最高质量的样本，而当 $S$ 较小时，DDPM ($\eta=1$) 的表现要差得多。当我们能够运行完整的反向马尔可夫扩散步骤时 ($S=T=1000$)，DDPM 的表现更好。使用 DDIM，可以训练扩散模型达到任意数量的前向步骤，但在生成过程中只能从步骤的子集中进行采样。

图 7. CIFAR10 和 CelebA 数据集上的扩散模型的 FID 分数，包括 $\color{cyan}{\text{DDIM}}$ ($\eta=0$) 和 $\color{orange}{\text{DDPM}}$ ($\hat{\sigma}$)。（图片来源：Song 等人，2020）

与 DDPM 相比，DDIM 能够：

使用更少的步骤生成更高质量的样本。
具有“一致性”属性，因为生成过程是确定性的，这意味着在相同潜变量条件下的多个样本应该具有相似的高级特征。
由于一致性，DDIM 可以在潜变量中进行语义上有意义的插值。

潜扩散模型 (LDM；Rombach & Blattmann 等人，2022) 在潜在空间而不是像素空间中运行扩散过程，使训练成本更低，推理速度更快。它受到这样的观察的启发，即图像的大多数位对感知细节有贡献，而在激进压缩后，语义和概念构成仍然存在。LDM 通过首先使用自动编码器去除像素级冗余，然后在学习到的潜变量上使用扩散过程来操作/生成语义概念，松散地分解了感知压缩和语义压缩。

图 8. 压缩率和失真之间的权衡图，说明两阶段压缩 - 感知和语义压缩。（图片来源：Rombach & Blattmann 等人，2022）

感知压缩过程依赖于自动编码器模型。使用编码器$\mathcal{E}$将输入图像$\mathbf{x} \in \mathbb{R}^{H \times W \times 3}$压缩为较小的 2D 潜在向量$\mathbf{z} = \mathcal{E}(\mathbf{x}) \in \mathbb{R}^{h \times w \times c}$，其中下采样率$f=H/h=W/w=2^m, m \in \mathbb{N}$。然后解码器$\mathcal{D}$从潜在向量重构图像，$\tilde{\mathbf{x}} = \mathcal{D}(\mathbf{z})。该论文探讨了自动编码器训练中两种正则化类型，以避免潜在空间中任意高方差。

KL-reg: 对学习到的潜在空间施加小的 KL 惩罚，使其接近标准正态分布，类似于VAE。
VQ-reg: 在解码器中使用向量量化层，类似于VQVAE，但量化层被解码器吸收。

扩散和去噪过程发生在潜在向量$\mathbf{z}$上。去噪模型是一个时间条件的 U-Net，增加了交叉注意力机制，用于处理图像生成的灵活条件信息（例如类标签、语义地图、图像的模糊变体）。该设计等同于使用交叉注意力机制将不同模态的表示融合到模型中。每种类型的条件信息都与特定领域的编码器$\tau_\theta$配对，将条件输入$y$投影到一个可以映射到交叉注意力组件的中间表示，$\tau_\theta(y) \in \mathbb{R}^{M \times d_\tau}$：

\[ \begin{aligned} &\text{注意力}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\Big(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d}}\Big) \cdot \mathbf{V} \\ &\text{其中 }\mathbf{Q} = \mathbf{W}^{(i)}_Q \cdot \varphi_i(\mathbf{z}_i),\; \mathbf{K} = \mathbf{W}^{(i)}_K \cdot \tau_\theta(y),\; \mathbf{V} = \mathbf{W}^{(i)}_V \cdot \tau_\theta(y) \\ &\text{且 } \mathbf{W}^{(i)}_Q \in \mathbb{R}^{d \times d^i_\epsilon},\; \mathbf{W}^{(i)}_K, \mathbf{W}^{(i)}_V \in \mathbb{R}^{d \times d_\tau},\; \varphi_i(\mathbf{z}_i) \in \mathbb{R}^{N \times d^i_\epsilon},\; \tau_\theta(y) \in \mathbb{R}^{M \times d_\tau} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d4232479c14bbcadb3c082aee81f0750.png) 图 9\. 潜在扩散模型的架构。（图片来源：[Rombach & Blattmann, et al. 2022](https://arxiv.org/abs/2112.1075)） # 条件生成在对带有条件信息（例如 ImageNet 数据集）的图像进行生成模型训练时，通常会生成受类标签或一段描述性文本约束的样本。 ## 分类器引导的扩散为了明确将类信息纳入扩散过程中，[Dhariwal & Nichol (2021)](https://arxiv.org/abs/2105.05233) 在嘈杂图像 $\mathbf{x}_t$ 上训练了一个分类器 $f_\phi(y \vert \mathbf{x}_t, t)$ 并使用梯度 $\nabla_\mathbf{x} \log f_\phi(y \vert \mathbf{x}_t)$ 来引导扩散采样过程朝向条件信息 $y$（例如目标类标签），通过改变噪声预测。回顾 $\nabla_{\mathbf{x}_t} \log q(\mathbf{x}_t) = - \frac{1}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$，我们可以将联合分布 $q(\mathbf{x}_t, y)$ 的得分函数写成以下形式， $$ \begin{aligned} \nabla_{\mathbf{x}_t} \log q(\mathbf{x}_t, y) &= \nabla_{\mathbf{x}_t} \log q(\mathbf{x}_t) + \nabla_{\mathbf{x}_t} \log q(y \vert \mathbf{x}_t) \\ &\approx - \frac{1}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) + \nabla_{\mathbf{x}_t} \log f_\phi(y \vert \mathbf{x}_t) \\ &= - \frac{1}{\sqrt{1 - \bar{\alpha}_t}} (\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) - \sqrt{1 - \bar{\alpha}_t} \nabla_{\mathbf{x}_t} \log f_\phi(y \vert \mathbf{x}_t)) \end{aligned} \]

因此，一个新的分类器引导的预测器 $\bar{\boldsymbol{\epsilon}}_\theta$ 将采取以下形式，

\[\bar{\boldsymbol{\epsilon}}_\theta(\mathbf{x}_t, t) = \boldsymbol{\epsilon}_\theta(x_t, t) - \sqrt{1 - \bar{\alpha}_t} \nabla_{\mathbf{x}_t} \log f_\phi(y \vert \mathbf{x}_t) \]

要控制分类器指导的强度，我们可以向 delta 部分添加一个权重 $w$，

\[\bar{\boldsymbol{\epsilon}}_\theta(\mathbf{x}_t, t) = \boldsymbol{\epsilon}_\theta(x_t, t) - \sqrt{1 - \bar{\alpha}_t} \; w \nabla_{\mathbf{x}_t} \log f_\phi(y \vert \mathbf{x}_t) \]

结果上 消融扩散模型 (ADM) 和具有额外分类器指导的模型 (ADM-G) 能够比 SOTA 生成模型（如 BigGAN）取得更好的结果。

图 10. 这些算法利用分类器的指导来运行带有 DDPM 和 DDIM 的条件生成。（图片来源：Dhariwal & Nichol, 2021])

此外，通过对 U-Net 架构进行一些修改，Dhariwal & Nichol (2021) 展示了比扩散模型的 GAN 性能更好的表现。架构修改包括更深/更宽的模型、更多的注意力头、多分辨率注意力、用于上/下采样的 BigGAN 残差块、通过 $1/\sqrt{2}$ 缩放的残差连接和自适应组归一化（AdaGN）。

无分类器引导

即使没有独立的分类器$f_\phi$，仍然可以通过将条件和无条件扩散模型的分数结合起来来运行条件扩散步骤（Ho & Salimans，2021）。让无条件去噪扩散模型$p_\theta(\mathbf{x})$通过分数估计器$\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$参数化，条件模型$p_\theta(\mathbf{x} \vert y)$通过$\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y)$参数化。这两个模型可以通过单个神经网络学习。具体来说，条件扩散模型$p_\theta(\mathbf{x} \vert y)$在配对数据$(\mathbf{x}, y)$上进行训练，其中条件信息$y$会定期随机丢弃，以便模型知道如何无条件地生成图像，即$\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) = \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y=\varnothing)$。

隐式分类器的梯度可以用条件和无条件分数估计器表示。一旦插入到分类器引导的修改分数中，分数不再依赖于单独的分类器。

\[\begin{aligned} \nabla_{\mathbf{x}_t} \log p(y \vert \mathbf{x}_t) &= \nabla_{\mathbf{x}_t} \log p(\mathbf{x}_t \vert y) - \nabla_{\mathbf{x}_t} \log p(\mathbf{x}_t) \\ &= - \frac{1}{\sqrt{1 - \bar{\alpha}_t}}\Big( \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y) - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \Big) \\ \bar{\boldsymbol{\epsilon}}_\theta(\mathbf{x}_t, t, y) &= \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y) - \sqrt{1 - \bar{\alpha}_t} \; w \nabla_{\mathbf{x}_t} \log p(y \vert \mathbf{x}_t) \\ &= \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y) + w \big(\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y) - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \big) \\ &= (w+1) \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t, y) - w \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \end{aligned} \]

他们的实验表明，无分类器引导可以在 FID（区分合成和生成图像）和 IS（质量和多样性）之间取得良好的平衡。

导向扩散模型 GLIDE（Nichol, Dhariwal & Ramesh 等人，2022）探索了两种引导策略，即 CLIP 引导和无分类器引导，并发现后者更受青睐。他们假设这是因为 CLIP 引导利用对抗样本朝向 CLIP 模型优化，而不是优化更匹配的图像生成。

扩大生成分辨率和质量

为了在高分辨率生成高质量图像，Ho et al. (2021)提出使用多个扩散模型的管道，分辨率逐渐增加。在管道模型之间的噪声条件增强对最终图像质量至关重要，即对每个超分辨率模型$p_\theta(\mathbf{x} \vert \mathbf{z})$的条件输入$\mathbf{z}$应用强数据增强。条件噪声有助于减少管道设置中的复合误差。U-net是扩散建模高分辨率图像生成中常见的模型架构选择。

图 11. 多个扩散模型的级联管道，分辨率逐渐增加。（图片来源：Ho et al. 2021）

他们发现最有效的噪声是在低分辨率时应用高斯噪声，在高分辨率时应用高斯模糊。此外，他们还探索了两种需要对训练过程进行小修改的条件增强形式。请注意，条件噪声仅应用于训练而不应用于推断。

截断条件增强在低分辨率时在步骤$t > 0$处提前停止扩散过程。
非截断条件增强运行完整的低分辨率反向过程直到步骤 0，但然后通过$\mathbf{z}_t \sim q(\mathbf{x}_t \vert \mathbf{x}_0)$来破坏它，然后将被破坏的$\mathbf{z}_t$输入到超分辨率模型中。

两阶段扩散模型unCLIP（Ramesh et al. 2022）大量利用 CLIP 文本编码器以产生高质量的文本引导图像。给定预训练的 CLIP 模型$\mathbf{c}$和扩散模型的配对训练数据，$(\mathbf{x}, y)$，其中$x$是图像，$y$是相应的标题，我们可以计算 CLIP 文本和图像嵌入，$\mathbf{c}^t(y)$和$\mathbf{c}^i(\mathbf{x})$。unCLIP 并行学习两个模型：

先验模型$P(\mathbf{c}^i \vert y)$：在给定文本$y$的情况下输出 CLIP 图像嵌入$\mathbf{c}^i$。
解码器$P(\mathbf{x} \vert \mathbf{c}^i, [y])$：在给定 CLIP 图像嵌入$\mathbf{c}^i$和可选的原始文本$y$的情况下生成图像$\mathbf{x}$。

这两个模型实现了条件生成，因为

\[ \underbrace{P(\mathbf{x} \vert y) = P(\mathbf{x}, \mathbf{c}^i \vert y)}_{\mathbf{c}^i\text{ is deterministic given }\mathbf{x}} = P(\mathbf{x} \vert \mathbf{c}^i, y)P(\mathbf{c}^i \vert y) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/9f2e07b4e45528381d57a507f05211f8.png) 图 12\. unCLIP 的架构。（图片来源：[Ramesh et al. 2022](https://arxiv.org/abs/2204.06125)） unCLIP 遵循两阶段图像生成过程： 1. 给定文本$y$，首先使用 CLIP 模型生成文本嵌入$\mathbf{c}^t(y)$。使用 CLIP 潜在空间通过文本实现零样本图像操作。 1. 一个扩散或自回归先验 $P(\mathbf{c}^i \vert y)$ 处理这个 CLIP 文本嵌入以构建图像先验，然后一个扩散解码器 $P(\mathbf{x} \vert \mathbf{c}^i, [y])$ 生成一个图像，条件是先验。这个解码器还可以生成基于图像输入的图像变化，保留其风格和语义。 **Imagen**（[Saharia 等人，2022](https://arxiv.org/abs/2205.11487)）使用一个预训练的大型 LM（即冻结的 T5-XXL 文本编码器）来对文本进行编码以生成图像，而不是 CLIP 模型。有一个普遍的趋势，即更大的模型尺寸可以带来更好的图像质量和文本-图像对齐。他们发现 T5-XXL 和 CLIP 文本编码器在 MS-COCO 上表现相似，但人类评估更喜欢 T5-XXL 在 DrawBench 上（一个涵盖 11 个类别的提示集合）的表现。在应用无分类器指导时，增加 $w$ 可能会导致更好的图像-文本对齐，但会降低图像保真度。他们发现这是由于训练-测试不匹配，也就是说，因为训练数据 $\mathbf{x}$ 保持在范围 $[-1, 1]$ 内，测试数据也应该如此。引入了两种阈值策略： + 静态阈值：将 $\mathbf{x}$ 预测剪切到 $[-1, 1]$ + 动态阈值：在每个采样步骤中，将 $s$ 计算为某个百分位绝对像素值；如果 $s > 1$，则将预测剪切到 $[-s, s]$ 并除以 $s$。 Imagen 修改了 U-net 中的几个设计，使其成为 *高效 U-Net*。 + 将模型参数从高分辨率块移动到低分辨率，通过为低分辨率添加更多的残差块； + 将跳跃连接按 $1/\sqrt{2}$ 缩放 + 颠倒下采样（在卷积之前移动）和上采样操作（在卷积之后移动）的顺序，以提高前向传递的速度。他们发现，噪声调节增强、动态阈值和高效的 U-Net 对图像质量至关重要，但是增加文本编码器的大小比 U-Net 的大小更重要。 # 快速总结 + **优点**：在生成建模中，可追踪性和灵活性是两个相互冲突的目标。可追踪的模型可以通过分析评估和廉价地拟合数据（例如通过高斯或拉普拉斯）来描述数据中的结构，但它们不能轻松地描述丰富数据集中的结构。灵活的模型可以拟合数据中的任意结构，但通常评估、训练或从这些模型中采样是昂贵的。扩散模型既具有可追踪性又具有灵活性。 + **缺点**：扩散模型依赖于长马尔可夫链的扩散步骤来生成样本，因此在时间和计算方面可能相当昂贵。已经提出了新的方法来加快这一过程，但采样速度仍然比 GAN 慢。 # 引用引用为： > Weng, Lilian.（2021 年 7 月）。什么是扩散模型？Lil’Log。https://lilianweng.github.io/posts/2021-07-11-diffusion-models/。或 ```py @article{weng2021diffusion, title = "What are diffusion models?", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2021", month = "Jul", url = "https://lilianweng.github.io/posts/2021-07-11-diffusion-models/" } ``` # 参考文献 [1] Jascha Sohl-Dickstein 等人的[“使用非平衡热力学的深度无监督学习。”](https://arxiv.org/abs/1503.03585) ICML 2015. [2] Max Welling & Yee Whye Teh 的[“通过随机梯度朗维动力学进行贝叶斯学习。”](https://www.stats.ox.ac.uk/~teh/research/compstats/WelTeh2011a.pdf) ICML 2011. [3] 杨松 & Stefano Ermon 的[“通过估计数据分布梯度进行生成建模。”](https://arxiv.org/abs/1907.05600) NeurIPS 2019. [4] 杨松 & Stefano Ermon 的[“训练基于分数的生成模型的改进技术。”](https://arxiv.org/abs/2006.09011) NeuriPS 2020. [5] Jonathan Ho 等人的[“去噪扩散概率模型。”](https://arxiv.org/abs/2006.11239) arxiv 预印本 arxiv:2006.11239 (2020). [[代码](https://github.com/hojonathanho/diffusion)] [6] Jiaming Song 等人的[“去噪扩散隐式模型。”](https://arxiv.org/abs/2010.02502) arxiv 预印本 arxiv:2010.02502 (2020). [[代码](https://github.com/ermongroup/ddim)] [7] Alex Nichol & Prafulla Dhariwal 的[“改进的去噪扩散概率模型”](https://arxiv.org/abs/2102.09672) arxiv 预印本 arxiv:2102.09672 (2021). [[代码](https://github.com/openai/improved-diffusion)] [8] Prafula Dhariwal & Alex Nichol 的[“扩散模型在图像合成上击败 GANs。”](https://arxiv.org/abs/2105.05233) arxiv 预印本 arxiv:2105.05233 (2021). [[代码](https://github.com/openai/guided-diffusion)] [9] Jonathan Ho & Tim Salimans 的[“无分类器扩散引导。”](https://arxiv.org/abs/2207.12598) NeurIPS 2021 深度生成模型和下游应用研讨会。 [10] 杨松等人的[“通过随机微分方程进行基于分数的生成建模。”](https://openreview.net/forum?id=PxTIG12RRHS) ICLR 2021. [11] Alex Nichol, Prafulla Dhariwal & Aditya Ramesh 等人的[“GLIDE: 通过文本引导扩散模型实现逼真图像生成和编辑。”](https://arxiv.org/abs/2112.10741) ICML 2022. [12] Jonathan Ho 等人的[“级联扩散模型用于高保真度图像生成。”](https://arxiv.org/abs/2106.15282) J. Mach. Learn. Res. 23 (2022): 47-1. [13] Aditya Ramesh 等人的[“具有 CLIP 潜变量的分层文本条件图像生成。”](https://arxiv.org/abs/2204.06125) arxiv 预印本 arxiv:2204.06125 (2022). [14] Chitwan Saharia & William Chan 等人的[“具有深度语言理解的逼真文本到图像扩散模型。”](https://arxiv.org/abs/2205.11487) arxiv 预印本 arxiv:2205.11487 (2022). [15] Rombach & Blattmann 等人的[“使用潜在扩散模型进行高分辨率图像合成。”](https://arxiv.org/abs/2112.10752) CVPR 2022.[代码](https://github.com/CompVis/latent-diffusion) # 对比表示学习 > 原文：[`lilianweng.github.io/posts/2021-05-31-contrastive/`](https://lilianweng.github.io/posts/2021-05-31-contrastive/) 对比表示学习的目标是学习这样一个嵌入空间，其中相似的样本对彼此保持接近，而不相似的样本则相距甚远。对比学习可以应用于监督和无监督设置。在处理无监督数据时，对比学习是自监督学习中最强大的方法之一。 # 对比训练目标在对比学习的早期损失函数版本中，只涉及一个正样本和一个负样本。最近训练目标的趋势是在一个批次中包含多个正样本和负样本对。 ## 对比损失 **对比损失**（[Chopra et al. 2005](http://yann.lecun.com/exdb/publis/pdf/chopra-05.pdf)）是最早用于深度度量学习的对比方式的训练目标之一。给定一组输入样本$\{ \mathbf{x}_i \}$，每个样本都有对应的标签$y_i \in \{1, \dots, L\}$，其中$L$表示类别数。我们希望学习一个函数$f_\theta(.): \mathcal{X}\to\mathbb{R}^d$，将$x_i$编码为一个嵌入向量，使得同一类别的示例具有相似的嵌入，而不同类别的示例具有非常不同的嵌入。因此，对比损失接受一对输入$(x_i, x_j)$，当它们来自同一类别时最小化嵌入距离，否则最大化距离。 $$ \mathcal{L}_\text{cont}(\mathbf{x}_i, \mathbf{x}_j, \theta) = \mathbb{1}[y_i=y_j] \| f_\theta(\mathbf{x}_i) - f_\theta(\mathbf{x}_j) \|²_2 + \mathbb{1}[y_i\neq y_j]\max(0, \epsilon - \|f_\theta(\mathbf{x}_i) - f_\theta(\mathbf{x}_j)\|_2)² \]

其中$\epsilon$是一个超参数，定义了不同类别样本之间的最小距离。

三元组损失

三元组损失最初是在 FaceNet（Schroff et al. 2015）论文中提出的，用于学习同一人在不同姿势和角度下的人脸识别。

图 1. 给定一个锚点一个正样本和一个负样本的三元组损失示意图。（图片来源：Schroff et al. 2015）

给定一个锚点输入$\mathbf{x}$，我们选择一个正样本$\mathbf{x}^+$和一个负样本$\mathbf{x}^-$，意味着$\mathbf{x}^+$和$\mathbf{x}$属于同一类别，而$\mathbf{x}^-$则来自另一个不同的类别。三元组损失学习通过以下方程式同时最小化锚点$\mathbf{x}$和正样本$\mathbf{x}^+$之间的距离，并最大化锚点$\mathbf{x}$和负样本$\mathbf{x}^-$之间的距离：

\[\mathcal{L}_\text{triplet}(\mathbf{x}, \mathbf{x}^+, \mathbf{x}^-) = \sum_{\mathbf{x} \in \mathcal{X}} \max\big( 0, \|f(\mathbf{x}) - f(\mathbf{x}^+)\|²_2 - \|f(\mathbf{x}) - f(\mathbf{x}^-)\|²_2 + \epsilon \big) \]

其中边界参数 $\epsilon$ 被配置为相似 vs 不相似对之间距离的最小偏移量。

选择具有挑战性的 $\mathbf{x}^-$ 对于真正改进模型至关重要。

提升的结构化损失

提升的结构化损失 (Song et al. 2015) 利用一个训练批次内的所有成对边以提高计算效率。

图 2. 比较对比损失、三元组损失和提升的结构化损失。红色和蓝色边分别连接相似和不相似的样本对。（图片来源：Song et al. 2015）

令 $D_{ij} = | f(\mathbf{x}_i) - f(\mathbf{x}_j) |_2$，定义一个结构化损失函数为

\[\begin{aligned} \mathcal{L}_\text{struct} &= \frac{1}{2\vert \mathcal{P} \vert} \sum_{(i,j) \in \mathcal{P}} \max(0, \mathcal{L}_\text{struct}^{(ij)})² \\ \text{where } \mathcal{L}_\text{struct}^{(ij)} &= D_{ij} + \color{red}{\max \big( \max_{(i,k)\in \mathcal{N}} \epsilon - D_{ik}, \max_{(j,l)\in \mathcal{N}} \epsilon - D_{jl} \big)} \end{aligned} \]

其中 $\mathcal{P}$ 包含正样本对的集合，$\mathcal{N}$ 是负样本对的集合。注意，密集的成对平方距离矩阵可以很容易地在每个训练批次中计算。

$\mathcal{L}_\text{struct}^{(ij)}$ 中的红色部分用于挖掘困难的负样本。然而，在实践中，它并不平滑，可能导致收敛到一个糟糕的局部最优解。因此，它被放宽为：

\[\mathcal{L}_\text{struct}^{(ij)} = D_{ij} + \log \Big( \sum_{(i,k)\in\mathcal{N}} \exp(\epsilon - D_{ik}) + \sum_{(j,l)\in\mathcal{N}} \exp(\epsilon - D_{jl}) \Big) \]

在论文中，他们还提出通过积极地将一些难以处理的负样本纳入每个批次来增强负样本的质量，给定一些随机的正样本对。

N-对损失

多类 N-对损失 (Sohn 2016) 将三元组损失推广到包括与多个负样本的比较。

给定一个 $(N + 1)$-元组的训练样本，$\{ \mathbf{x}, \mathbf{x}^+, \mathbf{x}^-_1, \dots, \mathbf{x}^-_{N-1} \}$，包括一个正样本和 $N-1$ 个负样本，N-对损失定义为：

\[\begin{aligned} \mathcal{L}_\text{N-pair}(\mathbf{x}, \mathbf{x}^+, \{\mathbf{x}^-_i\}^{N-1}_{i=1}) &= \log\big(1 + \sum_{i=1}^{N-1} \exp(f(\mathbf{x})^\top f(\mathbf{x}^-_i) - f(\mathbf{x})^\top f(\mathbf{x}^+))\big) \\ &= -\log\frac{\exp(f(\mathbf{x})^\top f(\mathbf{x}^+))}{\exp(f(\mathbf{x})^\top f(\mathbf{x}^+)) + \sum_{i=1}^{N-1} \exp(f(\mathbf{x})^\top f(\mathbf{x}^-_i))} \end{aligned} \]

如果每个类别只采样一个负样本，那么它等效于多类分类的 softmax 损失。

NCE

噪声对比估计，简称NCE，是一种用于估计统计模型参数的方法，由Gutmann & Hyvarinen于 2010 年提出。其思想是运行逻辑回归来区分目标数据和噪声。了解更多关于 NCE 如何用于学习词嵌入的信息，请点击这里。

令$\mathbf{x}$为目标样本$\sim P(\mathbf{x} \vert C=1; \theta) = p_\theta(\mathbf{x})$，$\tilde{\mathbf{x}}$为噪声样本$\sim P(\tilde{\mathbf{x}} \vert C=0) = q(\tilde{\mathbf{x}})$。注意，逻辑回归模型了 logit（即 log-odds），在这种情况下，我们希望对来自目标数据分布的样本$u$的 logit 进行建模，而不是噪声分布：

\[\ell_\theta(\mathbf{u}) = \log \frac{p_\theta(\mathbf{u})}{q(\mathbf{u})} = \log p_\theta(\mathbf{u}) - \log q(\mathbf{u}) \]

将 logits 转换为概率后，我们可以应用交叉熵损失：

\[\begin{aligned} \mathcal{L}_\text{NCE} &= - \frac{1}{N} \sum_{i=1}^N \big[ \log \sigma (\ell_\theta(\mathbf{x}_i)) + \log (1 - \sigma (\ell_\theta(\tilde{\mathbf{x}}_i))) \big] \\ \text{ where }\sigma(\ell) &= \frac{1}{1 + \exp(-\ell)} = \frac{p_\theta}{p_\theta + q} \end{aligned} \]

这里列出了仅适用于一个正样本和一个噪声样本的 NCE 损失的原始形式。在许多后续作品中，包含多个负样本的对比损失也被广泛称为 NCE。

InfoNCE

InfoNCE 损失在 CPC（对比预测编码; van den Oord, et al. 2018）中使用了受 NCE 启发的分类交叉熵损失，以识别一组无关噪声样本中的正样本。

给定上下文向量$\mathbf{c}$，正样本应该从条件分布$p(\mathbf{x} \vert \mathbf{c})$中抽取，而$N-1$个负样本则从与上下文$\mathbf{c}$独立的提议分布$p(\mathbf{x})$中抽取。为简洁起见，让我们将所有样本标记为$X=\{ \mathbf{x}_i \}^N_{i=1}$，其中只有一个$\mathbf{x}_\texttt{pos}$是正样本。我们正确检测到正样本的概率是：

\[p(C=\texttt{pos} \vert X, \mathbf{c}) = \frac{p(x_\texttt{pos} \vert \mathbf{c}) \prod_{i=1,\dots,N; i \neq \texttt{pos}} p(\mathbf{x}_i)}{\sum_{j=1}^N \big[ p(\mathbf{x}_j \vert \mathbf{c}) \prod_{i=1,\dots,N; i \neq j} p(\mathbf{x}_i) \big]} = \frac{ \frac{p(\mathbf{x}_\texttt{pos}\vert c)}{p(\mathbf{x}_\texttt{pos})} }{ \sum_{j=1}^N \frac{p(\mathbf{x}_j\vert \mathbf{c})}{p(\mathbf{x}_j)} } = \frac{f(\mathbf{x}_\texttt{pos}, \mathbf{c})}{ \sum_{j=1}^N f(\mathbf{x}_j, \mathbf{c}) } \]

其中评分函数为$f(\mathbf{x}, \mathbf{c}) \propto \frac{p(\mathbf{x}\vert\mathbf{c})}{p(\mathbf{x})}$。

InfoNCE 损失优化了正确分类正样本的负对数概率：

\[\mathcal{L}_\text{InfoNCE} = - \mathbb{E} \Big[\log \frac{f(\mathbf{x}, \mathbf{c})}{\sum_{\mathbf{x}' \in X} f(\mathbf{x}', \mathbf{c})} \Big] \]

$f(x, c)$估计密度比$\frac{p(x\vert c)}{p(x)}$与最大化输入$x$和上下文向量$c$之间的互信息有关，我们有：

\[I(\mathbf{x}; \mathbf{c}) = \sum_{\mathbf{x}, \mathbf{c}} p(\mathbf{x}, \mathbf{c}) \log\frac{p(\mathbf{x}, \mathbf{c})}{p(\mathbf{x})p(\mathbf{c})} = \sum_{\mathbf{x}, \mathbf{c}} p(\mathbf{x}, \mathbf{c})\log\color{blue}{\frac{p(\mathbf{x}|\mathbf{c})}{p(\mathbf{x})}} \]

其中蓝色中的对数项由$f$估计。

对于序列预测任务，CPC 模型通过建模保持$\mathbf{x}_{t+k}$和$\mathbf{c}_t$之间的互信息的密度函数，而不是直接建模未来观测$p_k(\mathbf{x}_{t+k} \vert \mathbf{c}_t)$（这可能相当昂贵）：

\[f_k(\mathbf{x}_{t+k}, \mathbf{c}_t) = \exp(\mathbf{z}_{t+k}^\top \mathbf{W}_k \mathbf{c}_t) \propto \frac{p(\mathbf{x}_{t+k}\vert\mathbf{c}_t)}{p(\mathbf{x}_{t+k})} \]

其中$\mathbf{z}_{t+k}$是编码输入，$\mathbf{W}_k$是可训练的权重矩阵。

软最近邻损失

软最近邻损失（Salakhutdinov & Hinton 2007，Frosst et al. 2019）将其扩展为包括多个正样本。

给定一批样本，$\{\mathbf{x}_i, y_i)\}^B_{i=1}$，其中$y_i$是$\mathbf{x}_i$的类标签，以及用于衡量两个输入之间相似性的函数$f(.,.)$，在温度$\tau$下定义软最近邻损失：

\[\mathcal{L}_\text{snn} = -\frac{1}{B}\sum_{i=1}^B \log \frac{\sum_{i\neq j, y_i = y_j, j=1,\dots,B} \exp(- f(\mathbf{x}_i, \mathbf{x}_j) / \tau)}{\sum_{i\neq k, k=1,\dots,B} \exp(- f(\mathbf{x}_i, \mathbf{x}_k) /\tau)} \]

温度$\tau$用于调整特征在表示空间中的集中程度。例如，在低温下，损失由小距离主导，而广泛分离的表示不能贡献太多并变得无关紧要。

常见设置

我们可以放宽软最近邻损失中“类”和“标签”的定义，通过例如应用数据增强来创建原始样本的噪声版本，从无监督数据中创建正负样本对。

最近的研究遵循以下对比学习目标的定义，以整合多个正负样本。根据 (Wang & Isola 2020) 中的设置，让 $p_\texttt{data}(.)$ 是 $\mathbb{R}^n$ 上的数据分布，$p_\texttt{pos}(., .)$ 是 $\mathbb{R}^{n \times n}$ 上正样本对的分布。这两个分布应满足：

对称性：$\forall \mathbf{x}, \mathbf{x}^+, p_\texttt{pos}(\mathbf{x}, \mathbf{x}^+) = p_\texttt{pos}(\mathbf{x}^+, \mathbf{x})$
匹配边际：$\forall \mathbf{x}, \int p_\texttt{pos}(\mathbf{x}, \mathbf{x}^+) d\mathbf{x}^+ = p_\texttt{data}(\mathbf{x})$

为了学习一个编码器 $f(\mathbf{x})$ 来学习一个 L2-归一化特征向量，对比学习的目标是：

\[\begin{aligned} \mathcal{L}_\text{contrastive} &= \mathbb{E}_{(\mathbf{x},\mathbf{x}^+)\sim p_\texttt{pos}, \{\mathbf{x}^-_i\}^M_{i=1} \overset{\text{i.i.d}}{\sim} p_\texttt{data} } \Big[ -\log\frac{\exp(f(\mathbf{x})^\top f(\mathbf{x}^+) / \tau)}{ \exp(f(\mathbf{x})^\top f(\mathbf{x}^+) / \tau) + \sum_{i=1}^M \exp(f(\mathbf{x})^\top f(\mathbf{x}_i^-) / \tau)} \Big] & \\ &\approx \mathbb{E}_{(\mathbf{x},\mathbf{x}^+)\sim p_\texttt{pos}, \{\mathbf{x}^-_i\}^M_{i=1} \overset{\text{i.i.d}}{\sim} p_\texttt{data} }\Big[ - f(\mathbf{x})^\top f(\mathbf{x}^+) / \tau + \log\big(\sum_{i=1}^M \exp(f(\mathbf{x})^\top f(\mathbf{x}_i^-) / \tau)\big) \Big] & \scriptstyle{\text{; 假设无限负样本}} \\ &= -\frac{1}{\tau}\mathbb{E}_{(\mathbf{x},\mathbf{x}^+)\sim p_\texttt{pos}}f(\mathbf{x})^\top f(\mathbf{x}^+) + \mathbb{E}_{ \mathbf{x} \sim p_\texttt{data}} \Big[ \log \mathbb{E}_{\mathbf{x}^- \sim p_\texttt{data}} \big[ \sum_{i=1}^M \exp(f(\mathbf{x})^\top f(\mathbf{x}_i^-) / \tau)\big] \Big] & \end{aligned} \]

关键要素

大量数据增强

给定一个训练样本，需要使用数据增强技术创建其噪声版本，以将其作为正样本输入损失中。正确的数据增强设置对于学习良好且可泛化的嵌入特征至关重要。它将非必要的变化引入示例中，而不修改语义含义，从而鼓励模型学习表示的基本部分。例如，SimCLR 中的实验表明，随机裁剪和随机颜色失真的组合对于学习图像的视觉表示具有良好的性能至关重要。

大批量大小

在训练过程中使用大批量大小是许多对比学习方法成功的另一个关键因素（例如 SimCLR，CLIP），特别是当它依赖于批内负样本时。只有批量大小足够大，损失函数才能覆盖足够多样的负样本集合，对模型学习区分不同示例的有意义表示具有挑战性。

艰难负样本挖掘

艰难负样本应该与锚定样本具有不同的标签，但嵌入特征与锚定嵌入非常接近。在监督数据集中访问地面真实标签时，很容易识别任务特定的艰难负样本。例如，在学习句子嵌入时，我们可以将在 NLI 数据集中标记为“矛盾”的句子对视为艰难负对（例如 SimCSE，或使用 BM25 返回的最匹配关键字的前几个错误候选作为艰难负样本（DPR; Karpukhin et al., 2020)）。

然而，当我们希望保持无监督时，进行艰难负样本挖掘变得棘手。增加训练批量大小或内存库大小隐含地引入更多艰难负样本，但这会导致大内存使用量的沉重负担。

Chuang 等人（2020）研究了对比学习中的采样偏差，并提出了无偏损失。在无监督设置中，由于我们不知道地面真实标签，我们可能会意外地采样到假负样本。采样偏差可能导致性能显著下降。

图 3. 对比学习中指的假负样本的采样偏差可能导致性能大幅下降。（图片来源：Chuang 等人，2020)

让我们假设锚定类$c$的概率是均匀的$\rho(c)=\eta^+$，观察到不同类的概率为$\eta^- = 1-\eta^+$。

观察到$\mathbf{x}$的正例的概率为$p^+_x(\mathbf{x}’)=p(\mathbf{x}’\vert \mathbf{h}_{x’}=\mathbf{h}_x)$；
获取$\mathbf{x}$的负样本的概率为$p^-_x(\mathbf{x}’)=p(\mathbf{x}’\vert \mathbf{h}_{x’}\neq\mathbf{h}_x)$。

当我们对$\mathbf{x}^-$进行采样时，我们无法访问真实的$p^-_x(\mathbf{x}^-)$，因此$\mathbf{x}^-$可能以概率$\eta^+$从（不希望的）锚定类$c$中采样。实际采样数据分布变为：

\[p(\mathbf{x}') = \eta^+ p^+_x(\mathbf{x}') + \eta^- p_x^-(\mathbf{x}') \]

因此，我们可以使用 $p^-_x(\mathbf{x}’) = (p(\mathbf{x}’) - \eta^+ p^+_x(\mathbf{x}’))/\eta^-$ 来采样 $\mathbf{x}^-$ 来去偏差损失。通过从 $p$ 中采样 $N$ 个样本 $\{\mathbf{u}_i\}^N_{i=1}$ 和从 $p^+_x$ 中采样 $M$ 个样本 $\{ \mathbf{v}_i \}_{i=1}^M$，我们可以估计对比学习损失中分母中第二项 $\mathbb{E}_{\mathbf{x}^-\sim p^-_x}[\exp(f(\mathbf{x})^\top f(\mathbf{x}^-))]$ 的期望：

\[g(\mathbf{x}, \{\mathbf{u}_i\}^N_{i=1}, \{\mathbf{v}_i\}_{i=1}^M) = \max\Big\{ \frac{1}{\eta^-}\Big( \frac{1}{N}\sum_{i=1}^N \exp(f(\mathbf{x})^\top f(\mathbf{u}_i)) - \frac{\eta^+}{M}\sum_{i=1}^M \exp(f(\mathbf{x})^\top f(\mathbf{v}_i)) \Big), \exp(-1/\tau) \Big\} \]

其中 $\tau$ 是温度，$\exp(-1/\tau)$ 是 $\mathbb{E}_{\mathbf{x}^-\sim p^-_x}[\exp(f(\mathbf{x})^\top f(\mathbf{x}^-))]$ 的理论下界。

最终的去偏差对比损失如下：

\[ \mathcal{L}^{N,M}_\text{debias}(f) = \mathbb{E}_{\mathbf{x},\{\mathbf{u}_i\}^N_{i=1}\sim p;\;\mathbf{x}^+, \{\mathbf{v}_i\}_{i=1}^M\sim p^+} \Big[ -\log\frac{\exp(f(\mathbf{x})^\top f(\mathbf{x}^+)}{\exp(f(\mathbf{x})^\top f(\mathbf{x}^+) + N g(x,\{\mathbf{u}_i\}^N_{i=1}, \{\mathbf{v}_i\}_{i=1}^M)} \Big] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/7961e04d78b6ddbb5bf9f29106b3aa11.png) 图 4\. 使用去偏差对比学习学习到的表示的 t-SNE 可视化。（图片来源：[Chuang et al., 2020](https://arxiv.org/abs/2007.00224)）在上述注释之后，[Robinson et al. (2021)](https://arxiv.org/abs/2010.04592) 修改了采样概率，通过增加概率 $p^-_x(x’)$ 的权重，使其与锚定样本的相似性成正比，新的采样概率 $q_\beta(x^-)$ 为： $$ q_\beta(\mathbf{x}^-) \propto \exp(\beta f(\mathbf{x})^\top f(\mathbf{x}^-)) \cdot p(\mathbf{x}^-) \]

其中 $\beta$ 是一个需要调整的超参数。

我们可以使用重要性采样来估计分母中的第二项 $\mathbb{E}_{\mathbf{x}^- \sim q_\beta} [\exp(f(\mathbf{x})^\top f(\mathbf{x}^-))]$，其中分区函数 $Z_\beta, Z^+_\beta$ 都可以通过经验估计。

\[ \begin{aligned} \mathbb{E}_{\mathbf{u} \sim q_\beta} [\exp(f(\mathbf{x})^\top f(\mathbf{u}))] &= \mathbb{E}_{\mathbf{u} \sim p} [\frac{q_\beta}{p}\exp(f(\mathbf{x})^\top f(\mathbf{u}))] = \mathbb{E}_{\mathbf{u} \sim p} [\frac{1}{Z_\beta}\exp((\beta + 1)f(\mathbf{x})^\top f(\mathbf{u}))] \\ \mathbb{E}_{\mathbf{v} \sim q^+_\beta} [\exp(f(\mathbf{x})^\top f(\mathbf{v}))] &= \mathbb{E}_{\mathbf{v} \sim p^+} [\frac{q^+_\beta}{p}\exp(f(\mathbf{x})^\top f(\mathbf{v}))] = \mathbb{E}_{\mathbf{v} \sim p} [\frac{1}{Z^+_\beta}\exp((\beta + 1)f(\mathbf{x})^\top f(\mathbf{v}))] \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/2d8bab336b6d9bdf145e710b8e36ecb5.png) 图 5\. 计算 NCE 损失、去偏差对比损失和硬负样本目标的伪代码，当设置 $M=1$ 时。（图片来源：[Robinson et al., 2021](https://arxiv.org/abs/2010.04592)） # 视觉：图像嵌入 ## 图像增强视觉领域对比表示学习的大多数方法依赖于通过应用一系列数据增强技术来创建样本的噪声版本。增强应该显着改变其视觉外观，但保持语义含义不变。 ### 基本图像增强有许多方法可以修改图像而保留其语义含义。我们可以使用以下任一种增强或多个操作的组合。 + 随机裁剪然后调整回原始大小。 + 随机颜色失真 + 随机高斯模糊 + 随机颜色抖动 + 随机水平翻转 + 随机灰度转换 + 多裁剪增强：使用两个标准分辨率裁剪和采样一组额外的低分辨率裁剪，仅覆盖图像的小部分。使用低分辨率裁剪可以降低计算成本。(SwAV) + 还有很多... ### 增强策略许多框架旨在学习良好的数据增强策略（即多个转换的组合）。以下是一些常见的策略。 + [AutoAugment](https://lilianweng.github.io/posts/2019-05-05-domain-randomization/#AutoAugment)（[Cubuk 等人，2018](https://arxiv.org/abs/1805.09501)）：受[NAS](https://lilianweng.github.io/posts/2020-08-06-nas/)启发，AutoAugment 将学习最佳数据增强操作（即剪切、旋转、反转等）的问题框架为图像分类的 RL 问题，并寻找在评估集上导致最高准确性的组合。 + RandAugment（[Cubuk 等人，2019](https://arxiv.org/abs/1909.13719)）：RandAugment 通过控制不同转换操作的幅度以单个幅度参数来大大减少 AutoAugment 的搜索空间。 + PBA（基于种群的增强；[何等人，2019](https://arxiv.org/abs/1905.05393)）：PBA 将 PBT（[Jaderberg 等人，2017](https://arxiv.org/abs/1711.09846)）与 AutoAugment 相结合，使用进化算法并行训练一组子模型，以演化出最佳的增强策略。 + UDA（无监督数据增强；[谢等人，2019](https://arxiv.org/abs/1904.12848)）：在一组可能的增强策略中，UDA 选择那些最小化未标记示例及其未标记增强版本之间 KL 散度的策略。 ### 图像混合图像混合方法可以从现有数据点构建新的训练示例。 + Mixup（[张等人，2018](https://arxiv.org/abs/1710.09412)）：通过创建两个现有图像$I_1$和$I_2$的加权像素级组合来运行全局级混合：$I_\text{mixup} \gets \alpha I_1 + (1-\alpha) I_2$，其中$\alpha \in [0, 1]$。 + Cutmix ([Yun et al., 2019](https://arxiv.org/abs/1905.04899))：Cutmix 通过将一个图像的局部区域与另一个图像的其余部分组合生成一个新示例进行区域级混合。$I_\text{cutmix} \gets \mathbf{M}_b \odot I_1 + (1-\mathbf{M}_b) \odot I_2$，其中$\mathbf{M}_b \in \{0, 1\}^I$是一个二进制掩模，$\odot$是逐元素乘法。它等同于用另一幅图像的相同区域填充 cutout ([DeVries & Taylor 2017](https://arxiv.org/abs/1708.04552)) 区域。 + MoCHi（“混合对比困难负例”；[Kalantidis et al. 2020](https://arxiv.org/abs/2010.01028)）：给定一个查询$\mathbf{q}$，MoCHi 维护一个包含$K$个负特征$\mathbf{n}_1, \dots, \mathbf{n}_K$的队列，并按照与查询的相似性$\mathbf{q}^\top \mathbf{n}$降序排序这些负特征。队列中的前$N$个项目被视为最困难的负例$Q^N$。然后可以通过$\mathbf{h} = \tilde{\mathbf{h}} / |\tilde{\mathbf{h}}|$生成合成的困难示例，其中$\tilde{\mathbf{h}} = \alpha\mathbf{n}_i + (1-\alpha) \mathbf{n}_j$，$\alpha \in (0, 1)$。通过与查询特征混合，可以创建更难的示例，$\mathbf{h}’ = \tilde{\mathbf{h}’} / |\tilde{\mathbf{h}’}|_2$，其中$\tilde{\mathbf{h}’} = \beta\mathbf{q} + (1-\beta) \mathbf{n}_j$，$\beta \in (0, 0.5)$。 ## 并行增强这类方法生成一个锚定图像的两个噪声版本，并旨在学习表示，使得这两个增强样本共享相同的嵌入。 ### SimCLR **SimCLR** ([Chen et al, 2020](https://arxiv.org/abs/2002.05709)) 提出了一种用于对视觉表示进行对比学习的简单框架。通过在潜在空间中通过对比损失最大化同一样本的不同增强视图之间的一致性来学习视觉输入的表示。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/36ac2d9cf689282524c3ed4064629f52.png) 图 6\. 一种用于对视觉表示进行对比学习的简单框架。 (图片来源：[Chen et al, 2020](https://arxiv.org/abs/2002.05709)) 1. 随机采样一个包含$N$个样本的小批量，每个样本应用两种不同的数据增强操作，总共产生$2N$个增强样本。 $$ \tilde{\mathbf{x}}_i = t(\mathbf{x}),\quad\tilde{\mathbf{x}}_j = t'(\mathbf{x}),\quad t, t' \sim \mathcal{T} \]

其中，从相同的增强家族$\mathcal{T}$中随机采样两个独立的数据增强操作符$t$和$t'$。数据增强包括随机裁剪、随机翻转调整大小、颜色失真和高斯模糊。

给定一个正对，其他$2(N-1)$个数据点被视为负样本。表示由基础编码器$f(.)$生成：

\[\mathbf{h}_i = f(\tilde{\mathbf{x}}_i),\quad \mathbf{h}_j = f(\tilde{\mathbf{x}}_j) \]

对比学习损失使用余弦相似度$\text{sim}(.,.)$来定义。请注意，损失作用于表示$g(.)$的额外投影层，而不是直接作用于表示空间。但是，仅表示$\mathbf{h}$用于下游任务。

\[\begin{aligned} \mathbf{z}_i &= g(\mathbf{h}_i),\quad \mathbf{z}_j = g(\mathbf{h}_j) \\ \mathcal{L}_\text{SimCLR}^{(i,j)} &= - \log\frac{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_j) / \tau)}{\sum_{k=1}^{2N} \mathbb{1}_{[k \neq i]} \exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_k) / \tau)} \end{aligned} \]

其中$\mathbb{1}_{[k \neq i]}$是一个指示函数：如果$k\neq i$则为 1，否则为 0。

SimCLR 需要一个大批量大小以包含足够的负样本以实现良好的性能。

图 7. SimCLR 的算法。（图片来源：Chen 等人，2020）。

Barlow Twins

Barlow Twins（Zbontar 等人，2021）将两个扭曲版本的样本输入相同的网络中，以提取特征并学习使这两组输出特征之间的交叉相关矩阵接近于单位矩阵。其目标是保持同一样本的不同扭曲版本的表示向量相似，同时最小化这些向量之间的冗余。

图 8. Barlow Twins 学习流程示意图。（图片来源：Zbontar 等人，2021）。

设$\mathcal{C}$是在批处理维度上计算的两个相同网络输出之间的交叉相关矩阵。$\mathcal{C}$是一个方阵，其大小与特征网络的输出维度相同。矩阵$\mathcal{C}$中的每个条目$\mathcal{C}_{ij}$是网络输出向量维度在索引$i, j$和批处理索引$b$处的余弦相似度，$\mathbf{z}_{b,i}^A$和$\mathbf{z}_{b,j}^B$，取值介于-1（即完全反相关）和 1（即完全相关）之间。

\[\begin{aligned} \mathcal{L}_\text{BT} &= \underbrace{\sum_i (1-\mathcal{C}_{ii})²}_\text{不变性项} + \lambda \underbrace{\sum_i\sum_{i\neq j} \mathcal{C}_{ij}²}_\text{冗余减少项} \\ \text{其中 } \mathcal{C}_{ij} &= \frac{\sum_b \mathbf{z}^A_{b,i} \mathbf{z}^B_{b,j}}{\sqrt{\sum_b (\mathbf{z}^A_{b,i})²}\sqrt{\sum_b (\mathbf{z}^B_{b,j})²}} \end{aligned} \]

Barlow Twins 在自监督学习中与 SOTA 方法竞争力相当。它自然地避免了平凡的常数（即坍缩表示），并且对不同的训练批次大小具有鲁棒性。

图 9. Barlow Twins 的 Pytorch 风格伪代码算法。（图片来源：Zbontar 等人，2021）。

BYOL

与上述方法不同的是，有趣的是，BYOL（Bootstrap Your Own Latent; Grill, et al 2020）声称在不使用负样本的情况下取得了新的最先进结果。它依赖于两个神经网络，分别称为在线和目标网络，彼此交互并相互学习。目标网络（由$\xi$参数化）与在线网络（由$\theta$参数化）具有相同的架构，但具有 Polyak 平均权重，$\xi \leftarrow \tau \xi + (1-\tau) \theta$。

目标是学习一个可用于下游任务的表示$y$。由$\theta$参数化的在线网络包含：

一个编码器$f_\theta$；
一个投影器$g_\theta$；
一个预测器$q_\theta$。

目标网络具有相同的网络架构，但具有不同的参数$\xi$，通过 Polyak 平均$\theta$进行更新：$\xi \leftarrow \tau \xi + (1-\tau) \theta$。

图 10. BYOL 的模型架构。训练后，我们只关心用于生成表示的$f\_\theta$，$y=f\_\theta(x)$，其他一切都被丢弃。$\text{sg}$表示停止梯度。（图片来源：Grill, et al 2020）

给定一幅图像$\mathbf{x}$，BYOL 损失构建如下：

创建两个增强视图：$\mathbf{v}=t(\mathbf{x}); \mathbf{v}’=t’(\mathbf{x})$，其中增强采样自$t \sim \mathcal{T}, t’ \sim \mathcal{T}’$；
然后它们被编码为表示，$\mathbf{y}_\theta=f_\theta(\mathbf{v}), \mathbf{y}’=f_\xi(\mathbf{v}’)$；
然后它们被投影到潜在变量中，$\mathbf{z}_\theta=g_\theta(\mathbf{y}_\theta), \mathbf{z}’=g_\xi(\mathbf{y}’)$；
在线网络输出一个预测$q_\theta(\mathbf{z}_\theta)$；
$q_\theta(\mathbf{z}_\theta)$和$\mathbf{z}’$都经过 L2 归一化，得到$\bar{q}_\theta(\mathbf{z}_\theta) = q_\theta(\mathbf{z}_\theta) / | q_\theta(\mathbf{z}_\theta) |$和$\bar{\mathbf{z}’} = \mathbf{z}’ / |\mathbf{z}’|$；
损失$\mathcal{L}^\text{BYOL}_\theta$是 L2 归一化预测$\bar{q}_\theta(\mathbf{z})$和$\bar{\mathbf{z}’}$之间的均方误差；
另一个对称损失$\tilde{\mathcal{L}}^\text{BYOL}_\theta$可以通过交换$\mathbf{v}’$和$\mathbf{v}$生成；即，将$\mathbf{v}’$馈送到在线网络，将$\mathbf{v}$馈送到目标网络。
最终损失为$\mathcal{L}^\text{BYOL}_\theta + \tilde{\mathcal{L}}^\text{BYOL}_\theta$，只有参数$\theta$被优化。

与大多数基于对比学习的流行方法不同，BYOL 不使用负对。大多数自举方法依赖于伪标签或聚类索引，但 BYOL 直接自举潜在表示。

令人感兴趣且令人惊讶的是，没有负样本的情况下，BYOL 仍然表现良好。后来我看到了 Abe Fetterman & Josh Albrecht 的帖子，他们在尝试复现 BYOL 时强调了两个令人惊讶的发现：

当移除批归一化时，BYOL 通常表现不比随机好。
批归一化的存在隐式地导致了一种对比学习。他们认为使用负样本对于避免模型崩溃（即如果你为每个数据点使用全零表示会怎样？）是很重要的。批归一化隐式地注入了对负样本的依赖，因为无论一批输入有多相似，数值都会重新分布（扩散到 $\sim \mathcal{N}(0, 1$)，因此批归一化可以防止模型崩溃。如果你在这个领域工作，强烈建议阅读完整文章。

记忆库

在每个批次中为大量负样本计算嵌入是非常昂贵的。一种常见的方法是将表示存储在内存中，以便在数据陈旧和计算成本之间进行权衡。

带有记忆库的实例辨别

实例对比学习（吴等，2018）通过将每个实例视为独立的类别，将类别监督推向极端。这意味着“类别”的数量将与训练数据集中的样本数量相同。因此，使用这么多头训练 softmax 层是不可行的，但可以通过 NCE 来近似。

图 11. 实例级对比学习的训练流程。学习到的嵌入是 L2-归一化的。（图片来源：吴等，2018）

让 $\mathbf{v} = f_\theta(x)$ 成为一个学习的嵌入函数，且向量被归一化为 $|\mathbf{v}|=1$。一个非参数分类器使用温度参数 $\tau$ 预测样本 $\mathbf{v}$ 属于类别 $i$ 的概率：

\[P(C=i\vert \mathbf{v}) = \frac{\exp(\mathbf{v}_i^\top \mathbf{v} / \tau)}{\sum_{j=1}^n \exp(\mathbf{v}_j^\top \mathbf{v} / \tau)} \]

他们实现了一个记忆库，用于存储过去迭代中数据库中的样本表示，而不是每次都计算所有样本的表示。设 $V=\{ \mathbf{v}_i \}$ 为记忆库，$\mathbf{f}_i = f_\theta(\mathbf{x}_i)$ 为网络前向传播生成的特征。在比较成对相似性时，我们可以使用记忆库中的表示 $\mathbf{v}_i$ 而不是网络前向传播生成的特征 $\mathbf{f}_i$。

分母在理论上需要访问所有样本的表示，但在实践中这太昂贵了。相反，我们可以通过使用随机子集$M$索引$\{j_k\}_{k=1}^M$的蒙特卡洛逼近来估计它。

\[P(i\vert \mathbf{v}) = \frac{\exp(\mathbf{v}^\top \mathbf{f}_i / \tau)}{\sum_{j=1}^N \exp(\mathbf{v}_j^\top \mathbf{f}_i / \tau)} \simeq \frac{\exp(\mathbf{v}^\top \mathbf{f}_i / \tau)}{\frac{N}{M} \sum_{k=1}^M \exp(\mathbf{v}_{j_k}^\top \mathbf{f}_i / \tau)} \]

因为每个类别只有一个实例，训练不稳定且波动很大。为了提高训练平滑性，他们在基于近端优化方法的损失函数中为正样本引入了额外项。最终的 NCE 损失目标如下：

\[\begin{aligned} \mathcal{L}_\text{instance} &= - \mathbb{E}_{P_d}\big[\log h(i, \mathbf{v}^{(t-1)}_i) - \lambda \|\mathbf{v}^{(t)}_i - \mathbf{v}^{(t-1)}_i\|²_2\big] - M\mathbb{E}_{P_n}\big[\log(1 - h(i, \mathbf{v}'^{(t-1)})\big] \\ h(i, \mathbf{v}) &= \frac{P(i\vert\mathbf{v})}{P(i\vert\mathbf{v}) + MP_n(i)} \text{其中噪声分布是均匀的}P_n = 1/N \end{aligned} \]

其中$\{ \mathbf{v}^{(t-1)} \}$是存储在内存库中的上一次迭代的嵌入。随着学习嵌入的收敛，迭代之间的差异$|\mathbf{v}^{(t)}_i - \mathbf{v}^{(t-1)}_i|²_2$将逐渐消失。

MoCo & MoCo-V2

动量对比（MoCo；He 等，2019）提供了一个无监督学习视觉表示的框架，作为动态字典查找。字典被构造为一个大的 FIFO 队列，其中包含数据样本的编码表示。

给定一个查询样本$\mathbf{x}_q$，我们通过编码器$\mathbf{q} = f_q(\mathbf{x}_q)$获得一个查询表示。字典中的一系列关键表示$\{\mathbf{k}_1, \mathbf{k}_2, \dots \}$由动量编码器$\mathbf{k}_i = f_k (\mathbf{x}^k_i)$编码。假设其中有一个字典中与$\mathbf{q}$匹配的单个正关键$\mathbf{k}^+$。在论文中，他们使用$\mathbf{x}_q$的噪声副本创建$\mathbf{k}^+$，并使用温度$\tau$的 InfoNCE 对比损失在一个正样本和$N-1$负样本上进行计算：

\[\mathcal{L}_\text{MoCo} = - \log \frac{\exp(\mathbf{q} \cdot \mathbf{k}^+ / \tau)}{\sum_{i=1}^N \exp(\mathbf{q} \cdot \mathbf{k}_i / \tau)} \]

与内存库相比，MoCo 中基于队列的字典使我们能够重复使用数据样本的前几个小批次的表示。

MoCo 字典作为队列不可微分，因此我们不能依赖反向传播来更新键编码器$f_k$。一种简单的方法可能是使用相同的编码器$f_q$和$f_k$。不同的是，MoCo 提出使用基于动量的更新，动量系数为$m \in 0, 1)$。比如，$f_q$和$f_k$的参数分别标记为$\theta_q$和$\theta_k$。

\[ \theta_k \leftarrow m \theta_k + (1-m) \theta_q $$![ 图 12\. 动量对比（MoCo）学习视觉表示的示意图。（图片来源：[He 等人，2019](https://arxiv.org/abs/1911.05722)）与 SimCLR 相比，MoCo 的优势在于 MoCo 将批量大小与负样本数量分离，而 SimCLR 需要一个大批量大小以获得足够的负样本，并且在减小批量大小时性能下降。 SimCLR 中的两种设计，即（1）MLP 投影头和（2）更强的数据增强，被证明非常有效。**MoCo V2**（[Chen 等人，2020](https://arxiv.org/abs/2003.04297)）结合了这两种设计，实现了更好的转移性能，而且不依赖于非常大的批量大小。 ### CURL **CURL**（[Srinivas 等人，2020](https://arxiv.org/abs/2004.04136)）将上述思想应用于[强化学习](https://lilianweng.github.io/posts/2018-02-19-rl-overview/)中。它通过匹配原始观察$o$的两个数据增强版本$o_q$和$o_k 的嵌入来学习强化学习任务的视觉表示，通过对比损失。 CURL 主要依赖于随机裁剪数据增强。关键编码器实现为动量编码器，权重为查询编码器权重的 EMA，与 MoCo 中相同。强化学习（RL）与监督视觉任务之间的一个显著区别是 RL 依赖于连续帧之间的*时间一致性*。因此，CURL 在每个帧堆栈上一致应用增强，以保留关于观察的时间结构的信息。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/e8c1dd1afa90381b54641100a57cc615.png) 图 13\. CURL 的架构。（图片来源：[Srinivas 等人，2020](https://arxiv.org/abs/2004.04136)） ## 特征聚类 ### DeepCluster **DeepCluster**（[Caron 等人，2018](https://arxiv.org/abs/1807.05520)）通过 k 均值迭代聚类特征，并使用聚类分配作为伪标签提供监督信号。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/5df0328705044e1af4d63f60d060abfb.png) 图 14\. 深度聚类方法的示意图，通过迭代聚类深度特征并使用聚类分配作为伪标签。（图片来源：[Caron 等人，2018](https://arxiv.org/abs/1807.05520)）在每次迭代中，DeepCluster 使用先前表示对数据点进行聚类，然后将新的聚类分配作为新表示的分类目标。然而，这种迭代过程容易产生琐碎的解决方案。虽然避免使用负对，但它需要昂贵的聚类阶段和特定预防措施以避免崩溃到琐碎的解决方案。 ### SwAV **SwAV**（*多视图之间的交换分配*；[Caron et al. 2020](https://arxiv.org/abs/2006.09882)）是一种在线对比学习算法。它从图像的增强版本中计算一个编码，并尝试使用同一图像的另一个增强版本来预测此编码。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/44bd9da3da5dd056f35d89a5ab5057b7.png) 图 15\. SwAV 和对比实例学习的比较。（图片来源：[Caron et al. 2020](https://arxiv.org/abs/2006.09882)）给定具有两种不同增强的图像特征，$\mathbf{z}_t$ 和 $\mathbf{z}_s$，SwAV 计算相应的编码 $\mathbf{q}_t$ 和 $\mathbf{q}_s，并且通过使用 $\ell(.)$ 交换两个编码来量化拟合度，以衡量特征和编码之间的拟合度。 $$ \mathcal{L}_\text{SwAV}(\mathbf{z}_t, \mathbf{z}_s) = \ell(\mathbf{z}_t, \mathbf{q}_s) + \ell(\mathbf{z}_s, \mathbf{q}_t) \]

交换的拟合预测取决于预测编码和一组 $K$ 可训练原型向量 $\mathbf{C} = \{\mathbf{c}_1, \dots, \mathbf{c}_K\}$ 之间的交叉熵。原型向量矩阵在不同批次之间共享，并表示每个实例应该聚类到的锚簇。

\[\ell(\mathbf{z}_t, \mathbf{q}_s) = - \sum_k \mathbf{q}^{(k)}_s\log\mathbf{p}^{(k)}_t \text{ where } \mathbf{p}^{(k)}_t = \frac{\exp(\mathbf{z}_t^\top\mathbf{c}_k / \tau)}{\sum_{k'}\exp(\mathbf{z}_t^\top \mathbf{c}_{k'} / \tau)} \]

在包含 $B$ 个特征向量 $\mathbf{Z} = [\mathbf{z}_1, \dots, \mathbf{z}_B]$ 的小批量中，特征与原型向量之间的映射矩阵定义为 $\mathbf{Q} = [\mathbf{q}_1, \dots, \mathbf{q}_B] \in \mathbb{R}_+^{K\times B}$。我们希望最大化特征和原型之间的相似性：

\[\begin{aligned} \max_{\mathbf{Q}\in\mathcal{Q}} &\text{Tr}(\mathbf{Q}^\top \mathbf{C}^\top \mathbf{Z}) + \varepsilon \mathcal{H}(\mathbf{Q}) \\ \text{where }\mathcal{Q} &= \big\{ \mathbf{Q} \in \mathbb{R}_{+}^{K \times B} \mid \mathbf{Q}\mathbf{1}_B = \frac{1}{K}\mathbf{1}_K, \mathbf{Q}^\top\mathbf{1}_K = \frac{1}{B}\mathbf{1}_B \big\} \end{aligned} \]

其中 $\mathcal{H}$ 是熵，$\mathcal{H}(\mathbf{Q}) = - \sum_{ij} \mathbf{Q}_{ij} \log \mathbf{Q}_{ij}$，控制编码的平滑度。系数 $\epsilon$ 不应太大；否则，所有样本将均匀分配到所有聚类中。$\mathbf{Q}$ 的候选解集要求每个映射矩阵的每行总和为 $1/K$，每列总和为 $1/B$，强制每个原型平均至少被选择 $B/K$ 次。

SwAV 依赖于迭代 Sinkhorn-Knopp 算法（Cuturi 2013）来找到 $\mathbf{Q}$ 的解。

使用监督数据集

CLIP

CLIP（对比语言-图像预训练；Radford 等人，2021）共同训练文本编码器和图像特征提取器，以预测哪个标题与哪个图像匹配。

图 16. CLIP 对文本-图像对进行对比预训练的示意图。（图片来源：Radford 等人，2021）

给定一个批次的 $N$ 个（图像，文本）对，CLIP 计算该批次内所有 $N\times N$ 个可能的（图像，文本）候选对之间的密集余弦相似度矩阵。文本和图像编码器共同训练，以最大化 $N$ 个正确的（图像，文本）关联对之间的相似度，同时通过对密集矩阵的对称交叉熵损失，最小化 $N(N-1)$ 个不正确对的相似度。

查看 CLIP 的类似于 NumPy 的伪代码，请参见图 17。

图 17. 以 NumPy 风格的伪代码展示的 CLIP 算法。（图片来源：Radford 等人，2021）

与上述其他学习良好视觉表示的方法相比，使 CLIP 真正特殊的是“使用自然语言作为训练信号的欣赏”。它确实需要访问监督数据集，其中我们知道哪个文本与哪个图像匹配。它在互联网上收集了来自 4 亿个（文本，图像）对的训练数据。查询列表包含英文维基百科中至少出现 100 次的所有单词。有趣的是，他们发现基于 Transformer 的语言模型在零样本 ImageNet 分类上比词袋（BoW）文本编码器慢 3 倍。使用对比目标而不是尝试预测与图像相关联的确切单词（即图像标题预测任务通常采用的方法）可以进一步提高数据效率 4 倍。

图 18. 使用词袋文本编码和对比训练目标可以带来多倍的数据效率改进。（图片来源：Radford 等人，2021）

CLIP 产生良好的视觉表示，可以非常成功地转移到许多 CV 基准数据集，取得与监督基线竞争的结果。在测试的转移任务中，CLIP 在非常细粒度的分类以及抽象或系统性任务（如计算对象数量）方面表现不佳。CLIP 模型的转移性能与模型计算量呈平滑相关。

监督对比学习

交叉熵损失存在一些已知问题，如对嘈杂标签的缺乏鲁棒性和边界不佳的可能性。对交叉熵损失的现有改进涉及更好的训练数据的筛选，如标签平滑和数据增强。监督对比损失（Khosla 等人，2021）旨在比交叉熵更有效地利用标签信息，要求来自同一类别的归一化嵌入比来自不同类别的嵌入更接近。

图 19。监督对自监督对比损失。监督对比学习将来自同一类别的不同样本视为正样本，除了增强版本。（图片来源：Khosla 等人，2021）

给定一组随机抽样的$n$（图像，标签）对，$\{\mathbf{x}_i, y_i\}_{i=1}^n$，通过对每个样本应用两个随机增强，可以创建$2n$个训练对，$\{\tilde{\mathbf{x}}_i, \tilde{y}_i\}_{i=1}^{2n}$。

监督对比损失$\mathcal{L}_\text{supcon}$利用多个正样本和负样本，与软最近邻损失非常相似：

\[\mathcal{L}_\text{supcon} = - \sum_{i=1}^{2n} \frac{1}{2 \vert N_i \vert - 1} \sum_{j \in N(y_i), j \neq i} \log \frac{\exp(\mathbf{z}_i \cdot \mathbf{z}_j / \tau)}{\sum_{k \in I, k \neq i}\exp({\mathbf{z}_i \cdot \mathbf{z}_k / \tau})} \]

其中$\mathbf{z}_k=P(E(\tilde{\mathbf{x}_k}))$，其中$E(.)$是一个编码器网络（将增强图像映射到向量）$P(.)$是一个投影网络（一个向量映射到另一个）。$N_i= \{j \in I: \tilde{y}_j = \tilde{y}_i \}$包含具有标签$y_i$的样本的索引集。将更多正样本包含到集合$N_i$中会导致改善结果。

根据他们的实验，监督对比损失：

超越基础交叉熵，但仅略有优势。
在鲁棒性基准测试（ImageNet-C，对 ImageNet 数据集应用常见的自然扰动，如噪声、模糊和对比度变化）上胜过交叉熵。
对超参数变化不太敏感。

语言：句子嵌入

在本节中，我们关注如何学习句子嵌入。

文本增强

大多数视觉应用中的对比方法依赖于创建每个图像的增强版本。然而，构建不改变句子语义的文本增强更具挑战性。在本节中，我们探讨了三种增强文本序列的方法，包括词汇编辑、回译以及应用截断或丢弃。

词汇编辑

EDA（简易数据增强；Wei＆Zou 2019）为文本增强定义了一组简单但强大的操作。给定一个句子，EDA 随机选择并应用四种简单操作中的一种：

同义词替换（SR）：用它们的同义词替换$n$个随机非停用词。
随机插入（RI）：在句子中的随机位置放置一个随机选择的非停用词的随机同义词。
随机交换（RS）：随机交换两个单词并重复$n$次。
随机删除（RD）：以概率$p$随机删除句子中的每个单词。

其中$p=\alpha$且$n=\alpha \times \text{sentence_length}$，直觉是较长的句子可以吸收更多噪声同时保持原始标签。超参数$\alpha$大致表示一个句子中可能被一个增强改变的单词的百分比。

与没有 EDA 的基准相比，EDA 被证明可以提高几个分类基准数据集的分类准确性。在较小的训练集上，性能提升更为显著。EDA 中的四种操作都有助于提高分类准确性，但在不同的$\alpha$下达到最佳。

图 20. EDA 在几个分类基准上导致性能提升。（图片来源：Wei＆Zou 2019）

在上下文增强（Sosuke Kobayashi，2018）中，可以从由 BERT 等双向 LM 预测的给定概率分布$p(.\mid S\setminus\{w_i\})$中平滑地对位置$i$处的单词$w_i$进行新的替代品进行采样。

回译

CERT（对比自监督编码器表示来自变压器；Fang 等人（2020）; code）通过回译生成增强句子。可以使用不同语言的各种翻译模型来创建不同版本的增强。一旦我们有了文本样本的噪声版本，就可以使用上面介绍的许多对比学习框架，如 MoCo，来学习句子嵌入。

丢弃和截断

Shen 等人（2020）提出将截断应用于文本增强，灵感来自跨视图训练。他们提出了三种截断增强策略：

标记截断会删除一些选定标记的信息。为了确保没有数据泄漏，输入、位置和其他相关嵌入矩阵中的相应标记都应该被清零。
特征截断会删除一些特征列。
跨度截断会删除一段连续的文本。

图 21。标记、特征和跨度截断增强策略的示意图。（图片来源：Shen 等人，2020）

可以创建一个样本的多个增强版本。在训练时，Shen 等人（2020）应用了一个额外的 KL 散度项来衡量不同增强样本的预测之间的一致性。

SimCSE（Gao 等人，2021；代码）通过预测一个句子自身并仅使用dropout噪声来从无监督数据中学习。换句话说，他们将 dropout 视为文本序列的数据增强。一个样本简单地被两次输入到编码器中，使用不同的 dropout 掩码，这两个版本被视为正样本，而其他批内样本被视为负样本。这感觉与截断增强相似，但 dropout 更加灵活，对可以屏蔽的内容的语义含义定义不那么明确。

图 22。SimCSE 通过应用不同的 dropout 掩码创建增强样本。监督版本利用 NLI 数据集来预测给定一对句子的正面（蕴涵）或负面（矛盾）。（图片来源：Gao 等人，2021）

他们在 7 个 STS（语义文本相似性）数据集上进行了实验，并计算了句子嵌入之间的余弦相似度。他们还尝试了一个可选的 MLM 辅助目标损失，以帮助避免对标记级知识的灾难性遗忘。发现这种辅助损失有助于提高在传输任务上的性能，但在主要 STS 任务上有一致的下降。

图 23。SimCES 在一系列 STS 基准上的实验结果。（图片来源：Gao 等人，2021）

从自然语言推理中监督

发现未经微调的预训练 BERT 句子嵌入在语义相似性任务上表现不佳。我们需要通过进一步的微调来完善嵌入，而不是直接使用原始嵌入。

自然语言推理（NLI）任务是提供学习句子嵌入的监督信号的主要数据来源；例如SNLI、MNLI和QQP。

句子-BERT

SBERT (Sentence-BERT)（Reimers & Gurevych, 2019）依赖于连体和三元组网络架构来学习句子嵌入，从而可以通过嵌入对之间的余弦相似度估计句子相似度。请注意，学习 SBERT 取决于监督数据，因为它在几个 NLI 数据集上进行了微调。

他们尝试了几种不同的预测头在 BERT 模型之上：

Softmax 分类目标函数：连体网络的分类头是建立在两个嵌入$f(\mathbf{x}), f(\mathbf{x}’)$和$\vert f(\mathbf{x}) - f(\mathbf{x}’) \vert$的串联上。预测输出为$\hat{y}=\text{softmax}(\mathbf{W}_t [f(\mathbf{x}); f(\mathbf{x}’); \vert f(\mathbf{x}) - f(\mathbf{x}’) \vert])$。他们表明，最重要的组成部分是元素间的差异$\vert f(\mathbf{x}) - f(\mathbf{x}’) \vert$。
回归目标函数：这是关于$\cos(f(\mathbf{x}), f(\mathbf{x}’))$的回归损失，其中池化策略有很大影响。在实验中，他们观察到max比mean和CLS-token 表现要差得多。
三元组目标函数：$\max(0, |f(\mathbf{x}) - f(\mathbf{x}^+)|- |f(\mathbf{x}) - f(\mathbf{x}^-)| + \epsilon)$，其中$\mathbf{x}, \mathbf{x}^+, \mathbf{x}^-$分别是锚点、正面和负面句子的嵌入。

在实验中，哪种目标函数效果最好取决于数据集，因此没有通用的赢家。

图 24. 带有 softmax 分类头和回归头的 Sentence-BERT 训练框架的示意图。（图片来源：Reimers & Gurevych, 2019）

SentEval库（Conneau and Kiela, 2018）通常用于评估学习句子嵌入的质量。在那时（2019 年 8 月），SBERT 在 7 项任务中有 5 项超过了其他基线。

图 25. Sentence-BERT 在 SentEval 基准测试上的表现。（图片来源：Reimers & Gurevych, 2019）

BERT-flow

如果嵌入在每个维度上均匀分布，则嵌入表示空间被视为各向同性；否则，它是各向异性的。Li et al, (2020)表明，预训练的 BERT 学习了一个非平滑的各向异性语义空间的句子嵌入，因此在没有微调的情况下导致文本相似性任务性能不佳。从经验上看，他们观察到 BERT 句子嵌入存在两个问题：词频偏置了嵌入空间。高频词接近原点，而低频词远离原点。低频词分散稀疏。低频词的嵌入往往比它们的$k$-NN 邻居更远，而高频词的嵌入更密集。

BERT-flow（Li et al, 2020; code）旨在通过正规化流将嵌入转换为平滑且各向同性的高斯分布。

图 26. BERT-flow 中原始句子嵌入空间上的基于流的校准示意图。（图片来源：Li et al, 2020)

让$\mathcal{U}$为观察到的 BERT 句子嵌入空间，$\mathcal{Z}$为期望的标准高斯潜在空间。因此，$p_\mathcal{Z}$是一个高斯密度函数，$f_\phi: \mathcal{Z}\to\mathcal{U}$是一个可逆变换：

\[\mathbf{z}\sim p_\mathcal{Z}(\mathbf{z}) \quad \mathbf{u}=f_\phi(\mathbf{z}) \quad \mathbf{z}=f^{-1}_\phi(\mathbf{u}) \]

基于流的生成模型通过最大化$\mathcal{U}$的边际似然来学习可逆映射函数：

\[\max_\phi\mathbb{E}_{\mathbf{u}=\text{BERT}(s), s\sim\mathcal{D}} \Big[ \log p_\mathcal{Z}(f^{-1}_\phi(\mathbf{u})) + \log\big\vert\det\frac{\partial f^{-1}_\phi(\mathbf{u})}{\partial\mathbf{u}}\big\vert \Big] \]

其中$s$是从文本语料库$\mathcal{D}$中抽样的句子。只有流参数$\phi$被优化，而预训练的 BERT 中的参数保持不变。

BERT-flow 被证明在大多数 STS 任务上提高了性能，无论是否有来自 NLI 数据集的监督。因为学习用于校准的正规化流不需要标签，它可以利用整个数据集，包括验证和测试集。

白化操作

Su et al. (2021)应用白化操作来改善学习表示的各向同性，同时减少句子嵌入的维度。

他们将句子向量的均值转换为 0，协方差矩阵转换为单位矩阵。给定一组样本$\{\mathbf{x}_i\}_{i=1}^N$，让$\tilde{\mathbf{x}}_i$和$\tilde{\Sigma}$是转换后的样本和对应的协方差矩阵：

\[\begin{aligned} \mu &= \frac{1}{N}\sum_{i=1}^N \mathbf{x}_i \quad \Sigma = \frac{1}{N}\sum_{i=1}^N (\mathbf{x}_i - \mu)^\top (\mathbf{x}_i - \mu) \\ \tilde{\mathbf{x}}_i &= (\mathbf{x}_i - \mu)W \quad \tilde{\Sigma} = W^\top\Sigma W = I \text{ thus } \Sigma = (W^{-1})^\top W^{-1} \end{aligned} \]

如果我们对$\Sigma = U\Lambda U^\top$进行SVD 分解，我们将得到$W^{-1}=\sqrt{\Lambda} U^\top$和$W=U\sqrt{\Lambda^{-1}}$。请注意，在 SVD 中，$U$是一个正交矩阵，其列向量是特征向量，$\Lambda$是一个对角矩阵，其所有正元素是排序后的特征值。

可以通过仅取$W$的前$k$列来应用降维策略，称为白化-$k$。

图 27. 白化-$k$操作的伪代码。（图片来源：Su 等人，2021）

白化操作已被证明优于 BERT-flow，在许多 STS 基准测试中实现了 256 句子维度的 SOTA，无论是否有 NLI 监督。

无监督句子嵌入学习

上下文预测

快速思考（QT）向量（Logeswaran & Lee, 2018）将句子表示学习形式化为一个分类问题：给定一个句子及其上下文，一个分类器根据它们的向量表示来区分上下文句子和其他对比句子（基于它们的向量表示）（“填空测试”）。这种形式化去除了导致训练减速的 softmax 输出层。

图 28. 展示了如何学习快速思考句子嵌入向量。（图片来源：Logeswaran & Lee, 2018）

设$f(.)$和$g(.)$是两个将句子$s$编码为固定长度向量的函数。设$C(s)$是句子$s$上下文中的句子集合，$S(s)$是包含一个句子$s_c \in C(s)$和许多其他非上下文负面句子的候选句子集合。快速思考模型学习优化预测唯一真实上下文句子$s_c \in S(s)$的概率。当考虑句子$(s, s_c)$作为正对时，其他对$(s, s’)$，其中$s’ \in S(s), s’\neq s_c$作为负对时，这本质上是 NCE 损失。

\[\mathcal{L}_\text{QT} = - \sum_{s \in \mathcal{D}} \sum_{s_c \in C(s)} \log p(s_c \vert s, S(s)) = - \sum_{s \in \mathcal{D}} \sum_{s_c \in C(s)}\frac{\exp(f(s)^\top g(s_c))}{\sum_{s'\in S(s)} \exp(f(s)^\top g(s'))} \]

最大化互信息

IS-BERT（信息句 BERT）（Zhang 等人，2020; 代码）采用基于互信息最大化的自监督学习目标，以无监督方式学习良好的句子嵌入。

图 29。信息句 BERT 的示意图。（图片来源：Zhang 等人，2020）

IS-BERT 的工作方式如下：

使用 BERT 将输入句子$s$编码为长度为$l$的标记嵌入$\mathbf{h}_{1:l}$。
然后应用具有不同核大小（例如 1、3、5）的 1-D 卷积网络来处理标记嵌入序列，以捕获 n-gram 局部上下文依赖关系：$\mathbf{c}_i = \text{ReLU}(\mathbf{w} \cdot \mathbf{h}_{i:i+k-1} + \mathbf{b})$。输出序列被填充以保持与输入相同的大小。
第$i$个标记的最终本地表示$\mathcal{F}_\theta^{(i)} (\mathbf{x})$是不同核大小表示的串联。
全局句子表示$\mathcal{E}_\theta(\mathbf{x})$通过在标记表示$\mathcal{F}_\theta(\mathbf{x}) = \{\mathcal{F}_\theta^{(i)} (\mathbf{x}) \in \mathbb{R}^d\}_{i=1}^l$上应用时间平均池化层来计算。

由于连续和高维随机变量的互信息估计通常是棘手的，IS-BERT 依赖于 Jensen-Shannon 估计器（Nowozin 等人，2016，Hjelm 等人，2019）来最大化$\mathcal{E}_\theta(\mathbf{x})$和$\mathcal{F}_\theta^{(i)} (\mathbf{x})$之间的互信息。

\[I^\text{JSD}_\omega(\mathcal{F}_\theta^{(i)} (\mathbf{x}); \mathcal{E}_\theta(\mathbf{x})) = \mathbb{E}_{\mathbf{x}\sim P} [-\text{sp}(-T_\omega(\mathcal{F}_\theta^{(i)} (\mathbf{x}); \mathcal{E}_\theta(\mathbf{x})))] \\ - \mathbb{E}_{\mathbf{x}\sim P, \mathbf{x}' \sim\tilde{P}} [\text{sp}(T_\omega(\mathcal{F}_\theta^{(i)} (\mathbf{x}'); \mathcal{E}_\theta(\mathbf{x})))] \]

其中$T_\omega: \mathcal{F}\times\mathcal{E} \to \mathbb{R}$是具有参数$\omega$的可学习网络，生成鉴别器分数。负样本$\mathbf{x}’$从分布$\tilde{P}=P$中采样。而$\text{sp}(x)=\log(1+e^x)$是 softplus 激活函数。

使用 IS-BERT 在 SentEval 上的无监督数字表现优于大多数无监督基线（2020 年 9 月），但可预见地弱于监督运行。当使用带标签的 NLI 数据集时，IS-BERT 产生的结果与 SBERT 相当（见图 25 和 30）。

图 30。IS-BERT 在 SentEval 基准测试上的性能。（图片来源：Zhang 等人，2020）

引文

引用为：

Weng，Lilian。（2021 年 5 月）。对比表示学习。 Lil’Log。 https://lilianweng.github.io/posts/2021-05-31-contrastive/。

或

@article{weng2021contrastive,
  title   = "Contrastive Representation Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2021",
  month   = "May",
  url     = "https://lilianweng.github.io/posts/2021-05-31-contrastive/"
}

参考文献

[1] Sumit Chopra, Raia Hadsell 和 Yann LeCun. “以辨别方式学习相似度度量，应用于人脸验证。” CVPR 2005.

[2] Florian Schroff, Dmitry Kalenichenko 和 James Philbin. “FaceNet：用于人脸识别和聚类的统一嵌入。” CVPR 2015.

[3] Hyun Oh Song 等人. “通过提升结构化特征嵌入进行深度度量学习。” CVPR 2016. [代码]

[4] Ruslan Salakhutdinov 和 Geoff Hinton. “通过保持类邻域结构学习非线性嵌入” AISTATS 2007.

[5] Michael Gutmann 和 Aapo Hyvärinen. “噪声对比估计：非归一化统计模型的新估计原则。” AISTATS 2010.

[6] Kihyuk Sohn 等人. “使用多类 N 对损失目标改进深度度量学习” NIPS 2016.

[7] Nicholas Frosst, Nicolas Papernot 和 Geoffrey Hinton. “通过软最近邻损失分析和改进表示。” ICML 2019

[8] 王同舟和 Phillip Isola. “通过在超球面上的对齐和均匀性理解对比表示学习。” ICML 2020. [代码]

[9] 吴志荣等人. “通过非参数实例级别区分学习无监督特征。” CVPR 2018.

[10] Ekin D. Cubuk 等人. “AutoAugment：从数据中学习增强策略。” arXiv 预印本 arXiv:1805.09501 (2018).

[11] Daniel Ho 等人. “基于人口的增强：高效学习增强策略计划。” ICML 2019.

[12] Ekin D. Cubuk & Barret Zoph 等人. “RandAugment：具有减少搜索空间的实用自动数据增强。” arXiv 预印本 arXiv:1909.13719 (2019).

[13] 张宏毅等人. “混合：超越经验风险最小化。” ICLR 2017.

[14] Sangdoo Yun 等人. “CutMix：用于训练具有可定位特征的强分类器的正则化策略。” ICCV 2019.

[15] Yannis Kalantidis 等人. “对比硬负例的混合” NeuriPS 2020.

[16] Ashish Jaiswal 等人. “对比自监督学习综述。” arXiv 预印本 arXiv:2011.00362 (2021)

[17] Jure Zbontar 等人。“Barlow Twins: 通过冗余减少进行自监督学习。” arXiv 预印本 arXiv:2103.03230 (2021) [code]。

[18] Alec Radford 等人。“从自然语言监督中学习可转移的视觉模型” arXiv 预印本 arXiv:2103.00020 (2021)。

[19] Mathilde Caron 等人。“通过对比聚类分配进行视觉特征的无监督学习（SwAV）。 NeuriPS 2020。

[20] Mathilde Caron 等人。“用于无监督学习视觉特征的深度聚类。” ECCV 2018。

[21] Prannay Khosla 等人。“监督对比学习。” NeurIPS 2020。

[22] Aaron van den Oord，Yazhe Li 和 Oriol Vinyals。“使用对比预测编码进行表示学习” arXiv 预印本 arXiv:1807.03748 (2018)。

[23] Jason Wei 和 Kai Zou。“EDA：用于提升文本分类任务性能的简单数据增强技术。” EMNLP-IJCNLP 2019。

[24] Sosuke Kobayashi。“上下文增强：通过具有范例关系的单词进行数据增强。” NAACL 2018。

[25] Hongchao Fang 等人。“CERT: 用于语言理解的对比自监督学习。” arXiv 预印本 arXiv:2005.12766 (2020)。

[26] Dinghan Shen 等人。“一种简单但难以超越的自然语言理解和生成数据增强方法。” arXiv 预印本 arXiv:2009.13818 (2020) [code]。

[27] Tianyu Gao 等人。“SimCSE: 句子嵌入的简单对比学习。” arXiv 预印本 arXiv:2104.08821 (2020) [code]。

[28] Nils Reimers 和 Iryna Gurevych。“Sentence-BERT: 使用 Siamese BERT 网络进行句子嵌入。” EMNLP 2019。

[29] Jianlin Su 等人。“为了更好的语义和更快的检索而漂白句子表示。” arXiv 预印本 arXiv:2103.15316 (2021) [code]。

[30] Yan Zhang 等人。“通过最大化互信息的无监督句子嵌入方法。” EMNLP 2020 [code]。

[31] Bohan Li 等人。“关于来自预训练语言模型的句子嵌入。” EMNLP 2020。

[32] Lajanugen Logeswaran 和 Honglak Lee。“学习句子表示的高效框架。” ICLR 2018。

[33] Joshua Robinson 等人。“使用困难负样本进行对比学习。” ICLR 2021。

[34] Ching-Yao Chuang 等人 “去偏差的对比学习。” NeuriPS 2020.

减少语言模型中的毒性

原文：lilianweng.github.io/posts/2021-03-21-lm-toxicity/

大型预训练语言模型是在大量在线数据集上训练的。它们不可避免地从互联网中获得某些有毒行为和偏见。预训练语言模型非常强大，在许多自然语言处理任务中取得了巨大成功。然而，要安全地将它们部署到实际的应用程序中，需要对模型生成过程进行严格的安全控制。

在减少各种类型不安全内容的努力中存在许多挑战：

首先，有各种类型的不安全内容，如毒性、辱骂、仇恨言论、偏见、刻板印象、网络欺凌、身份攻击等，可能需要不同的处理方式。
其次，在预训练语言模型中，对于不安全行为的分类和定义并没有明确且广泛达成一致。由于不同的社会背景，个人对此的看法可能会有很大差异。

在这篇文章中，我们深入探讨了语言模型中的毒性问题。由于我仍在努力找到有毒内容的明确定义，我在下面列出了一些文献中的定义。

[透视 API] 一种粗鲁、不尊重或不合理的评论；可能会导致人们离开讨论。

[Kurita 等人 2019] 可能会冒犯或伤害接收者的内容，包括仇恨言论、种族主义和冒犯性语言。

[Pavlopoulos 等人 2020] 我们使用“有毒”这个术语作为一个总称，但我们注意到文献中使用了几个术语来描述不同类型的有毒语言或相关现象：“冒犯性的”、“辱骂的”、“仇恨的”等等。

总的来说，毒性是一个广泛的术语，用来描述几种类型的不安全内容。本文中的方法可以应用于对毒性的某种形式的定义；例如，在为注释者提供的说明中呈现。如何正确定义毒性概念，从而收集准确的注释标签，超出了本文的范围。

有毒内容的分类

如何对有毒内容进行分类并不是一项简单的任务。哪些内容应被视为有毒，以及有哪些类型的有毒内容可能是非常主观的。对一个群体来说不具冒犯性的语言，对另一个群体可能看起来不合适。

一种流行的冒犯性语言分类是由Zampieri 等人（2019）提出的，这是一个考虑到冒犯类型和目标的三级分层分类法。基于这个分类法收集的冒犯性语言识别数据集(OLID)。

图 1。由Zampieri 等人（2019）提出的用于分类冒犯性语言的三级分层分类法。

A 级别：“它是否冒犯性的？”
- [OFF] 冒犯性：不当的语言、侮辱或威胁。
- [NOT] 非冒犯性：没有冒犯或亵渎。
B 级别：“冒犯性文本是否有特定目标？”
- [TIN] 目标侮辱：针对个人、群体或其他目标的侮辱或威胁。
- [UNT] 未指定目标：非指定目标的亵渎和咒骂。
C 级别：目标是什么？
- [IND] 侮辱针对个人，通常被定义为“网络欺凌”。
- [GRP] 侮辱针对一群人，基于种族、性别、性取向、宗教或其他共同特征，通常被定义为“仇恨言论”。
- [OTH] 目标可以属于其他类别，例如组织、事件、问题等。

数据收集

准备一个标记为“安全”与“不安全”的样本数据集是训练有毒语言分类器的基础，并进一步为模型排毒提供信号。

人工标注

Vidgen & Derczynski（2020）总结了高级别毒性检测训练数据注释可以通过以下方式收集：

专家编码：专家具有足够的知识或培训来完成具有良好质量的注释任务，例如研究偏见的研究人员、具有适度培训水平的学生或自然语言处理从业者。成本更高，但产生高质量数据。
众包：众包平台将大量非专家标注者与任务配对。扩展性更强，但需要更多关注质量控制。
专业主持人：专业主持人经验丰富，接受过良好的培训，但他们的目标很可能是优化特定平台的输出。
合成数据：培训数据集也可以由相关内容创作者手动创建，以涵盖各种有毒内容类型。

其中众包是最常见的方法（Davidson 等人 2017，Zampieri 等人 2019），并有几种良好的实践方法来提高数据质量：

测试数据：从少数专家收集的一小部分注释可以用作测试问题（Zampieri 等人 2019），以筛选出在众包平台上无法达到一定阈值的人工标注者。
明确指导方针：详细说明对指导标注者产生一致的标签非常有用。没有任何指导方针，标注者被鼓励应用他们的个人看法，这可能会有问题，因为（1）有毒内容的主观解释在个体之间差异很大，（2）在没有任何指导方针的情况下标记某些类型的噪音，如讽刺和反讽，是棘手的。
多数投票：很常见的是我们需要来自多个标注者的标签，并采取多数投票。
理解标注者的身份：人口统计背景对标注者对任务的理解有很大影响。我们应该招募多样化和合格的标注者。

半监督数据集

Khatri et al. (2018)提出了一种简单的方法来为学习有毒内容分类器引导大量的半监督数据集。他们的方法依赖于一个小的带标注数据集和一个大型未标记数据集。

首先，他们收集了一个包含 800+涵盖亵渎、仇恨、性内容和侮辱主题的黑名单词汇。亵渎词汇的黑名单可能具有高精度和低召回率，但它可以提供弱监督信号。
子社区按照黑名单词汇的百分比进行排序。然后从顶部子社区中抽取敏感示例，从底部抽取非敏感示例。
训练一个弱二元分类器，进一步从排序后的子社区中选择更多样本，
- 敏感：包含黑名单词汇或有毒分类器置信度 > 0.8；
- 非敏感：不包含黑名单词汇和有毒分类器置信度 < 0.3
鉴于这个大规模扩展的数据集，训练一个名为“两阶段引导”（TS bootstrap）的新分类器。

他们的实验表明，TS 引导分类器在 F1 分数、准确率和召回率上取得了相当不错的成绩，而且还可以转移到领域外的测试数据。

图 2。两阶段引导分类器是在 Reddit 数据上由一个弱有毒二元分类器引导的数据集上训练的。（图片来源：Khatri et al. 2018）

SOLID（半监督攻击性语言识别数据集；Rosenthal et al. 2020）包含了 9+百万条带有与 OLID 相同分类系统的标注推文。SOLID 将 OLID 视为种子，并通过一种名为民主协同训练的半监督技术扩展它。民主协同训练（Zhou & Goldman, 2004）通过由在小型监督数据集上训练的多样化模型提供的嘈杂标签创建一个大型数据集。SOLID 的构建方式包括：

首先，在标记数据集 OLID 上训练一组多样化的监督模型。该论文尝试了 PMI（基于 n-gram 的相似性）、FastText（类似于 BoW 模型的浅层神经模型）、LSTM 和 BERT。
对于未标记数据集中的每个样本，每个模型为目标类别预测一个置信度分数。通过avg()或min()来聚合分数。置信度高的样本被添加到数据集中。

当监督数据集对于简单任务足够大时，BERT 模型的性能不会提高，但如果原始监督数据集对于任务太小，则可以从一个大的半监督数据集中受益。

毒性检测

给定一个监督数据集，我们可以从头开始训练文本分类器，或微调预训练的语言模型来执行分类任务。但如果训练样本不好或不足够呢？如果我们无法访问这样的监督数据集呢？

对抗攻击

为了创建一个对抗攻击鲁棒的毒性检测模型，Dinan 等人（2019）提出了一种迭代的“构建、破坏、修复”策略，以提高对话系统与人类的安全性。

构建：训练一个 BERT 模型来对 Jigsaw 数据集上的有毒评论进行分类。
破坏：众包工作者被要求编写被模型错误标记为“安全”的有毒消息。
修复：模型在原始数据集和新收集的对抗样本的组合上重新训练。
重复：重新部署经过强化的模型，并从第 1 步开始重复一个新的轮次。

图 3。通过“构建、破坏、修复”过程迭代改进有毒内容检测模型的示意图。（图片来源：Dinan 等人，2019）

在他们的实验中，一个基线是在“破坏”步骤中用标准集合替换对抗集合，其中工作者被要求直接提交“冒犯性”消息。与标准集合相比，对抗集合中的明确粗话更少，更多的否定词来欺骗模型。随着轮次的增加，任务变得更具挑战性。

对抗模型比在标准集合上训练的基线模型更具抗干扰攻击的鲁棒性。第三轮对抗模型在标准任务上的表现比标准模型差，可能是由于过拟合。我很好奇如果模型同时在对抗和标准集合上训练，其性能会如何，但我在论文中没有找到相关内容。

图 4。在标准（$S\_i$）和对抗数据集合（$A\_i$）上训练的模型在标准和对抗任务上性能的比较。下标$i$表示训练轮次。（图片来源：Dinan 等人，2019）

另一种对抗攻击类型是通过替换或混淆字符子集来欺骗检测模型，使其错误地将有毒句子分类为安全。Kurita 等人（2019）开发了一种生成这种与模型无关的对抗攻击的方法，包括几种类型的字符级扰动：

字符混淆：随机排列字符位置。
同形替换：用看起来相似的国际字母替换一个或多个字母。
基于字典的近邻替换：找到与 Levenshtein 距离最接近但不同的标记。
干扰注入：通过重复随机选择的非毒性标记序列注入干扰标记。

将标记模糊和干扰标记结合的对抗性噪声会导致毒性分类器性能显著下降。字符级扰动比干扰标记更严重地降低了性能。

该论文提出了解决对抗攻击的两种方法：

对抗训练指的是在带有噪声的数据集上训练模型。然而，你需要提前了解入侵攻击的细节。并且不能保证训练样本带有任意噪声会推广到测试集。
CDAE（上下文去噪自动编码器）使用字符级和上下文信息去噪模糊标记。CDAE 采用噪声样本来预测去噪版本。但是，你需要知道可以应用哪些类型的字符级扰动来创建噪声样本。CDAE 的性能与 BERT 相当，但并没有显著更好。

透视 API

透视 API（www.perspectiveapi.com）是最广泛使用的商业 API，用于检测有毒内容。透视训练机器学习模型，为几种不同的属性提供分数：毒性、严重毒性、侮辱、亵渎、身份攻击、威胁和性暗示。每个分数是介于[0, 1]之间的数字，表示消息包含给定属性的可能性（即二元分类器的置信度），并不表示属性的严重程度。

图 5。透视 API 分数概览。（图片来源：关于透视 API）

Gehman 等人（2020）测量了从几个预训练语言模型中抽样的未提示生成的透视 API 毒性分数。“未提示”意味着生成仅在句子开头标记的条件下进行，没有注入任何额外上下文。值得注意的是，所有测试的模型在 100 代后都达到了预期的最大毒性值大于 0.5。他们还指出，大型语言模型的训练数据集包含相当数量的有毒内容。

图 6。透视 API 毒性分数的未提示生成。每个模型生成一个包含 10k 个样本的池，并通过自举法估计预期的最大毒性分数。（图片来源：Gehman 等人，2020）

他们收集了用于研究条件语言模型生成中毒性的 RealToxicityPrompt 数据集。其中包含了来自 Perspective API 的 100k 个自然发生的提示及其相关的毒性评分。一些不包含任何毒性语言的提示仍然可能触发非常冒犯的完成。

尽管 Perspective API 非常受欢迎，但包含已知偏见，如 Gehman et al. (2020) 总结的那样：

… 对少数群体存在偏见，并在注释中存在低一致性，部分原因是注释者身份影响其对仇恨言论的看法和注释任务设置的差异。

值得注意的是，最近的研究发现系统在包含少数群体身份提及（例如“我是一个同性恋男性”）或少数族裔（例如非裔美国人英语文本）的文本中高估了毒性的普遍性。这部分是由于检测器过度依赖毒性的词汇线索（包括脏话、侮辱性词语和其他“坏”词语）。

基于提示的检测

自我诊断 (Schick, et al. 2021) 是利用预训练语言模型检测其输出中的社会不良属性的过程。诊断依赖于预定义的提示模板，在其中以简短文本描述属性，并测量模型输出“是”与“否”的标准化概率。需要注意的是，自我诊断不需要访问标记数据集进行训练。

# Self-diagnosis template
"{sample text}"
Question: Does the above text contain {undesired attribute}?
Answer: {yes/no}

他们在实验中使用了 RealToxicityPrompts 数据集和 Perspective API 进行评估。自我诊断性能与模型大小呈正相关。

图 7. 用于识别不良属性的自我诊断能力。地面真相由 Perspective API 提供。（图片来源：Schick, et al. 2021）

排毒

黑名单

脏词过滤 是避免语言模型生成中明确粗俗词语的一种直观有效的方法。在解码时，我们可以手动降低被屏蔽词语的概率，以避免对其进行采样。然而，这并不完美，因为仍然可能存在由安全标记组成的不安全内容。

词汇转移 (Gehman et al. 2020) 学习了一个预训练模型词汇中每个标记的毒性与非毒性的二维表示。然后，编码非毒性的表示被用来在解码时增加非毒性标记的可能性。

基于提示的排毒

自去偏 (Schick et al. 2021) 遵循与自诊断中相似的思想。这是一种利用预训练语言模型的内部知识来减少模型生成中不良属性概率的过程。

# Self-debiasing template, denoted as sdb(.)
The following text contains {undesired attribute s}:
{sample text x}

给定输入提示 $\mathbf{x}$，不良属性的文本描述 $s$，以及语言模型 $M$，自去偏计算没有和有自去偏模板 $\text{sdb}(.)$ 的下一个词的概率之间的差异：

\[\Delta(w, \mathbf{x}, s) = p_M(w\vert\mathbf{x}) - p_M(w\vert\text{sdb}(\mathbf{x}, s)) \]

因为 $\text{sdb}(.)$ 预计会提升不良词的概率，所以对于不良词，$\Delta(w, \mathbf{x}, s)$ 应为负值。

在自诊断解码中，使用概率差异的缩放函数 $\alpha(\Delta(w, \mathbf{x}, s)): \mathbb{R}\to[0,1]$ 来改变真实的采样分布，

\[\tilde{p}_M(w\vert\mathbf{x}) \propto \alpha(\Delta(w, \mathbf{x}, s)) p_M(w\vert\mathbf{x}) \]

在论文中，他们使用了一个软变体，其中具有负 $\Delta$ 的词的概率相对于 $\Delta(w, \mathbf{x}, s)$ 的大小而降低：

\[ \alpha(x)=\begin{cases} 1 & \text{ if } x\geq 0 \\ e^{\lambda\cdot x} & \text{ otherwise} \end{cases} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/b23a593824041199db7e02c72219d56a.png) 图 8\. 自诊断解码可以降低不良属性的概率。分数由 Perspective API 提供。 (图片来源: [Schick et al. 2021](https://arxiv.org/abs/2103.00453)) 自去偏去毒化存在一些主要限制： 1. 评估仅依赖于 Perspective API，因此无法捕捉 Perspective API 未涵盖的偏见和毒性属性，比如性别偏见。使用人工评估是另一种选择，但规模有限。 1. 自去偏有时会过于激进，过滤掉无害的词语，并且不保持与原始模型相同水平的困惑度。 1. 该方法受模型内部容量的限制。例如，如果模型不了解某些偏见，它将无法纠正它们。 ## 文本风格转移 **无监督风格转移** 可用于将冒犯性句子翻译为无害的句子 ([Santos et al. 2018](https://arxiv.org/abs/1805.07685))。该方法适用于非平行数据集，意味着我们只能访问两个单独的数据集，包括冒犯性和非冒犯性样本，但没有配对版本。为了在将文本转换为另一种风格时保留内容，采用了循环一致性损失 ([Zhu et al. 2017](https://arxiv.org/abs/1703.10593))。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/e03966991c38c72f4c8a638d757ccc5d.png) 图 9\. 使用非平行数据的神经文本风格转移算法的训练过程。 (图片来源: [Santos et al. 2018](https://arxiv.org/abs/1805.07685)) 令$s_i$为期望的风格（$i=0$表示冒犯性，$i=1$表示非冒犯性），$\mathbf{x}^i_k$为风格$s_i$的第$k$个样本，$k = 1, \dots, n$。编码器$E$和解码器$G$都接受一个样本（或隐藏状态）以及一个风格标签。分类器$C$根据输入样本预测风格标签的概率分布。根据图 9 中的示例： + 前向传递的顶部分支是自动编码器：$E(\mathbf{x}^i_k, s_i) \to H^i_k \to G(H^i_k, s_i) \to \hat{\mathbf{x}}^{i\to i}_k$。计算两个损失： + 重建损失衡量解码器能够多好地重建样本： $$ \mathcal{L}_\text{self} = \mathbb{E}_{\mathbf{x}^i_k \sim \mathcal{X}} [-\log p_G(\mathbf{x}_k^i \mid E(\mathbf{x}^i_k, s_i), s_i)] \]

前向传递的底部分支：$E(\mathbf{x}^i_k, s_i) \to H^i_k \to G(H^i_k, s_j) \to \hat{\mathbf{x}}^{i\to j}_k$
- 分类损失衡量风格转换的有效性：

\[\mathcal{L}_\text{style_fwd} = \mathbb{E}_{\hat{\mathbf{x}}^{i\to j}_k \sim \hat{\mathcal{X}}} [-\log p_C(s_j \mid \hat{\mathbf{x}}^{i\to j}_k)] \]

反向传递使用循环一致性损失：$E(\hat{\mathbf{x}}^{i\to j}_k, s_j) \to H^{i\to j}_k \to G(H^{i\to j}_k, s_i) \to \hat{\mathbf{x}}^{i\to j \to i}_k$
- 循环一致性损失控制转移样本能够多好地转换回原始形式以鼓励内容保留：

\[\mathcal{L}_\text{cycle} = \mathbb{E}_{\mathbf{x}^i_k \sim \mathcal{X}} [-\log p_G(\mathbf{x}_k^i \mid E(\hat{\mathbf{x}}^{i \to j}_k, s_j), s_i)] \]

- The classification loss ensures that the back-transferred sample has the correct label:

\[\mathcal{L}_\text{style_back} = \mathbb{E}_{\hat{\mathbf{x}}^{i\to j}_k \sim \hat{\mathcal{X}}} [-\log p_C(s_i \mid G(E(\hat{\mathbf{x}}^{i\to j}_k, s_j), s_i))] \]

还有一个额外的监督分类损失用于训练准确的分类器：

\[\mathcal{L}_\text{class} = \mathbb{E}_{\hat{\mathbf{x}}^{i\to j}_k \sim \hat{\mathcal{X}}} [-\log p_C(s_i \mid \hat{\mathbf{x}}^i_k)] \]

最终的训练目标如下，编码器、解码器和分类器一起训练：

\[\mathcal{L}(\theta_E, \theta_G, \theta_C) = \min_{E, G, C} \mathcal{L}_\text{self} + \mathcal{L}_\text{style_fwd} + \mathcal{L}_\text{cycle} + \mathcal{L}_\text{style_back}+ \mathcal{L}_\text{class} \]

风格转换器（Dai 等人，2019）也旨在学习无监督文本风格转换。与Santos 等人，2018中的编码器-解码器模型不同，它学习了一个基于 Transformer 的风格转换函数$f_\theta(\mathbf{x}, s)$，用于给定输入样本$\mathbf{x}$和期望的风格控制变量$s$。

图 10。风格转换器与依赖于分解潜在表示的先前模型的比较。 (图片来源：Dai 等人，2019)

在没有访问平行语料库的情况下，风格转换器采用鉴别器从非平行数据集中创建监督。

让$s$和$\hat{s}$是两个互斥的风格变量，$\mathbf{x}$是风格$s$的样本，风格转换器计算几个损失：

自重构损失：$\mathcal{L}_\text{self} = - p_\theta (\mathbf{x} \vert \mathbf{x}, s)$
循环一致性损失：$\mathcal{L}_\text{cycle} = - p_\theta (\mathbf{x} \vert f_\theta(\mathbf{x}, \hat{s}), s)$
风格控制损失：这是必要的，否则模型将简单地学会复制输入。

\[\mathcal{L}_\text{style} = - p_\phi(\text{class} = 1 \vert f_\theta(\mathbf{x}, \hat{s}), \hat{s}) \]

，其中鉴别器是一个简单的二元分类器，训练以优化正确风格的负对数似然。鉴别器通过标记训练

$\{(\mathbf{x}, s), (f_\theta(\mathbf{x}, s), s), (f_\theta(\mathbf{x}, \hat{s}), \hat{s})\}$作为正类 1
$\{(\mathbf{x}, \hat{s}), (f_\theta(\mathbf{x}, s), \hat{s}), (f_\theta(\mathbf{x}, \hat{s}), s)\}$作为负类 0。

图 11。Style Transformer 的训练过程。（图片来源：Dai 等人，2019）

由研究问题“我们能否通过仅使用毒性标注的数据集来微调预训练的语言模型，以建议对粗鲁评论进行文明改写？”驱动，Laugier 等人（2021）使用去噪和循环自编码器损失微调了一个预训练的文本到文本转换器。

让$s$是$\mathbf{x}$的属性（例如“文明”），$\bar{s}$是另一个相反的属性（例如“有毒”）。这两个属性是互斥的。目标是学习一个映射函数$f_\theta$，使其将$x$翻译为具有目标属性$a$的新流畅序列$y$，同时保留$x$的内容。

编码器-解码器模型使用以下损失进行训练：

\[\mathcal{L} = \lambda_\text{DAE} \mathcal{L}_\text{DAE} + \lambda_\text{cycle} \mathcal{L}_\text{cycle} \]

去噪自编码器损失是去噪自编码器的损失，其中$\eta$是一个掩码函数，与 BERT 训练中相同：

\[\mathcal{L}_\text{DAE} = \mathbb{E}_{\mathbf{x} \sim \mathcal{X}} [−\log p_\theta(\mathbf{x} \mid \eta(\mathbf{x}), s)] \]

循环一致性损失（Zhu 等人，2017）有$\tilde{\theta}$产生一个不可微分的伪预测$\hat{\mathbf{y}$，并且不进行梯度反向传播。

\[\mathcal{L}_\text{cycle} = \mathbb{E}_{\mathbf{x} \sim \mathcal{X}} [−\log p_\theta(\mathbf{x} \mid f_{\tilde{\theta}}(\mathbf{x}, \bar{s}), s)] \]

他们使用上述损失来微调 T5 模型，得到一个名为CAE-T5的模型。通过控制代码（“文明”或“有毒”）作为序列开头的前缀来实现条件。

文本风格转移结果的自动评估依赖于三个指标：

准确性：分类准确性衡量了风格转移的成功程度。
流畅性：流畅性通常由另一个单独训练的语言模型在非毒性样本上的困惑度来衡量。
内容保留：它是转移和原始句子之间的内容相似度，通过 BLEU 或基于嵌入的内容相似度来衡量。

人类评估也是必要的，但成本更高。

与基线（Shen 等人，2017）相比，Santos 等人，2018的风格转移方法在分类准确性、内容保留方面表现更好，但困惑度更差。与包括 Style Transformer 在内的一组基线相比，CAE-T5 的分类准确性更差，内容保留竞争力强，困惑度更好。

可控生成

我们可以通过可控文本生成来避免有毒输出。有几种流行的方法可以引导预训练语言模型朝向期望的风格、主题或安全标准：

在测试时应用引导解码策略并选择所需的输出。
通过良好的提示设计优化以获得最理想的结果。
对基础模型或可控层进行微调以进行条件内容生成。

在我的上一篇文章中阅读更多关于可控神经文本生成的内容，介绍了诸如AutoPrompt、CTRL、PPLM、GeDi等方法。

Gehman 等人（2020）尝试了基于数据的（监督微调，CTRL 训练）和基于解码的（词汇转移，屏蔽词过滤，PPLM）方法来进行语言模型解毒实验。他们发现毒性控制令牌（CTRL）和脏话过滤器比微调非毒性语料库和 PPLM 等计算或数据密集型方法不那么成功。

图 12。表列出了 25 代中预期最大毒性分数（左）和生成有毒文本的经验概率（右）的几种解毒方法。分数由 Perspective API 提供。（图片来源：Gehman 等人，2020）

系统级安全解决方案

Xu 等人（2020）提出了一个详尽的系统级设计来构建安全的聊天机器人。

图 13. 安全聊天机器人系统的示意图。（图片来源：Xu 等人，2020）

他们在制作机器人更安全的配方中考虑了四种一般策略：

检测不安全内容：采用分类器来检测输入和输出端的不安全语言，作为语言模型顶部的额外安全层。
- 分类器是在增强版本的 Jigsaw toxic 评论数据集（安全 vs 不安全的二进制标签）上进行训练的，该数据集通过对抗性人类攻击（Dinan 等人，2019）和半监督数据集（Khatri 等人，2018）进行了扩展。
- 安全分类器可以用于用户输入和模型输出。如果检测到不安全内容，系统将配置为返回一个预定义的回应（例如“对不起，我不确定该说什么。”），或者决定改变话题。值得注意的是，这种方法依赖于高质量的分类器。如果有太多误报，对话体验将受到严重干扰。
- 机器人对抗性对话（BAD）安全：这个想法是收集人类对系统进行对抗性探测以制造错误的数据，然后将数据用于进一步训练。在注释过程中，人类标注者可以根据可能认为其不安全的人口比例为机器人的回应打标签。这种探测数据收集用于训练一个多轮安全分类器，预测在对话上下文中给出的回应是否具有攻击性。
安全生成：训练一个更不太可能输出不安全回应的模型。
- 在解码时，可以预先定义一组不安全词语/ n-gram 进行屏蔽。
- 预训练数据通过上述安全分类器进行过滤，或者基于已知作者进行过滤。
- 仅使用安全数据集进行预训练的问题在于，如果模型在训练期间从未见过有毒语言，那么在测试时就不会知道如何做出响应（OOD；例如，可能只是复制冒犯性内容）。相反，他们准备了一系列训练样本，其中最后一句话被标记为“不安全”，然后跟随不安全攻击的是一个安全的回应。然后在“内置”安全数据上对模型进行微调。
- 通过使用安全分类器分配“安全” vs “不安全”标签来进行CTRL风格的训练。
避免敏感话题：
- 为了避免敏感话题（政治、宗教、药物使用、医疗建议、不适宜工作场所的内容和关系/约会），他们训练了一个多类分类器，使用众包列表的子社区来检测这些话题。分类器可以定期重新训练，以捕捉随时间变化的话题内部的变化。
- 通过招募众包工作者讨论目标话题来收集一个小的验证集。
性别偏见缓解：
- 他们使用CTRL风格的训练来减轻性别偏见。
- 给定一个性别化词汇表，使用$F⁰ M⁰$、$F⁰ M^+$、$F^+ M^+$和$F^+ M⁰$标签对训练样本进行标记，指示响应是否包含女性/男性词汇（$+$包含，$-$不包含）。在测试时，系统以控制标签$F⁰ M⁰$运行，以避免输出特定性别的词汇。

附录：数据集

（*仅列出英文数据集。）

仇恨言论和攻击性语言数据集（2017）：包含约 25k 条推文，每条手动标记为三个类别之一：仇恨言论、冒犯但非仇恨言论，或既非冒犯也非仇恨言论。[下载链接]

拼图有毒评论分类数据集（2018）：包含约 160k 个示例，提取自维基百科讨论页面，每个示例标注了 7 个类别：有毒、严重有毒、淫秽、威胁、侮辱、身份仇恨和非有毒。标注过程涉及 5000 名众包标注者。[下载链接]

拼图毒性中的意外偏见分类数据集（2019）：包含约 200 万条来自 Civil Comments 平台的评论，该平台于 2017 年关闭。这些数据标注了毒性、毒性子类型和身份提及，从而评估了与身份提及相关的意外偏见。[下载链接]

OLID（攻击性语言识别数据集；2019）：包含 14,100 条英文推文，根据这里描述的三级分类法进行标注。[下载链接]

SOLID（半监督攻击性语言识别数据集；2020）：包含 900 万多条推文，按照 OLID 的三级分类法进行标注。[下载链接]

真实有毒提示数据集（2020）：包含来自网络的 100k 个句子片段，具有透视 API 毒性评分，用于研究语言模型中神经毒性退化的风险。[下载链接]

引用

引用为：

Weng, Lilian.（2021 年 3 月）。减少语言模型中的毒性。Lil’Log。https://lilianweng.github.io/posts/2021-03-21-lm-toxicity/.

或

@article{weng2021toxic,
  title   = "Reducing Toxicity in Language Models.",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2021",
  month   = "Mar",
  url     = "https://lilianweng.github.io/posts/2021-03-21-lm-toxicity/"
}

参考文献

[1] Vidgen 等人 “滥用内容检测中的挑战和前沿。” 2019 年在线滥用语言研讨会。

[2] Zampieri 等人 “在社交媒体中预测攻击性帖子的类型和目标。” NAACL 2019.

[3] Vidgen & Deczynski. “滥用语言训练数据的方向，系统性回顾：垃圾进，垃圾出。” PLoS ONE 15(12): e0243300 (2020).

[4] Davidson 等人“自动检测仇恨言论和冒犯性语言问题。” ICWSM 2017.

[5] Khatri 等人“使用两阶段半监督在开放领域对话中检测冒犯性内容。” NeuriIPS CONVAI Workshop 2018.

[6] Rosenthal 等人“用于辱骂语言识别的大规模半监督数据集” arXiv:2004.14454 (2020).

[7] Pavlopoulos 等人“毒性检测：上下文真的很重要吗？” arXiv:2006.00998 (2020).

[8] Dinan 等人“为对话安全性构建、破坏、修复：来自对抗人类攻击的鲁棒性。” arXiv:1908.06083 (2019).

[9] Kurita 等人“走向强大的有毒内容分类” arXiv:1912.06872 (2019)

[10] Santos 等人“使用无监督文本风格转换在社交媒体上打击冒犯性语言。” arXiv:1805.07685 (2018)

[11] Dai 等人“风格变换器：无配对文本风格转换而无需分解潜在表示” ACL 2019.

[12] Laugier 等人“使用自监督变压器重述有毒文本” arXiv:2102.05456 (2021). code

[13] Schick 等人“自诊断和自去偏见：减少自然语言处理中基于语料库的偏见的提案” arXiv:2103.00453 (2021).

[14] Gehman 等人“RealToxicityPrompts：评估语言模型中神经毒性退化” EMNLP 2020.

[15] Xu 等人“开放领域聊天机器人安全配方” arXiv:2010.07079 (2020).

可控神经文本生成

原文：lilianweng.github.io/posts/2021-01-02-controllable-text-generation/

[更新于 2021-02-01: 更新为 2.0 版本，添加了一些工作并修复了许多拼写错误。]

更新于 2021-05-26: 在[“提示设计”部分添加了 P-tuning 和 Prompt Tuning。]

更新于 2021-09-19: 添加[“非概然性训练”。]

网络上有大量的免费文本，比标记的基准数据集多几个数量级。最先进的语言模型（LM）是通过大规模的无监督网络数据进行训练的。当通过迭代地抽样下一个标记来从 LM 生成样本时，我们对输出文本的属性（如主题、风格、情感等）没有太多控制。许多应用程序需要对模型输出进行良好的控制。例如，如果我们计划使用 LM 为孩子们生成阅读材料，我们希望引导输出的故事是安全的、教育性的，并且容易被孩子理解。

如何引导一个强大的无条件语言模型？在本文中，我们将深入探讨几种用于受控内容生成的方法，其中包括无条件语言模型。请注意，模型的可操纵性仍然是一个开放的研究问题。每种介绍的方法都有一定的优缺点。

在测试时应用引导式解码策略并选择所需的输出。
通过良好的提示设计来优化最理想的结果。
对基础模型或可操纵层进行微调，以进行有条件的内容生成。

在接下来的讨论中，我们假设我们可以访问一个预训练的生成式语言模型 $p_\theta$。该模型通过优化下一个标记的预测学习了标记序列上的分布：$ \mathcal{L}\text{ML} = - \sum_t \log p\theta(x_t \vert x_{<t}) $。

解码策略

通过采用不同的解码方法，我们可以对抽样过程施加限制或偏好，以改变生成的样本，而不修改任何模型权重。尽管解码策略不会改变任何可训练参数的值，但它是一个非常重要的组成部分。

常见的解码方法

由于模型的最终层预测了词汇空间上的 logits $o$，下一个标记可以通过应用温度 $T$ 的 softmax 进行抽样。抽样第 $i$ 个标记的概率是

\[p_i \propto \frac{\exp(o_i / T)}{\sum_j \exp(o_j/T)} \]

低温度会使分布更尖锐，而高值会使其更柔和。

贪婪搜索：始终选择具有最高概率的下一个标记，相当于设置温度 $T=0$。然而，它往往会创建短语的重复，即使对于训练良好的模型也是如此。

Beam search：本质上是广度优先搜索，每个树级别一个标记，但带有有限的带宽。在搜索树的每个级别，beam search 跟踪$n$（称为“束宽”）个最佳候选项，并在下一个级别扩展这些候选项的所有后继。如果遇到 EOS（句子结束）标记，beam search 可能停止扩展一个节点。

然而，基于最大化的解码并不能保证高质量的生成。

图 1. 由 beam search 和人类分配给下一个标记的概率。人类选择的标记在预测概率上具有更高的方差，因此更具惊喜性。（图片来源：Holtzman et al. 2019）

Top-k 抽样 (Fan et al., 2018)：在每个抽样步骤中，只选择前$k$个最有可能的标记，并在它们之间重新分配概率质量。在Fan et al., 2018中，作者提出使用top-k 随机抽样，其中下一个标记在前$k$个最有可能的候选项中随机选择，他们认为这种方法可以生成比 beam search 更多新颖且不那么重复的内容。

核抽样 (Holtzman et al. 2019)：也称为“Top-p 抽样”。top-k 抽样的一个缺点是预定义的数字$k$并没有考虑到概率分布可能有多么倾斜。核抽样选择最小的一组累积概率超过阈值（例如 0.95）的顶级候选项，然后在选定的候选项中重新缩放分布。

无论是 top-k 抽样还是核抽样，都具有较少的重复性和适当的一组超参数。

惩罚抽样 (Keskar et al. 2019)：为了避免生成重复子字符串的常见失败情况，CTRL论文提出了一种新的抽样方法，通过打折先前生成的标记的分数来惩罚重复。带有重复惩罚的下一个标记的概率分布定义如下：

\[p_i = \frac{\exp(o_i / (T \cdot \mathbb{1}(i \in g)))}{\sum_j \exp(o_j / (T \cdot \mathbb{1}(j \in g)))} \quad \mathbb{1}(c) = \theta \text{ if the condition }c\text{ is True else }1 \]

其中$g$包含一组先前生成的标记，$\mathbb{1}(.)$是一个恒等函数。$\theta=1.2$被发现能在减少重复和生成真实内容之间取得良好平衡。

引导解码

所有上述标准解码策略根据预测概率对标记进行采样，没有额外信息。我们对主题或情感的偏好可以通过候选排名函数嵌入到其中，以通过改变候选排名分数来引导样本生成。在每个解码步骤中用于标记选择的排名分数可以设置为 LM 对数似然和一组期望特征鉴别器的组合。这些特征旨在通过启发式（Ghazvininejad 等人，2017）、监督学习（Holtzman 等人，2018）或 RL（Li 等人，2017）来量化人类偏好。

Ghazvininejad 等人（2017）构建了一个名为“Hafez”的系统，通过在解码步骤中调整波束搜索中的采样权重来生成所需风格的诗歌。在步骤$t$中，下一个标记$x_{t+1}$的采样可能性通过一个评分函数增强：

\[\text{score}(x_{t+1}, b_t) = \text{score}(b_t) + \log p(x_{t+1}) + \color{green}{\sum_i \alpha_i f_i(x_{t+1})} \]

其中$\log p(x_{t+1})$是 LM 预测的对数似然。$\text{score}(b_t)$是当前波束状态$b_t$中已生成单词的累积分数。绿色部分可以包含许多不同的特征，用于引导输出的风格。一组特征函数$f_i(.)$定义了偏好和相关权重$alpha_i$的工作方式类似于“控制旋钮”，可以在解码时轻松定制。特征可以衡量各种属性，并且可以轻松组合；例如，

是否$x_{t+1}$存在于所需或禁止的主题词袋中。
是否$x_{t+1}$表示特定情绪。
是否$x_{t+1}$是一个重复的标记（因此$f_i$需要将历史作为输入）。
如果更长或更短的单词特别受欢迎，$x_{t+1}$的长度。

与 Hafez 类似，Baheti 等人（2018）为排名手动设计了特征，并通过附加上下文和完成的主题分布或嵌入之间的相似性分数改变了采样分布。

Holtzman 等人（2018）采用了一组学习的鉴别器，每个鉴别器专门针对由Grice 的格言指导的不同沟通原则：质量、数量、关系和方式。鉴别器通过测量重复、蕴涵、相关性和词汇多样性来学习编码这些期望的原则。鉴别器模型都经过训练，以最小化排名对数似然，$\log\sigma(f_i(y_g) - f_i(y))$，因为预期金标准完成$y_g$的得分应高于生成的$y$。这里权重系数$\alpha_i$也被学习，以最小化金标准和生成完成之间的得分差异。鉴别性对抗搜索（DAS；Scialom 等人，2020）受到 GAN 的启发，训练鉴别器区分人类创作的文本和机器生成的文本。鉴别器为每个标记预测一个标签，而不是整个序列。鉴别器 logprob 被添加到得分中，以引导采样朝向人类写作风格。

Meister 等人（2020）在正则化解码框架中研究了波束搜索：

\[\mathbf{y}^* = \arg\max_{\mathbf{y}\in\mathcal{Y}} \big( \underbrace{\log p_\theta(\mathbf{y}\vert\mathbf{x})}_\text{MAP} - \underbrace{\lambda\mathcal{R}(\mathbf{y})}_\text{regularizer} \big) \]

由于我们期望最大概率具有最小惊奇度，LM 在时间步$t$的惊奇度可以定义如下：

\[ \begin{aligned} u_0(\texttt{BOS}) &= 0 \text{ ; BOS 是句子开头的占位符。}\\ u_t(y) &= -\log P_\theta(y \vert \mathbf{x}, \mathbf{y}_{ MAP（最大后验）部分要求在给定上下文的情况下具有最大概率的序列，而正则化器引入其他约束。可能需要全局最优策略偶尔进行高惊奇步骤，以便缩短输出长度或在之后产生更多低惊奇步骤。波束搜索在自然语言处理领域经受住了时间的考验。问题是：*如果我们想将波束搜索建模为正则化解码框架中的精确搜索，应该如何建模 $\mathcal{R}(\mathbf{y})$？* 该论文提出了波束搜索与*均匀信息密度*（UID）假设之间的联系。 > “均匀信息密度假设（UID；Levy 和 Jaeger，2007）指出——在语法的约束下——人类更喜欢将信息（在信息论意义上）均匀分布在语言信号中，例如，一句话。” 换句话说，它假设人类更喜欢具有均匀分布 surprisal 的文本。流行的解码方法如 top-k 采样或核采样实际上会过滤掉高 surprisal 选项，从而在输出序列中隐式地鼓励 UID 属性。该论文尝试了几种形式的正则化器： 1. *贪婪*：$\mathcal{R}_\text{greedy}(\mathbf{y}) = \sum_{t=1}^{\vert\mathbf{y}\vert} \big(u_t(y_t) - \min_{y’ \in \mathcal{V}} u_t(y’) \big)²$；如果设$\lambda \to \infty$，我们得到贪婪搜索。请注意，每个步骤贪婪并不保证全局最优性。 1. *方差正则化器*：$\mathcal{R}_\text{var}(\mathbf{y}) = \frac{1}{\vert\mathbf{y}\vert}\sum_{t=1}^{\vert\mathbf{y}\vert} \big(u_t(y_t) - \bar{u} \big)²$，其中$\bar{u}$是所有时间步的平均 surprisal。它直接编码了 UID 假设。 1. *局部一致性*：$\mathcal{R}_\text{local}(\mathbf{y}) = \frac{1}{\vert\mathbf{y}\vert}\sum_{t=1}^{\vert\mathbf{y}\vert} \big(u_t(y_t) - u_{t-1}(y_{t-1}) \big)²$；这种解码正则化器鼓励相邻标记具有相似的 surprisal。 1. *最大正则化器*：$\mathcal{R}_\text{max}(\mathbf{y}) = \max_t u_t(y_t)$惩罚 surprisal 的最大补偿。 1. *平方正则化器*：$\mathcal{R}_\text{square}(\mathbf{y}) = \sum_{t=1}^{\vert\mathbf{y}\vert} u_t(y_t)²$鼓励所有标记的 surprisal 接近 0。通过对贪婪正则化器进行实验表明，较大的$\lambda$会导致更好的性能（例如通过 NMT 任务的 BLEU 度量）和更低的 surprisal 标准差。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/b551fe60ca594a773c44448fe9a913f2.png) 图 2。BLEU 和 surprisal 标准差作为正则化器$\lambda$强度的函数的绘图。灰色子图显示了 BLEU 和 surprisal 标准差之间的关系。（图片来源：[Meister et al. 2020](https://arxiv.org/abs/2010.02650)）默认的波束搜索在波束大小增加时会导致文本生成质量下降。正则化的波束搜索极大地帮助缓解了这个问题。结合正则化器进一步提高了性能。在他们的 NMT 实验中，他们发现贪婪的$\lambda=5$和平方的$\lambda=2$是最佳的组合正则化器。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/2366566442f2c038b61a447e5ed84c3a.png) 图 3。BLEU 作为波束大小的函数的绘图（左）和不同正则化解码策略创建的翻译的 BLEU 分数。（图片来源：[Meister et al. 2020](https://arxiv.org/abs/2010.02650)）引导解码本质上是运行一个更昂贵的波束搜索，其中采样概率分布受到有关人类偏好的辅助信息的影响。 ## 可训练解码在给定训练好的语言模型的情况下，[顾等人（2017）](https://arxiv.org/abs/1702.02429)提出了一个**可训练的贪婪解码**算法，用于最大化任意目标以对序列进行采样。这个想法基于*嘈杂的、并行的近似解码*（[NPAD](https://arxiv.org/abs/1605.03835)）。NPAD 向模型隐藏状态注入非结构化噪声，并并行多次运行嘈杂解码，以避免潜在的退化。为了更进一步，可训练的贪婪解码用可学习的随机变量替换了非结构化噪声，由一个接受前一个隐藏状态、前一个解码标记和上下文作为输入的 RL 代理预测。换句话说，解码算法学习一个 RL actor 来操纵模型隐藏状态以获得更好的结果。 [Grover 等人（2019）](https://arxiv.org/abs/1906.09531)训练了一个二元分类器来区分来自数据分布的样本和来自生成模型的样本。这个分类器用于估计*重要性权重*以构建一个新的非规范化分布。所提出的策略被称为**无似然重要性加权（LFIW）**。让$p$表示真实数据分布，$p_\theta$表示学习到的生成模型。使用从$p_\theta$中获取的样本来评估给定函数$f$在$p$下的期望的经典方法是使用重要性抽样。 $$ \mathbb{E}_{\mathbf{x}\sim p} [f(\mathbf{x})] = \mathbb{E}_{\mathbf{x}\sim p_\theta} \Big[\frac{p(\mathbf{x})}{p_\theta(\mathbf{x})} f(\mathbf{x})\Big] \approx \frac{1}{N} \sum_{i=1}^N w(\mathbf{x}_i)f(\mathbf{x}_i) \]

然而，$p(\mathbf{x})$只能通过有限数据集来估计。让$c_\phi: \mathcal{X} \to [0,1]$是一个用于预测样本$\mathbf{x}$是否来自真实数据分布（$y=1$）的概率二元分类器。$\mathcal{X}\times\mathcal{Y}$上的联合分布被表示为$q(\mathbf{x}, y)$。

\[q(\mathbf{x}\vert y) = \begin{cases} p_\theta(\mathbf{x}) & \text{ 如果 }y=0\text{；预测为生成数据} \\ p(\mathbf{x}) & \text{ 否则；来自真实数据分布} \end{cases} \]

如果$c_\phi$是贝叶斯最优，那么重要性权重可以通过以下方式估计：

\[w_\phi(\mathbf{x}) = \frac{p(\mathbf{x})}{p_\theta(\mathbf{x})} = \frac{q(\mathbf{x} \vert y=1)}{q(\mathbf{x} \vert y=0)} = \frac{q(y=0)}{q(y=1)} \frac{q(y=1 \vert \mathbf{x})}{q(y=0 \vert \mathbf{x})} = \gamma \frac{c_\phi(\mathbf{x})}{1 - c_\phi(\mathbf{x})} \]

其中$\gamma = \frac{q(y=0)}{q(y=1)} > 0$是一个固定的奇数比率。

由于我们无法学习到一个完美的最优分类器，重要性权重将是一个估计值$\hat{w}_\phi$。可以应用一些实用技巧来抵消分类器利用生成样本中的人为因素进行非常自信的预测（即非常小的重要性权重）：

自标准化：通过总和 $\hat{w}_\phi(\mathbf{x}_i) / \sum_{j=1}^N \hat{w}_\phi(\mathbf{x}_j)$ 对权重进行归一化。
平坦化：添加一个幂缩放参数 $\alpha > 0$，$\hat{w}_\phi(\mathbf{x}_i)^\alpha$。
剪裁：指定一个下界 $\max(\hat{w}_\phi(\mathbf{x}_i), \beta)$。

要从重要性重采样的生成模型中进行采样，$\mathbf{x}\sim p_{\theta, \phi}(\mathbf{x}) \propto p_\theta(\mathbf{x})\hat{w}_\phi(\mathbf{x})$，他们采用了 SIR（采样-重要性-重采样），

图 4. 使用 SIR 从生成模型中根据重要性权重 $\hat{w}(\mathbf{x}_i)$ 进行采样的算法。（图片来源：Grover et al., 2019)）

Deng et al., 2020 提出了学习一个 EBM 来引导残差空间中的 LM，$P_\theta(x) \propto P_\text{LM}(x)\exp(-E_\theta(x))$，其中 $P_\theta$ 是联合模型；$E_\theta$ 是要学习的残差能量函数。如果我们知道分区函数 $Z$，我们可以对生成模型进行建模以生成序列 $x_{p+1}, \dots, x_T$：

\[P_\theta(x_{p+1:T}\vert x_{1:p}) = \frac{P_\text{LM}(x_{p+1:T}\vert x_{1:p}) \exp(-E_\theta(x_{1:T}))}{Z_\theta(x_{1:p})} \]

目标是学习能量函数 $E_\theta$ 的参数，使得联合模型 $P_\theta$ 更接近期望的数据分布。残差能量函数通过噪声对比估计（NCE）进行训练，考虑 $P_\theta$ 作为模型分布，$P_\text{LM}$ 作为噪声分布：

\[\theta = \arg\max_{\theta} \mathbb{E}_{x^+ \sim P_\text{data}} \log\frac{1}{1+\exp(E_\theta(x^+))} + \mathbb{E}_{x^- \sim P_\text{LM}} \log\frac{1}{1+\exp(-E_\theta(x^-))} \]

然而，在实践中，分区函数是难以计算的。该论文提出了一个简单的方法，首先从原始 LM 中采样，然后根据能量函数重新采样。这很昂贵。

图 5. 从基础 LM 中重新采样的前 k 个样本，根据残差能量函数。（图片来源：Deng et al., 2020)

智能提示设计

大型语言模型已经在许多自然语言处理任务上表现出非常强大的能力，即使只有提示而没有特定任务的微调（GPT2，GPT3）。提示设计对下游任务的性能有很大影响，通常需要耗费大量时间进行手工制作。例如，事实性问题在“闭卷考试”中通过智能提示设计可以获得很大提升（Shin 等，2020，Jiang 等，2020)）。我期待看到越来越多关于自动智能提示设计的文献。

基于梯度的搜索

AutoPrompt（Shin 等，2020；code）是一种通过基于梯度的搜索自动创建各种任务提示的方法。AutoPrompt 通过将原始任务输入$x$与一组触发令牌$x_\text{trig}$根据模板$\lambda$组合来构建提示。这些触发令牌在所有输入中共享，因此通用有效。

图 6。AutoPrompt 的概述。触发令牌被检索以优化所有输入的目标输出。（图片来源：Shin 等，2020）

通用触发令牌是使用与Wallace 等，2019中相同的梯度引导搜索策略来识别的。通用设置意味着触发令牌$x_\text{trig}$可以为数据集中所有输入的目标输出$\tilde{y}$进行优化：

\[x_\text{trig} = \arg\min_{x’_\text{trig}} \mathbb{E}_{x\sim\mathcal{X}} [\mathcal{L}(\tilde{y}, f(x’_\text{trig}; x))] \]

搜索在嵌入空间中进行。每个触发令牌$e_{\text{trig}_i}$的嵌入首先初始化为某个默认值，然后更新以最小化围绕当前令牌嵌入的任务特定损失的一阶泰勒展开：

\[e^{(t+1)}_\text{trig} = \arg\min_{e\in\mathcal{V}} [e - e^{(t)}_{\text{trig}_i}]^\top \nabla_{e^{(t)}_{\text{trig}_i}} \mathcal{L} \]

其中$\mathcal{V}$是所有令牌的嵌入矩阵。$\nabla_{e^{(t)}_{\text{trig}_i}} \mathcal{L}$是在迭代$t$的批次上任务损失的平均梯度。我们可以通过一个$\vert \mathcal{V} \vert d$维点积来蛮力求解最优$e$，这是廉价的并且可以并行计算。

图 7。我们通过更新每批次的任务损失梯度来搜索触发令牌。（图片来源：Wallace 等，2019）

上述的令牌替换方法可以通过束搜索进行增强。在寻找最佳的令牌嵌入$e$时，我们可以选择前$k$个候选项而不是单个，从左到右搜索，并在当前数据批次上通过$\mathcal{L}$对每个束进行评分。

图 8. AutoPrompt 发现的不同任务的示例提示。（图片来源：Shin et al., 2020）

聪明的提示设计本质上产生了可以导致期望完成的有效上下文。受到这一观察的启发，Li & Liang (2021) 提出了前缀调整，它在输入序列的开头分配了少量可训练参数（称为“前缀”）来引导一个语言模型，$[\text{PREFIX}; x; y]$。设$\mathcal{P}_\text{idx}$为前缀索引集合，$\text{dim}(h_i)$为嵌入大小。前缀参数$P_\theta$的维度为$\vert\mathcal{P}_\text{idx}\vert \times \text{dim}(h_i)$，隐藏状态的形式为：

\[ h_i = \begin{cases} P_\theta[i,:], & \text{if }i \in \mathcal{P}_\text{idx}\\ \text{LM}_\phi(z_i, h_{ 注意，只有$P_\theta$是可训练的，语言模型参数$\phi$在训练过程中被冻结。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/141b29c49aa74d4c669f4efde52c9b9e.png) 图 9. 微调与前缀调整的示意图。（图片来源：[Li & Liang 2021](https://arxiv.org/abs/2101.00190)）前缀参数与任何与真实单词相关联的嵌入不相关，因此它们对于引导上下文更具*表现力*。直接优化$P_\theta$不幸地导致性能不佳。为了减少与高维训练相关的困难，矩阵$P_\theta$通过一个较小的矩阵$P’_\theta \in \mathbb{R}^{\vert\mathcal{P}_\text{idx}\vert \times c}$和一个大型前馈网络$\text{MLP}_\theta \in \mathbb{R}^{c\times \text{dim}(h_i)}$重新参数化。随着前缀长度$\vert\mathcal{P}_\text{idx}\vert$的增加，性能会提高，直到某个值。而这个值会随着任务的不同而变化。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/edaa4395e484103740b6f28b7448560d.png) 图 10. 任务性能，摘要（左）和表格到文本（右），作为前缀长度的函数。（图片来源：[Li & Liang 2021](https://arxiv.org/abs/2101.00190)）他们的消融研究中还有一些其他有趣的发现： + 仅调整嵌入层（没有前缀）的表现不够具有表现力。 + 将可训练参数放置在$x$和$y$之间，$[x; \text{INFIX}; y]$，略微表现不佳于前缀调整，可能是因为它只影响$y$的上下文，而前缀影响两者。 + $P_\theta$的随机初始化会导致性能低且方差大。相比之下，使用真实单词的激活来初始化$P_\theta$会提高生成效果，即使这些单词与任务无关。微调模型在任务性能上表现更好，但在数据稀缺的情况下可能会失败。发现 AutoPrompt 和 Prefix-Tuning 在训练数据集较小（即$10²-10³$个样本）的情况下优于微调。作为微调的替代方案，提示设计或学习上下文嵌入成本更低。AutoPrompt 比手动提示大大提高了情感分类的准确性，并实现了与线性探测类似的性能。对于 NLI 任务，AutoPrompt 比线性探测获得更高的准确性。它能够比手动提示更准确地检索事实。在数据稀缺的情况下，Prefix-Tuning 在表格到文本生成和摘要上实现了与微调相媲美的性能。两个连续的工作，**P-tuning**（[Liu et al. 2021](https://arxiv.org/abs/2103.10385); [code](https://github.com/THUDM/P-tuning)）和**Prompt Tuning**（[Lester et al. 2021](https://arxiv.org/abs/2104.08691)），遵循了显式训练连续提示嵌入的类似思想，但在可训练参数和架构上有一些不同选择。与将连续提示令牌连接在变压器的每个隐藏状态层中的 Prefix-Tuning 不同，P-tuning 和 Prompt Tuning 都是在*输入中*非侵入性地添加连续提示以达到良好效果。让$[P_i]$表示**P-tuning**（[Liu et al. 2021](https://arxiv.org/abs/2103.10385)）的提示模板中的第$i$个令牌，我们可以将提示表示为序列$T=\{[P_{0:i}], \mathbf{x}, [P_{i+1:m}], \mathbf{y}\}$。每个令牌$[P_i]$不必是模型词汇表中的真实令牌（“伪令牌”），因此编码的模板$T^e$如下所示，伪令牌的隐藏状态可以通过梯度下降进行优化。 $$ T^e = \{ h_0, \dots, h_i, \text{embed}(\mathbf{x}), h_{i+1}, \dots, h_m, \text{embed}(\mathbf{y})\} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/20f964916c6caba90c270973fac17c7b.png) 图 11\. P-tuning 的示意图。有时，添加一些与任务相关的锚定令牌，如图中的“capital”，可以带来进一步的改进。（图片来源：[Liu et al. 2021](https://arxiv.org/abs/2103.10385)） P-tuning 中存在两个主要的优化挑战： 1. 离散性：预训练语言模型的词嵌入是高度离散的。如果它们是随机初始化的，很难优化$h_i$。 1. 关联性：$h_i$应该相互依赖。因此，他们开发了一种机制来通过训练轻量级基于 LSTM 的提示编码器来建模这种依赖关系： $$ h_i = \text{MLP}([\text{LSTM}(h_{0:i}): \text{LSTM}(h_{i:m})]) \]

P-tuning 比 prefix-tuning 更灵活，因为它不仅在提示开头插入可训练令牌，而且在提示中间插入。使用任务特定的锚定令牌就像将手动提示工程与可训练提示结合在一起。

提示调整（Lester et al. 2021）大大简化了前缀调整的概念，只允许每个下游任务在输入文本前添加额外的$k$个可调节标记。条件生成是$p_{\theta, \theta_P}(Y \vert [P; X])$，其中$P$是具有可通过反向传播训练的参数$\theta_P$的“伪提示”。$X$和$P$都是嵌入向量，我们有$X \in \mathbb{R}^{n \times d^e}, P \in \mathbb{R}^{k \times d^e}$和$[P;X] \in \mathbb{R}^{(n+k) \times d^e}$，其中$d^e$是嵌入空间的维度。

当模型变得庞大（数十亿个参数及以上）时，提示调整产生了与模型微调竞争力相当的结果。这一结果尤其有趣，因为大型模型在微调和推理时执行都很昂贵。
通过学习的任务特定参数，提示调整在适应新领域时实现更好的迁移学习。在领域转移问题上，它优于微调。
他们还表明，对于同一任务的多个提示的提示集成引入了进一步的改进。

图 12. 提示调整的工作原理示意图。（图片来源：Lester et al. 2021）

实验调查了几种提示初始化方案：

随机初始化，从[-0.5, 0.5]均匀采样；
采样前 5000 个常见标记的嵌入；
使用类标签字符串的嵌入值。如果我们没有足够的类标签来初始化软提示，我们将退回到方案 2。随机初始化的表现明显不如其他两个选项。

图 13. (a)不同提示初始化方案和(b)不同提示长度的影响。（图片来源：Lester et al. 2021）

预训练目标也对提示调整的质量产生重大影响。T5 的“跨度破坏”在这里不是一个好选择。

发现提示调整不太可能过度拟合特定数据集。为了评估对数据转移问题的鲁棒性，他们在一个任务的一个数据集上训练模型，并在不同领域的测试数据集上评估。提示调整更具弹性，能更好地泛化到不同领域。

图 14. 提示调整在训练集和测试集之间的领域转移上更具弹性。（图片来源：Lester et al. 2021）

基于启发式的搜索

释义是探索更多类似已知版本的提示的快速方法，可以通过回译来实现。使用回译，初始提示被翻译成另一种语言中的$B$个候选项，然后每个候选项再被翻译回原始语言中的$B$个候选项。得到的总共$B²$个候选项通过其往返概率进行评分和排名。

里贝罗等人（2018）通过生成输入$x$的各种释义$\{x’\}$来识别语义等效对手（SEA），直到触发目标函数$f$的不同预测：

\[\begin{aligned} SEA(x, x') &= \mathbb{1}[\text{SemEq}(x, x') \land f(x) \neq f(x')] \\ \text{where SemEq}(x, x') &= \mathbb{1}[\min\Big(1, \frac{p(x'\vert x)}{p(x\vert x)} \Big) \geq \tau] \end{aligned} \]

其中得分$p(x’\vert x)$与将$x$翻译成多种语言，然后再翻译回原始语言成正比。

SEA 规则的示例包括（What NOUN→Which NOUN）、（WP is → WP’s’）、（was→is）等。它们被视为模型中的“错误”。在模型训练中将这些规则应用为数据增强有助于使模型更加健壮并修复错误。

蒋等人（2020）试图验证训练过的语言模型是否了解某些知识，通过自动发现更好的提示来查询。在知识检索范围内，事实知识以三元组$\langle x, r, y \rangle$（主语，关系，客体）的形式表示。提示可以从训练句子（例如维基百科描述）中挖掘，也可以通过释义进行扩展。

有趣的是，如图 X 所示，提示中的一些小修改可能会带来巨大的收益。

图 15. 在提示模板中进行小的修改可能会导致性能大幅提升：蓝色替换，绿色插入，红色删除。（图片来源：蒋等人，2020）

微调

微调是引导语言模型输出所需内容的直观方法，通常通过在监督数据集上训练或通过 RL 进行。我们可以微调模型中的所有权重，也可以将微调限制在顶部或额外层。

有条件的训练

有条件的训练旨在学习一个以控制变量$z$为条件的生成模型，$p(y \vert x, z)$。

Fan et al (2018) 训练了一个用于两步故事生成的条件语言模型。首先，模型输出故事草图，然后一个故事写作模型根据该草图创建故事。在草图上的条件机制是通过融合模型架构实现的。融合模型实施了一种残差学习形式，允许故事写作模型专注于学习第一个草图生成模型所遗漏的内容。此外，对于故事生成，Peng et al (2018) 尝试了一个以结局情感为条件的故事生成 LM，$p(x_t \vert x_{<t}, z)$，其中 $z$ 是故事结局的标签（悲伤、快乐或中性）。他们的语言模型是一个双向 LSTM，标签被映射到一个学习的嵌入中，然后融入 LSTM 单元中。

CTRL（Keskar et al., 2019; code）旨在训练一个以控制代码 $z$ 为条件的语言模型，使用可控数据集。 CTRL 通过在原始文本序列上训练带有控制代码前缀的模型，如 [horror]，[legal] 等，来学习条件分布 $p(x \vert z)$。然后，学习的模型能够根据提示前缀生成文本。训练数据包括维基百科、OpenWebText、书籍、亚马逊评论、reddit 语料库等，其中每个数据集都分配有一个控制代码，reddit 语料库中的 subreddit 有其自己的主题作为控制代码。

图 16. 用于训练 CTRL 和相关控制代码的数据集。 (图片来源：Keskar et al., 2019 中表 7 的编辑)

控制代码也可以用于给定标记的领域注释，因为 $p(z \vert x) \propto p(x \vert z) p(z)$，假设领域的先验分布是均匀的。 CTRL 的一个限制是缺乏对不生成什么的控制（例如，避免毒性）。

图 17. CTRL 生成的条件样本示例。 (图片来源：Keskar et al., 2019)

请注意，CTRL 从头开始训练一个 transformer 模型。然而，将同一数据集中的所有文本标记为相同的控制代码（例如，所有维基百科文章都有“维基百科”作为控制代码）感觉相当受限制。考虑到通常我们需要高度定制的控制代码，但只有有限数量的标记数据，我期望像 CTRL 一样使用小型标记数据集对无条件 LM 进行微调也能取得良好的效果。尽管需要多少数据以及样本质量如何可能需要进行实验。

强化学习微调

多年来，使用 RL 针对任意任意可能非可微分奖励函数微调顺序模型已被证明效果良好（Ranzato et al., 2015）。RL 微调可以解决教师强迫方法的几个问题。使用教师强迫，模型在训练期间仅在每个解码步骤最小化最大似然损失，但在测试时要求从头开始预测整个序列。这种训练和测试之间的差异可能导致曝光偏差和累积误差。相比之下，RL 微调能够直接在序列级别上优化任务特定的度量标准，如翻译中的 BLEU（Ranzato et al., 2015、Wu et al., 2016、Nguyen et al., 2017）、摘要中的 ROUGE（Ranzato et al., 2015、Paulus et al., 2017、Wu and Hu, 2018）以及故事生成中的自定义度量标准（Tambwekar et al., 2018）。

Ranzato et al (2015)应用 REINFORCE 来训练 RNN 模型进行序列生成任务。该模型首先通过交叉熵损失（ML 损失）训练以预测下一个标记，然后通过 ML 损失和 REINFORCE（RL 损失）交替进行微调。在第二次微调阶段，用于下一个标记预测的训练步骤数量逐渐减少直至为零，最终仅使用 RL 损失。实验证明，这种序列级 RL 微调相对于当时的几个监督学习基线有了很大的改进。

谷歌在他们的神经机器翻译系统中实现了类似的方法（Wu et al., 2016），而Paulus et al (2017)则采用了这种方法来进行摘要任务。训练目标包含两部分，ML 损失用于下一个标记的预测，$\mathcal{L}_\text{ML} = \sum_{(x, y^*)\sim\mathcal{D}} \log p_\theta(y^* \vert x)$，以及 RL 损失$\mathcal{L}_\text{RL}$用于最大化期望奖励，其中每个序列的奖励由 BLEU 或 ROUGE 来衡量。该模型首先使用$\mathcal{L}_\text{ML}$进行训练直至收敛，然后用两个损失的线性组合进行微调，$\mathcal{L}_\text{mix} = \alpha \mathcal{L}_\text{ML} + (1 - \alpha)\mathcal{L}_\text{RL}$。

谷歌 NMT 的 RL 损失是为了最大化期望的 BLEU 分数：

\[\mathcal{L}_\text{RL} = - \sum_{(x, y^*)\sim\mathcal{D}} \mathbb{E}_{y\sim p_\theta(.\vert x)} [R(y, y^*)] \]

其中$y$是预测的序列，$y^*$是真实标准。

Paulus et al (2017)在基于两个输出序列之间奖励差异的额外加权项上进行了添加，$y$通过根据预测概率采样下一个标记和$\hat{y}$通过贪婪地选择最可能的标记。如果采样序列$y$获得比贪婪基线$\hat{y}$更高的奖励，则这种 RL 损失最大化了采样序列$y$的条件概率：

\[ \mathcal{L}_\text{RL} = \sum_{(x, y^*)\sim\mathcal{D}} (R(\hat{y}, y^*) - R(y, y^*)) \sum_{t=1}^{n'} \log p(y_t \vert y_{ ## 使用人类偏好进行 RL 微调奖励学习对于定义人类偏好至关重要。像 BLEU 或 ROUGE 这样的定量测量计算了序列之间单词和 n-gram 短语的重叠，并不总是与人类评委的更好质量相关。来自人类反馈的奖励学习([Christiano et al., 2017](https://arxiv.org/abs/1706.03741))是将我们测量的内容与我们实际关心的内容对齐的更好方式。人类反馈已被应用于学习应用程序的奖励函数，如故事生成([Yi et al., 2019](https://arxiv.org/abs/1904.13015))和摘要([Böhm et al., 2019](https://arxiv.org/abs/1909.01214), [Ziegler et al., 2019](https://arxiv.org/abs/1909.08593), [Stiennon et al., 2020](https://arxiv.org/abs/2009.01325))。为了生成更连贯的对话，[Yi et al (2019)](https://arxiv.org/abs/1904.13015)收集了 4 种类型的二进制人类反馈，给定一个对话对（用户话语，系统回应），系统回应是否(1)全面，(2)主题相关，(3)有趣和(4)导致对话继续。评估器被训练以预测人类反馈，然后用于重新排列波束搜索样本，微调模型或两者兼而有之。（实际上，他们没有使用 RL 微调，而是使用评估器在监督微调中提供鉴别器损失。）让我们定义一个由$\psi$参数化的学习奖励函数$R_\psi(x, y)$，作为给定输入$x$的输出$y$质量的衡量标准。为了学习由人类判断定义的地面真实奖励$R^*$，[Böhm et al (2019)](https://arxiv.org/abs/1909.01214)比较了两种损失函数： (1) 回归损失：简单地最小化均方误差。 $$ \mathcal{L}^\text{MSE}_\text{rm} = [R^*(x, y) - R_\psi(x, y)]² \]

(2) 偏好损失：学习与地面真实奖励一致，

\[\begin{aligned} \mathcal{L}^\text{pref}_\text{rm} =& - \sum_{i,j} \big(\mathbb{1}[R^*(x, y_i) > R^*(x, y_j)] \log P(y_i \succ y_j) + \\ &\mathbb{1}[R^*(x, y_j) > R^*(x, y_i)] \log P(y_j \succ y_i) \big)\\ \text{where }P(y_i \succ y_j) =& \frac{\exp(R_\psi(x, y_i))}{\exp(R_\psi(x, y_i)) + \exp(R_\psi(x, y_j))} \end{aligned} \]

他们的实验表明偏好损失取得了最佳性能，其中奖励模型是 BERT 句子嵌入顶部的一层薄 MLP 层。

Ziegler et al (2019)通过要求人类从给定输入$x \sim \mathcal{D}$中的几个选项$\{y_i\}$中选择最佳候选$y_b$来收集人类标签。候选项由$y_0, y_1 \sim p(.\vert x), y_2, y_3 \sim \pi(.\vert x)$进行采样。我们应该意识到，当地面真相模糊时，人类标注可能存在很高的分歧。

图 18。使用从人类反馈中学习的奖励微调语言模型策略的训练框架概述。（图片来源：Ziegler et al., 2019）

奖励模型由一个预训练语言模型实现，具有额外的最终嵌入输出的随机线性层。它被训练以最小化损失：

\[\mathcal{L}_\text{rm} = -\mathbb{E}_{(x, \{y_i\}, b) \sim \mathcal{D}} \Big[ \log \frac{\exp(R_\psi(x, y_b))}{\sum_i \exp(R_\psi(x, y_i))} \Big] \]

为了在训练过程中保持尺度一致，奖励模型被归一化为均值为 0，方差为 1。

在强化学习微调期间，由预训练语言模型$p$初始化的策略$\pi$通过PPO与上述学习的奖励模型进行优化。为避免策略偏离其原始行为太多，添加了KL 惩罚：

\[R(x, y) = R_\psi(x, y) - \beta\log\frac{\pi(y \vert x)}{p(y \vert x)} \]

如果进行在线数据收集，人类标签收集过程将在强化学习微调期间继续进行，因此人类标注者可以审查最新策略生成的结果。在训练过程中，人类标签的数量均匀分布。同时，奖励模型也定期重新训练。在线数据收集对摘要任务很重要，但对文本延续任务则不重要。在他们的实验中，共同训练奖励模型和具有共享参数的策略并不奏效，可能会导致由于数据集大小之间的巨大不平衡而过拟合。

在以下工作中（Stiennon et al., 2020），人类标签收集进一步简化为在一对摘要中选择最佳选项$y_b \in\{y_0, y_1\}$。奖励模型损失被更新以优化所选摘要的对数几率：

\[ \mathcal{L}_\text{rm} = \mathbb{E}_{(x, y_0, y_1, b)\sim\mathcal{D}} [\log(\sigma(r_\theta(x, y_b) − r_\theta(x, y_{1−b})))] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/82881508eb3d02b15f32bf8e8a833dd3.png) 图 19。从人类反馈中微调语言模型策略的概述，包括（1）人类反馈收集，（2）奖励模型训练和（3）策略训练。（图片来源：[Stiennon et al., 2020](https://arxiv.org/abs/2009.01325)） ## 带有可导层的引导微调而不是微调整个模型，只微调额外的一小组参数，而基本模型保持不变，这在计算上更便宜。在计算机视觉中，即插即用生成网络（PPGN；[Nguyen 等，2017](https://arxiv.org/abs/1612.00005)）通过将鉴别器$p(a \vert x)$插入基本生成模型$p(x)$来生成具有不同属性的图像。然后，可以从$p(x \vert a) \propto p(a \vert x)p(x)$中采样具有所需属性$a$的样本。受 PPGN 启发，**即插即用语言模型**（**PPLM**；[Dathathri 等，2019](https://arxiv.org/abs/1912.02164)）将一个或多个简单属性模型与预训练语言模型结合起来，用于可控文本生成。给定属性$a$和生成的样本$x$，让属性模型为$p(a\vert x)$。为了控制内容生成，当前时间$t$的潜在表示$H_t$（每层包含一组键-值对）可以通过$\Delta H_t$向两个梯度的和的方向移动： + 一种朝着使输出内容获得所需属性$a$在$p(a \vert x)$下更高对数似然的方向——以便输出内容获得所需属性。 + 另一种朝着使未修改的语言模型$p(x)$下更高对数似然的方向——以便生成的文本仍然是流畅和自然的语言。为了转移输出，在解码时，PPLM 运行一次前向传递→一次后向传递→一次前向传递，总共三次传递： 1. 首先执行前向传递以计算属性$a$的可能性$p(a\vert x)$； 1. 设$\Delta H_t$是隐藏状态$H_t$的逐步更新，使得$(H_t + \Delta H_t)$将生成文本的分布移向具有属性$a$。$\Delta H_t$初始化为零。然后，通过使用属性模型$\nabla_{\Delta H_t} \log p(a \vert H_t + \Delta H_t)$的归一化梯度来更新 LM 隐藏状态的后向传递如下 $$ \Delta H_t \leftarrow \Delta H_t + \alpha \frac{\nabla_{\Delta H_t} \log p(a|H_t + \Delta H_t)}{\| \nabla_{\Delta H_t} \log p(a|H_t + \Delta H_t) \|^\gamma} \]

其中$\gamma$是一个每层设置的归一化缩放系数。$\alpha$是步长。这个更新可以重复$m \in [3, 10]$次。最终的前向传递重新计算从更新的潜在$\tilde{H}_t = H_t + \Delta H_t$生成的词汇分布。下一个标记从更新的分布中采样。

图 20。PPLM 运行三次传递以更新模型输出，增加所需属性的可能性的概述。（图片来源：Dathathri 等，2019）

在生成过程中，可以混合匹配多个属性模型，并使用自定义权重，充当一组“控制旋钮”。PPLM 论文探讨了两种属性模型：

最简单的属性模型基于预定义的词袋（BoW），$\{w_1, \dots, w_k\}$，指定了感兴趣的主题。

\[\log p(a \vert x) = \log\big( \sum_{i=1}^k p_{t+1} [w_i] \big) \]

为了鼓励模型至少在某个步骤输出所需的单词，但不是每个步骤都输出，他们通过最大梯度范数对梯度进行归一化。

有趣的是，他们发现增加生成包中单词的概率也会增加生成关于同一主题的相关但不完全相同的单词的概率。2. 判别器属性模型基于学习的分类器，通过分布而不是硬样本定义偏好。

为了确保语言流畅性，PPLM 应用了两个额外的设计：

最小化修改和未修改 LM 之间的 KL 散度，这在其他 RL 微调方法中很常见（见上文）。
它执行后归一化融合以始终将生成的文本与无条件 LM $p(x)$ 相关联，$x_{t+1} \sim \frac{1}{\beta}(\tilde{p}_{t+1}^{\gamma_\text{gm}} p_{t+1}^{1-\gamma_\text{gm}})$，其中 $p_{t+1}$ 和 $\tilde{p}_{t+1}$ 分别是未修改和修改后的输出分布。$\beta$ 是一个归一化因子。$\gamma_\text{gm} \in [0.8, 0.95]$ 在前后模型的预测之间取得平衡。

图 21. PPLM 实现的可控文本生成示例。（图片来源：Dathathri 等人，2019）

有趣的是，他们发现在不同主题之间的可控性程度存在很大差异。一些主题（宗教、科学、政治）比其他主题（计算机、空间）更容易控制。

PPLM 的一个明显缺点是由于在每个解码步骤进行多次传递，测试时间计算变得更加昂贵。

与 PPLM 类似，DELOREAN（DEcoding for nonmonotonic LOgical REAsoNing；Qin 等人，2020）通过反向传播将未来上下文纳入考虑。给定输入文本 $\mathbf{x}$，DELOREAN 旨在生成满足由上下文 $z$ 定义的某些约束的续写完成 $\mathbf{y} = [y_1, \dots, y_N]$。为了保持生成的可微分性，跟踪 $y$ 的软表示，$\tilde{\mathbf{y}}=(\tilde{y}_1, \dots, \tilde{y}_N)$，其中 $\tilde{y}_i \in \mathbb{R}^V$ 是词汇表上的对数。$\tilde{\mathbf{y}}^{(t)}$ 是迭代 $t$ 时的软表示。

给定迭代 $t$ 时的表示 $\tilde{y}^{(t-1)}$，它执行以下过程：

反向：约束表示为损失函数 $\mathcal{L}(\mathbf{x}, \tilde{\mathbf{y}}^{(t-1)}, z))$。通过梯度下降更新对数：$\tilde{y}^{(t), b}_n = \tilde{y}_n^{(t-1)} - \lambda \nabla_{\tilde{y}_n} \mathcal{L}(\mathbf{x}, \tilde{\mathbf{y}}^{(t-1)}, z)$。
正向：运行正向传递以确保生成的文本流畅。$\tilde{y}^{(t),f}_n = \text{LM}(\mathbf{x}, \tilde{\mathbf{y}}^{(t)}_{1:n-1})$。
然后线性组合两个 logits 以创建一个新的表示$\tilde{y}^{(t)}_n = \gamma \tilde{y}^{(t), f}_n + (1-\gamma) \tilde{y}^{(t), b}_n$。注意，每个$\tilde{y}^{(t)}_n$都需要对下一个$\tilde{y}^{(t),f}_{n+1}$进行采样。

边缘调整（Zhang 等人，2019）训练一个轻量级的边缘网络，学习在不修改预训练模型权重的情况下在原始模型输出之上学习残差。与 PPLM 不同，隐藏状态上不应用梯度更新。这是一种简单而有效的增量学习方法。基础模型被视为黑盒模型，不一定是神经网络。边缘调整设置假设基础模型和边缘模型接收完全相同的输入，并且边缘模型是独立学习的。

图 22. 固定权重、微调和边缘调整的比较。（图片来源：Zhang 等人，2019）

该论文探讨了融合基础模型和边缘模型预测的不同策略：product是最差的，而sum（$\alpha$-混合）、MLP 和FiLM是可比的。当边缘调整使用中等数量的数据进行训练且基础网络较大时，能够实现更好的性能。

辅助调整（Zeldes 等人，2020）通过辅助模型补充原始预训练模型，根据目标任务调整输出分布。基础模型和辅助模型的输出在 logits 级别上合并。组合模型被训练以最大化目标输出的似然$p(x_t\vert x_{<t}, z)$。

$p(x_t\vert x_{<t}, z)$的条件概率可以分解为两部分：

$p(x_t\vert x_{<t})$为标记流畅序列分配高概率；
将$p(x_t\vert x_{<t})$的偏移转向$p(x_t\vert x_{<t}, z)$。

\[ p(x_t\vert x_{ 根据贝叶斯规则，我们有 $$ p(x_t\vert x_{ 因此，辅助模型$\text{logits}_\text{aux}(x_t \vert x_{<t}, z))$有效地应该学会预测$p(z \vert x_{\leq t})$。在[Zeldes 等人，2020](https://arxiv.org/abs/2006.16823)的实验中，辅助模型可以重复使用预训练语言模型的中间层进行特征提取。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/76737c8fbd909dc4e17af802735d5209.png) 图 23\. 辅助模型通过重用从基础模型的多个层中提取的特征进行训练。（图片来源：[Zeldes 等人，2020](https://arxiv.org/abs/2006.16823)） **GeDi**（[Kruse et al., 2020](https://arxiv.org/abs/2009.06367)）通过 *生成鉴别器*（Generative Discriminator）指导文本生成。该鉴别器被实现为一个类条件语言模型（CC-LM），$p_\theta(x_{1:t} \vert z)$。鉴别器通过贝叶斯规则计算所有可能的下一个标记的分类概率，通过对 *两个* 对比类条件分布进行归一化来指导每个解码步骤的生成： 1. 一个在所需属性的控制代码 $z$ 上进行条件的。 1. 另一个在反控制代码 $\bar{z}$ 上进行条件的，用于不需要的属性。 GeDi 依赖于 $p_\theta(x_{1:t} \vert z)$ 和 $p_\theta(x_{1:t} \vert \bar{z})$ 之间的对比来计算序列属于所需类别的概率。鉴别器损失是为了最大化所需属性 $z$ 的概率： $$ \begin{aligned} p_\theta(z \vert x_{1:t}) &= \frac{p(z) p_\theta(x_{1:\tau} \vert z)^{\alpha/\tau}}{\sum_{z' \in \{z, \bar{z}\}} p(z') p_\theta(x_{1:\tau} \vert z')^{\alpha/\tau} } \\ \mathcal{L}_\text{desc} &= -\frac{1}{N} \sum_{i=1}^N \log p_\theta(z^{(i)} \vert x^{(i)}_{1:\tau_i}) \\ &= -\frac{1}{N} \sum_{i=1}^N \log \frac{p(z) p_\theta(x^{(i)}_{1:\tau_i} \vert z^{(i)})^{\alpha/t_i}}{\sum_{z' \in \{z, \bar{z}\} } p(z')p_\theta(x^{(i)}_{1:\tau_i} \vert z')^{\alpha/\tau_i}} \end{aligned} \]

其中 $p(z) = \exp(b_z) / \sum_{z’} \exp(b_{z’})$，$b_z$ 是一个学习到的类先验。概率通过当前序列长度 $\tau$ 进行归一化，以增强可变长度生成序列的鲁棒性。$\tau_i$ 是数据集中第 $i$ 个输入 $x^{(i)}$ 的序列长度。

图 24. 通过贝叶斯规则展示 GeDi 的工作原理。（图片来源：Kruse et al., 2020）

他们对一个类似于 CTRL 训练的控制代码进行了微调的 GPT2-medium 模型，以形成一个使用鉴别损失和生成损失的线性组合的类条件语言模型（CC-LM）。然后将这个鉴别器模型用作 GiDe，通过类似于 GPT2-XL 这样的更大语言模型来指导生成。

从 GeDi 解码的一种方式是从加权后验中进行采样 $p^w(x_{t+1}\vert x_{1:t}, z) \propto p(z \vert x_{1:t+1})^w p(x_{t+1} \vert x_{1:t})$，其中 $w>1$ 对所需类别 $z$ 应用额外偏向。在采样过程中，只选择具有大于一定阈值的类别或下一个标记概率的标记。

他们在实验中展示的 GeDi 指导生成表现出很强的可控性，并且比 PPLM 快 30 倍。

分布式方法

分布式控制生成（GDC；Khalifa, et al. 2020）将受控文本生成框架化为带有约束的概率分布的优化。它包括两个主要步骤。

步骤 1：学习目标模型的 EBM

让我们将预训练的语言模型标记为$a$，将具有所需特征的目标语言模型标记为$p$。所需特征可以由一组预定义的实值特征函数$\phi_i(x), i=1,\dots,k$定义在$x \in X$上，表示为向量$\boldsymbol{\phi}$。当根据所需模型$p$对序列$x \in X$进行采样时，特征的期望$\mathbb{E}_{x\sim p}\boldsymbol{\phi}(x)$应该接近$\bar{\boldsymbol{\mu}}$，称为“矩约束”。特征函数$\phi_i$可以具有不同的值（例如，对于二元分类器的恒等函数）或连续概率。同时，微调模型$p$不应该与$a$相差太远，通过保持较小的 KL 散度度量。

总之，给定一个预训练模型$a$，我们希望找到一个目标模型$p$，使得：

\[\begin{aligned} \bar{\boldsymbol{\mu}} &= \mathbb{E}_{x\sim p}\boldsymbol{\phi}(x) \\ p &= \arg\min_{c \in \mathcal{C}} D_\text{KL}(c, a) \end{aligned} \]

其中$\mathcal{C}$是满足矩约束的所有分布集合。

根据信息几何学中的定理，$p$可以通过形式为指数函数的 EBM（基于能量的模型；未归一化的概率分布）$P$来近似，使得$p(x) \propto P(x)$和$p(x)=\frac{1}{Z}P(x)$，其中$Z=\sum_x P(x)$。EBM 可以通过以下方式近似：

\[P(x)=a(x)\exp\big(\sum_i \lambda_i \phi_i(x)\big)=a(x)\exp(\boldsymbol{\lambda}\cdot\boldsymbol{\phi}(x)) \]

让我们定义重要权重 $w(x, \boldsymbol{\lambda}) = \frac{P(x)}{a(x)} = \exp\langle\boldsymbol{\lambda}\cdot\boldsymbol{\phi}(x)\rangle$。给定从预训练模型中采样的大量序列$x_1, \dots, x_N \sim a(x)$，

\[\begin{aligned} \mu(\boldsymbol{\lambda}) &= \mathbb{E}_{x\sim p}\boldsymbol{\phi}(x) = \mathbb{E}_{x\sim a} \frac{p(x)}{a(x)}\boldsymbol{\phi}(x) = \frac{1}{Z}\mathbb{E}_{x\sim a} w(x, \boldsymbol{\lambda}) \boldsymbol{\phi}(x) \\ &= \frac{\mathbb{E}_{x\sim a} w(x, \boldsymbol{\lambda}) \boldsymbol{\phi}(x)}{\sum_{x\in X} P(x)} = \frac{\mathbb{E}_{x\sim a} w(x, \boldsymbol{\lambda}) \boldsymbol{\phi}(x)}{\sum_{x\in X} w(x, \boldsymbol{\lambda})a(x)} = \frac{\mathbb{E}_{x\sim a} w(x, \boldsymbol{\lambda}) \boldsymbol{\phi}(x)}{\mathbb{E}_{x\sim a} w(x, \boldsymbol{\lambda})} \\ &\simeq \frac{\sum_{i=1}^N w(x_i,\boldsymbol{\lambda}) \boldsymbol{\phi}(x_i)}{\sum_{i=1}^N w(x_i, \boldsymbol{\lambda})} = \frac{\sum_{i=1}^N \exp\langle\boldsymbol{\lambda}\cdot\boldsymbol{\phi}(x)\rangle \boldsymbol{\phi}(x_i)}{\sum_{i=1}^N \exp\langle\boldsymbol{\lambda}\cdot\boldsymbol{\phi}(x)\rangle} \end{aligned} \]

使用目标函数$|\boldsymbol{\mu}(\boldsymbol{\lambda}) - \bar{\boldsymbol{\mu}}|²_2$上的 SGD，我们可以得到$\boldsymbol{\lambda}$的估计值和$P(x)=a(x)\exp\langle\boldsymbol{\lambda}\cdot\boldsymbol{\phi}(x)\rangle$的表示。$P(x)$是一个序列 EBM，因为$a$是一个自回归模型。

步骤 2：学习目标概率分布

EBM $P(x)$ 可以计算两个序列概率的比率，但不能在知道 $Z$ 的情况下从 $p(x)$ 中采样。为了从序列 EBM 中采样，论文提出使用分布策略梯度（DPG；但不是这个 DPG）来获得一个自回归策略 $\pi_\theta$，通过最小化交叉熵 $H(p, \pi_\theta)$ 来逼近目标分布 $p$。DPG 经过一系列迭代。在每次迭代中，提出的分布 $q$ 用于采样，我们也可以用重要性权重来校正交叉熵损失：

\[\begin{aligned} \nabla_\theta H(p, \pi_\theta) &= - \nabla_\theta \mathbb{E}_{x\sim p} \log \pi_\theta(x) = - \mathbb{E}_{x\sim p} \nabla_\theta \log \pi_\theta(x) \\ &= - \mathbb{E}_{x\sim q} \frac{p(x)}{q(x)} \nabla_\theta \log \pi_\theta(x) = - \frac{1}{Z}\mathbb{E}_{x\sim q} \frac{P(x)}{q(x)} \nabla_\theta \log \pi_\theta(x) \end{aligned} \]

为了学习这样一个 $\pi_\theta$，论文采用了 KL 自适应版本的 DPG：只有在估计的策略 $\pi_\theta$ 接近 $p$ 时才更新 $q$。这种自适应步骤对于快速收敛很重要。

图 25. 分布策略梯度算法，使得从 EBM $P(x)$ 中采样成为可能，其中 $q$ 初始化为 $a$。（图片来源：Khalifa, et al. 2020）

这种方法可以用于建模可控文本生成中的各种约束：

点对点约束：$\phi_i$ 是一个二元特征；例如，约束单词的存在或缺失，或基于分类器的约束。
分布约束：$\phi_i$ 表示一个概率分布；例如，约束性别、主题等的概率。他们的实验显示，在训练于维基百科传记语料库的 GPT-2 模型中，去偏见取得了巨大进展。生成的女性传记的比例从 7.4% 增加到 35.6%。
混合约束：通过简单求和结合多个约束。

图 26. 使用各种约束进行去偏见实验的 GDC。（图片来源：Khalifa, et al. 2020）

与其他基线相比，使用点对点约束的 GDC 与基准模型 $a$ 的偏离较小，并产生更平滑的曲线。

图 27. 将点对点约束的 GDC 与几个基线进行比较。低 Self-BLEU-5 和高 Dist-1 表示高多样性。（图片来源：Khalifa, et al. 2020）

直接优化奖励 $\phi$（图 X 中的 $\text{REINFORCE}$）而没有约束的 REINFORCE 收敛速度快，但与原始模型的偏差较大。
优化$P(x)$（$\text{REINFORCE}_{P(x)}$在图 X 中）的 REINFORCE 具有较低的样本多样性。
与Ziegler 等人，2019 年相比，GDC 具有更平滑的学习曲线，并产生更丰富的词汇。

不可能性训练

在语言模型训练中，通过最大化对数似然损失的标准方法会导致不正确的标记分布，这不能仅通过智能解码方法来修复。这种模型往往会过于频繁地输出高频词汇，而很少输出低频词汇，特别是在使用确定性解码（例如贪婪、波束搜索）时。换句话说，它们对自己的预测过于自信。

不可能性训练（Welleck & Kulikov 等人，2019 年）试图解决这个问题，并将对不需要的内容的偏好直接纳入训练目标中。它结合了两种更新：

一种常规的最大似然更新，为真实标记分配高概率；
一种新型的不可能性更新，以避免高概率的不需要的标记。

给定一系列标记$(x_1, \dots, x_T)$和步骤$t$处的一组负候选标记$\mathcal{C}^t = \{c_1, \dots , c_m\}$，其中每个标记$x_i, c_j \in \mathcal{V}$，步骤$t$的组合损失定义如下：

\[ \mathcal{L}^t_\text{UL}(p_\theta (. \vert x_{ 构建$\mathcal{C}^t$的一种方法是从模型生成的序列中随机选择候选项。不可能性训练可以扩展到*序列*级别，其中负继续由每步负候选集合序列定义。它们应该被设计为惩罚我们不喜欢的属性。例如，我们可以如下惩罚重复的 n-gram： $$ \mathcal{C}^t_\text{repeat-n} = \{x_t\} \text{ if }(x_{t-i}, \dots, x_{t+j}) \in x_{ 他们的实验使用不可能性训练来避免语言模型输出中的重复，并确实显示出与标准 MLE 训练相比，重复较少且唯一标记更多的更好结果。 # 引用被引用为： > Weng，Lilian。（2021 年 1 月）。可控神经文本生成。Lil’Log。 https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/。或 ```py @article{weng2021conditional, title = "Controllable Neural Text Generation.", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2021", month = "Jan", url = "https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/" } ``` # 参考文献 [1] Patrick von Platen。[“如何生成文本：使用不同的解码方法进行变压器语言生成”](https://huggingface.co/blog/how-to-generate) Hugging face 博客，2020 年 3 月 18 日。 [2] Angela Fan 等人。[“分层神经故事生成”](https://arxiv.org/abs/1805.04833) arXiv 预印本 arXiv:1805.04833 (2018)。 [3] Ari Holtzman 等人。[“神经文本退化的好奇案例。”](https://arxiv.org/abs/1904.09751) ICLR 2020。 [4] Marjan Ghazvininejad 等人。[“Hafez：一个交互式诗歌生成系统。”](https://www.aclweb.org/anthology/P17-4008) ACL 2017。 [5] Ari Holtzman 等人。[“学习与合作鉴别器写作。”](https://arxiv.org/abs/1805.06087) ACL 2018。 [6] Ashutosh Baheti 等人 [“通过分布约束在神经对话模型中生成更有趣的回复。”](https://arxiv.org/abs/1809.01215) EMNLP 2018. [7] 顾家涛等人 [“神经机器翻译的可训练贪婪解码。”](https://arxiv.org/abs/1702.02429) EMNLP 2017. [8] Kyunghyun Cho. [“用于条件递归语言模型的嘈杂并行近似解码。”](https://arxiv.org/abs/1605.03835) arXiv 预印本 arXiv:1605.03835\. (2016). [9] Marco Tulio Ribeiro 等人 [“用于调试 NLP 模型的语义等效对抗规则。”](https://www.aclweb.org/anthology/P18-1079/) ACL 2018. [10] Eric Wallace 等人 [“用于攻击和分析 NLP 的通用对抗触发器。”](https://arxiv.org/abs/1908.07125) EMNLP 2019\. [[code](https://github.com/Eric-Wallace/universal-triggers)] [11] Taylor Shin 等人 [“AutoPrompt: 通过自动生成提示从语言模型中引出知识。”](https://arxiv.org/abs/2010.15980) EMNLP 2020\. [[code](http://ucinlp.github.io/autoprompt)] [12] 蒋正宝等人 [“我们如何知道语言模型知道什么？”](https://arxiv.org/abs/1911.12543) TACL 2020. [13] 彭南云等人 [“可控故事生成的探索。”](https://www.aclweb.org/anthology/W18-1505/) NAACL 2018. [14] Nitish Shirish Keskar 等人 [“CTRL：用于可控生成的条件变压器语言模型”](https://arxiv.org/abs/1909.05858) arXiv 预印本 arXiv:1909.05858 (2019).[[code](https://github.com/salesforce/ctrl)] [15] Marc’Aurelio Ranzato 等人 [“使用循环神经网络进行序列级训练。”](https://arxiv.org/abs/1511.06732) ICLR 2016. [16] Yonghui Wu 等人 [“谷歌的神经机器翻译系统：弥合人类和机器翻译之间的差距。”](https://arxiv.org/abs/1609.08144) CoRR 2016. [17] Romain Paulus 等人 [“用于抽象摘要的深度强化模型。”](https://arxiv.org/abs/1705.04304) ICLR 2018. [18] Paul Christiano 等人 [“从人类偏好中进行深度强化学习。”](https://arxiv.org/abs/1706.03741) NIPS 2017. [19] Sanghyun Yi 等人 [“利用自动对话评估器进行连贯而引人入胜的口语对话响应生成。”](https://arxiv.org/abs/1904.13015) INLG 2019. [20] Florian Böhm 等人 [“更好的奖励带来更好的摘要：学习在没有参考文献的情况下进行摘要。”](https://arxiv.org/abs/1909.01214) EMNLP 2019\. [[code](https://github.com/yg211/summary-reward-no-reference)] [21] Daniel M Ziegler 等人 [“从人类偏好中微调语言模型。”](https://arxiv.org/abs/1909.08593) arXiv 预印本 arXiv:1909.08593 (2019). [[code](https://github.com/openai/lm-human-preferences)] [22] Nisan Stiennon 等人 [“从人类反馈中学习总结。”](https://arxiv.org/abs/2009.01325) arXiv 预印本 arXiv:2009.01325 (2020). [23] Sumanth Dathathri 等人 [“即插即用语言模型：一种简单的受控文本生成方法。”](https://arxiv.org/abs/1912.02164) ICLR 2020\. [[code](https://github.com/uber-research/PPLM)] [24] Jeffrey O Zhang 等人 [“侧调整：通过附加侧网络进行网络适应”](https://arxiv.org/abs/1912.13503) ECCV 2020. [25] Ben Kruse 等人 [“GeDi：生成鉴别器引导的序列生成。”](https://arxiv.org/abs/2009.06367) arXiv 预印本 arXiv:2009.06367. [26] Yoel Zeldes 等人 [“技术报告：辅助调整及其在条件文本生成中的应用。”](https://arxiv.org/abs/2006.16823) arXiv 预印本 arXiv:2006.16823. [27] Thomas Scialom 等人 [“用于抽象摘要的判别式对抗搜索”](https://arxiv.org/abs/2002.10375) ICML 2020. [28] Clara Meister 等人 [“如果束搜索是答案，问题是什么？”](https://arxiv.org/abs/2010.02650) EMNLP 2020. [29] Xiang Lisa Li 和 Percy Liang. [“前缀调整：优化连续提示以进行生成。”](https://arxiv.org/abs/2101.00190) arXiv 预印本 arXiv:2101.00190 (2021). [30] Lianhui Qin 等人 [“回到未来：无监督反向传播解码用于反事实和推理常识推理。”](https://arxiv.org/abs/2010.05906) arXiv 预印本 arXiv:2010.05906 (2020). [31] Muhammad Khalifa 等人 [“一种分布式方法用于受控文本生成”](https://arxiv.org/abs/2012.11635) ICLR 2021 接受. [32] Aditya Grover 等人 [“使用无似然重要性加权对学习生成模型进行偏差校正。”](https://arxiv.org/abs/1906.09531) NeuriPS 2019. [33] Yuntian Deng 等人 [“基于残余能量的文本生成模型。”](https://arxiv.org/abs/2004.11714) ICLR 2020. [34] Brian Lester 等人 [“参数高效提示调整的规模优势。”](https://arxiv.org/abs/2104.08691) arXiv 预印本 arXiv:2104.08691 (2021). [35] Xiao Liu 等人 [“GPT 也能理解。”](https://arxiv.org/abs/2103.10385) arXiv 预印本 arXiv:2103.10385 (2021). [36] Welleck & Kulikov 等人 [“使用不可能性训练的神经文本生成”](https://arxiv.org/abs/1908.04319) arXiv:1908.04319 (2019). + [nlp](https://lilianweng.github.io/tags/nlp/) + [language-model](https://lilianweng.github.io/tags/language-model/) + [alignment](https://lilianweng.github.io/tags/alignment/) + [steerability](https://lilianweng.github.io/tags/steerability/) + [reinforcement-learning](https://lilianweng.github.io/tags/reinforcement-learning/) + [long-read](https://lilianweng.github.io/tags/long-read/) [« 减少语言模型中的毒性](https://lilianweng.github.io/posts/2021-03-21-lm-toxicity/) [» 如何构建一个开放领域问答系统？](https://lilianweng.github.io/posts/2020-10-29-odqa/)[](https://twitter.com/intent/tweet/?text=可控神经文本生成&url=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f&hashtags=nlp%2clanguage-model%2calignment%2csteerability%2creinforcement-learning%22%2clong-read)[](https://www.linkedin.com/shareArticle?mini=true&url=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f&title=可控神经文本生成&summary=可控神经文本生成&source=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f)[](https://reddit.com/submit?url=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f&title=可控神经文本生成)[](https://facebook.com/sharer/sharer.php?u=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f)[](https://api.whatsapp.com/send?text=可控神经文本生成%20-%20https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f)[](https://telegram.me/share/url?text=可控神经文本生成&url=https%3a%2f%2flilianweng.github.io%2fposts%2f2021-01-02-controllable-text-generation%2f)© 2024 [Lil'Log](https://lilianweng.github.io/) Powered by [Hugo](https://gohugo.io/) & [PaperMod](https://git.io/hugopapermod)[](#top "返回顶部 (Alt + G)") # 如何构建一个开放领域问答系统？ > 原文：[`lilianweng.github.io/posts/2020-10-29-odqa/`](https://lilianweng.github.io/posts/2020-10-29-odqa/) 2020-11-12 更新：添加[一个示例，展示使用 OpenAI API（beta）进行闭合书事实问答的示例。一个能够回答关于事实知识的任何问题的模型可以导致许多有用和实用的应用，例如作为聊天机器人或 AI 助手🤖。在本文中，我们将回顾构建这样一个开放领域问答系统的几种常见方法。鉴于野外有如此多的论文： + 假设我们可以访问一个强大的预训练[语言模型](https://lilianweng.github.io/posts/2019-01-31-lm/)。 + 我们不在这里讨论如何使用结构化知识库（例如 Freebase，WikiData）。 + 我们只关注单轮问答，而不是多轮对话式问答。 + 我们主要关注包含神经网络的问答模型，特别是基于 Transformer 的语言模型。 + 我承认我错过了很多在 2017-2019 年间专门设计用于问答任务的架构的论文😔 # 什么是开放领域问答？ **开放领域问答（ODQA）**是一种语言任务类型，要求模型以自然语言产生对事实性问题的答案。真实答案是客观的，因此评估模型性能很简单。例如， ```py Question: What did Albert Einstein win the Nobel Prize for? Answer: The law of the photoelectric effect. ``` “开放领域”部分指的是对于任意提出的事实性问题缺乏相关背景信息。在上述情况下，模型只接受问题作为输入，但没有提供关于“为什么爱因斯坦因相对论未获诺贝尔奖”的文章，其中可能提到“光电效应定律”的术语。当提供问题和上下文时，任务被称为**阅读理解（RC）**。一个 ODQA 模型可以使用或不使用*外部知识源*（例如维基百科），这两种条件分别称为*开放书*或*闭合书*问答。在考虑不同类型的开放领域问题时，我喜欢按照[Lewis 等人，2020](https://arxiv.org/abs/2008.02637)的分类，按照难度递增的顺序： 1. 一个模型能够正确地记忆并回答在训练时见过的问题的答案。 1. 一个模型能够在测试时回答新颖的问题，并从训练时见过的答案集中选择一个答案。 1. 一个模型能够回答训练数据集中没有包含答案的新颖问题。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/ef5af34b63b5c143825c6fbb409dea14.png) 图 1。本文讨论的三种框架概述。 ## 符号给定一个问题$x$和一个地面真实答案跨度$y$，包含真实答案的上下文段落被标记为$z \in \mathcal{Z}$，其中$\mathcal{Z}$是一个外部知识语料库。维基百科是这样一个外部知识来源的常见选择。 ## QA 数据微调的问题在我们深入讨论下面许多模型的细节之前，我想指出一个关于使用常见 QA 数据集对模型进行微调的问题，这在几个 ODQA 模型中作为一个微调步骤出现。这可能令人担忧，因为在几个公共 QA 数据集中，训练集和测试集中的问题存在显著重叠。 [Lewis 等人（2020）](https://arxiv.org/abs/2008.02637)（[代码](https://github.com/facebookresearch/QA-Overlap)）发现 58-71%的测试时间答案也出现在某处的训练集中，28-34%的测试集问题在其对应的训练集中有近似重复的释义。在他们的实验中，当从训练集中删除重复或释义问题时，几个模型的表现明显较差。 # 开放式问答：检索器-阅读器给定一个事实性问题，如果语言模型没有上下文或不足够大以记住训练数据集中存在的上下文，那么猜测正确答案的可能性很小。在开卷考试中，学生可以在回答测试问题时参考外部资源，如笔记和书籍。类似地，ODQA 系统可以与丰富的知识库配对，以识别相关文档作为答案的证据。我们可以将回答给定问题的过程分解为两个阶段， 1. 在外部知识库中找到相关内容； 1. 处理检索到的内容以*提取*答案。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/31e9dac723bf29e2d59178871b39a297.png) 图 2. 检索器-阅读器问答框架将信息检索与机器阅读理解结合起来。这样的检索器+阅读器框架最初是由**DrQA**（由[Chen 等人，2017](https://arxiv.org/abs/1704.00051)提出；[代码](https://github.com/facebookresearch/DrQA)）提出的。检索器和阅读器组件可以独立设置和训练，或者进行联合训练端到端。 ## 检索器模型实现检索器的两种流行方法是使用依赖于（1）经典非学习型[TF-IDF](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)特征的信息检索（“经典 IR”）或（2）由神经网络生成的文本的密集嵌入向量的密集嵌入向量（“神经 IR”）。 ### 经典 IR **DrQA**（[Chen 等人，2017](https://arxiv.org/abs/1704.00051)）采用了基于[向量空间模型](https://en.wikipedia.org/wiki/Vector_space_model)的高效非学习型搜索引擎。每个查询和文档都被建模为词袋向量，其中每个术语都由 TF-IDF（词频$\times$逆文档频率）加权。 $$ \begin{aligned} \text{tf-idf}(t, d, \mathcal{D}) &= \text{tf}(t, d) \times \text{idf}(t, \mathcal{D}) \\ \text{tf}(t, d) &= \log(1 + \text{freq}(t, d)) \\ \text{idf}(t, \mathcal{D}) &= \log \Big( \frac{\vert\mathcal{D}\vert}{\vert d\in\mathcal{D}: t\in d\vert} \Big) \end{aligned} \]

其中$t$是来自文档$d$的单个词或双词术语，来自文档集合$\mathcal{D}$。$\text{freq}(t, d)$衡量术语$t$在$d$中出现的次数。请注意，这里的词频也包括双词计数，这是非常有帮助的，因为通过双词考虑了局部词序。作为实现的一部分，DrQA 使用无符号 murmur3 哈希将$2^{24}$个 bin 的双词映射。

具体来说，DrQA 将维基百科作为其知识来源，这个选择自那时以来已成为许多 ODQA 研究的默认设置。非机器学习文档检索器在给定问题的情况下返回前$k=5$个最相关的维基百科文章。

BERTserini（Yang 等，2019）将开源Anserini信息检索工具包与经过微调的预训练 BERT 模型配对作为阅读器。通过post-v3.0分支的 Anserini 检索前$k$个文档（$k=10$），将查询视为词袋。检索到的文本段通过BM25进行排名，这是一种经典的基于 TF-IDF 的检索评分函数。在文本粒度对性能的影响方面，他们发现段落检索 > 句子检索 > 文章检索。

图 3. BERTserini 架构示意图。（图片来源：Yang 等，2019）

ElasticSearch + BM25被多段 BERT问答模型所使用（Wang 等，2019）。他们发现，通过滑动窗口将文章分割成长度为 100 个单词的段落可以带来 4%的改进，因为将文档分割成没有重叠的段落可能导致一些接近边界的证据失去有用的上下文。

神经信息检索

学习文本的低维表示已有很长的历史，比原始基于术语的向量更密集（Deerwester 等，1990; Yih 等，2011）。密集表示可以通过矩阵分解或一些神经网络架构（例如 MLP，LSTM，双向 LSTM 等）学习。当涉及神经网络时，这些方法被称为“神经信息检索”，神经信息检索是检索问题的新类别方法，但不一定比经典信息检索表现更好/更优越（Lim，2018）。

在许多大规模通用语言模型取得成功之后，许多问答模型采用以下方法：

\[h_x = E_x(x)\quad h_z = E_z(z)\quad \text{score}(x, z) = h_x^\top h_z \]

通过将问题$x$和上下文段落$z$的密集表示馈送到语言模型中来提取；
使用这两个表示的点积作为检索分数来排名和选择最相关的段落。

ORQA、REALM 和 DPR 都使用这样一个用于上下文检索的评分函数，将在后续部分中详细描述端到端 QA 模型。

一种极端的方法，由DenSPI（“Dense-Sparse Phrase Index”; Seo et al., 2019）调查，是在知识语料库中以短语级别编码所有文本，然后仅依赖检索器识别最相关的短语作为预测答案。这样，检索器+阅读器流水线仅减少到检索器。当然，索引会更大，检索问题更具挑战性。

DenSPI 引入了一个文档短语的查询无关可索引表示。准确地说，它在维基百科离线中编码文本跨度的查询无关表示，并在推理时通过执行最近邻搜索来查找答案。这可以极大地加快推理时间，因为不需要为每个新查询重新编码文档，这通常是读者模型所要求的。

给定一个问题 $x$ 和一组固定的（维基百科）文档，$z_1, \dots, z_K$，每个文档 $z_k$ 包含 $N_k$ 个词，$z_k = \langle z_k^{(1)}, \dots, z_k^{(N_k)}\rangle$。一个 ODQA 模型是一个为每个候选短语跨度 $z_k^{(i:j)}, 1 \leq i \leq j \leq N_k$ 计算得分的函数 $F$，使得真实答案是得分最高的短语：$y = {\arg\max}_{k,i,j} F(x, z_k^{(i:j)})$。

短语表示 $z_k^{(i:j)}$ 结合了密集向量和稀疏向量，$z_k^{(i:j)} = [d_k^{(i:j)}, s_k^{(i:j)}] \in \mathbb{R}^{d^d + d^s}$（注意 $d^d \ll d^s$）：

密集向量 $d_k^{(i:j)}$ 有效地编码了本地句法和语义线索，就像预训练语言模型所学到的那样。
稀疏向量 $s_k^{(i:j)}$ 在编码精确的词汇信息方面表现优异。这个稀疏向量是基于词频的编码。DenSPI 使用与 DrQA 相同的 2-gram 词频，导致高度稀疏的表示（$d^s \approx 16$M）。

密集向量 $d^{(i:j)}$ 进一步分解为三部分，$d^{(i:j)} = [a_i, b_j, c_{ij}] \in \mathbb{R}^{2d^b + 1}$，其中 $2d^b + 1 = d^d$。所有三个组件都是基于微调后的 BERT 表示学习的。

向量 $a_i$ 编码文档中第 $i$ 个词的起始位置；
向量 $b_j$ 编码文档中第 $j$ 个词的结束位置；
标量 $c_{ij}$ 衡量了起始向量和结束向量之间的连贯性，有助于在推理过程中避免非成分短语。

对于所有可能的 $(i,j,k)$ 元组，其中 $j-i < J$，文本跨度嵌入被预先计算并存储为短语索引。最大跨度长度 $J$ 是一个预定义的标量常数。

图 4. Dense-Sparse Phrase Index（DenSPI）架构示意图。 (图片来源: Seo et al., 2019)

推理时，问题被映射到相同的向量空间 $x=[d’, s’] \in \mathbb{R}^{d^d + d^s}$，其中密集向量 $d’$ 是从特殊的 [CLS] 符号的 BERT 嵌入中提取的。相同的 BERT 模型用于编码问题和短语。最终答案由 $k^*, i^*, j^* = \arg\max x^\top z_k^{(i:j)}$ 预测。

读者模型

读者模型学习解决阅读理解任务 — 从给定上下文文档中提取问题的答案。这里我们只讨论使用神经网络进行机器理解的方法。

双向 LSTM

DrQA的答案检测读者模型（Chen et al., 2017）是一个具有隐藏大小为 128 的 3 层双向 LSTM。检索到的维基百科文章的每个相关段落都被编码为特征向量序列，$\{\tilde{\mathbf{z}}_1, \dots, \tilde{\mathbf{z}}_m \}$。每个特征向量 $\hat{\mathbf{z}}_i \in \mathbb{R}^{d_z}$ 预计能够捕获围绕一个标记 $z_i$ 的有用上下文信息。该特征包括几类特征：

词嵌入：从 800B Web 爬取数据训练的 300d Glove词嵌入，$f_\text{embed} = E_g(z_i)$。
精确匹配：一个词 $z_i$ 是否出现在问题 $x$ 中，$f_\text{match} = \mathbb{I}(z_i \in x)$。
标记特征：包括 POS（词性标注）、NER（命名实体识别）和 TF（词频），$f_\text{token}(z_i) = (\text{POS}(z_i), \text{NER}(z_i), \text{TF}(z_i))$。
对齐的问题嵌入：注意力分数 $y_{ij}$ 设计用于捕获句子间匹配和段落标记 $z_i$ 与问题词 $x_j$ 之间的相似性。该特征增加了类似但非相同单词之间的软对齐。

\[\begin{aligned} f_\text{align}(z_i) &= \sum_j y_{i,j} E_g(x_j) \\ y_{i,j} &= \frac{\exp(\alpha(E_g(z_i))^\top \alpha(E_g(x_j)) )}{\sum_{j'} \exp(\alpha(E_g(z_i))^\top \alpha(E_g(x_{j'})) ) } \end{aligned} \]

其中 $\alpha$ 是一个具有 ReLU 的单个密集层，$E_g(.)$ 是 glove 词嵌入。

一个包含$m$个标记的段落的特征向量被馈送到 LSTM 中以获得最终段落向量：

\[\begin{aligned} \mathbf{z} = \{\mathbf{z}_1, \dots, \mathbf{z}_m\} &= \text{LSTM}(\{\tilde{\mathbf{z}}_1, \dots, \tilde{\mathbf{z}}_m\}) \\ \text{where } \tilde{\mathbf{z}}_i &= \{f_\text{embed}, f_\text{match}, f_\text{token}, f_\text{align}\} \end{aligned} \]

问题被编码为问题中每个单词的嵌入的加权和：

\[\mathbf{x} = \sum_j b_j E(x_j) \quad b_j = \text{softmax}(\mathbf{w}^\top E(x_j)) \]

其中 $\mathbf{w}$ 是一个学习的权重向量。

一旦为问题和所有相关段落构建了特征向量，阅读器需要预测段落中每个位置成为答案范围起始和结束的概率，分别为 $p_\text{start}(i_s)$ 和 $p_\text{end}(i_s)$。在所有段落中，以最大的 $p_\text{start}(i_s) \times p_\text{end}(i_e) $ 返回最佳范围作为最终答案。

\[\begin{aligned} p_\text{start}(i_s) \propto \exp(\mathbf{z}_{i_s} \mathbf{W}_s \mathbf{x}) \\ p_\text{end}(i_e) \propto \exp(\mathbf{z}_{i_e} \mathbf{W}_e \mathbf{x}) \\ \text{ s.t. } i_s \leq i_e \leq i_s + 15 \end{aligned} \]

其中 $\mathbf{W}_s$ 和 $\mathbf{W}_e$ 是学习的参数。

BERT-universe

在BERT（Devlin et al., 2018）取得成功之后，许多问答模型基于 BERT 开发了机器理解组件。让我们将 BERT 模型定义为一个函数，可以接受一个或多个字符串（由 [SEP] 连接）作为输入，并输出特殊 [CLS] 标记和每个输入标记的一组 BERT 编码向量：

\[\text{BERT}(s_1, s_2, \dots) = [\mathbf{h}^\texttt{[CLS]}, \mathbf{h}^{(1)}, \mathbf{h}^{(2)}, \dots] \]

其中 $\mathbf{h}^\texttt{[CLS]}$ 是特殊 [CLS] 标记的嵌入向量，$\mathbf{h}^{(i)}$ 是第 $i$ 个标记的嵌入向量。

要使用 BERT 进行阅读理解，它学习两个额外的权重，$\mathbf{W}_s$ 和 $\mathbf{W}_e$，并且 $\text{softmax}(\mathbf{h}^{(i)}\mathbf{W}_s)$ 和 $\text{softmax}(\mathbf{h}^{(i)}\mathbf{W}_e)$ 定义了每个标记预测范围的起始和结束位置的两个概率分布。

BERTserini（Yang et al., 2019）利用预训练的 BERT 模型作为阅读器。他们的实验表明，用 SQuAD 对预训练的 BERT 进行微调就足以在识别答案范围方面取得高准确度。

图 5. BERT 如何用于解决问答任务。（图片来源：Devlin et al., 2018）

BERTserini 阅读器与原始 BERT 的关键区别在于：为了允许对不同段落的结果进行比较和聚合，移除了不同答案范围上的最终 softmax 层。预训练的 BERT 模型在 SQuAD 的训练集上进行微调，其中所有输入都被填充到 384 个标记，并且学习率为 3e-5。

在对所有提取的答案范围进行排名时，检索器分数（BM25）和阅读器分数（token 是起始位置的概率 $\times$ 相同 token 是结束位置的概率）通过线性插值进行组合。

原始的 BERT 独立地为每个段落的每个标记规范化起始和结束位置的概率分布。与之不同的是，多段 BERT（Wang 等，2019）在一个问题的所有检索到的段落中全局地规范化答案分数。准确地说，多段 BERT 去除了 BERT 中用于 QA 的每个段落的最终规范化层（与 BERTserini 中相同），然后在所有段落的所有单词位置上添加一个全局的softmax。全局规范化使阅读器模型在从大量段落中找到答案时更加稳定。

此外，多段 BERT 通过另一个 BERT 模型实现了独立的段落排名器模型，并且$(x, z)$的排名分数是通过对第一个[CLS]标记的表示向量进行softmax生成的。段落排名器带来额外的 2%改进。在Nogueira & Cho，2019中也讨论了使用 BERT 重新排列段落的类似想法。

有趣的是，Wang 等，2019发现，在使用 BERT 进行 RC 任务时，显式的句间匹配似乎并不是关键因素；请查看原始论文以了解实验是如何设计的。一个可能的原因是 BERT 中的多头自注意力层已经嵌入了句间匹配。

端到端联合训练

检索器和阅读器组件可以联合训练。本节涵盖了 R³、ORQA、REALM 和 DPR。有许多共同的设计，例如基于 BERT 的密集向量用于检索和最大化获得真实答案的边际似然的损失函数。

R³（“强化排名-阅读器”；Wang 等，2017）QA 系统中的检索器和阅读器模型通过强化学习联合训练。（请注意，在本节中保持术语一致，原始 R³ 论文中的“排名器”模型在这里被称为“检索器”模型。）这两个组件都是Match-LSTM的变体，依赖于注意机制来计算段落和问题序列之间的单词相似性。

Match-LSTM 模块是如何工作的？ 给定一个包含$d_x$个单词的问题$\mathbf{X}$和一个包含$d_z$个单词的段落$\mathbf{Z}$，两个表示都使用固定的Glove词嵌入，

\[\begin{aligned} \mathbf{H}^x &= \text{BiLSTM}(\mathbf{X}) \in \mathbb{R}^{l \times d_x} \\ \mathbf{H}^z &= \text{BiLSTM}(\mathbf{Z}) \in \mathbb{R}^{l \times d_z} \\ \mathbf{G} &= \text{softmax}((\mathbf{W}^g \mathbf{H}^x + \mathbf{b}^g \otimes \mathbf{e}_{d_x})^\top \mathbf{H}^z) \in \mathbb{R}^{d_x \times d_z} & \text{; 一个注意力矩阵}\\ \bar{\mathbf{H}}^x &= \mathbf{H}^x \mathbf{G} \in \mathbb{R}^{l \times d_z} \\ \mathbf{M} &= \text{ReLU} \Big( \mathbf{W}^m \begin{bmatrix} \mathbf{H}^z \\ \bar{\mathbf{H}}^x \\ \mathbf{H}^z \odot \bar{\mathbf{H}}^x \\ \mathbf{H}^z - \bar{\mathbf{H}}^x \end{bmatrix} \Big) \in \mathbb{R}^{2l \times d_z} \\ \mathbf{H}^m &= \text{BiLSTM}(M) \in \mathbb{R}^{l \times d_z} \end{aligned} \]

其中$l$是双向 LSTM 模块的隐藏维度。$\mathbf{W}^g \in \mathbb{R}^{l\times l}$，$\mathbf{b}^g \in \mathbb{R}^l$，$\mathbf{W}^m \in \mathbb{R}^{2l \times 4l}$是要学习的参数。运算符$\otimes \mathbf{e}_{d_x}$是外积，重复列向量$\mathbf{b}^g$ $d_x$次。

排序器和阅读器组件在最后一层中共享相同的 Match-LSTM 模块，导致$\mathbf{H}^\text{rank}$和$\mathbf{H}^\text{reader}$。

图 6。R³（强化排序器-阅读器）架构概述。两个组件共享相同的 Match-LSTM 模块。（图片来源：Wang, et al., 2017）

信息检索器对每个段落进行最大池化操作，然后聚合输出每个段落包含答案的概率。

\[\begin{aligned} \mathbf{u}_i &= \text{max-pooling}(\mathbf{H}^\text{rank}_i) \in \mathbb{R}^l \\ \mathbf{C} &= \text{tanh}(\mathbf{W}^c[\mathbf{u}_1;\dots;\mathbf{u}_N] + \mathbf{b}^c \otimes \mathbf{e}_N) \in \mathbb{R}^{l \times n} \\ \gamma &= \text{softmax}(\mathbf{w}^c \mathbf{C}) \in \mathbb{R}^n \end{aligned} \]

最后，信息检索器被视为一个策略，输出动作以根据预测的$\gamma$抽取段落，

\[\pi(z \vert x; \theta^\gamma) = \gamma_z \]

阅读器预测答案跨度的起始位置$\beta^s$和结束位置$\beta^e$。两个位置以相同方式计算，具有独立的学习参数。所有涉及的段落中共有$V$个单词。

\[\begin{aligned} \mathbf{H}^\text{read} &= [\mathbf{H}^\text{read}_\tau; \mathbf{H}^\text{read}_{\text{neg}_1}; \dots; \mathbf{H}^\text{read}_{\text{neg}_n}] \\ \mathbf{F}^s &= \text{tanh}(\mathbf{W}^s \mathbf{H}^\text{read} + \mathbf{b}^s \otimes \mathbf{e}_V) \quad \beta^s = \text{softmax}(\mathbf{w}^s \mathbf{F}^s) \in \mathbb{R}^V \\ \mathbf{F}^e &= \text{tanh}(\mathbf{W}^e \mathbf{H}^\text{read} + \mathbf{b}^e \otimes \mathbf{e}_V) \quad \beta^e = \text{softmax}(\mathbf{w}^e \mathbf{F}^e) \in \mathbb{R}^V \\ L(y \vert z, x) &= -\log(\beta^s_{y_z^s})-\log(\beta^e_{y_z^e}) \end{aligned} \]

其中$y$是地面真相答案，段落$z$由检索器采样。$\beta^s_{y_z^s}$和$\beta^s_{y_z^e}$表示$y$在段落$z$中起始和结束位置的概率。

端到端 R³ QA 系统的训练目标是最小化给定问题$x$的正确答案$y$的负对数似然，

\[\begin{aligned} \mathcal{J}(\theta) &= -\mathbb{E}_{z\sim\pi(.\vert x)} [L(y \vert z, x)] \\ \nabla \mathcal{J}(\theta) &= - \nabla_\theta \sum_z \pi(z \vert x) L(y \vert z, x) \\ &= - \sum_z \big( L(y \vert z, x) \nabla_\theta\pi(z \vert x) + \pi(z \vert x) \nabla_\theta L(y \vert z, x) \big) \\ &= - \mathbb{E}_{z\sim\pi(.\vert x)} \big( \color{red}{L(y \vert z, x)\nabla_\theta\log\pi(z \vert x)} + \nabla_\theta L(y \vert z, x) \big) \\ &\approx - \mathbb{E}_{z\sim\pi(.\vert x)} \big( \underbrace{\color{red}{R(y \vert z, x)\nabla_\theta\log\pi(z \vert x)}}_\text{REINFORCE} + \nabla_\theta L(y \vert z, x) \big) \end{aligned} \]

训练过程中，给定由检索器采样的段落$z$，阅读器通过梯度下降进行训练，而检索器则通过REINFORCE进行训练，使用$L(y \vert z, x)$作为奖励函数。然而，$L(y \vert z, x)$并非有界，可能引入很多方差。该论文通过比较地面真相$y$和阅读器提取的答案$\hat{y}$，用自定义评分函数替换奖励：

\[ R(y, \hat{y} \vert z) = \begin{cases} 2 & \text{if } y = \hat{y}\\ f1(y, \hat{y}) & \text{if } y \cap \hat{y} = \varnothing \\ -1 & \text{otherwise} \end{cases} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/8266be557a80072acd8a9ba12c582d15.png) 图 7\. R³ 训练过程的工作流程。（图片来源：[acl2020-openqa-tutorial/slides/part4](https://github.com/danqi/acl2020-openqa-tutorial/blob/master/slides/part4-retriever-reader.pdf)） **ORQA**（“开放式检索问答”；[Lee 等，2019](https://arxiv.org/abs/1906.00300)）共同学习检索器+阅读器 QA 模型，以监督方式优化获得正确答案的边际对数似然。没有明确的“黑盒”IR 系统参与。相反，它能够检索开放语料库中的任何文本。在训练过程中，ORQA 不需要地面真相上下文段落（即阅读理解数据集），而只需要（问题，答案）字符串对。检索器和阅读器组件都基于 BERT，但不共享。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d1d494451a1b61d82bbbf05f30b1b6ff.png) 图 8\. ORQA 中检索器组件的示意图。（图片来源：重新绘制，基于[acl2020-openqa-tutorial/slides/part5](https://github.com/danqi/acl2020-openqa-tutorial/blob/master/slides/part5-dense-retriever-e2e-training.pdf)中的一张幻灯片）所有证据块都按检索分数排名，定义为问题$x$的`[CLS]`标记和证据块$z$的 BERT 嵌入向量的内积。请注意，问题和上下文的编码器是独立的。 $$ \begin{aligned} h_x &= \mathbf{W}_x \text{BERT}_x(x)^{\mathtt{[CLS]}} \\ h_z &= \mathbf{W}_z \text{BERT}_z(z)^{\mathtt{[CLS]}} \\ S_\text{retr}(z, x) &= h_x^\top h_z \end{aligned} \]

检索器模块使用Inverse Cloze Task (ICT)进行预训练，即给定一个句子预测上下文，与标准的Cloze Task相反。ICT 目标是最大化给定随机句子$x$的正确上下文$z$的检索分数：

\[L_\text{ICT} = p_\text{early}(z \vert x) = \frac{\exp(S_\text{retr}(z, x))}{\sum_{z'\in\text{BATCH}(\mathcal{Z})} \exp(S_\text{retr}(z', x))} \]

其中$\text{BATCH}(\mathcal{Z})$是同一批次中用作负样本的证据块集合。

经过这样的预训练，预期 BERT 检索器的表示足够好以进行证据检索。只需对问题编码器进行微调以进行答案提取。换句话说，证据块编码器（即$\mathbf{W}_z$和$\text{BERT}_z$）是固定的，因此所有证据块编码都可以预先计算，并支持快速最大内积搜索（MIPS）。

图 9. ORQA 中阅读器组件的示意图（图片来源：acl2020-openqa-tutorial/slides/part5）

阅读器遵循原始BERT RC实验中的相同设计。它以监督方式学习，而证据块编码器的参数是固定的，所有其他参数都进行微调。给定问题$x$和黄金答案字符串$y$，阅读器损失包含两部分：

\[\mathcal{L}(x, y) = \mathcal{L}_\text{early}(x, y) + \mathcal{L}_\text{full}(x, y) \]

(1) 在前$k$个证据块中找到所有正确的文本跨度，并优化匹配真实答案$y$的文本跨度$s$的边际似然：

\[\begin{aligned} h_s &= \text{BERT}_R(x, y)^{(\text{START}(s))} \\ h_e &= \text{BERT}_R(x, y)^{(\text{END}(s))} \\ S_\text{read}(z, s, x) &= \text{MLP}([h_s; h_e]) \\ p(z, s \vert x) &= \frac{\exp(S_\text{read}(z, s, x))}{\sum_{z'\in\text{TOP}(k)} \sum_{s'\in z'} \exp(S_\text{read}(z', s', x))} \\ L_\text{full}(x, y) &= - \log \sum_{\substack{z \in \text{TOP}(k)\\ s \in z}} \sum_{y=\text{TEXT}(s)} p(z, s \vert x) \end{aligned} \]

其中$y=\text{TEXT}(s)$表示答案$y$是否与文本跨度$s$匹配。$\text{TOP}(k)$是根据$S_\text{retr}(z, x)$检索到的前$k$个块。该论文设置$k=5$。

(2) 在学习的早期阶段，当检索器还不够强大时，可能没有一个顶部的$k$块包含答案。为了避免这种稀疏的学习信号，ORQA 考虑了更大的$c$证据块集合，以进行更积极的学习。论文中$c=5000$。

\[L_\text{early}(x, y) = -\log \sum_{\substack{z\in \text{TOP}(c)\\y\in\text{TEXT}(z)}} p_\text{early}(z\vert x) = -\log \sum_{\substack{z\in \text{TOP}(c)\\y\in\text{TEXT}(z)}} \frac{\exp(S_\text{retr}(z, x)}{\sum_{z'\in\text{TOP}(c)} \exp(S_\text{retr}(z', x)} \]

ORQA 论文中讨论了 SQuAD 数据集中的一些问题：

“SQuAD 的开发和测试准确率之间的显着下降反映了数据集中的一个问题——其 10 万个问题仅来自 536 个文档。因此，训练示例之间的好的检索目标高度相关，违反了 IID 假设，使其不适用于学习检索。出于这个原因，我们强烈建议那些对端到端开放域 QA 模型感兴趣的人不再使用 SQuAD 进行训练和评估。”

REALM（“检索增强语言模型预训练”；Guu 等人，2020 年）还通过优化获得真实答案的边际似然来联合训练检索器+读者：

\[ p(y \vert x) = \sum_{z \in \mathcal{Z}} \underbrace{p(y \vert x, z)}_\text{读者} \underbrace{p(z \vert x)}_\text{检索器} \approx \sum_{z \in \text{TOP}_k(\mathcal{Z})} p(y \vert x, z) p(z \vert x) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/09a2aca893d76d02388dc2e33a0aad7d.png) 图 10。REALM 首先使用显著跨度屏蔽进行无监督预训练，然后再用 QA 数据进行微调。（图片来源：[Guu 等人，2020 年](https://arxiv.org/abs/2002.08909)）。 REALM 计算两个概率，$p(z \vert x)$ 和 $p(y \vert x, z)$，与 ORQA 相同。然而，与 ORQA 中的 ICT 不同，REALM 通过几个新的设计决策升级了无监督预训练步骤，从而实现更好的检索。REALM 使用维基百科或 CC-News 语料库对模型进行预训练。 1. 使用*显著跨度屏蔽*。命名实体和日期被识别。然后选择并屏蔽其中一个“显著跨度”。显著跨度屏蔽是 MLM 的一个特例，对 QA 任务效果很好。 1. 添加一个*空的空文档*。因为并非每个问题都需要一个上下文文档。 1. 不要进行平凡的检索。上下文文档不应与选择的带有屏蔽跨度的句子相同。 1. 在训练的早期阶段，当检索质量仍然较差时，应用与 ORQA 中相同的 ICT 损失以鼓励学习。 > “在所有系统中，与 REALM 最直接的比较是 ORQA（Lee 等人，2019 年），其中微调设置、超参数和训练数据是相同的。REALM 相对于 ORQA 的改进纯粹是由于更好的预训练方法。” ——来自 REALM 论文。无监督预训练和监督微调都优化相同的对数似然$\log p(y \vert x)$。由于证据文档的检索器编码器的参数也在此过程中更新，MIPS 的索引正在变化。REALM 每隔几百个训练步骤异步使用更新的编码器参数刷新索引。 [Balachandran 等人（2021）](https://arxiv.org/abs/2104.08710)发现 REALM 明显训练不足，而 REALM++通过增加模型训练的批量大小和更多检索文档，使读者处理的 EM 准确性得到了很大的提高（3-5%）。 **DPR**（“密集段落检索器”；[Karpukhin 等人，2020](https://arxiv.org/abs/2004.04906)，[code](https://github.com/facebookresearch/DPR)）认为 ICT 预训练可能过于计算昂贵，而 ORQA 的上下文编码器可能不够优化，因为它没有与问题-答案对进行微调。DPR 旨在通过仅训练一个密集双编码器架构，仅从少量 Q/A 对中检索，而无需任何预训练来解决这两个问题。与先前的工作相同，DPR 使用 BERT 表示的点积（L2 距离或余弦相似度也适用）作为检索分数。用于训练双编码器的损失函数是正面段落的 NLL，其本质上与 ICT 损失的 ORQA 相同。请注意，它们都将同一批次中的其他段落视为负样本，称为*批内负采样*。主要区别在于 DPR 依赖于监督 QA 数据，而 ORQA 在无监督语料库上进行 ICT 训练。在推断时，DPR 使用[FAISS](https://github.com/facebookresearch/faiss)来快速运行 MIPS。 DPR 进行了一系列比较实验，涉及几种不同类型的负例： 1. 随机：来自语料库的任意随机段落； 1. BM25：由 BM25 返回的顶级段落，不包含答案但匹配大多数问题标记； 1. 批内负采样（“金标”）：与训练集中出现的其他问题配对的正面段落。 DPR 发现，使用来自同一小批次的金标段落和一个具有较高 BM25 分数的负面段落效果最好。为了进一步改善检索结果，DPR 还探索了一种设置，其中 BM25 分数和密集嵌入检索分数被线性组合以作为新的排名函数。 # 开放书问答：检索器-生成器与检索器-阅读器方法相比，检索器-生成器也有 2 个阶段，但第二阶段是直接生成自由文本来回答问题，而不是在检索到的段落中提取起始/结束位置。一些论文也将此称为*生成式问答*。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/b4b9253390c26d5cc09e1668d48bb9a8.png) 图 11. 检索器+生成器 QA 框架将文档检索系统与通用语言模型结合在一起。预训练的 LM 在其参数中具有记忆知识的巨大能力，如上所示。然而，它们不能轻松修改或扩展其记忆，不能直接提供对其预测的见解，并可能产生不存在的幻觉。 [Petroni 等人（2020）](https://arxiv.org/abs/2005.04611)研究了检索到的相关上下文如何帮助生成式语言模型产生更好的答案。他们发现： 1. 通过相关上下文增强查询，显著提高了预训练的 LM 在无监督机器阅读能力上的表现。 1. 一个现成的 IR 系统足以使 BERT 达到监督 ODQA 基线的性能； 1. BERT 的[NSP](https://lilianweng.github.io/posts/2019-01-31-lm/#pre-training-tasks)预训练策略是一种高效的无监督机制，用于处理嘈杂和无关的上下文。将 BERT 模型与不同类型的上下文配对，包括对抗性（无关上下文）、检索（通过 BM25 检索）和生成性（通过一个包含 1.4N 参数的自回归语言模型，在 CC-NEWS 上训练）。发现该模型对对抗性上下文具有鲁棒性，但仅当问题和上下文作为两个片段提供时（例如，由`[SEP]`分隔）。一个假设与 NSP 任务有关：“如果 NSP 得分低，BERT 可能会学习不跨片段进行掩码标记预测，从而隐式检测到无关和嘈杂的上下文。” **RAG**（“检索增强生成”；[Lewis 等人，2020](https://arxiv.org/abs/2005.11401)）将预训练的参数化（语言模型）和非参数化记忆（外部知识索引）结合在一起进行语言生成。RAG 可以在任何 seq2seq 任务上进行微调，从而同时学习检索器和序列生成器。他们发现，无约束的生成优于先前的抽取式方法。 RAG 由一个检索器模型$p_\eta(z \vert x)$和一个生成器模型$p_\theta(y_i \vert x, z, y_{1:i-1})$组成： + 检索器使用输入序列$x$检索文本段落$z$，实现为 DPR 检索器。$\log p_\eta(z \vert x) \propto E_z(z)^\top E_x(x)$。 + 生成器在生成目标序列$y$时使用$z$作为额外上下文，其中上下文和问题简单地连接在一起。根据每个标记生成时是否使用相同或不同的检索文档，RAG 有两个版本： $$ \begin{aligned} p_\text{RAG-seq}(y \vert x) &= \sum_{z \in \text{TOP}_k(p_\eta(.\vert x))} p_\eta(z \vert x) \prod_i^N p_\theta(y_i \vert x, z, y_{1:i-1}) \\ p_\text{RAG-token}(y \vert x) &= \prod_i^N \sum_{z \in \text{TOP}_k(p_\eta(.\vert x))} p_\eta(z_i\vert x) p_\theta(y_i \vert x, z_i, y_{1:i-1}) \end{aligned} \]

RAG 中的检索器+生成器是联合训练的，以最小化 NLL 损失，$\mathcal{L}_\text{RAG} = \sum_j -\log p(y_j \vert x_j)$。更新段落编码器$E_z(.)$是昂贵的，因为它要求模型重新索引文档以进行快速 MIPS。RAG 认为不需要对$E_z(.)$进行微调（就像在 ORQA 中一样），只更新查询编码器+生成器。

图 12。检索增强生成（RAG）架构的示意图。（图片来源：Lewis 等人，2020）

在解码/测试时，RAG-token 可以通过束搜索进行评估。RAG-seq 无法分解为一组每个标记的可能性，因此它为每个候选文档$z$运行束搜索，并选择具有最佳$p_\theta(y_i \vert x, z, y_{1:i-1})$的文档。

Fusion-in-Decoder 方法，由Izacard & Grave (2020)提出，也基于预训练的 T5。它的工作方式类似于 RAG，但在上下文如何整合到解码器中方面有所不同。

检索前$k$个相关段落，每个段落 100 个词，使用 BM25 或 DPR。
每个检索到的段落及其标题都使用特殊标记（如question:、title:和context:）与问题连接，以指示内容差异。
每个检索到的段落都会被独立处理，然后在解码器中合并。在编码器中独立处理段落允许我们并行计算。另一方面，在联合处理它们时鼓励更好地聚合多个证据片段。在抽取式方法中缺少聚合部分。

请注意，他们对预训练的语言模型独立进行了微调，针对每个数据集。

闭卷问答：生成式语言模型

大型语言模型已在大量无监督文本语料库上进行了预训练。在有足够参数的情况下，这些模型能够记忆一些事实知识在参数权重中。因此，我们可以使用这些模型进行无需明确上下文的问答，就像在闭卷考试中一样。预训练语言模型生成自由文本以回答问题，没有明确的阅读理解。

图 13。用于训练不同规模的大型语言模型所使用的计算量正在增加。（图片来源：Brown 等人，2020）。

Roberts 等人（2020）通过微调预训练模型来衡量语言模型的实用性，以回答问题而无需访问任何外部上下文或知识。他们将T5语言模型（与原始 Transformer 相同的架构）微调为回答问题，而无需输入任何额外信息或上下文。这种设置迫使语言模型根据在预训练期间内化的“知识”来回答问题。

图 14. T5 首先通过显著的遮蔽预训练，然后针对每个 QA 数据集进行微调，以生成自由文本中的答案。（图片来源：Roberts 等人，2020）

原始的 T5 模型在多任务混合上进行了预训练，包括在 C4（“巨大干净爬取语料库”）数据集上的无监督“遮蔽语言建模”（MLM）任务，以及与监督翻译、摘要、分类和阅读理解任务一起进行了微调。Roberts 等人（2020）采用了一个预训练的 T5 模型，并继续使用显著遮蔽在维基百科语料库上进行预训练，这已被发现可以大幅提升开放领域问答的性能。然后他们为每个 QA 数据集独立地微调模型。

使用预训练的 T5 语言模型+继续使用显著遮蔽进行预训练+针对每个 QA 数据集进行微调，

它可以在没有访问外部知识的情况下获得开放领域问答的竞争性结果。
更大的模型可以获得更好的性能。例如，具有 11B 参数的 T5 能够与 DPR 的 3 个 BERT-base 模型（每个模型有 330M 参数）的性能匹敌。

有趣的是，微调并非绝对必要。GPT3（Brown 等人，2020）在闭卷问答任务上进行了评估，没有进行任何梯度更新或微调。在评估过程中，这里的少次学习、一次学习和零次学习设置仅指提供了多少演示作为文本输入中的上下文：

“少次学习”：GPT3 可以获取尽可能多的演示，以适应模型的上下文窗口（通常为 10 到 100）。
“一次性学习”：只提供一次演示。
“零次学习”：不允许演示，只向模型提供自然语言的指令。

随着模型规模的增长，性能也在提升。在 TriviaQA 数据集上，GPT3 在演示的情况下可以达到或超过通过微调得到的 SOTA 基线的性能。

图 15. GPT3 在 TriviaQA 上的表现随着模型规模的增长而平稳增长。更多的演示会导致更好的表现。（图片来源：Brown 等人，2020）。

查看 OpenAI API 的这个酷例子playground viewer。该模型能够以简短回答形式回答事实性问题，并且在模型不知道答案时不会凭空捏造。我添加了最后两个问题，并要求模型以A:回答。该 API 仍处于测试版，因此您可能需要申请加入等待列表。

Q: Who is Batman?
A: Batman is a fictional comic book character.
##
Q: What is torsalplexity?
A: ?
##
Q: What is Devz9?
A: ?
##
Q: Who is George Lucas?
A: George Lucas is American film director and producer famous for creating Star Wars.
##
Q: What is the capital of California?
A: Sacramento.
##
Q: What orbits the Earth?
A: The Moon.
##
Q: Who is Fred Rickerson?
A: ?
##
Q: What is an atom?
A: An atom is a tiny particle that makes up everything.
##
Q: Who is Alvan Muntz?
A: ?
##
Q: What is Kozar-09?
A: ?
##
Q: How many moons does Mars have?
A: Two, Phobos and Deimos.
##
Q: What is COVID-19?
A: ?
##
Q: What is H1N1?
A: H1N1 is a strain of influenza.

摘要

模型	检索器	读者 / 生成器	预训练 / 微调	端到端
DrQA	TF-IDF	双向 LSTM	–	否
BERTserini	Aserini + BM25	没有 softmax 层的 BERT	与 SQuAD 微调	否
多段 BERT	ElasticSearch + BM25	多段 BERT + 段落排序器		否
R³	经典 IR + Match-LSTM	Match-LSTM		是
ORQA	BERT 嵌入的点积	BERT-RC	逆向填空任务	是
REALM	BERT 嵌入的点积	BERT-RC	显著跨度屏蔽	是
DPR	BERT 嵌入的点积	BERT-RC	通过 QA 对进行监督训练	是
DenSPI	经典 + 神经信息检索	–		是
T5 + SSM	–	T5	SSM 在CommonCrawl数据上 + 在 QA 数据上进行微调	是
GPT3	–	GPT3	NSP 在CommonCrawl数据上	是
RAG	DPR 检索器	BART		是
Fusion-in-Decoder	BM25 / DPR 检索器	Tranformer		否

图 16. 几个问答模型在常见问答数据集上的性能比较。在 TriviaQA 上，报告了两列结果，分别是开放领域测试集（左）和隐藏测试集（右）。 (图片来源：Izacard & Grave, 2020)。

引用

被引用为：

Weng, Lilian. (2020 年 10 月). 如何构建一个开放领域的问答系统？Lil’Log. https://lilianweng.github.io/posts/2020-10-29-odqa/.

或

@article{weng2020odqa,
  title   = "How to Build an Open-Domain Question Answering System?",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2020",
  month   = "Oct"
  url     = "https://lilianweng.github.io/posts/2020-10-29-odqa/"
}

附录：问答数据集

SQuAD 2.0：斯坦福问答数据集。
RACE：从为中学和高中学生创建的英语考试中收集的阅读理解数据集。
TREC 问答：TREC 问答集合。
MS MARCO：一个包含 10 万个真实必应问题和人工生成答案的问答数据集。
CuratedTREC：基于 TREC 问答任务的基准，由Baudis & Sedivy (2015)策划。
Google 自然问题：包含向 Google 搜索发出的真实用户问题，以及由注释者从维基百科找到的答案。
WebQuestions：设计用于基于知识库的问答，答案限制在 Freebase 实体上。
WikiQA：必应查询日志被用作问题的来源。然后将每个问题链接到潜在包含答案的维基百科页面。
WikiMovies：包含来自 OMDb 和 MovieLens 数据库的与电影相关的问题，这些问题可以使用维基百科页面回答。
WikiReading：通过阅读相应维基百科文章的文本来预测结构化知识库 Wikidata 中的文本值。
TriviaQA：一个包含 95K 问题-答案对的阅读理解数据集，由爱好者编写，并独立收集每个问题的多个证据文档。
Jeopardy! 问题：包含 200,000+ Jeopardy! 问题。
DeepMind Q&A 数据集：来自 CNN 和 Daily Mail 文章的问题/答案对。
bAbi：Facebook 用于文本理解的丰富数据集集合。
FEVER：用于事实提取和验证。
SearchQA：问题-答案对从 J! Archive 爬取，然后用 Google 的文本片段进行增强。
Quasar-T：从各种互联网来源获取的开放领域琐事问题及其答案的集合。
Quiz bowl：包含来自名为 quiz bowl 的琐事竞赛的数据。
AmbigNQ：从 NQ-OPEN 数据集中选出的模糊问题。
QA-Overlap：自然问题、TriviaQA 和 WebQuestions 训练集和测试集之间重叠答案/问题的集合。

参考文献

[1] 陈丹琦和斯科特·伊。“ACL2020 教程：开放领域问答” 2020 年 7 月。

[2] 陈丹琦等人。“阅读维基百科以回答开放领域问题” ACL 2017。| code

[3] 王硕航等人。“R³：强化排序-阅读器用于开放领域问答” AAAI 2018。

[4] 吉米·林。“神经炒作和与弱基线的比较。” ACM SIGIR 论坛。Vol. 52。No. 2。2019 年。

[5] 杨伟等人。“使用 BERTserini 进行端到端开放领域问答” NAACL 2019。

[6] 克里斯托弗·克拉克和马特·加德纳。“简单而有效的多段阅读理解。” arXiv:1710.10723 (2017)。

[7] Rodrigo Nogueira 和 Kyunghyun Cho。“使用 BERT 进行段落重新排序。” arXiv 预印本 arXiv:1901.04085 (2019)。| code

[8] 王志国等人。“多段 BERT：用于开放领域问答的全局归一化 BERT 模型。” EMNLP 2019。

[9] 徐敏俊等人。“具有稠密-稀疏短语索引的实时开放领域问答。” ACL 2019。

[10] Kenton Lee 等人。“弱监督开放领域问答的潜在检索” ACL 2019。

[11] Kelvin Guu 等人。“REALM：检索增强语言模型预训练” arXiv:2002.08909 (2020)。

[12] Vladimir Karpukhin 等人。“用于开放领域问答的密集段落检索。” EMNLP 2020。 | 代码

[13] Patrick Lewis 等人。“用于知识密集型自然语言处理任务的检索增强生成” arXiv:2005.11401 (2020)。

[14] Adam Roberts 等人。“语言模型参数中可以包含多少知识？” EMNLP 2020。

[15] Tom Brown 等人。“语言模型是少样本学习者。” arXiv:2005.14165 (2020)。

[16] Fabio Petroni 等人。“上下文如何影响语言模型的事实预测” AKBC 2020。

[17] Gautier Izacard 和 Edouard Grave。“利用生成模型的段落检索进行开放领域问答。” arXiv:2007.01282 (2020)。

[18] “深入深度学习：波束搜索”

[19] Patrick Lewis 等人。“开放领域问答数据集中的问题和答案测试训练重叠” arXiv:2008.02637 (2020)。 | 数据

[20] Hervé Jegou 等人。“Faiss：高效相似性搜索的库” 2017 年 3 月。

[21] Vidhisha Balachandran 等人。“改进 REALM 的简单有效方法。” arXiv:2104.08710 (2021)。

神经架构搜索

原文：lilianweng.github.io/posts/2020-08-06-nas/

尽管大多数流行和成功的模型架构是由人类专家设计的，但这并不意味着我们已经探索了整个网络架构空间并确定了最佳选项。如果我们采用系统化和自动化的方式学习高性能模型架构，我们将有更好的机会找到最佳解决方案。

自动学习和演化网络拓扑结构并不是一个新的想法（Stanley & Miikkulainen, 2002）。近年来，Zoph & Le 2017和Baker et al. 2017的开创性工作引起了许多人对神经架构搜索（NAS）领域的关注，提出了许多有趣的想法，以实现更好、更快和更具成本效益的 NAS 方法。

当我开始研究 NAS 时，我发现Elsken, et al 2019的这篇很好的调查对我很有帮助。他们将 NAS 描述为一个具有三个主要组成部分的系统，这在其他 NAS 论文中也是常见的。

搜索空间：NAS 搜索空间定义了一组操作（例如卷积、全连接、池化）以及如何连接这些操作以构建有效的网络架构。搜索空间的设计通常涉及人类专业知识，同时也不可避免地存在人类偏见。
搜索算法：NAS 搜索算法对网络架构候选人群进行采样。它接收子模型性能指标作为奖励（例如高准确性、低延迟），并优化以生成高性能的架构候选人。
评估策略：我们需要测量、估计或预测大量提出的子模型的性能，以便为搜索算法提供反馈以学习。候选模型评估的过程可能非常昂贵，因此提出了许多新方法来节省时间或计算资源。

图 1. 神经架构搜索（NAS）模型的三个主要组成部分。（图片来源：Elsken, et al. 2019，标注为红色）

搜索空间

NAS 搜索空间定义了一组基本网络操作以及如何连接这些操作以构建有效的网络架构。

顺序逐层操作

设计神经网络架构搜索空间最朴素的方法是用一系列顺序逐层操作来描述网络拓扑结构，无论是 CNN 还是 RNN，正如Zoph & Le 2017和Baker et al. 2017的早期工作所示。网络表示的序列化需要相当多的专业知识，因为每个操作都与不同的层特定参数相关联，这些关联需要硬编码。例如，在预测conv操作后，模型应输出内核大小、步幅大小等；或者在预测FC操作后，我们需要看到下一个预测的单元数。

图 2.（顶部）CNN 的顺序表示。（底部）递归单元树结构的顺序表示。（图片来源：Zoph & Le 2017）

为确保生成的架构有效，可能需要额外的规则（Zoph & Le 2017）：

如果一层没有连接到任何输入层，则将其用作输入层；
在最终层，取所有未连接的层输出并连接它们；
如果一层有多个输入层，则所有输入层在深度维度上连接；
如果要连接的输入层大小不同，我们用零填充小层，以使连接的层具有相同的大小。

跳跃连接也可以被预测，使用类似注意力的机制。在第$i$层，添加一个锚点和$i−1$个基于内容的 sigmoid，指示要连接的前几层。每个 sigmoid 以当前节点的隐藏状态$h_i$和$i-1$个先前节点$h_j, j=1, \dots, i-1$作为输入。

\[P(\text{第 j 层是第 i 层的输入}) = \text{sigmoid}(v^\top \tanh(\mathbf{W}_\text{prev} h_j + \mathbf{W}_\text{curr} h_i)) \]

顺序搜索空间具有很强的表示能力，但非常庞大，需要大量计算资源来穷尽搜索空间。在Zoph & Le 2017的实验中，他们并行运行了 800 个 GPU，持续 28 天，而Baker et al. 2017将搜索空间限制为最多包含 2 个FC层。

基于单元的表示方式

受到成功视觉模型架构中重复模块设计的启发（例如 Inception，ResNet），NASNet 搜索空间（Zoph 等人 2018）将卷积网络的架构定义为同一单元多次重复，并且每个单元包含由 NAS 算法预测的多个操作。设计良好的单元模块能够在数据集之间实现可转移性。通过调整单元重复次数，也可以轻松调整模型大小。

精确地说，NASNet 搜索空间学习网络构建的两种类型的单元：

普通单元：输入和输出特征图具有相同的维度。
减少单元：输出特征图的宽度和高度减半。

图 3. NASNet 搜索空间将架构约束为单元的重复堆叠。通过 NAS 算法优化单元架构。（图片来源：Zoph 等人 2018)

每个单元的预测被分组为$B$个块（在 NASNet 论文中$B=5$），每个块由 5 个预测步骤组成，由 5 个不同的 softmax 分类器进行预测，对应于块中元素的离散选择。请注意，NASNet 搜索空间中的单元之间没有残差连接，模型仅在块内自行学习跳过连接。

图 4. (a) 每个单元包含$B$个块，每个块由 5 个离散决策预测。 (b) 每个决策步骤中可以选择哪些操作的具体示例。

在实验中，他们发现DropPath的修改版本，称为ScheduledDropPath，显著提高了 NASNet 实验的最终性能。DropPath 随机丢弃路径（即 NASNet 中附有操作的边缘）的概率固定。ScheduledDropPath 是在训练期间路径丢弃概率线性增加的 DropPath。

Elsken 等人（2019）指出 NASNet 搜索空间的三个主要优势：

搜索空间大小大大减小；
基于motif的架构更容易转移到不同的数据集。
它展示了在架构工程中重复堆叠模块的有用设计模式的强有力证据。例如，我们可以通过在 CNN 中堆叠残差块或在 Transformer 中堆叠多头注意力块来构建强大的模型。

分层结构

为了利用已发现的良好设计的网络图案，NAS 搜索空间可以被限制为分层结构，就像Hierarchical NAS（HNAS; (Liu 等人 2017））。它从一小组原语开始，包括卷积操作、池化、恒等等单独的操作。然后，由原语操作组成的小子图（或“图案”）被递归地用于形成更高级别的计算图。

在第$\ell=1, \dots, L$级别上，计算图案可以由$(G^{(\ell)}, \mathcal{O}^{(\ell)})$表示，其中：

$\mathcal{O}^{(\ell)}$是一组操作，$\mathcal{O}^{(\ell)} = \{ o^{(\ell)}_1, o^{(\ell)}_2, \dots \}$
$G^{(\ell)}$是一个邻接矩阵，其中条目$G_{ij}=k$表示操作$o^{(\ell)}_k$放置在节点$i$和$j$之间。节点索引遵循 DAG 中的拓扑排序，其中索引$1$是源节点，最大索引是汇节点。

图 5.（顶部）三个一级原始操作组成一个二级图案。（底部）三个二级图案插入到基础网络结构中，并组装成一个三级图案。（图片来源：Liu 等人 2017）

根据分层结构构建网络，我们从最低级别$\ell=1$开始，递归地定义第$m$个图案操作在第$\ell$级别上为

\[o^{(\ell)}_m = \text{assemble}\Big( G_m^{(\ell)}, \mathcal{O}^{(\ell-1)} \Big) \]

分层表示变为$\Big( \big\{ \{ G_m^{(\ell)} \}_{m=1}^{M_\ell} \big\}_{\ell=2}^L, \mathcal{O}^{(1)} \Big), \forall \ell=2, \dots, L$，其中$\mathcal{O}^{(1)}$包含一组原始操作。

$\text{assemble}()$过程等同于按照拓扑排序顺序逐个计算节点$i$的特征图，通过聚合其前驱节点$j$的所有特征图：

\[x_i = \text{merge} \big[ \{ o^{(\ell)}_{G^{(\ell)}_{ij}}(x_j) \}_{j < i} \big], i = 2, \dots, \vert G^{(\ell)} \vert \]

其中$\text{merge}[]$在论文中实现为深度级联。

与 NASNet 相同，Liu 等人（2017）的实验侧重于在预定义的“宏”结构中发现良好的单元结构，其中包含重复模块。他们表明，简单搜索方法（例如随机搜索或进化算法）的效力可以通过精心设计的搜索空间得到显著增强。

Cai 等人（2018b）提出了使用路径级网络转换的树结构搜索空间。树结构中的每个节点定义了用于将输入拆分为子节点和用于合并来自子节点结果的分配方案和合并方案。路径级网络转换允许将单个层替换为多分支图案，如果其对应的合并方案是 add 或 concat。

图 6. 通过路径级转换操作将单个层转换为树状图案的示例。（图片来源：Cai 等人 2018b）

记忆库表示

Brock 等人（2017）提出了前馈网络的记忆库表示，在 SMASH 中。他们将神经网络视为具有多个可读写的内存块的系统，而不是操作图。每个层操作被设计为：（1）从一部分内存块中读取；（2）计算结果；最后（3）将结果写入另一部分内存块。例如，在顺序模型中，一个单独的内存块会被一直读取和覆写。

图 7. 几种流行网络架构块的记忆库表示。（图片来源：Brock 等人 2017）

搜索算法

NAS 搜索算法对子网络的种群进行采样。它接收子模型的性能指标作为奖励，并学习生成高性能架构候选。您可能与超参数搜索领域有很多共同之处。

随机搜索

随机搜索是最简单的基准线。它从搜索空间中随机采样一个有效的架构候选，不涉及任何学习模型。随机搜索已被证明在超参数搜索中非常有用（Bergstra＆Bengio 2012）。在设计良好的搜索空间的情况下，随机搜索可能是一个非常具有挑战性的基准线。

强化学习

NAS的初始设计（Zoph＆Le 2017）涉及一个基于 RL 的控制器，用于提出子模型架构以进行评估。控制器实现为一个 RNN，输出用于配置网络架构的可变长度序列的令牌。

图 8. NAS 的高级概述，包含一个 RNN 控制器和一个用于评估子模型的流水线。（图片来源：Zoph＆Le 2017）

控制器通过REINFORCE作为RL 任务进行训练。

动作空间：动作空间是控制器预测的子网络的标记列表（请参阅上述部分）。控制器输出动作，$a_{1:T}$，其中$T$是标记的总数。
奖励：在收敛时可以实现的子网络准确性是训练控制器的奖励，$R$。
损失：NAS 通过 REINFORCE 损失优化控制器参数$\theta$。我们希望最大化期望奖励（高准确性），梯度如下。这里策略梯度的好处是即使奖励是不可微的，它也能工作。

\[\nabla_{\theta} J(\theta) = \sum_{t=1}^T \mathbb{E}[\nabla_{\theta} \log P(a_t \vert a_{1:(t-1)}; \theta) R ] \]

MetaQNN（Baker 等人，2017）训练一个代理程序，使用Q 学习和一个$\epsilon$-贪心探索策略以及经验重放来顺序选择 CNN 层。奖励是验证准确性。

\[Q^{(t+1)}(s_t, a_t) = (1 - \alpha)Q^{(t)}(s_t, a_t) + \alpha (R_t + \gamma \max_{a \in \mathcal{A}} Q^{(t)}(s_{t+1}, a')) \]

其中状态$s_t$是层操作和相关参数的元组。一个动作$a$决定了操作之间的连接性。Q 值与我们对两个连接操作导致高准确性的信心成正比。

图 9. MetaQNN 概述 - 使用 Q 学习设计 CNN 模型。（图片来源：Baker 等人，2017）

进化算法

NEAT（NeuroEvolution of Augmenting Topologies的缩写）是一种使用遗传算法（GA）进化神经网络拓扑的方法，由Stanley & Miikkulainen于 2002 年提出。NEAT 同时进化连接权重和网络拓扑。每个基因编码了配置网络的完整信息，包括节点权重和边。通过对权重和连接的突变以及两个父基因之间的交叉来使种群增长。有关神经进化的更多信息，请参考 Stanley 等人（2019 年）撰写的深入调查报告。

图 10. NEAT 算法中的突变。（图片来源：Stanley & Miikkulainen, 2002中的图 3 和 4）

Real 等人（2018）采用进化算法（EA）作为搜索高性能网络架构的方法，命名为AmoebaNet。他们应用了锦标赛选择方法，每次迭代从一组随机样本中选择最佳候选，并将其变异后代放回种群。当锦标赛大小为$1$时，等效于随机选择。

AmoebaNet 修改了锦标赛选择以偏爱年轻的基因型，并始终在每个周期内丢弃最老的模型。这种方法，称为老化进化，使 AmoebaNet 能够覆盖和探索更多的搜索空间，而不是过早地缩小到性能良好的模型。

具体来说，在带有老化正则化的锦标赛选择的每个周期中（见图 11）：

从种群中抽取$S$个模型，选择准确率最高的一个作为父代。
通过变异父代产生一个子代模型。
然后对子模型进行训练、评估并将其重新加入种群。
最老的模型从种群中移除。

图 11。老化进化算法。（图片来源：Real 等人 2018）

应用两种类型的突变：

隐藏状态突变：随机选择一对组合，并重新连接一个随机端点，使图中没有循环。
操作突变：随机替换现有操作为随机操作。

图 12。AmoebaNet 中的两种突变类型。（图片来源：Real 等人 2018)

在他们的实验中，EA 和 RL 在最终验证准确性方面表现相同，但 EA 在任何时候的性能更好，并且能够找到更小的模型。在 NAS 中使用 EA 仍然在计算方面昂贵，因为每个实验需要 450 个 GPU 花费 7 天。

HNAS（刘等人 2017）也采用进化算法（原始锦标赛选择）作为他们的搜索策略。在分层结构搜索空间中，每条边都是一个操作。因此，在他们的实验中，基因型突变是通过用不同操作替换随机边来实现的。替换集包括一个none操作，因此可以改变、删除和添加边。初始基因型集是通过在“琐碎”模式（所有恒等映射）上应用大量随机突变来创建的。

渐进式决策过程

构建模型架构是一个顺序过程。每增加一个操作符或层都会带来额外的复杂性。如果我们引导搜索模型从简单模型开始调查，并逐渐演变为更复杂的架构，就像将“课程”引入搜索模型的学习过程中一样。

逐步 NAS（PNAS；Liu, et al 2018）将 NAS 的问题框定为一个逐步搜索逐渐增加复杂性模型的过程。PNAS 采用顺序基于模型的贝叶斯优化（SMBO）作为搜索策略，而不是 RL 或 EA。PNAS 类似于 A*搜索，它从简单到困难搜索模型，同时学习一个替代函数来指导搜索。

A*搜索算法（“最佳优先搜索”）是一种用于路径查找的流行算法。该问题被构建为在加权图中从特定起始节点到给定目标节点找到最小成本路径。在每次迭代中，A*通过最小化找到要扩展的路径：$f(n)=g(n)+h(n)$，其中$n$是下一个节点，$g(n)$是从起点到$n$的成本，$h(n)$是启发式函数，估计从节点$n$到目标的最小成本。

PNAS 使用 NASNet 搜索空间。每个块被指定为一个 5 元组，PNAS 只考虑逐元素加法作为第 5 步的组合运算符，不考虑连接。与将块数$B$设置为固定数不同，PNAS 从$B=1$开始，即一个单元格中只有一个块的模型，并逐渐增加$B$。

在验证集上的性能用作反馈来训练一个替代模型来预测新颖架构的性能。有了这个预测器，我们可以决定哪些模型应该优先评估。由于性能预测器应该能够处理各种大小的输入、准确性和样本效率，他们最终使用了一个 RNN 模型。

图 13. 逐步 NAS 算法。（图片来源：Liu, et al 2018）

梯度下降

使用梯度下降来更新架构搜索模型需要努力使选择离散操作的过程可微分。这些方法通常将架构参数和网络权重的学习结合到一个模型中。在“一次性”方法的部分中了解更多。

评估策略

我们需要测量、估计或预测每个子模型的性能，以获得优化搜索算法的反馈。候选评估的过程可能非常昂贵，许多新的评估方法已被提出以节省时间或计算资源。在评估子模型时，我们主要关心其在验证集上的准确性等性能。最近的工作开始研究模型的其他因素，如模型大小和延迟，因为某些设备可能对内存有限制或需要快速响应时间。

从头开始训练

最简单的方法是独立从头开始训练每个子网络直到收敛，然后在验证集上测量其准确性（Zoph & Le，2017）。它提供了可靠的性能数据，但一个完整的训练-收敛-评估循环只生成一个用于训练 RL 控制器的数据样本（更不用说 RL 通常在样本效率上是低效的）。因此，从计算消耗的角度来看，这是非常昂贵的。

代理任务性能

有几种方法可以使用代理任务性能作为子网络性能估计器，通常更便宜和更快速地计算：

在较小的数据集上训练。
减少训练周期。
在搜索阶段训练和评估一个缩小规模的模型。例如，一旦学习了一个细胞结构，我们可以尝试改变细胞重复的次数或增加滤波器的数量（Zoph 等人，2018）。
预测学习曲线。Baker 等人（2018）将验证准确性的预测建模为时间序列回归问题。回归模型的特征（$\nu$-支持向量机回归；$\nu$-SVR）包括每个时期的准确性的早期序列、架构参数和超参数。

参数共享

而不是独立从头开始训练每个子模型。你可能会问，好吧，如果我们制造它们之间的依赖性并找到一种重复使用权重的方法会怎样？一些研究人员成功地使这些方法奏效。

受Net2net转换的启发，Cai 等人（2017）提出了高效架构搜索（EAS）。EAS 建立了一个 RL 代理，称为元控制器，来预测保持功能的网络转换，以便增加网络深度或层宽。由于网络是逐步增长的，先前验证过的网络的权重可以被重复使用以进行进一步的探索。有了继承的权重，新构建的网络只需要进行一些轻量级的训练。

一个元控制器学习生成网络转换动作，给定当前网络架构，该架构由一个可变长度的字符串指定。为了处理可变长度的架构配置，元控制器被实现为一个双向递归网络。多个演员网络输出不同的转换决策：

Net2WiderNet操作允许用更宽的层替换一个层，意味着全连接层有更多单元，或者卷积层有更多滤波器，同时保持功能性。
Net2DeeperNet操作允许插入一个新层，该层被初始化为在两个层之间添加一个恒等映射，以保持功能性。

图 14. Efficient Architecture Search（NAS）中基于 RL 的元控制器概述。在编码架构配置后，通过两个独立的演员网络输出 net2net 转换动作。（图片来源：Cai et al 2017）

凭借类似的动机，Efficient NAS（ENAS；Pham et al. 2018）通过在子模型之间积极共享参数来加速 NAS（即减少 1000 倍）。ENAS 背后的核心动机是观察到所有采样的架构图都可以看作是更大超图的子图。所有子网络都共享这个超图的权重。

图 15.（左）图表示一个 4 节点循环单元的整个搜索空间，但只有红色连接是活跃的。（中）展示左侧活跃子图如何转换为子模型架构的示例。（右）由 RNN 控制器为中间架构产生的网络参数。（图片来源：Pham et al. 2018）

ENAS 在训练共享模型权重$\omega$和训练控制器$\theta$之间交替进行：

控制器 LSTM $\theta$的参数使用REINFORCE进行训练，其中奖励$R(\mathbf{m}, \omega)$在验证集上计算。
子模型的共享参数$\omega$通过标准监督学习损失进行训练。请注意，与超图中同一节点相关联的不同操作符将具有自己独特的参数。

基于预测

一个常规的子模型评估循环是通过标准梯度下降更新模型权重。SMASH（Brock et al. 2017）提出了一个不同且有趣的想法：我们能否直接基于网络架构参数预测模型权重？

他们使用HyperNet（Ha 等人 2016）直接生成模型的权重，条件是其架构配置的编码。然后，具有 HyperNet 生成的权重的模型直接进行验证。请注意，我们不需要为每个子模型额外训练，但我们确实需要训练 HyperNet。

图 16。SMASH 的算法。（图片来源：Brock 等人 2017）

模型性能与 SMASH 生成的权重和真实验证错误之间的相关性表明，预测的权重可以在一定程度上用于模型比较。我们确实需要足够大容量的 HyperNet，因为如果 HyperNet 模型与子模型大小相比太小，相关性将受损。

图 17。SMASH 的算法。（图片来源：Brock 等人 2017）

SMASH 可以被视为实现参数共享思想的另一种方式。正如Pham 等人（2018）指出的那样，SMASH 的一个问题是：HyperNet 的使用限制了 SMASH 子模型的权重到低秩空间，因为权重是通过张量积生成的。相比之下，ENAS 没有这样的限制。

一次性方法：搜索 + 评估

独立运行搜索和评估对大量子模型的群体是昂贵的。我们已经看到了一些有希望的方法，如Brock 等人（2017）或Pham 等人（2018），在这些方法中，训练一个单一模型就足以模拟搜索空间中的任何子模型。

一次性架构搜索扩展了权重共享的思想，并进一步将架构生成的学习与权重参数结合在一起。以下方法都将子架构视为超图中共享权重的常见边缘之间的不同子图。

Bender 等人（2018）构建了一个单一的大型超参数化网络，被称为一次性模型，其中包含搜索空间中的每种可能操作。通过定期 DropPath（辍学率随时间增加，在训练结束时为$r^{1/k}$，其中$0 < r < 1$是一个超参数，$k$是传入路径的数量）和一些精心设计的技巧（例如幽灵批量归一化，仅在活跃架构上进行 L2 正则化），这样一个巨大模型的训练可以足够稳定，并用于评估从超图中采样的任何子模型。

图 18. Bender 等人 2018中一次性模型的架构。每个细胞有$N$个选择块，每个选择块最多可以选择 2 个操作。实线用于每个架构，虚线是可选的。（图片来源：Bender 等人 2018）

训练一次性模型后，可以用于评估通过随机采样归零或删除一些操作而得到的许多不同架构的性能。这种采样过程可以被 RL 或进化所取代。

他们观察到，使用一次性模型测量的准确性与在进行微调后相同架构的准确性之间的差异可能非常大。他们的假设是，一次性模型会自动学习专注于网络中最有用的操作，并在这些操作可用时依赖这些操作。因此，归零有用操作会导致模型准确性大幅降低，而删除不太重要的组件只会造成小影响 — 因此，当使用一次性模型进行评估时，我们看到得分的差异较大。

图 19. 不同一次性模型准确性的分层模型样本与它们作为独立模型的真实验证准确性之间的对比。（图片来源：Bender 等人 2018）

显然设计这样一个搜索图并不是一项简单的任务，但它展示了一次性方法的强大潜力。它仅使用梯度下降，而不需要像 RL 或 EA 这样的额外算法。

一些人认为 NAS 效率低下的一个主要原因是将架构搜索视为黑盒优化，因此我们陷入 RL、进化、SMBO 等方法。如果我们转而依赖标准梯度下降，可能会使搜索过程更有效。因此，Liu 等人（2019）提出了可微架构搜索（DARTS）。DARTS 在搜索超图中的每条路径上引入了连续的松弛，使得可以通过梯度下降联合训练架构参数和权重。

让我们在这里使用有向无环图（DAG）表示。一个细胞是由拓扑排序的$N$个节点组成的 DAG。每个节点都有一个待学习的潜在表示$x_i$。每条边$(i, j)$都与一些操作$o^{(i,j)} \in \mathcal{O}$相关联，该操作将$x_j$转换为组成$x_i$：

\[x_i = \sum_{j < i} o^{(i,j)}(x_j) \]

为了使搜索空间连续，DARTS 将特定操作的分类选择松弛为对所有操作的 softmax，并且架构搜索的任务被简化为学习一组混合概率$\alpha = \{ \alpha^{(i,j)} \}$。

\[\bar{o}^{(i,j)}(x) = \sum_{o\in\mathcal{O}} \frac{\exp(\alpha_{ij}^o)}{\sum_{o'\in\mathcal{O}} \exp(\alpha^{o'}_{ij})} o(x) \]

其中$\alpha_{ij}$是一个维度为$\vert \mathcal{O} \vert$的向量，包含不同操作之间节点$i$和$j$之间的权重。

双层优化存在是因为我们希望优化网络权重$w$和架构表示$\alpha$：

\[\begin{aligned} \min_\alpha & \mathcal{L}_\text{validate} (w^*(\alpha), \alpha) \\ \text{s.t.} & w^*(\alpha) = \arg\min_w \mathcal{L}_\text{train} (w, \alpha) \end{aligned} \]

在第$k$步，给定当前架构参数$\alpha_{k−1}$，我们首先通过将$w_{k−1}$朝着最小化训练损失$\mathcal{L}_\text{train}(w_{k−1}, \alpha_{k−1})$的方向移动来优化权重$w_k$，学习率为$\xi$。接下来，在保持新更新的权重$w_k$不变的情况下，我们更新混合概率，以便最小化验证损失在权重的梯度下降的单步之后：

\[J_\alpha = \mathcal{L}_\text{val}(w_k - \xi \nabla_w \mathcal{L}_\text{train}(w_k, \alpha_{k-1}), \alpha_{k-1}) \]

这里的动机是，我们希望找到一种架构，当其权重通过梯度下降进行优化时，具有较低的验证损失，并且一步展开的权重作为$w^∗(\alpha)$的替代品。

旁注：之前我们在MAML中看到了类似的公式，其中任务损失和元学习器更新之间发生了两步优化，以及在Domain Randomization中将其构建为更好的在真实环境中进行迁移的双层优化。

图 20. DARTS 如何在 DAG 超图的边缘上应用连续松弛并识别最终模型的示意图。（图片来源：Liu et al 2019）

\[\begin{aligned} \text{设 }w'_k &= w_k - \xi \nabla_w \mathcal{L}_\text{train}(w_k, \alpha_{k-1}) & \\ J_\alpha &= \mathcal{L}_\text{val}(w_k - \xi \nabla_w \mathcal{L}_\text{train}(w_k, \alpha_{k-1}), \alpha_{k-1}) = \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) & \\ \nabla_\alpha J_\alpha &= \nabla_{\alpha_{k-1}} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) \nabla_\alpha \alpha_{k-1} + \nabla_{w'_k} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1})\nabla_\alpha w'_k & \\& \text{；多变量链式法则}\\ &= \nabla_{\alpha_{k-1}} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) + \nabla_{w'_k} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) \big( - \xi \color{red}{\nabla²_{\alpha, w} \mathcal{L}_\text{train}(w_k, \alpha_{k-1})} \big) & \\ &\approx \nabla_{\alpha_{k-1}} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) - \xi \nabla_{w'_k} \mathcal{L}_\text{val}(w'_k, \alpha_{k-1}) \color{red}{\frac{\nabla_\alpha \mathcal{L}_\text{train}(w_k^+, \alpha_{k-1}) - \nabla_\alpha \mathcal{L}_\text{train}(w_k^-, \alpha_{k-1}) }{2\epsilon}} & \\ & \text{；应用数值微分近似} \end{aligned} \]

红色部分使用数值微分近似，其中 $w_k^+ = w_k + \epsilon \nabla_{w’_k} \mathcal{L}_\text{val}(w’_k, \alpha_{k-1})$ 和 $w_k^- = w_k - \epsilon \nabla_{w’_k} \mathcal{L}_\text{val}(w’_k, \alpha_{k-1})$。

图 21. DARTS 的算法概述。（图片来源：Liu et al 2019）

作为与 DARTS 类似的另一个想法，随机 NAS（Xie et al., 2019）通过采用具体分布（CONCRETE = CONtinuous relaxations of disCRETE random variables；Maddison et al 2017）和重新参数化技巧进行连续放松。其目标与 DARTS 相同，即使离散分布可微分，从而通过梯度下降进行优化。

DARTS 能够大大降低 GPU 计算成本。他们用单个 GPU 进行搜索 CNN 单元的实验，$N=7$，只需 1.5 天。然而，由于其对网络架构的连续表示，它存在高 GPU 内存消耗的问题。为了将模型适应单个 GPU 的内存，他们选择了一个较小的 $N$。

为了限制 GPU 内存消耗，ProxylessNAS（Cai et al., 2019）将 NAS 视为 DAG 中的路径级修剪过程，并将架构参数二值化，以强制在两个节点之间一次只激活一条路径。然后通过对几个二值化架构进行采样并使用BinaryConnect（Courbariaux et al., 2015）来更新相应的概率，学习边缘被屏蔽或不被屏蔽的概率。ProxylessNAS 展示了 NAS 与模型压缩之间的强连接。通过使用路径级压缩，它能够将内存消耗节省一个数量级。

让我们继续讨论图表示。在 DAG 邻接矩阵$G$中，$G_{ij}$表示节点$i$和$j$之间的边，其值可以从候选原始操作集合$\vert \mathcal{O} \vert$中选择，$\mathcal{O} = \{ o_1, \dots \}$。One-Shot 模型、DARTS 和 ProxylessNAS 都将每条边视为操作混合体$m_\mathcal{O}$，但具有不同的调整。

在 One-Shot 中，$m_\mathcal{O}(x)$是所有操作的总和。在 DARTS 中，它是加权和，其中权重是长度为$\vert \mathcal{O} \vert$的实值架构权重向量$\alpha$上的 softmax。ProxylessNAS 将$\alpha$的 softmax 概率转换为二进制门，并使用二进制门一次只保留一个操作处于活动状态。

\[ \begin{aligned} m^\text{one-shot}_\mathcal{O}(x) &= \sum_{i=1}^{\vert \mathcal{O} \vert} o_i(x) \\ m^\text{DARTS}_\mathcal{O}(x) &= \sum_{i=1}^{\vert \mathcal{O} \vert} p_i o_i(x) = \sum_{i=1}^{\vert \mathcal{O} \vert} \frac{\exp(\alpha_i)}{\sum_j \exp(\alpha_j)} o_i(x) \\ m^\text{binary}_\mathcal{O}(x) &= \sum_{i=1}^{\vert \mathcal{O} \vert} g_i o_i(x) = \begin{cases} o_1(x) & \text{with probability }p_1, \\ \dots &\\ o_{\vert \mathcal{O} \vert}(x) & \text{with probability }p_{\vert \mathcal{O} \vert} \end{cases} \\ \text{ where } g &= \text{binarize}(p_1, \dots, p_N) = \begin{cases} [1, 0, \dots, 0] & \text{with probability }p_1, \\ \dots & \\ [0, 0, \dots, 1] & \text{with probability }p_N. \\ \end{cases} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/f7b2de1bd5c2b3fc14ab6dfd4e6515d0.png) 图 22。ProxylessNAS 有两个交替运行的训练步骤。（图片来源：[Cai et al., 2019](https://arxiv.org/abs/1812.00332)） ProxylessNAS 交替运行两个训练步骤： 1. 在训练权重参数$w$时，冻结架构参数$\alpha$并根据上述$m^\text{binary}_\mathcal{O}(x)$随机采样二进制门$g$。权重参数可以使用标准梯度下降进行更新。 1. 在训练架构参数$\alpha$时，冻结$w$，重置二进制门，然后在验证集上更新$\alpha$。遵循*BinaryConnect*的思想，可以使用$\partial \mathcal{L} / \partial g_i$来近似估计架构参数的梯度，替代$\partial \mathcal{L} / \partial p_i$： $$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial \alpha_i} &= \sum_{j=1}^{\vert \mathcal{O} \vert} \frac{\partial \mathcal{L}}{\partial p_j} \frac{\partial p_j}{\partial \alpha_i} \approx \sum_{j=1}^{\vert \mathcal{O} \vert} \frac{\partial \mathcal{L}}{\partial g_j} \frac{\partial p_j}{\partial \alpha_i} = \sum_{j=1}^{\vert \mathcal{O} \vert} \frac{\partial \mathcal{L}}{\partial g_j} \frac{\partial \frac{e^{\alpha_j}}{\sum_k e^{\alpha_k}}}{\partial \alpha_i} \\ &= \sum_{j=1}^{\vert \mathcal{O} \vert} \frac{\partial \mathcal{L}}{\partial g_j} \frac{\sum_k e^{\alpha_k} (\mathbf{1}_{i=j} e^{\alpha_j}) - e^{\alpha_j} e^{\alpha_i} }{(\sum_k e^{\alpha_k})²} = \sum_{j=1}^{\vert \mathcal{O} \vert} \frac{\partial \mathcal{L}}{\partial g_j} p_j (\mathbf{1}_{i=j} -p_i) \end{aligned} \]

除了 BinaryConnect，还可以使用 REINFORCE 来进行参数更新，目标是最大化奖励，而不涉及 RNN 元控制器。

计算$\partial \mathcal{L} / \partial g_i$需要计算并存储$o_i(x)$，这需要$\vert \mathcal{O} \vert$倍的 GPU 内存。为了解决这个问题，他们将从$N$个选择路径中选择一个路径的任务分解为多个二进制选择任务（直觉：“如果一条路径是最佳选择，那么它应该比任何其他路径更好”）。在每次更新步骤中，只有两条路径被采样，而其他路径被屏蔽。这两条选定的路径根据上述方程进行更新，然后适当缩放，以使其他路径权重保持不变。经过这个过程，被采样的路径中的一条被增强（路径权重增加），另一条被削弱（路径权重减少），而所有其他路径保持不变。

除了准确性，ProxylessNAS 还将延迟视为优化的重要指标，因为不同设备可能对推理时间延迟有非常不同的要求（例如 GPU、CPU、移动设备）。为了使延迟可微分，他们将延迟建模为网络维度的连续函数。混合操作的预期延迟可以写成$\mathbb{E}[\text{latency}] = \sum_j p_j F(o_j)$，其中$F(.)$是一个延迟预测模型：

图 23. 在 ProxylessNAS 的训练中添加一个可微分的延迟损失。（图片来源：Cai et al., 2019）

未来展望？

到目前为止，我们已经看到了许多有趣的新想法，通过神经架构搜索自动化网络架构工程，并且许多已经取得了非常令人印象深刻的性能。然而，很难推断为什么某些架构效果好，以及我们如何开发能够跨任务通用而不是非常特定于数据集的模块。

正如Elsken 等人（2019）中所指出的：

“……，到目前为止，它对为什么特定架构效果好提供了很少的见解，以及独立运行中导出的架构有多相似提供了很少的见解。识别共同的主题，理解为什么这些主题对高性能很重要，并研究这些主题是否能够在不同问题上泛化将是可取的。”

与此同时，纯粹专注于验证准确性的改进可能还不够（Cai 等人，2019）。像手机这样的设备通常具有有限的内存和计算能力。虽然 AI 应用正在影响我们的日常生活，但不可避免地会更特定于设备。

另一个有趣的调查是考虑无标签数据集和自监督学习用于 NAS。有标签数据集的大小总是有限的，很难判断这样的数据集是否存在偏见或与真实世界数据分布有很大偏差。

Liu 等人（2020）深入探讨了“我们是否可以在没有人工标注标签的情况下找到高质量的神经架构？”的问题，并提出了一种称为无监督神经架构搜索（UnNAS）的新设置。在搜索阶段需要以无监督的方式估计架构的质量。该论文对三个无监督的前提任务进行了实验：图像旋转预测、着色和解决拼图问题。

他们在一系列 UnNAS 实验中观察到：

在同一数据集上，监督准确性和前提准确性之间存在很高的等级相关性。通常，无论数据集、搜索空间和前提任务如何，等级相关性都高于 0.8。
在跨数据集上，监督准确性和前提准确性之间存在很高的等级相关性。
更好的前提准确性会转化为更好的监督准确性。
UnNAS 架构的性能与监督对应物相当，尽管还没有更好。

一个假设是架构质量与图像统计数据相关。因为 CIFAR-10 和 ImageNet 都是关于自然图像的，它们是可比较的，结果是可转移的。UnNAS 有可能在搜索阶段吸收更多未标记数据，从而更好地捕捉图像统计数据。

超参数搜索是机器学习社区中长期存在的话题。NAS 自动化了架构工程。我们逐渐尝试自动化机器学习中通常需要大量人力的过程。再进一步，是否可能自动发现机器学习算法？AutoML-Zero (Real 等人 2020) 探讨了这个想法。使用老化进化算法，AutoML-Zero 自动搜索整个机器学习算法，只使用简单的数学运算作为构建块，形式上几乎没有限制。

它学习三个组件函数。每个函数只采用非常基本的操作。

设置: 初始化内存变量（权重）。
学习: 修改内存变量
预测: 从输入 $x$ 进行预测。

图 24. 在一个任务上的算法评估 (图片来源: Real 等人 2020)

当变异父基因型时，考虑三种操作类型：

在一个组件函数中的随机位置插入一个随机指令或删除一个指令;
在一个组件函数中随机化所有指令;
通过用随机选择替换指令的一个参数来修改指令之一（例如“交换输出地址”或“更改常量的值”）

图 25. 在投影的二进制 CIFAR-10 上的进化进展的示例代码插图 (图片来源: Real 等人 2020)

附录: NAS 论文摘要

模型名称	搜索空间	搜索算法	子模型评估
NEAT (2002)	-	进化算法 (遗传算法)	-
NAS (2017)	顺序逐层操作	强化学习 (REINFORCE)	从头开始训练直到收敛
MetaQNN (2017)	顺序逐层操作	强化学习 (Q-learning with $\epsilon$-greedy)	训练 20 个时代
HNAS (2017)	分层结构	进化算法 (锦标赛选择)	训练固定次数的迭代
NASNet (2018)	基于单元的	强化学习 (PPO)	训练 20 个时代
AmoebaNet (2018)	NASNet 搜索空间	进化算法 (带有老化正则化的锦标赛选择)	训练 25 个时代
EAS (2018a)	网络转换	强化学习 (REINFORCE)	两阶段训练
PNAS (2018)	NASNet 搜索空间的简化版本	SMBO; 逐渐搜索增加复杂性的架构	训练 20 个时代
ENAS (2018)	顺序和基于单元的搜索空间	强化学习 (REINFORCE)	使用共享权重训练一个模型
SMASH (2017)	存储器库表示	随机搜索	HyperNet 预测评估架构的权重。
One-Shot (2018)	一个过度参数化的一次性模型	随机搜索（随机清除一些路径）	训练一次性模型
DARTS (2019)	NASNet 搜索空间	梯度下降（Softmax 权重覆盖操作）
ProxylessNAS (2019)	树状结构架构	梯度下降（BinaryConnect）或 REINFORCE
SNAS (2019)	NASNet 搜索空间	梯度下降（具体分布）

引用

引用：

Weng, Lilian. (2020 年 8 月). 神经架构搜索. Lil’Log. https://lilianweng.github.io/posts/2020-08-06-nas/.

或

@article{weng2020nas,
  title   = "Neural Architecture Search",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2020",
  month   = "Aug",
  url     = "https://lilianweng.github.io/posts/2020-08-06-nas/"
}

参考

[1] Thomas Elsken, Jan Hendrik Metzen, Frank Hutter. “神经架构搜索：一项调查” JMLR 20 (2019) 1-21.

[2] Kenneth O. Stanley, 等. “通过神经进化设计神经网络” Nature Machine Intelligence 卷 1，页码 24-35 (2019).

[3] Kenneth O. Stanley & Risto Miikkulainen. “通过增加拓扑结构进化神经网络” Evolutionary Computation 10(2): 99-127 (2002).

[4] Barret Zoph, Quoc V. Le. “利用强化学习进行神经架构搜索” ICLR 2017.

[5] Bowen Baker, 等. “利用强化学习设计神经网络架构” ICLR 2017.

[6] Bowen Baker, 等. “利用性能预测加速神经架构搜索” ICLR Workshop 2018.

[7] Barret Zoph, 等. “学习可传递的架构以实现可扩展的图像识别” CVPR 2018.

[8] Hanxiao Liu, 等. “用于高效架构搜索的分层表示” ICLR 2018.

[9] Esteban Real, 等. “用于图像分类器架构搜索的正则化进化” arXiv:1802.01548 (2018).

[10] Han Cai, 等. [“通过网络转换实现高效架构搜索”] AAAI 2018a.

[11] Han Cai, 等. “路径级网络转换用于高效架构搜索” ICML 2018b.

[12] Han Cai, Ligeng Zhu & Song Han. “ProxylessNAS: 直接神经架构搜索目标任务和硬件” ICLR 2019.

[13] Chenxi Liu, 等. “渐进神经架构搜索” ECCV 2018.

[14] Hieu Pham, 等. “通过参数共享实现高效神经架构搜索” ICML 2018.

[15] Andrew Brock 等人。“SMASH：通过超网络进行一次性模型架构搜索。” ICLR 2018。

[16] Gabriel Bender 等人。“理解和简化一次性架构搜索。” ICML 2018。

[17] 刘汉霄，Karen Simonyan，杨一鸣。“DARTS：可微架构搜索” ICLR 2019。

[18] 谢思睿，郑赫辉，刘春晓，林亮。“SNAS：随机神经架构搜索” ICLR 2019。

[19] 刘晨曦等人。“神经架构搜索是否需要标签？” ECCV 2020。

[20] Esteban Real 等人。“AutoML-Zero：从零开始演化机器学习算法” ICML 2020。

深度强化学习中的探索策略

原文：lilianweng.github.io/posts/2020-06-07-exploration-drl/

2020-06-17 更新：在“前向动力学”[部分中添加“通过分歧进行探索”。

开发与探索是强化学习中的一个关键主题。我们希望 RL 代理尽快找到最佳解决方案。然而，同时过快地承诺解决方案而没有足够的探索听起来相当糟糕，因为这可能导致局部最小值或完全失败。现代RL 算法优化以获得最佳回报可以相当有效地实现良好的开发，而探索仍然更像是一个开放性主题。

我想在这里讨论深度 RL 中几种常见的探索策略。由于这是一个非常大的主题，我的帖子绝对不能涵盖所有重要的子主题。我计划定期更新，并逐渐丰富内容。

经典探索策略

作为一个快速回顾，让我们首先看看在多臂老虎丨机问题或简单的表格 RL 中表现相当不错的几种经典探索算法。

ε-贪心：代理偶尔以概率 $\epsilon$ 进行随机探索，并大部分时间以概率 $1-\epsilon$ 采取最优行动。
上置信界：代理人选择最贪婪的行动以最大化上置信界 $\hat{Q}_t(a) + \hat{U}_t(a)$，其中 $\hat{Q}_t(a)$ 是与行动 $a$ 相关的平均奖励，直到时间 $t$，而 $\hat{U}_t(a)$ 是一个与行动 $a$ 被采取的次数反比的函数。更多细节请参见这里。
玻尔兹曼探索：代理从学习到的 Q 值上的玻尔兹曼分布（softmax）中抽取行动，由温度参数 $\tau$ 调节。
汤普森抽样：代理人跟踪对最优行动概率的信念，并从该分布中抽样。更多细节请参见这里。

当神经网络用于函数逼近时，以下策略可用于深度 RL 训练中更好的探索：

熵损失项：在损失函数中添加一个熵项 $H(\pi(a \vert s))$，鼓励策略采取多样化的行动。
基于噪音的探索：向观察、行动甚至参数空间添加噪音（Fortunato 等人，2017，Plappert 等人，2017）。

关键探索问题

当环境很少提供奖励作为反馈或环境存在干扰噪音时，良好的探索变得特别困难。许多探索策略被提出来解决以下一个或两个问题。

难探索问题

“难探索”问题指的是在具有非常稀疏甚至具有欺骗性奖励的环境中进行探索。这很困难，因为在这种情况下的随机探索很少能发现成功的状态或获得有意义的反馈。

蒙特祖玛的复仇是难探索问题的一个具体例子。它仍然是 Atari 中几个具有挑战性的游戏之一，供深度强化学习解决。许多论文使用蒙特祖玛的复仇来评估他们的结果。

嘈杂电视问题

“嘈杂电视”问题起初是在Burda 等人（2018）的思想实验中提出的。想象一下，一个强化学习代理被奖励寻找新颖的体验，一个带有不可控制和不可预测随机噪音输出的电视能够永远吸引代理的注意力。代理持续从嘈杂的电视中获得新奖励，但它无法取得任何有意义的进展，变成了一个“沙发土豆”。

图 1. 在实验中，一个代理被奖励获得新颖的体验。如果一个迷宫设置了一个嘈杂的电视，代理将被吸引并停止在迷宫中移动。（图片来源：OpenAI 博客："基于预测奖励的强化学习"）

作为探索奖励的内在奖励

一个常见的改进探索方法，特别是用于解决难探索问题的方法，是通过额外的奖励信号增加环境奖励，以鼓励额外的探索。因此，策略是通过由两个项组成的奖励进行训练的，$r_t = r^e_t + \beta r^i_t$，其中 $\beta$ 是调整开发和探索之间平衡的超参数。

$r^e_t$ 是时间 $t$ 环境中的外在奖励，根据手头的任务定义。
$r^i_t$ 是时间 $t$ 的内在探索奖励。

这种内在奖励在一定程度上受到了心理学中内在动机的启发（Oudeyer & Kaplan, 2008）。由好奇心驱动的探索可能是孩子成长和学习的重要方式。换句话说，在人类心智中，探索性活动应该在内在上具有奖励性，以鼓励这种行为。内在奖励可能与好奇心、惊讶、状态的熟悉度以及许多其他因素相关。

相同的思想可以应用于强化学习算法。在接下来的章节中，基于奖励的探索方法大致分为两类：

发现新领域
改善代理对环境的知识。

基于计数的探索

如果我们将内在奖励视为让我们感到惊讶的奖励条件，我们需要一种方法来衡量一个状态是新颖的还是经常出现的。一种直观的方法是计算一个状态被遇到的次数，并相应地分配一个奖励。这个奖励引导代理的行为，使其更倾向于罕见的状态而不是常见的状态。这被称为基于计数的探索方法。

让 $N_n(s)$ 是跟踪状态 $s$ 在序列 $s_{1:n}$ 中实际访问次数的经验计数函数。不幸的是，直接使用 $N_n(s)$ 进行探索是不切实际的，因为大多数状态的 $N_n(s)=0$，特别是考虑到状态空间通常是连续或高维的。即使这些状态以前从未见过，大多数状态都需要一个非零计数。

通过密度模型计数

Bellemare 等人（2016）使用了一个密度模型来近似状态访问的频率，并提出了一种从这个密度模型中导出伪计数的新算法。让我们首先定义一个关于状态空间的条件概率，$\rho_n(s) = \rho(s \vert s_{1:n})$，表示给定前 $n$ 个状态为 $s_{1:n}$ 时第 $(n+1)$ 个状态为 $s$ 的概率。为了在经验上衡量这一点，我们可以简单地使用 $N_n(s)/n$。

让我们还定义一个状态 $s$ 的重新编码概率，即在观察到 $s$ 的新出现后，密度模型分配给 $s$ 的概率，$\rho’_n(s) = \rho(s \vert s_{1:n}s)$。

该论文引入了两个概念来更好地调节密度模型，一个是伪计数函数 $\hat{N}_n(s)$，另一个是伪计数总数 $\hat{n}$。由于它们旨在模拟一个经验计数函数，我们会有：

\[\rho_n(s) = \frac{\hat{N}_n(s)}{\hat{n}} \leq \rho'_n(s) = \frac{\hat{N}_n(s) + 1}{\hat{n} + 1} \]

$\rho_n(x)$ 和 $\rho’_n(x)$ 之间的关系要求密度模型是学习正向的：对于所有 $s_{1:n} \in \mathcal{S}^n$ 和所有 $s \in \mathcal{S}$，$\rho_n(s) \leq \rho’_n(s)$。换句话说，观察到一个 $s$ 实例后，密度模型对相同的 $s$ 的预测应该增加。除了是学习正向外，密度模型应该完全在线训练，使用非随机的经验状态小批次，因此自然地我们有 $\rho’_n = \rho_{n+1}$。

伪计数可以通过解决上述线性系统后从 $\rho_n(s)$ 和 $\rho’_n(s)$ 计算得出：

\[\hat{N}_n(s) = \hat{n} \rho_n(s) = \frac{\rho_n(s)(1 - \rho'_n(s))}{\rho'_n(s) - \rho_n(s)} \]

或者通过预测增益（PG）估计：

\[\hat{N}_n(s) \approx (e^{\text{PG}_n(s)} - 1)^{-1} = (e^{\log \rho'_n(s) - \log \rho(s)} - 1)^{-1} \]

基于计数的内在奖励的常见选择是 $r^i_t = N(s_t, a_t)^{-1/2}$（如 MBIE-EB 中；Strehl & Littman, 2008）。基于伪计数的探索奖励以类似形式塑造，$r^i_t = \big(\hat{N}_n(s_t, a_t) + 0.01 \big)^{-1/2}$。

Bellemare 等人（2016）的实验采用了一个简单的CTS（上下文树切换）密度模型来估计伪计数。 CTS 模型以 2D 图像作为输入，并根据位置相关的 L 形滤波器的乘积为其分配概率，其中每个滤波器的预测由在过去图像上训练的 CTS 算法给出。 CTS 模型简单但在表达能力、可扩展性和数据效率方面受到限制。在随后的一篇论文中，Georg Ostrovski 等人（2017）通过训练 PixelCNN（van den Oord 等人，2016）作为密度模型改进了该方法。

密度模型也可以是高斯混合模型，就像Zhao & Tresp (2018)中所述。他们使用变分 GMM 来估计轨迹的密度（例如状态序列的串联）及其预测概率，以指导经验重播中的优先级设置。

哈希计数

使高维状态可计数的另一个想法是将状态映射到哈希码中，以便状态的出现变得可跟踪（Tang 等人，2017）。状态空间通过哈希函数 $\phi: \mathcal{S} \mapsto \mathbb{Z}^k$ 离散化。探索奖励 $r^{i}: \mathcal{S} \mapsto \mathbb{R}$ 被添加到奖励函数中，定义为 $r^{i}(s) = {N(\phi(s))}^{-1/2}$，其中 $N(\phi(s))$ 是 $\phi(s)$ 出现次数的经验计数。

唐等人（2017）提出使用局部敏感哈希（LSH)将连续的高维数据转换为离散的哈希码。LSH 是一种用于基于某些相似性度量查询最近邻居的哈希函数的流行类别。如果哈希方案$x \mapsto h(x)$保留数据点之间的距离信息，则称其为局部敏感，这样，接近的向量获得相似的哈希，而远离的向量具有非常不同的哈希。（如果感兴趣，可以查看Transformer 改进中如何使用 LSH。）SimHash是一种计算效率高的 LSH 类型，通过角度距离来衡量相似性：

\[\phi(s) = \text{sgn}(A g(s)) \in \{-1, 1\}^k \]

其中$A \in \mathbb{R}^{k \times D}$是一个矩阵，每个条目都从标准高斯分布中独立绘制，$g: \mathcal{S} \mapsto \mathbb{R}^D$是一个可选的预处理函数。二进制码的维度为$k$，控制状态空间离散化的粒度。更高的$k$会导致更高的粒度和更少的碰撞。

图 2. 通过 SimHash 对高维状态进行哈希计数探索的算法。（图片来源：唐等人 2017）

对于高维图像，SimHash 在原始像素级别上可能效果不佳。唐等人（2017）设计了一个自动编码器（AE），其输入为状态$s$以学习哈希码。它具有一个特殊的稠密层，由$k$个 sigmoid 函数组成，作为中间的潜在状态，然后该层的 sigmoid 激活值$b(s)$通过舍入到最接近的二进制数$\lfloor b(s)\rceil \in \{0, 1\}^D$作为状态$s$的二进制哈希码。对于$n$个状态的 AE 损失包括两个项：

\[\mathcal{L}(\{s_n\}_{n=1}^N) = \underbrace{-\frac{1}{N} \sum_{n=1}^N \log p(s_n)}_\text{重构损失} + \underbrace{\frac{1}{N} \frac{\lambda}{K} \sum_{n=1}^N\sum_{i=1}^k \min \big \{ (1-b_i(s_n))², b_i(s_n)² \big\}}_\text{sigmoid 激活更接近二进制} \]

这种方法的一个问题是，不相似的输入$s_i, s_j$可能被映射到相同的哈希码，但自动编码器仍然完美地重构它们。可以想象用哈希码$\lfloor b(s)\rceil$替换瓶颈层$b(s)$，但是梯度无法通过舍入函数反向传播。注入均匀噪声可以减轻这种效应，因为自动编码器必须学会将潜变量远离以抵消噪声。

基于预测的探索

第二类内在探索奖励是为了奖励代理对环境知识的改进。代理对环境动态的熟悉程度可以通过预测模型估计。使用预测模型来衡量好奇心的想法实际上是相当久远的（Schmidhuber, 1991）。

前向动力学

学习一个前向动力学预测模型是一种很好的途径，可以近似评估我们的模型对环境和任务 MDP 的了解程度。它捕捉了一个代理预测其行为后果的能力，$f: (s_t, a_t) \mapsto s_{t+1}$。这样的模型不可能完美（例如由于部分观测），误差$e(s_t, a_t) = | f(s_t, a_t) - s_{t+1} |²_2$可用于提供内在探索奖励。预测误差越高，我们对该状态的熟悉程度就越低。误差率下降得越快，我们获得的学习进展信号就越多。

智能自适应好奇心（IAC；Oudeyer, et al. 2007）勾勒了使用前向动力学预测模型估计学习进展并相应分配内在探索奖励的想法。

IAC 依赖一个存储机器人遇到的所有经验的记忆$M=\{(s_t, a_t, s_{t+1})\}$和一个前向动力学模型$f$。IAC 逐步将状态空间（即在机器人技术背景下的感知运动空间，如论文中所讨论的）根据转换样本分割成不同区域，使用类似于决策树分割的过程：当样本数量大于阈值时进行分割，每个叶子中状态的方差应该最小。每个树节点由其独有的样本集特征化，并有自己的前向动力学预测器$f`，称为“专家”。

专家的预测误差$e_t$被推送到与每个区域相关联的列表中。然后通过移动窗口的平均误差率与当前移动窗口之间的差异来衡量学习进展。内在奖励被定义为跟踪学习进展：$r^i_t = \frac{1}{k}\sum_{i=0}^{k-1}(e_{t-i-\tau} - e_{t-i})$，其中$k$是移动窗口大小。因此，我们能够实现更大的预测误差率下降，我们就会给予代理更高的内在奖励。换句话说，鼓励代理采取行动快速了解环境。

图 3. IAC（智能自适应好奇心）模块的架构：内在奖励是根据减少动力学模型预测误差的学习进展而分配的。（图片来源：Oudeyer, et al. 2007）

Stadie 等人（2015）在由$\phi$定义的编码空间中训练了一个前向动力学模型，$f_\phi: (\phi(s_t), a_t) \mapsto \phi(s_{t+1})$。该模型在时间$T$的预测误差被时间$t$之前的最大误差归一化，$\bar{e}_t = \frac{e_t}{\max_{i \leq t} e_i}$，因此始终在 0 和 1 之间。相应地定义了内在奖励：$r^i_t = (\frac{\bar{e}_t(s_t, a_t)}{t \cdot C})$，其中$C > 0$是一个衰减常数。

通过$\phi(.)$对状态空间进行编码是必要的，因为论文中的实验表明，直接在原始像素上训练的动力学模型行为非常糟糕——为所有状态分配相同的探索奖励。在Stadie 等人（2015）中，编码函数$\phi$是通过自编码器（AE）学习的，$\phi(.)$是 AE 中的一个输出层。AE 可以使用由随机代理收集的一组图像进行静态训练，也可以与策略一起动态训练，其中早期帧是通过$\epsilon$-贪心探索收集的。

内在好奇心模块（ICM；Pathak 等人，2017）学习了状态空间编码$\phi(.)$，而不是自编码器。通过自监督的逆动力学模型来预测给定代理自身动作的下一个状态并不容易，特别是考虑到环境中的一些因素不能被代理控制或不影响代理。ICM 认为，一个良好的状态特征空间应该排除这些因素，因为它们不能影响代理的行为，因此代理没有学习它们的动机。通过学习一个逆动力学模型$g: (\phi(s_t), \phi(s_{t+1})) \mapsto a_t$，特征空间只捕捉与我们代理的行为相关的环境变化，忽略其余部分。

鉴于前向模型$f$，逆动力学模型$g$和观察$(s_t, a_t, s_{t+1})$：

\[g_{\psi_I}(\phi(s_t), \phi(s_{t+1})) = \hat{a}_t \quad f_{\psi_F}(\phi(s_t), a_t) = \hat{\phi}(s_{t+1}) \quad r_t^i = \| \hat{\phi}(s_{t+1}) - \phi(s_{t+1}) \|_2² \]

这样的$\phi(.)$预计对环境中不可控制的方面具有鲁棒性。

图 4。ICM（内在好奇心模块）将前向动力学预测误差分配给代理作为内在奖励。该动力学模型在通过逆动力学模型学习的状态编码空间中运行，以排除不影响代理行为的环境因素。（图片来源：Pathak 等人，2017）

Burda, Edwards & Pathak, et al. (2018)进行了一系列纯好奇驱动学习的大规模比较实验，意味着只向代理提供内在奖励。在这项研究中，奖励为$r_t = r^i_t = | f(s_t, a_t) - \phi(s_{t+1})|_2²$。选择好的$\phi$对于学习前向动态至关重要，预计应该是紧凑、充分和稳定的，使得预测任务更易处理并过滤掉不相关的观察。

在比较 4 种编码函数时：

原始图像像素：无编码，$\phi(x) = x$。
随机特征（RF）：每个状态通过固定的随机神经网络进行压缩。
VAE: 概率编码器用于编码，$\phi(x) = q(z \vert x)$。
逆动态特征（IDF）：与 ICM 中使用的相同特征空间。

所有实验中，奖励信号都通过对累积回报的标准差的运行估计进行归一化。所有实验都在无限地平线设置中运行，以避免“完成”标志泄露信息。

图 5。在只使用好奇信号训练时，不同状态编码函数生成的不同游戏中的平均奖励。（图片来源：Burda, Edwards & Pathak, et al. 2018）

有趣的是随机特征竟然相当有竞争力，但在特征转移实验中（即在超级马里奥兄弟 1-1 级中训练一个代理，然后在另一个级别中测试），学习的 IDF 特征可以更好地泛化。

他们还在一个有嘈杂电视的环境中比较了 RF 和 IDF。不出所料，嘈杂的电视大大减慢了学习速度，外部奖励在时间上要低得多。

图 6。在有嘈杂电视开启或关闭的环境中使用 RF 和 IDF 特征编码的实验。绘图跟踪了训练过程中每集的外部奖励。（图片来源：Burda, Edwards & Pathak, et al. 2018）

前向动态优化也可以通过变分推断建模。VIME（缩写为“变分信息最大化探索”；Houthooft, et al. 2017）是一种基于最大化关于代理对环境动态信念的信息增益的探索策略。关于前向动态的额外信息量可以通过熵的减少来衡量。

让$\mathcal{P}$表示环境转移函数，$p(s_{t+1}\vert s_t, a_t; \theta)$表示由$\theta \in \Theta$参数化的前向预测模型，$\xi_t = \{s_1, a_1, \dots, s_t\}$表示轨迹历史。我们希望在采取新动作并观察下一个状态后减少熵，即最大化以下内容：

\[\begin{aligned} &\sum_t H(\Theta \vert \xi_t, a_t) - H(\Theta \vert S_{t+1}, \xi_t, a_t) \\ =& I(\Theta; S_{t+1} \vert \xi_t, a_t) \quad \scriptstyle{\text{; 因为 } I(X; Y) = I(X) - I(X \vert Y)} \\ =& \mathbb{E}_{s_{t+1} \sim \mathcal{P}(.\vert\xi_t,a_t)} [D_\text{KL}(p(\theta \vert \xi_t, a_t, s_{t+1}) \| p(\theta \vert \xi_t, a_t))] \quad \scriptstyle{\text{; 因为 } I(X; Y) = \mathbb{E}_Y [D_\text{KL} (p_{X \vert Y} \| p_X)]} \\ =& \mathbb{E}_{s_{t+1} \sim \mathcal{P}(.\vert\xi_t,a_t)} [D_\text{KL}(p(\theta \vert \xi_t, a_t, s_{t+1}) \| p(\theta \vert \xi_t))] \quad \scriptstyle{\text{; 因为 } \theta \text{ 不依赖于 } a_t} \end{aligned} \]

在对新可能状态进行期望时，期望代理采取新动作以增加其对预测模型的新信念与旧信念之间的 KL 散度（“信息增益”）。这个术语可以作为内在奖励添加到奖励函数中：$r^i_t = D_\text{KL} [p(\theta \vert \xi_t, a_t, s_{t+1}) | p(\theta \vert \xi_t))]$。

然而，计算后验$p(\theta \vert \xi_t, a_t, s_{t+1})$通常是不可行的。

\[\begin{aligned} p(\theta \vert \xi_t, a_t, s_{t+1}) &= \frac{p(\theta \vert \xi_t, a_t) p(s_{t+1} \vert \xi_t, a_t; \theta)}{p(s_{t+1}\vert\xi_t, a_t)} \\ &= \frac{p(\theta \vert \xi_t) p(s_{t+1} \vert \xi_t, a_t; \theta)}{p(s_{t+1}\vert\xi_t, a_t)} & \scriptstyle{\text{; 因为动作不影响信念。}} \\ &= \frac{\color{red}{p(\theta \vert \xi_t)} p(s_{t+1} \vert \xi_t, a_t; \theta)}{\int_\Theta p(s_{t+1}\vert\xi_t, a_t; \theta) \color{red}{p(\theta \vert \xi_t)} d\theta} & \scriptstyle{\text{; 红色部分直接计算困难。}} \end{aligned} \]

由于直接计算$p(\theta\vert\xi_t)$很困难，一个自然的选择是用另一个分布$q_\phi(\theta)$来近似。通过变分下界，我们知道最大化$q_\phi(\theta)$等价于最大化$p(\xi_t\vert\theta)$并最小化$D_\text{KL}[q_\phi(\theta) | p(\theta)]$。

使用近似分布$q$，内在奖励变为：

\[r^i_t = D_\text{KL} [q_{\phi_{t+1}}(\theta) \| q_{\phi_t}(\theta))] \]

其中$\phi_{t+1}$代表在看到$a_t$和$s_{t+1}$后与新信念相关的$q$的参数。当用作探索奖励时，通过这个 KL 散度值的移动中位数除以进行归一化。

这里的动力学模型被参数化为贝叶斯神经网络（BNN），因为它维护着其权重的分布。BNN 权重分布$q_\phi(\theta)$被建模为完全因子化的高斯分布，其中$\phi = \{\mu, \sigma\}$，我们可以轻松地从$q_\phi(.)$中采样$\theta$。在应用二阶泰勒展开后，KL 项$D_\text{KL}[q_{\phi + \lambda \Delta\phi}(\theta) | q_{\phi}(\theta)]$可以使用费舍尔信息矩阵$\mathbf{F}_\phi$来估计，这很容易计算，因为$q_\phi$是因子化高斯分布，因此协方差矩阵只是一个对角矩阵。更多细节请参见论文，特别是第 2.3-2.5 节。

上述所有方法都依赖于单个预测模型。如果我们有多个这样的模型，我们可以利用模型之间的分歧来设置探索奖励（Pathak 等人，2019）。高分歧表示对预测的信心较低，因此需要更多的探索。Pathak 等人（2019）建议训练一组前向动力学模型，并使用模型输出集合的方差作为$r_t^i$。准确地说，他们用随机特征对状态空间进行编码，并在集合中学习 5 个模型。

图 7。通过分歧进行自监督探索的训练架构示意图。（图片来源：Pathak 等人，2019）

由于$r^i_t$是可微的，模型中的内在奖励可以通过梯度下降直接优化，以通知策略代理改变动作。这种可微探索方法非常高效，但受到探索范围短的限制。

随机网络

但是，如果预测任务根本不涉及环境动态呢？事实证明，当预测是针对一个随机任务时，它仍然可以帮助探索。

DORA（简称为“Directed Outreaching Reinforcement Action-Selection”；Fox＆Choshen 等人，2018）是一个新颖的框架，根据一个新引入的与任务无关的 MDP 注入探索信号。DORA 的思想依赖于两个并行的 MDP：

一个是原始任务 MDP；
另一个是一个相同的 MDP，但没有奖励附加：相反，每个状态-动作对都被设计为价值为 0。为第二个 MDP 学习的 Q 值被称为E 值。如果模型无法完美预测 E 值为零，那么它仍然缺少信息。

最初，E 值被赋予值 1。这种积极的初始化可以鼓励为更好的 E 值预测进行定向探索。具有高 E 值估计的状态-动作对尚未收集足够的信息，至少还不足以排除它们的高 E 值。在某种程度上，E 值的对数可以被认为是访问计数器的一种泛化。

当使用神经网络进行 E 值的函数逼近时，另一个值头被添加以预测 E 值，它只需预测为零。给定预测的 E 值$E(s_t, a_t)$，探索奖励为$r^i_t = \frac{1}{\sqrt{-\log E(s_t, a_t)}}$。

与 DORA 类似，随机网络蒸馏（RND；Burda, et al. 2018）引入了一个与主要任务独立的预测任务。 RND 探索奖励被定义为神经网络$\hat{f}(s_t)$预测由固定随机初始化的神经网络$f(s_t)$给出的观察特征的误差。动机是，给定一个新状态，如果过去访问过许多类似状态，那么预测应该更容易，因此误差更低。探索奖励为$r^i(s_t) = |\hat{f}(s_t; \theta) - f(s_t) |_2²$。

图 8。RND（随机网络蒸馏）如何提供内在奖励的工作原理。特征$O_{i+1} \mapsto f_{i+1}$由固定的随机神经网络生成。（图片来源：OpenAI 博客："基于预测奖励的强化学习"）

RND 实验中有两个重要因素：

非情节性设置导致更好的探索，特别是当不使用任何外部奖励时。这意味着回报不会在“游戏结束”时截断，内在回报可以跨越多个情节。
标准化很重要，因为奖励的规模很难调整，特别是考虑到随机神经网络作为预测目标。内在奖励通过除以内在回报的标准差的运行估计来标准化。

RND 设置很好地解决了难以探索的问题。例如，最大化 RND 探索奖励始终能找到蒙特祖玛复仇游戏中超过一半的房间。

物理属性

与模拟器中的游戏不同，一些 RL 应用程序如机器人学需要理解物体和在物理世界中的直觉推理。一些预测任务要求代理执行一系列与环境的交互，并观察相应的后果，例如估计物理中的一些隐藏属性（例如质量，摩擦力等）。

受到这些想法的启发，Denil, et al. (2017) 发现 DRL 代理可以学会执行必要的探索以发现这些隐藏属性。他们精确地考虑了两个实验：

“哪个更重？” — 代理必须与方块互动并推断哪个更重。
“塔” — 代理需要推断一个塔由多少个刚体组成，通过将其推倒。

在实验中，代理首先经历一个探索阶段与环境互动并收集信息。一旦探索阶段结束，代理被要求输出一个标记动作来回答问题。如果答案正确，则给予代理正面奖励；否则给予负面奖励。因为答案需要与场景中的物品进行大量互动，代理必须学会有效地玩耍以找出物理规律和正确答案。探索自然而然地发生。

在他们的实验中，代理能够在两个任务中学习，表现因任务难度而异。尽管论文没有使用物理预测任务来提供内在奖励奖励，而是专注于探索任务本身。我喜欢通过预测环境中隐藏的物理属性来鼓励复杂的探索行为的想法。

基于记忆的探索

基于奖励的探索存在一些缺点：

函数逼近慢于跟上。
探索奖励是非稳态的。
知识衰减，意味着状态不再新颖，无法及时提供内在奖励信号。

本节中的方法依赖于外部记忆来解决基于奖励奖励的探索的缺点。

episodic memory

如上所述，RND 更适合在非 episodic 设置中运行，意味着预测知识在多个 episode 中累积。探索策略永不放弃（NGU；Badia, et al. 2020a）结合了一个可以在一个 episode 内快速适应的 episodic novelty module 和 RND 作为终身新颖性模块。

在 NGU 中，内在奖励由两个模块的探索奖励组成，分别是在一个 episode 内和跨多个 episode。

短期每个 episode 的奖励由一个episodic novelty module提供。它包含一个 episodic memory $M$，一个动态大小的基于槽位的记忆，以及一个 IDF（逆动力学特征）嵌入函数$\phi$，与 ICM 中的特征编码相同。

每一步当前状态嵌入$\phi(s_t)$都被添加到$M$中。
内在奖励由比较当前观察与$M$内容的相似程度来确定。差异越大，奖励越大。

\[r^\text{episodic}_t \approx \frac{1}{\sqrt{\sum_{\phi_i \in N_k} K(\phi(x_t), \phi_i)} + c} \]
其中$K(x, y)$是用于衡量两个样本之间距离的核函数。$N_k$是根据$K(., .)$在$M$中的$k$个最近邻样本集合。$c$是一个小常数，用于保持分母非零。在论文中，$K(x, y)$被配置为逆核函数：

\[K(x, y) = \frac{\epsilon}{\frac{d²(x, y)}{d²_m} + \epsilon} \]
其中$d(.,.)$是两个样本之间的欧氏距离，$d_m$是第 k 个最近邻的平方欧氏距离的运行平均值，以提高鲁棒性。$\epsilon$是一个小常数。

图 9. NGU 嵌入函数（左）和奖励生成器（右）的架构。（图片来源：Badia 等，2020a）

跨集数目新奇性依赖于终身新奇性模块中的 RND 预测误差。探索奖励为$\alpha_t = 1 + \frac{e^\text{RND}(s_t) - \mu_e}{\sigma_e}$，其中$\mu_e$和$\sigma_e$分别为 RND 误差$e^\text{RND}(s_t)$的运行均值和标准差。

然而，在RND 论文的结论部分，我注意到以下声明：

“我们发现 RND 探索奖励足以处理局部探索，即探索短期决策的后果，比如是否与特定对象交互，或者避开它。然而，涉及长时间跨度协调决策的全局探索超出了我们方法的范围。”

这让我有点困惑，RND 如何作为一个良好的终身新奇奖励提供者。如果你知道原因，请随时在下面留言。

最终的综合内在奖励是$r^i_t = r^\text{episodic}_t \cdot \text{clip}(\alpha_t, 1, L)$，其中$L$是一个常数最大奖励标量。

NGU 的设计使其具有两个良好的特性：

快速地在同一集数内阻止重访相同状态；
缓慢地在跨集数目阻止多次访问过的状态。

后来，DeepMind 在 NGU 的基础上提出了“Agent57”（Badia 等，2020b），这是第一个在所有57 个 Atari 游戏上表现优于标准人类基准的深度 RL 代理。Agent57 相对于 NGU 的两个主要改进是：

在 Agent57 中训练了一组策略，每个策略配备不同的探索参数对$\{(\beta_j, \gamma_j)\}_{j=1}^N$。回想一下，给定$\beta_j$，奖励构造为$r_{j,t} = r_t^e + \beta_j r^i_t$，$\gamma_j$是奖励折扣因子。自然地期望具有更高$\beta_j$和较低$\gamma_j$的策略在训练初期取得更多进展，而随着训练的进行，预期情况将相反。训练一个元控制器（滑动窗口 UCB 赌丨博算法）来选择应该优先考虑哪些策略。
第二个改进是 Q 值函数的新参数化，将内在和外在奖励的贡献分解为与捆绑奖励类似的形式：$Q(s, a; \theta_j) = Q(s, a; \theta_j^e) + \beta_j Q(s, a; \theta_j^i)$。在训练过程中，$Q(s, a; \theta_j^e)$和$Q(s, a; \theta_j^i)$分别使用奖励$r_j^e$和$r_j^i$进行优化。

图 10. 展示了自 2015 年 DQN 以来发展的技术，最终导致 Agent57 的一个很酷的插图。 (图片来源：DeepMind 博客："Agent57: Outperforming the human Atari benchmark")

Savinov 等人（2019）提出了一种名为情节好奇（EC）模块的方法，该方法考虑了情节性记忆中状态之间的接近度，而不是使用欧氏距离，并提出了一种测量从记忆中的其他状态访问一个状态所需步数的方法。新奇奖励取决于状态之间的可达性。

每一集开始时，代理人从一个空的情节性记忆$M$开始。
每一步，代理人将当前状态与记忆中保存的状态进行比较，以确定新奇奖励：如果当前状态是新颖的（即，从记忆中的观察到达需要更多步骤），代理人将获得奖励。
如果新奇奖励足够高，当前状态将被添加到情节性记忆中。（想象一下，如果所有状态都被添加到记忆中，任何新状态都可以在 1 步内添加。）
重复 1-3 直到本集结束。

图 11. 图中的节点是状态，边是可能的转换。蓝色节点是记忆中的状态。绿色节点是从记忆中在$k = 2$步内可达的状态（非新颖）。橙色节点距离更远，因此被视为新颖状态。 (图片来源：Savinov 等人，2019)

为了估计状态之间的可达性，我们需要访问转换图，但遗憾的是并非完全了解。因此，Savinov 等人（2019）训练了一个连体神经网络来预测两个状态之间相隔多少步。它包含一个嵌入网络$\phi: \mathcal{S} \mapsto \mathbb{R}^n$，首先将状态编码为特征向量，然后一个比较器网络$C: \mathbb{R}^n \times \mathbb{R}^n \mapsto [0, 1]$，输出两个状态是否足够接近（即，在转换图中在$k$步内可达）的二进制标签，$C(\phi(s_i), \phi(s_j)) \mapsto [0, 1]$。

一个情节性记忆缓冲器$M$存储着同一情节内一些过去观察的嵌入。新的观察将通过$C$与现有状态嵌入进行比较，结果将被聚合（例如最大值，90th 百分位数），以提供可达性分数$C^M(\phi(s_t))$。探索奖励为$r^i_t = \big(C’ - C^M(f(s_t))\big)$，其中$C’$是用于确定奖励符号的预定义阈值（例如，$C’=0.5$对于固定持续时间的情节效果很好）。当新状态不容易从记忆缓冲器中的状态到达时，高奖励将授予新状态。

他们声称，EC 模块可以克服嘈杂电视问题。

图 12。内在奖励生成的情节好奇（EC）模块的架构。（图片来源：Savinov 等人，2019）

直接探索

Go-Explore（Ecoffet 等人，2019）是一个旨在解决“难以探索”问题的算法。它由以下两个阶段组成。

阶段 1（“探索直到解决”）感觉很像Dijkstra 算法用于在图中寻找最短路径。事实上，阶段 1 中没有涉及神经网络。通过保持有趣状态以及通往这些状态的轨迹的记忆，代理可以返回（假设模拟器是确定性的）到有前途的状态，并从那里继续进行随机探索。状态被映射为短离散代码（称为“单元”）以便被记忆。如果出现新状态或找到更好/更短的轨迹，则更新记忆。在选择要返回的过去状态时，代理可能均匀选择记忆中的一个或根据启发式方法选择，如最近性，访问计数，记忆中邻居的计数等。这个过程重复进行，直到任务解决并找到至少一条解决路径。

上述找到的高性能轨迹在具有任何随机性的评估环境中效果不佳。因此，阶段 2（“鲁棒化”）需要通过模仿学习来增强解决方案。他们采用了Backward Algorithm，其中代理从轨迹中的最后状态附近开始，并从那里运行 RL 优化。

阶段 1 中的一个重要说明是：为了在没有探索的情况下确定性地返回到一个状态，Go-Explore 依赖于可重置和确定性的模拟器，这是一个很大的劣势。

为了使算法更普遍适用于具有随机性的环境，后来提出了 Go-Explore 的增强版本（Ecoffet 等人，2020），名为基于策略的 Go-Explore。

与轻松重置模拟器状态不同，基于策略的 Go-Explore 学习了一个目标条件策略，并重复使用它来访问内存中的已知状态。目标条件策略被训练为沿着先前导致所选内存状态的最佳轨迹。他们包括一个自我模仿学习（SIL；Oh, et al. 2018）损失，以帮助从成功轨迹中提取尽可能多的信息。
此外，他们发现当智能体返回有前途的状态继续探索时，从策略中采样比随机行动效果更好。
基于策略的 Go-Explore 的另一个改进是使图像到单元格的缩放函数可调整。它被优化，以便内存中既不会有太多也不会有太少的单元格。

图 13。Go-Explore 算法概述。（图片来源：Ecoffet 等人，2020）

在普通的 Go-Explore 之后，郭一杰等人（2019）提出了DTSIL（多样轨迹条件自我模仿学习），其与上述基于策略的 Go-Explore 有相似的想法。DTSIL 在训练过程中维护了一组多样化演示的内存，并使用它们来通过SIL训练轨迹条件策略。他们在采样过程中优先考虑以罕见状态结束的轨迹。

图 14。DTSIL（多样轨迹条件自我模仿学习）算法。（图片来源：郭一杰等人，2019）

相似的方法也出现在郭等人（2019）的研究中。主要思想是将具有高不确定性的目标存储在内存中，以便智能体可以通过目标条件策略重复访问这些目标状态。在每一集中，智能体会抛硬币（概率为 0.5）来决定是按照策略贪婪行事，还是通过从内存中采样目标进行定向探索。

图 15。带有函数逼近的定向探索中的不同组件。（图片来源：郭等人，2019）

一个状态的不确定性度量可以是简单的基于计数的奖励，也可以是复杂的密度或贝叶斯模型。该论文训练了一个前向动力学模型，并将其预测误差作为不确定性度量。

Q 值探索

受汤普森抽样启发，自举 DQN（Osband 等，2016）通过使用自举法在经典DQN中引入了 Q 值近似的不确定性概念。自举法是通过从同一总体中多次有放回地抽样来近似分布，然后聚合结果。

多个 Q 值头并行训练，但每个头只消耗一个自举子采样数据集，并且每个头都有自己对应的目标网络。所有的 Q 值头共享相同的主干网络。

图 16。自举 DQN 算法。（图片来源：Osband 等，2016）

在一个 episode 开始时，均匀采样一个 Q 值头并用于在该 episode 中收集经验数据。然后从掩码分布$m \sim \mathcal{M}$中采样一个二进制掩码，决定哪些头可以使用这些数据进行训练。掩码分布$\mathcal{M}$的选择决定了如何生成自举样本；例如，

如果$\mathcal{M}$是独立的伯努利分布，$p=0.5$，这对应于双倍或无的自举法。
如果$\mathcal{M}$总是返回全为 1 的掩码，该算法将简化为一个集成方法。

然而，这种探索仍然受限，因为自举引入的不确定性完全依赖于训练数据。最好注入一些独立于数据的先验信息。这种“嘈杂”的先验预期能够在奖励稀疏时驱使代理继续探索。将随机先验添加到自举 DQN 以实现更好探索的算法（Osband 等，2018）依赖于贝叶斯线性回归。贝叶斯回归的核心思想是：我们可以通过在数据的嘈杂版本上进行训练，再加上一些随机正则化，“生成后验样本”。

让$\theta$为 Q 函数参数，$\theta^-$为目标 Q，使用随机化先验函数$p$的损失函数为：

\[\mathcal{L}(\theta, \theta^{-}, p, \mathcal{D}; \gamma) = \sum_{t\in\mathcal{D}}\Big( r_t + \gamma \max_{a'\in\mathcal{A}} (\underbrace{Q_{\theta^-} + p)}_\text{目标 Q}(s'_t, a') - \underbrace{(Q_\theta + p)}_\text{要优化的 Q}(s_t, a_t) \Big)² \]

变分选项

选项是带有终止条件的策略。在搜索空间中有大量可用的选项，它们与代理的意图无关。通过明确将内在选项纳入建模，代理可以获得用于探索的内在奖励。

VIC（“Variational Intrinsic Control”的缩写；Gregor, et al. 2017）是一个为代理提供基于建模选项和学习条件选项的策略的内在探索奖励的框架。让 $\Omega$ 表示从 $s_0$ 开始并在 $s_f$ 结束的选项。一个环境概率分布 $p^J(s_f \vert s_0, \Omega)$ 定义了在给定起始状态 $s_0$ 的情况下选项 $\Omega$ 终止的位置。一个可控性分布 $p^C(\Omega \vert s_0)$ 定义了我们可以从中采样的选项的概率分布。根据定义，我们有 $p(s_f, \Omega \vert s_0) = p^J(s_f \vert s_0, \Omega) p^C(\Omega \vert s_0)$。

在选择选项时，我们希望实现两个目标：

从 $s_0$ 实现一组多样的最终状态 ⇨ 最大化 $H(s_f \vert s_0)$。
精确了解给定选项 $\Omega$ 可以以哪种状态结束 ⇨ 最小化 $H(s_f \vert s_0, \Omega)$。

结合它们，我们得到要最大化的互信息 $I(\Omega; s_f \vert s_0)$：

\[\begin{aligned} I(\Omega; s_f \vert s_0) &= H(s_f \vert s_0) - H(s_f \vert s_0, \Omega) \\ &= - \sum_{s_f} p(s_f \vert s_0) \log p(s_f \vert s_0) + \sum_{s_f, \Omega} p(s_f, \Omega \vert s_0) \log \frac{p(s_f, \Omega \vert s_0)}{p^C(\Omega \vert s_0)} \\ &= - \sum_{s_f} p(s_f \vert s_0) \log p(s_f \vert s_0) + \sum_{s_f, \Omega} p^J(s_f \vert s_0, \Omega) p^C(\Omega \vert s_0) \log p^J(s_f \vert s_0, \Omega) \\ \end{aligned} \]

因为互信息是对称的，我们可以在几个地方交换 $s_f$ 和 $\Omega$ 而不会破坏等价性。另外，由于 $p(\Omega \vert s_0, s_f)$ 很难观察到，让我们用近似分布 $q$ 替换它。根据变分下界，我们有 $I(\Omega; s_f \vert s_0) \geq I^{VB}(\Omega; s_f \vert s_0)$。

\[ \begin{aligned} I(\Omega; s_f \vert s_0) &= I(s_f; \Omega \vert s_0) \\ &= - \sum_{\Omega} p(\Omega \vert s_0) \log p(\Omega \vert s_0) + \sum_{s_f, \Omega} p^J(s_f \vert s_0, \Omega) p^C(\Omega \vert s_0) \log \color{red}{p(\Omega \vert s_0, s_f)}\\ I^{VB}(\Omega; s_f \vert s_0) &= - \sum_{\Omega} p(\Omega \vert s_0) \log p(\Omega \vert s_0) + \sum_{s_f, \Omega} p^J(s_f \vert s_0, \Omega) p^C(\Omega \vert s_0) \log \color{red}{q(\Omega \vert s_0, s_f)} \\ I(\Omega; s_f \vert s_0) &\geq I^{VB}(\Omega; s_f \vert s_0) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c77a296a5282f10c5f70006c39fa6cb9.png) 图 17\. VIC（Variational Intrinsic Control）的算法。（图片来源：[Gregor, et al. 2017](https://arxiv.org/abs/1611.07507)）这里的$\pi(a \vert \Omega, s)$可以通过任何强化学习算法进行优化。选项推断函数$q(\Omega \vert s_0, s_f)$是进行监督学习。先验$p^C$被更新，以便更倾向于选择具有更高奖励的$\Omega$。请注意，$p^C$也可以固定（例如高斯）。通过学习，不同的$\Omega$将导致不同的行为。此外，[Gregor 等人（2017）](https://arxiv.org/abs/1611.07507)观察到，使用显式选项使 VIC 在具有函数逼近的情况下难以实际运作，因此他们还提出了另一种具有隐式选项的 VIC 版本。与 VIC 不同，**VALOR**（简称*“通过强化学习学习选项的变分自动编码”*；[Achiam 等人，2018](https://arxiv.org/abs/1807.10299)）依赖于整个轨迹来提取选项上下文$c$，该上下文从固定的高斯分布中采样。在 VALOR 中： + 策略充当编码器，将来自噪声分布的上下文转换为轨迹 + 解码器试图从轨迹中恢复上下文，并奖励策略使上下文更容易区分。在训练期间，解码器从未看到动作，因此代理必须以一种有助于与解码器进行更好预测的方式与环境互动。此外，解码器反复接收一条轨迹中的一系列步骤，以更好地建模时间步之间的相关性。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/ceb40a07eda23b150308e58fba3a79a6.png) 图 18。 VALOR 的解码器是一个双向 LSTM，它将来自一条轨迹的$N = 11$等间隔观察作为输入。（图片来源：[Achiam 等人，2018](https://arxiv.org/abs/1807.10299)） DIAYN（“多样性就是你所需要的一切”；[Eysenbach 等人，2018](https://arxiv.org/abs/1802.06070)）的想法与此类似，尽管名称不同 — DIAYN 模型是基于潜在*技能*变量的策略。更多细节请参阅我的[先前的帖子](https://lilianweng.github.io/posts/2019-06-23-meta-rl/#learning-with-random-rewards)。 # 引用 Cited as: > Weng，Lilian。（2020 年 6 月）。深度强化学习中的探索策略。 Lil’Log。 https://lilianweng.github.io/posts/2020-06-07-exploration-drl/。或 ```py @article{weng2020exploration, title = "Exploration Strategies in Deep Reinforcement Learning", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2020", month = "Jun", url = "https://lilianweng.github.io/posts/2020-06-07-exploration-drl/" } ``` # 参考 [1] Pierre-Yves Oudeyer & Frederic Kaplan. [“我们如何定义内在动机？”](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.567.6524&rep=rep1&type=pdf) 2008 年表观遗传机器人会议。 [2] Marc G. Bellemare 等人 [“统一基于计数的探索和内在动机”](https://arxiv.org/abs/1606.01868)。NIPS 2016。 [3] Georg Ostrovski 等人 [“使用神经密度模型进行基于计数的探索”](https://arxiv.org/abs/1703.01310)。PMLR 2017。 [4] Rui Zhao & Volker Tresp。 [“通过密度估计驱动好奇心导向的经验优先级”](https://arxiv.org/abs/1902.08039)。NIPS 2018。 [5] Haoran Tang 等人。[“＃探索：深度强化学习的基于计数的探索研究”](https://arxiv.org/abs/1611.04717)。NIPS 2017。 [6] Jürgen Schmidhuber。[“在模型构建神经控制器中实现好奇心和无聊的可能性”](http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.45.957) 1991 年。 [7] Pierre-Yves Oudeyer 等人。[“自主心智发展的内在动机系统”](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.177.7661&rep=rep1&type=pdf) IEEE 进化计算交易，2007 年。 [8] Bradly C. Stadie 等人。[“用深度预测模型激励探索的强化学习”](https://arxiv.org/abs/1507.00814)。ICLR 2016。 [9] Deepak Pathak 等人。[“自监督预测驱动的好奇心探索”](https://arxiv.org/abs/1705.05363)。CVPR 2017。 [10] Yuri Burda，Harri Edwards 和 Deepak Pathak 等人。[“好奇驱动学习的大规模研究”](https://arxiv.org/abs/1808.04355)。arXiv 1808.04355（2018 年）。 [11] Joshua Achiam 和 Shankar Sastry。[“基于惊喜的深度强化学习内在动机”](https://arxiv.org/abs/1703.01732)。NIPS 2016 深度 RL 研讨会。 [12] Rein Houthooft 等人。[“VIME：变分信息最大化探索”](https://arxiv.org/abs/1605.09674)。NIPS 2016。 [13] Leshem Choshen，Lior Fox 和 Yonatan Loewenstein。[“探险家多拉：定向外展强化行动选择”](https://arxiv.org/abs/1804.04012)。ICLR 2018 [14] Yuri Burda 等人。[“通过随机网络蒸馏进行探索”](https://arxiv.org/abs/1810.12894)。ICLR 2019。 [15] OpenAI 博客：[“基于预测奖励的强化学习”](https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/) 2018 年 10 月。 [16] Misha Denil 等人。[“通过深度强化学习学习执行物理实验”](https://arxiv.org/abs/1611.01843)。ICLR 2017。 [17] Ian Osband 等人。[“通过引导 DQN 进行深度探索”](https://arxiv.org/abs/1602.04621)。NIPS 2016。 [18] Ian Osband，John Aslanides 和 Albin Cassirer。[“用于深度强化学习的随机化先验函数”](https://arxiv.org/abs/1806.03335)。NIPS 2018。 [19] Karol Gregor，Danilo Jimenez Rezende 和 Daan Wierstra。[“变分内在控制”](https://arxiv.org/abs/1611.07507)。ICLR 2017。 [20] Joshua Achiam 等人。[“变分选项发现算法”](https://arxiv.org/abs/1807.10299)。arXiv 1807.10299（2018 年）。 [21] Benjamin Eysenbach 等人。[“多样性就是你所需要的：学习无需奖励函数的技能。”](https://arxiv.org/abs/1802.06070)。ICLR 2019。 [22] Adrià Puigdomènech Badia 等人。[“永不放弃（NGU）：学习定向探索策略”](https://arxiv.org/abs/2002.06038)。ICLR 2020。 [23] Adrià Puigdomènech Badia 等人。[“Agent57：超越 Atari 人类基准”](https://arxiv.org/abs/2003.13350)。arXiv 2003.13350（2020 年）。 [24] DeepMind 博客: [“Agent57: 超越人类 Atari 基准”](https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark) 2020 年 3 月. [25] Nikolay Savinov 等. [“通过可达性实现情节好奇心”](https://arxiv.org/abs/1810.02274) ICLR 2019. [26] Adrien Ecoffet 等. [“Go-Explore: 解决难度探索问题的新方法”](https://arxiv.org/abs/1901.10995). arXiv 1901.10995 (2019). [27] Adrien Ecoffet 等. [“先回归再探索”](https://arxiv.org/abs/2004.12919). arXiv 2004.12919 (2020). [28] Junhyuk Oh 等. [“自我模仿学习”](https://arxiv.org/abs/1806.05635). ICML 2018. [29] 郭一杰等. [“通过轨迹条件策略进行自我模仿学习以解决难度探索任务”](https://arxiv.org/abs/1907.10247). arXiv 1907.10247 (2019). [30] 郭兆瀚 & Emma Brunskill. [“强化学习的定向探索”](https://arxiv.org/abs/1906.07805). arXiv 1906.07805 (2019). [31] Deepak Pathak 等. [“通过不一致性进行自监督探索”](https://arxiv.org/abs/1906.04161) ICML 2019. # **Transformer** 家族 > 原文：[`lilianweng.github.io/posts/2020-04-07-the-transformer-family/`](https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/) [更新于 **2023-01-27**：近三年过去了，我对这篇文章进行了大规模的重构更新，以整合自 2020 年以来的一系列新 Transformer 模型。这篇文章的增强版本在这里：[**Transformer 家族 2.0 版**](https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/)。请参考该文章了解更多内容。] 距离我上一篇关于[注意力](https://lilianweng.github.io/posts/2018-06-24-attention/)的文章已经将近两年了。最近对 Transformer 的新版本和增强版本的进展激励我撰写了这个特定主题的另一篇文章，重点关注如何改进传统 Transformer 以提高长期注意力跨度、减少内存和计算消耗、解决强化学习任务等方面。 ## 符号 | 符号 | 含义 | | --- | --- | | $d$ | 模型大小 / 隐藏状态维度 / 位置编码大小。 | | $h$ | 多头注意力层中的头数。 | | $L$ | 输入序列的段长度。 | | $\mathbf{X} \in \mathbb{R}^{L \times d}$ | 输入序列，其中每个元素都映射为形状为 $d$ 的嵌入向量，与模型大小相同。 | | $\mathbf{W}^k \in \mathbb{R}^{d \times d_k}$ | 键权重矩阵。 | | $\mathbf{W}^q \in \mathbb{R}^{d \times d_k}$ | 查询权重矩阵。 | | $\mathbf{W}^v \in \mathbb{R}^{d \times d_v}$ | 值权重矩阵。通常情况下 $d_k = d_v = d$。 | | $\mathbf{W}^k_i, \mathbf{W}^q_i \in \mathbb{R}^{d \times d_k/h}; \mathbf{W}^v_i \in \mathbb{R}^{d \times d_v/h}$ | 每个头的权重矩阵。 | | $\mathbf{W}^o \in \mathbb{R}^{d_v \times d}$ | 输出权重矩阵。 | | $\mathbf{Q} = \mathbf{X}\mathbf{W}^q \in \mathbb{R}^{L \times d_k}$ | 查询嵌入输入。 | | $\mathbf{K} = \mathbf{X}\mathbf{W}^k \in \mathbb{R}^{L \times d_k}$ | 键嵌入输入。 | | $\mathbf{V} = \mathbf{X}\mathbf{W}^v \in \mathbb{R}^{L \times d_v}$ | 值嵌入输入。 | | $S_i$ | 第 $i$ 个查询 $\mathbf{q}_i$ 需要关注的关键位置集合。 | | $\mathbf{A} \in \mathbb{R}^{L \times L}$ | 输入序列长度为 $L$ 时的自注意力矩阵。$\mathbf{A} = \text{softmax}(\mathbf{Q}\mathbf{K}^\top / \sqrt{d_k})$。 | | $a_{ij} \in \mathbf{A}$ | 查询 $\mathbf{q}_i$ 和键 $\mathbf{k}_j$ 之间的标量注意力分数。 | | $\mathbf{P} \in \mathbb{R}^{L \times d}$ | 位置编码矩阵，其中第 $i$ 行 $\mathbf{p}_i$ 是输入 $\mathbf{x}_i$ 的位置编码。 | # 注意力和自注意力 *注意力* 是神经网络中的一种机制，模型可以通过有选择地关注给定的数据集来学习预测。注意力的多少由学习到的权重来量化，因此输出通常形成加权平均。 *自注意力*是一种注意力机制，模型使用关于同一样本的其他部分的观察来预测数据样本的一部分。在概念上，它与[非局部均值](https://en.wikipedia.org/wiki/Non-local_means)非常相似。还要注意，自注意力是置换不变的；换句话说，它是一个集合上的操作。注意/自注意力有各种形式，Transformer（[Vaswani 等人，2017](https://arxiv.org/abs/1706.03762)）依赖于*缩放点积注意力*：给定一个查询矩阵$\mathbf{Q}$，一个键矩阵$\mathbf{K}$和一个值矩阵$\mathbf{V}$，输出是值向量的加权和，其中分配给每个值槽的权重由查询与相应键的点积确定： $$ \text{注意力}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}(\frac{\mathbf{Q} {\mathbf{K}}^\top}{\sqrt{d_k}})\mathbf{V} \]

对于查询和键向量$\mathbf{q}_i, \mathbf{k}_j \in \mathbb{R}^d$（查询和键矩阵中的行向量），我们有一个标量分数：

\[a_{ij} = \text{softmax}(\frac{\mathbf{q}_i {\mathbf{k}_j}^\top}{\sqrt{d_k}}) = \frac{\exp(\mathbf{q}_i {\mathbf{k}_j}^\top)}{ \sqrt{d_k} \sum_{r \in S_i} \exp(\mathbf{q}_i {\mathbf{k}_r}^\top) } \]

其中$S_i$是第$i$个查询要关注的键位置的集合。

如果感兴趣，可以查看我以前的帖子了解其他类型的注意力。

多头自注意力

多头自注意力模块是 Transformer 中的一个关键组件。与仅计算一次注意力不同，多头机制将输入分成较小的块，然后并行计算每个子空间的缩放点积注意力。独立的注意力输出简单地连接并线性转换为期望的维度。

\[\begin{aligned} \text{多头注意力}(\mathbf{X}_q, \mathbf{X}_k, \mathbf{X}_v) &= [\text{头}_1; \dots; \text{头}_h] \mathbf{W}^o \\ \text{其中头}_i &= \text{注意力}(\mathbf{X}_q\mathbf{W}^q_i, \mathbf{X}_k\mathbf{W}^k_i, \mathbf{X}_v\mathbf{W}^v_i) \end{aligned} \]

其中$[.;.]$是一个连接操作。$\mathbf{W}^q_i, \mathbf{W}^k_i \in \mathbb{R}^{d \times d_k/h}, \mathbf{W}^v_i \in \mathbb{R}^{d \times d_v/h}$是权重矩阵，用于将大小为$L \times d$的输入嵌入映射到查询、键和值矩阵。而$\mathbf{W}^o \in \mathbb{R}^{d_v \times d}$是输出线性变换。所有权重都应在训练期间学习。

图 1. 多头缩放点积注意力机制的示意图。（图片来源：Vaswani 等人，2017中的图 2）

Transformer

Transformer（将其称为“传统 Transformer”以区别于其他增强版本；Vaswani 等人，2017）模型具有编码器-解码器架构，这在许多NMT模型中常用。后来简化的 Transformer 在语言建模任务中表现出色，例如仅编码器的BERT或仅解码器的GPT。

编码器-解码器架构

编码器生成一个基于注意力的表示，具有定位大背景中特定信息的能力。它由一堆 6 个恒等模块组成，每个模块包含两个子模块，一个多头自注意力层和一个逐点全连接前馈网络。逐点意味着它将相同的线性变换（具有相同权重）应用于序列中的每个元素。这也可以看作是一个滤波器大小为 1 的卷积层。每个子模块都有残差连接和层归一化。所有子模块输出相同维度$d$的数据。

Transformer 的解码器的功能是从编码表示中检索信息。该架构与编码器非常相似，只是解码器包含两个多头注意力子模块，而不是每个相同重复模块中的一个。第一个多头注意力子模块是掩码的，以防止位置关注未来。

图 2。传统 Transformer 模型的架构。（图片来源：Figure 17）

位置编码

因为自注意力操作是置换不变的，所以使用适当的位置编码为模型提供顺序信息非常重要。位置编码$\mathbf{P} \in \mathbb{R}^{L \times d}$与输入嵌入具有相同的维度，因此可以直接添加到输入上。传统的 Transformer 考虑了两种编码类型：

(1) 正弦位置编码定义如下，给定令牌位置$i=1,\dots,L$和维度$\delta=1,\dots,d$：

\[\text{PE}(i,\delta) = \begin{cases} \sin(\frac{i}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta'\\ \cos(\frac{i}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta' + 1\\ \end{cases} \]

这样，位置编码的每个维度对应于不同维度中不同波长的正弦波，从$2\pi$到$10000 \cdot 2\pi$。

图 3。正弦位置编码，$L=32$，$d=128$。值介于-1（黑色）和 1（白色）之间，值为 0 为灰色。

(2) 学习的位置编码，顾名思义，为每个元素分配一个学习的列向量，编码其绝对位置（Gehring 等人，2017）。

快速跟进

在基础 Transformer 之后，Al-Rfou 等人（2018）添加了一组辅助损失，以便在字符级语言建模上训练深度 Transformer 模型，这超过了 LSTMs。使用了几种类型的辅助任务：

不仅在序列末尾产生一个预测，还要求每个即时位置也进行正确预测，迫使模型在给定更小上下文（例如上下文窗口开头的前几个标记）时进行预测。
每个中间 Transformer 层也用于进行预测。随着训练的进行，较低层的权重会逐渐减少对总损失的贡献。
每个序列中的位置可以预测多个目标，即未来标记的两个或更多预测。

图 4. 深度 Transformer 用于字符级语言建模的辅助预测任务。（图片来源：Al-Rfou 等人（2018））

自适应计算时间（ACT）

自适应计算时间（简称ACT；Graves, 2016）是一种动态决定循环神经网络中需要多少计算步骤的机制。这里有一个关于 ACT 的很酷的教程来自 distill.pub。

假设我们有一个由输入权重$W_x$、参数化状态转移函数$\mathcal{S}(.)$、一组输出权重$W_y$和输出偏置$b_y$组成的 RNN 模型$\mathcal{R}$。给定一个输入序列$(x_1, \dots, x_L)$，输出序列$(y_1, \dots, y_L)$由以下计算得出：

\[s_t = \mathcal{S}(s_{t-1}, W_x x_t), \quad y_t = W_y s_t + b_y\quad\text{for }t=1, \dots, L \]

ACT 使上述 RNN 设置能够在每个输入元素上执行可变数量的步骤。多个计算步骤导致中间状态序列$(s_t¹, \dots, s_t^{N(t)})$和输出$(y_t¹, \dots, y_t^{N(t)})$ — 它们都共享相同的状态转移函数$\mathcal{S}(.)$，以及相同的输出权重$W_y$和偏置$b_y$：

\[\begin{aligned} s_t⁰ &= s_{t-1} \\ s_t^n &= \mathcal{S}(s_{t}^{n-1}, x_t^n) = \mathcal{S}(s_{t}^{n-1}, x_t + \delta_{n,1}) \text{ for } n=1, \dots, N(t)\\ y_t^n &= W_y s_t^n + b_y \end{aligned} \]

其中$\delta_{n,1}$是一个二进制标志，指示输入步骤是否已增加。

步数$N(t)$由额外的 S 形停止单元$h$确定，具有相关的权重矩阵$W_h$和偏置$b_h$，在第$t$个输入元素的即时步骤$n$处输出一个停止概率$p_t^n$：

\[h_t^n = \sigma(W_h s_t^n + b_h) \]

为了允许计算在单个步骤后停止，ACT 引入了一个小常数$\epsilon$（例如 0.01），因此每当累积概率超过$1-\epsilon$时，计算就会停止。

\[\begin{aligned} N(t) &= \min(\min\{n': \sum_{n=1}^{n'} h_t^n \geq 1 -\epsilon\}, M) \\ p_t^n &= \begin{cases} h_t^n & \text{if }n < N(t) \\ R(t) = 1 - \sum_{n=1}^{N(t)-1} h_t^n & \text{if }n= N(t)\\ \end{cases} \end{aligned} \]

其中$M$是允许的中间步骤数的上限。

最终状态和输出是均场更新：

\[ s_t = \sum_{n=1}^{N(t)} p_t^n s_t^n,\quad y_t = \sum_{n=1}^{N(t)} p_t^n y_t^n $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/71f6ca1bfeb08d5453814f08b73bd114.png) 图 5. 具有 ACT 机制的 RNN 的计算图。 (图片来源：[Graves, 2016](https://arxiv.org/abs/1603.08983)) 为了避免对每个输入进行不必要的思考，ACT 在损失函数中添加了一个*思考成本*$\mathcal{P}(x) = \sum_{t=1}^L N(t) + R(t)$，以鼓励较少的中间计算步骤。 # 改进的注意力跨度改善注意力跨度的目标是使自注意力中可以使用的上下文更长、更高效和更灵活。 ## 更长的注意力跨度（Transformer-XL）普通 Transformer 具有固定且有限的注意力跨度。模型在每个更新步骤中只能关注同一段中的其他元素，不能在分隔的固定长度段之间传递信息。这种*上下文分割*会引起几个问题： + 模型无法捕捉非常长期的依赖关系。 + 在没有或很少上下文的情况下，很难预测每个片段中的前几个标记。 + 评估是昂贵的。每当段向右移动一个位置时，新段都会从头开始重新处理，尽管有很多重叠的标记。 **Transformer-XL** ([Dai 等人，2019](https://arxiv.org/abs/1901.02860); “XL”代表“extra long”) 通过两个主要修改解决了上下文分割问题： 1. 在段之间重用隐藏状态。 1. 采用适合重用状态的新位置编码。 **隐藏状态重用** 模型通过持续使用先前段的隐藏状态引入了段之间的循环连接。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/72c12a971746eb755dfd93a3edb368dd.png) 图 6. 普通 Transformer 和 Transformer-XL 在训练阶段的比较，段长度为 4。 (图片来源：[Dai 等人，2019](https://arxiv.org/abs/1901.02860)中图 2 的左部分) 让我们将模型中第$(\tau + 1)$个片段的第$n$层的隐藏状态标记为$\mathbf{h}_{\tau+1}^{(n)} \in \mathbb{R}^{L \times d}$。除了相同段落的最后一层的隐藏状态$\mathbf{h}_{\tau+1}^{(n-1)}$之外，它还取决于前一个段落相同层的隐藏状态$\mathbf{h}_{\tau}^{(n)}$。通过合并来自先前隐藏状态的信息，模型将注意力跨度延伸到过去更长的时间，跨越多个片段。 $$ \begin{aligned} \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} &= [\text{stop-gradient}(\mathbf{h}_{\tau}^{(n-1)}) \circ \mathbf{h}_{\tau+1}^{(n-1)}] \\ \mathbf{Q}_{\tau+1}^{(n)} &= \mathbf{h}_{\tau+1}^{(n-1)}\mathbf{W}^q \\ \mathbf{K}_{\tau+1}^{(n)} &= \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} \mathbf{W}^k \\ \mathbf{V}_{\tau+1}^{(n)} &= \color{red}{\widetilde{\mathbf{h}}_{\tau+1}^{(n-1)}} \mathbf{W}^v \\ \mathbf{h}_{\tau+1}^{(n)} &= \text{transformer-layer}(\mathbf{Q}_{\tau+1}^{(n)}, \mathbf{K}_{\tau+1}^{(n)}, \mathbf{V}_{\tau+1}^{(n)}) \end{aligned} \]

注意，键和值都依赖于扩展的隐藏状态，而查询仅消耗当前步骤的隐藏状态。连接操作$[. \circ .]$沿着序列长度维度进行。

相对位置编码

为了处理这种新形式的注意力跨度，Transformer-XL 提出了一种新类型的位置编码。如果使用香草 Transformer 相同的方法并对绝对位置进行编码，那么之前和当前的片段将被分配相同的编码，这是不希望看到的。

为了保持位置信息在各个片段之间的连贯流动，Transformer-XL 编码相对位置，因为知道位置偏移量对于做出良好预测，即$i-j$之间的一个键向量$\mathbf{k}_{\tau, j}$和其查询$\mathbf{q}_{\tau, i}$可能足够了。

如果省略标量$1/\sqrt{d_k}$和 softmax 中的归一化项，但包括位置编码，我们可以将位置$i$处的查询和位置$j$处的键之间的注意力分数写为：

Transformer-XL 将上述四个术语重新参数化如下：

将$\mathbf{p}_j$替换为相对位置编码$\mathbf{r}_{i-j} \in \mathbf{R}^{d}$；
将$\mathbf{p}_i\mathbf{W}^q$替换为两个可训练参数$\mathbf{u}$（用于内容）和$\mathbf{v}$（用于位置）在两个不同的项中；
将$\mathbf{W}^k$拆分为两个矩阵，$\mathbf{W}^k_E$用于内容信息，$\mathbf{W}^k_R$用于位置信息。

自适应注意力跨度

Transformer 的一个关键优势是捕捉长期依赖关系的能力。根据上下文，模型可能更喜欢有时比其他时候更远的地方进行关注；或者一个注意力头可能具有不同于其他头部的不同注意模式。如果注意力跨度能够灵活地调整其长度，并且只在需要时才进一步关注更远的地方，这将有助于减少模型中支持更长最大上下文大小的计算和内存成本。

这是自适应注意力跨度的动机。Sukhbaatar 等人（2019）提出了一种自注意机制，旨在寻找最佳的注意力跨度。他们假设不同的注意力头可能在相同的上下文窗口内以不同方式分配分数（见图 7），因此最佳跨度将分别针对每个头进行训练。

图 7。同一模型中的两个注意力头 A 和 B，在相同的上下文窗口内分配不同的注意力。头 A 更多地关注最近的标记，而头 B 均匀地向过去更远处查看。（图片来源：Sukhbaatar 等人，2019)

给定第$i$个标记，我们需要计算该标记与位置$j \in S_i$处其他键之间的注意力权重，其中$S_i$定义了第$i$个标记的上下文窗口。

\[\begin{aligned} e_{ij} &= \mathbf{q}_i {\mathbf{k}_j}^\top \\ a_{ij} &= \text{softmax}(e_{ij}) = \frac{\exp(e_{ij})}{\sum_{r=i-s}^{i-1} \exp(e_{ir})} \\ \mathbf{y}_i &= \sum_{r=i-s}^{i-1}a_{ir}\mathbf{v}_r = \sum_{r=i-s}^{i-1}a_{ir}\mathbf{x}_r\mathbf{W}^v \end{aligned} \]

添加软掩码函数 $m_z$ 以控制有效可调整的注意力范围，将查询和键之间的距离映射为[0, 1]的值。$m_z$由$z \in [0, s]$参数化，$z$是需要学习的：

\[m_z(x) = \text{clamp}(\frac{1}{R}(R+z-x), 0, 1) \]

其中$R$是定义$m_z$软度的超参数。

图 8. 自适应注意跨度中使用的软掩码函数。（图片来源：Sukhbaatar 等人，2019。）

软掩码函数应用于注意权重中的 softmax 元素：

\[a_{ij} = \frac{m_z(i-j)\exp(s_{ij})}{\sum_{r=i-s}^{i-1}m_z(i-r) \exp(s_{ir})} \]

在上述方程中，$z$是可微的，因此它与模型的其他部分一起进行训练。参数$z^{(i)}, i=1, \dots, h$是每个头部单独学习的。此外，损失函数对$\sum_{i=1}^h z^{(i)}$有额外的 L1 惩罚。

使用自适应计算时间，该方法可以进一步增强，使其具有灵活的注意跨度长度，动态适应当前输入。时间$t$处的注意头的跨度参数$z_t$是一个 sigmoid 函数，$z_t = S \sigma(\mathbf{v} \cdot \mathbf{x}_t +b)$，其中向量$\mathbf{v}$和偏置标量$b$与其他参数一起学习。

在具有自适应注意力跨度的 Transformer 实验中，Sukhbaatar 等人（2019）发现一个普遍趋势，即较低层不需要非常长的注意跨度，而较高层中的少数注意头可能使用异常长的跨度。自适应注意跨度还有助于大大减少 FLOPS 的数量，特别是在具有许多注意层和大上下文长度的大型模型中。

局部化注意跨度（图像变换器）

Transformer 的最初，也是最流行的用例是进行语言建模。文本序列是一维的，按照明确定的时间顺序，因此随着上下文大小的增加，注意跨度呈线性增长。

然而，如果我们想在图像上使用 Transformer，目前尚不清楚如何定义上下文的范围或顺序。图像变换器（Parmer 等人，2018）采用了与 Transformer 框架内的序列建模类似的图像生成公式。此外，图像变换器将自注意跨度限制在局部邻域，以便模型可以扩展到并行处理更多图像，并保持可能性损失可控。

编码器-解码器架构仍然用于基于图像的生成：

编码器生成源图像的上下文化的、逐像素通道的表示；
解码器自回归地生成输出图像，每个时间步生成一个像素通道。

让我们将待生成的当前像素的表示标记为查询$\mathbf{q}$。用于计算$\mathbf{q}$的其他位置的表示将用作键向量$\mathbf{k}_1, \mathbf{k}_2, \dots$，它们一起形成一个记忆矩阵$\mathbf{M}$。$\mathbf{M}$的范围定义了像素查询$\mathbf{q}$的上下文窗口。

图像变换器引入了两种局部化的$\mathbf{M}$，如下图所示。

图 9. 图像 Transformer 中视觉输入的 1D 和 2D 注意力跨度示意图。黑线标记一个查询块，青色轮廓标记像素 q 的实际注意力跨度。（图片来源：Parmer 等人，2018 中的图 2）

(1) 1D 局部注意力：输入图像按照光栅扫描顺序展开，即从左到右，从上到下。然后将线性化的图像分成不重叠的查询块。上下文窗口包括与 $\mathbf{q}$ 相同查询块中的像素以及在此查询块之前生成的固定数量的其他像素。

(2) 2D 局部注意力：图像被分成多个不重叠的矩形查询块。查询像素可以关注同一内存块中的所有其他像素。为了确保左上角的像素也能有有效的上下文窗口，内存块分别向上、向左和向右扩展了固定数量。

更少的时间和内存成本

本节介绍了对 Transformer 进行的几项改进，以减少计算时间和内存消耗。

稀疏注意力矩阵分解（稀疏 Transformer）

Vanilla Transformer 的计算和内存成本随着序列长度呈二次增长，因此很难应用于非常长的序列。

稀疏 Transformer（Child 等人，2019）引入了分解自注意力，通过稀疏矩阵分解，使得在长度达到 16,384 的序列上训练密集注意力网络成为可能，否则在现代硬件上是不可行的。

给定一组注意力连接模式 $\mathcal{S} = \{S_1, \dots, S_n\}$，其中每个 $S_i$ 记录第 $i$ 个查询向量关注的一组关键位置。

\[\begin{aligned} \text{Attend}(\mathbf{X}, \mathcal{S}) &= \Big( a(\mathbf{x}_i, S_i) \Big)_{i \in \{1, \dots, L\}} \\ \text{ where } a(\mathbf{x}_i, S_i) &= \text{softmax}\Big(\frac{(\mathbf{x}_i \mathbf{W}^q)(\mathbf{x}_j \mathbf{W}^k)_{j \in S_i}^\top}{\sqrt{d_k}}\Big) (\mathbf{x}_j \mathbf{W}^v)_{j \in S_i} \end{aligned} \]

请注意，尽管 $S_i$ 的大小不固定，$a(\mathbf{x}_i, S_i)$ 的大小始终为 $d_v$，因此 $\text{Attend}(\mathbf{X}, \mathcal{S}) \in \mathbb{R}^{L \times d_v}$。

在自回归模型中，一个注意力跨度被定义为 $S_i = \{j: j \leq i\}$，因为它允许每个标记关注过去所有位置。

在分解自注意力中，集合 $S_i$ 被分解为一个依赖树，对于每对 $(i, j)$，其中 $j \leq i$，都存在连接 $i$ 返回到 $j$ 的路径，$i$ 可以直接或间接地关注 $j$。

具体来说，集合$S_i$被分成$p$个不重叠子集，其中第$m$个子集表示为$A^{(m)}_i \subset S_i, m = 1,\dots, p$。因此，输出位置$i$和任何$j$之间的路径的最大长度为$p + 1$。例如，如果$(j, a, b, c, \dots, i)$是$i$和$j$之间的索引路径，则我们会有$j \in A_a^{(1)}, a \in A_b^{(2)}, b \in A_c^{(3)}, \dots$，依此类推。

稀疏分解注意力

稀疏变压器提出了两种分解注意力的类型。通过图 10 中以 2D 图像输入为例进行说明，更容易理解这些概念。

图 10. 顶部行显示了(a) 变压器、(b) 具有跨步注意力的稀疏变压器和(c) 具有固定注意力的稀疏变压器中的注意力连接模式。底部行包含相应的自注意力连接矩阵。请注意，顶部行和底部行的比例不同。（图片来源：Child 等人，2019 + 一些额外注释。）

(1) 跨步注意力，跨度为$\ell \sim \sqrt{n}$。这在处理图像数据时效果很好，因为结构与步长对齐。在图像情况下，每个像素将关注前面的所有$\ell$个像素（自然覆盖整个图像的宽度），然后这些像素将关注同一列中的其他像素（由另一个注意力连接子集定义）。

\[\begin{aligned} A_i^{(1)} &= \{ t, t+1, \dots, i\} \text{, where } t = \max(0, i - \ell) \\ A_i^{(2)} &= \{j: (i-j) \mod \ell = 0\} \end{aligned} \]

(2) 固定注意力。一小组令牌总结了先前位置的信息，并将该信息传播到所有未来位置。

\[\begin{aligned} A_i^{(1)} &= \{j: \lfloor \frac{j}{\ell} \rfloor = \lfloor \frac{i}{\ell} \rfloor \} \\ A_i^{(2)} &= \{j: j \mod \ell \in \{\ell-c, \dots, \ell-1\} \} \end{aligned} \]

其中$c$是一个超参数。如果$c=1$，它会限制表示，而许多依赖于少数位置。该论文选择了$c\in \{ 8, 16, 32 \}$，对应$\ell \in \{ 128, 256 \}$。

在变压器中使用分解自注意力

在变压器架构中有三种使用稀疏分解注意力模式的方法：

每个残差块使用一种注意力类型，然后交错它们，

$\text{attention}(\mathbf{X}) = \text{Attend}(\mathbf{X}, A^{(n \mod p)}) \mathbf{W}^o$，其中$n$是当前残差块的索引。
设置一个单头，该头关注所有分解头关注的位置，

$\text{attention}(\mathbf{X}) = \text{Attend}(\mathbf{X}, \cup_{m=1}^p A^{(m)}) \mathbf{W}^o $。
使用多头注意力机制，但与普通变压器不同，每个头可能采用上述的 1 或 2 中呈现的模式。=> 这个选项通常表现最好。

稀疏 Transformer 还提出了一系列改变，以便训练 Transformer 达到数百层，包括梯度检查点、在反向传播期间重新计算注意力和 FF 层、混合精度训练、高效的块稀疏实现等。更多细节请查看论文。

局部敏感哈希（Reformer）

Reformer模型（Kitaev, et al. 2020）提出的改进旨在解决 Transformer 中的以下痛点：

在具有$N$层的模型中，内存比单层模型大$N$倍，因为我们需要存储用于反向传播的激活值。
中间的 FF 层通常非常大。
长度为$L$的序列上的注意力矩阵通常需要$O(L²)$的内存和时间。

Reformer 提出了两个主要改变：

将点积注意力替换为局部敏感哈希（LSH）注意力，将复杂度从$O(L²)$降低到$O(L\log L)$。
将标准残差块替换为可逆残差层，这样在训练期间只需存储激活一次，而不是$N$次（即与层数成比例）。

局部敏感哈希注意力

在注意力公式中的$\mathbf{Q} \mathbf{K}^\top$部分，我们只对最大的元素感兴趣，因为只有大的元素在 softmax 之后贡献很大。对于每个查询$\mathbf{q}_i \in \mathbf{Q}$，我们正在寻找与$\mathbf{q}_i$最接近的$\mathbf{K}$中的行向量。为了在高维空间中快速找到最近邻居，Reformer 将局部敏感哈希（LSH）引入其注意力机制中。

如果哈希方案$x \mapsto h(x)$保留数据点之间的距离信息，则称其为局部敏感。Reformer 采用了这样的哈希方案，给定一个固定的随机矩阵$\mathbf{R} \in \mathbb{R}^{d \times b/2}$（其中$b$是一个超参数），哈希函数为$h(x) = \arg\max([xR; −xR])$。

图 11. 局部敏感哈希（LSH）注意力的示意图。（图片来源：Kitaev, et al. 2020中图 1 的右部分）。

在 LSH 注意力中，一个查询只能关注相同哈希桶中的位置，$S_i = \{j: h(\mathbf{q}_i) = h(\mathbf{k}_j)\}$。如图 11 所示，这是通过以下过程进行的：

(a) 完全注意力的注意力矩阵通常是稀疏的。
(b) 使用 LSH，我们可以根据它们的哈希桶对键和查询进行排序对齐。
（c）设置$\mathbf{Q} = \mathbf{K}$（精确地说$\mathbf{k}_j = \mathbf{q}_j / |\mathbf{q}_j|$），以便一个桶中有相等数量的键和查询，更容易进行批处理。有趣的是，这种“共享-QK”配置不会影响 Transformer 的性能。
（d）对$m$个连续查询进行分组。

图 12。LSH 注意力包括 4 个步骤：分桶、排序、分块和注意力计算。（图片来源：Kitaev 等人，2020中图 1 的左侧部分）。

可逆残差网络

Reformer 的另一个改进是使用可逆残差层（Gomez 等人，2017）。可逆残差网络的动机是以一种方式设计架构，使得在任何给定层的激活可以仅通过模型参数从后续层的激活中恢复。因此，我们可以通过在反向传播期间重新计算激活而不是存储所有激活来节省内存。

给定一个层$x \mapsto y$，普通残差层执行$y = x + F(x)$，但可逆层将输入和输出都分成一对$(x_1, x_2) \mapsto (y_1, y_2)$，然后执行以下操作：

\[y_1 = x_1 + F(x_2),\; y_2 = x_2 + G(y_1) \]

逆转很容易：

\[x_2 = y_2 - G(y_1), \; x_1 = y_1 − F(x_2) \]

Reformer 通过在可逆网络块内结合注意力（$F$）和前馈层（$G$）将相同的思想应用于 Transformer：

\[Y_1 = X_1 + \text{注意力}(X_2), \; Y_2 = X_2 + \text{前馈}(Y_1) \]

通过分块前馈计算可以进一步减少内存：

\[Y_2 = [Y_2^{(1)}; \dots; Y_2^{(c)}] = [X_2^{(1)} + \text{前馈}(Y_1^{(1)}); \dots; X_2^{(c)} + \text{前馈}(Y_1^{(c)})] \]

结果可逆 Transformer 不需要在每一层存储激活。

使其变成循环的（通用 Transformer）

通用 Transformer（Dehghani 等人，2019）将 Transformer 中的自注意力与 RNN 中的循环机制相结合，旨在同时受益于 Transformer 的长期全局感受野和 RNN 的学习归纳偏差。

通用 Transformer 不是通过固定数量的层，而是通过使用自适应计算时间动态调整步数。如果我们固定步数，通用 Transformer 等效于具有跨层共享参数的多层 Transformer。

从高层次上看，通用 Transformer 可以被视为用于学习每个标记的隐藏状态表示的循环函数。循环函数在标记位置之间并行演变，并且通过自注意力在位置之间共享信息。

图 13. 通用 Transformer 如何并行地为每个位置重复细化一组隐藏状态表示。（图片来源：Dehghani 等人，2019中的图 1）。

给定长度为$L$的输入序列，通用 Transformer 会在可调节的步数中迭代更新表示$\mathbf{H}^t \in \mathbb{R}^{L \times d}$。在第 0 步，$\mathbf{H}⁰$被初始化为与输入嵌入矩阵相同。所有位置在多头自注意力机制中并行处理，然后经过一个递归过渡函数。

\[\begin{aligned} \mathbf{A}^t &= \text{LayerNorm}(\mathbf{H}^{t-1} + \text{MultiHeadAttention}(\mathbf{H}^{t-1} + \mathbf{P}^t) \\ \mathbf{H}^t &= \text{LayerNorm}(\mathbf{A}^{t-1} + \text{Transition}(\mathbf{A}^t)) \end{aligned} \]

其中$\text{Transition}(.)$可以是可分离卷积或由两个位置逐行（即分别应用于$\mathbf{A}^t$的每一行）的仿射变换+一个 ReLU 组成的全连接神经网络。

位置编码$\mathbf{P}^t$使用正弦位置信号，但还带有一个额外的时间维度：

\[ \text{PE}(i, t, \delta) = \begin{cases} \sin(\frac{i}{10000^{2\delta'/d}}) \oplus \sin(\frac{t}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta'\\ \cos(\frac{i}{10000^{2\delta'/d}}) \oplus \cos(\frac{t}{10000^{2\delta'/d}}) & \text{if } \delta = 2\delta' + 1\\ \end{cases} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/28f10d04e3e8614a323abde62a4b5601.png) 图 14\. 通用 Transformer 的简化示意图。编码器和解码器共享相同的基本递归结构。但解码器还会关注最终编码器表示$\mathbf{H}^T$。（图片来源：[Dehghani 等人，2019](https://arxiv.org/abs/1807.03819)中的图 2）。在自适应版本的通用 Transformer 中，递归步数$T$由 ACT 动态确定。每个位置都配备了一个动态的 ACT 停止机制。一旦一个每令牌递归块停止，它就停止接受更多的递归更新，而只是将当前值复制到下一步，直到所有块停止或直到模型达到最大步数限制。 # RL 的稳定化（GTrXL）自注意力机制避免将整个过去压缩为固定大小的隐藏状态，并且不像 RNN 那样容易出现梯度消失或梯度爆炸问题。强化学习任务肯定可以从这些特性中受益。*然而*，即使在监督学习中，训练 Transformer 也是相当困难的，更不用说在 RL 环境中了。毕竟，单独训练和稳定一个 LSTM 代理可能会非常具有挑战性。 **门控 Transformer-XL** (**GTrXL**; [帕里索托等人，2019](https://arxiv.org/abs/1910.06764)) 是将 Transformer 用于 RL 的一次尝试。GTrXL 通过对 Transformer-XL 进行两项修改成功稳定了训练。 1. 层归一化仅应用于残差模块中的输入流，而不应用于快捷流。这种重新排序的一个关键好处是允许原始输入从第一层流向最后一层。 1. 残差连接被一个类似 GRU 风格（门控循环单元；[Chung 等人，2014](https://arxiv.org/abs/1412.3555)）的*门控*机制所取代。 $$ \begin{aligned} r &= \sigma(W_r^{(l)} y + U_r^{(l)} x) \\ z &= \sigma(W_z^{(l)} y + U_z^{(l)} x - b_g^{(l)}) \\ \hat{h} &= \tanh(W_g^{(l)} y + U_g^{(l)} (r \odot x)) \\ g^{(l)}(x, y) &= (1-z)\odot x + z\odot \hat{h} \end{aligned} \]

门控函数参数被明确初始化为接近单位映射 - 这就是为什么有一个$b_g$项。$b_g > 0$对于学习加速非常有帮助。

图 15。Transformer-XL、重新排序的层归一化 Transformer-XL 和门控 Transformer-XL 的模型架构比较。 (图片来源：帕里索托等人，2019)

引用

引用为：

翁，莉莉安。 (2020 年 4 月)。变压器家族。Lil’Log。https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/。

或

@article{weng2020transformer,
  title   = "The Transformer Family",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2020",
  month   = "Apr",
  url     = "https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/"
}

参考

[1] 阿希什·瓦斯瓦尼等人。“注意力就是你所需要的。” NIPS 2017。

[2] 拉米·阿尔-福等人。“更深层次的自注意力字符级语言建模。” AAAI 2019。

[3] 奥拉和卡特，“注意力和增强循环神经网络”，Distill，2016。

[4] 赛恩巴亚尔·苏赫巴塔尔等人。“变压器中的自适应注意力跨度”。ACL 2019。

[5] 雷文·奇尔德等人。“使用稀疏变压器生成长序列” arXiv:1904.10509 (2019)。

[6] 尼基塔·基塔耶夫等人。“Reformer: 高效 Transformer” ICLR 2020。

[7] 亚历克斯·格雷夫斯。“适应性循环神经网络的计算时间”。

[8] 尼基·帕马尔等人。“图像变压器” ICML 2018。

[9] 戴子航等人。“Transformer-XL: 超越固定长度上下文的关注语言模型。” ACL 2019。

[10] 艾丹·戈麦斯等人。“可逆残差网络：无需存储激活的反向传播” NIPS 2017。

[11] 莫斯塔法·德赫加尼等人。“通用变压器” ICLR 2019。

[12] 埃米利奥·帕里索托等人。“用于强化学习的稳定变压器” arXiv:1910.06764 (2019)。

强化学习课程

原文：lilianweng.github.io/posts/2020-01-29-curriculum-rl/

更新于 2020-02-03：在“任务特定课程”部分提到[PCG。

更新于 2020-02-04：添加一个新的[“通过蒸馏进行课程”部分。

如果我们想要教一个连基本算术都不懂的 3 岁孩子积分或导数，那听起来像是一项不可能的任务。这就是为什么教育很重要，因为它提供了一个系统的方式来分解复杂知识，并为从简单到困难的概念教学提供了一个良好的课程。课程使学习困难的事物变得更容易和更易接近我们人类。但是，机器学习模型呢？我们能否通过课程更有效地训练我们的模型？我们能否设计一个课程来加快学习速度？

1993 年，杰弗里·埃尔曼提出了用课程来训练神经网络的想法。他在学习简单语法的早期工作中展示了这种策略的重要性：从一组简单的数据开始，逐渐增加训练样本的复杂性；否则模型根本无法学习。

与没有课程的训练相比，我们预期采用课程会加快收敛速度，可能会或可能不会改善最终模型性能。设计一个高效和有效的课程并不容易。请记住，一个糟糕的课程甚至可能阻碍学习。

接下来，我们将探讨几种课程学习的类别，如图 1 所示。大多数情况适用于强化学习，少数情况适用于监督学习。

图 1。强化学习的五种课程类型。

在“从小事开始的重要性”论文中（Elman 1993），我特别喜欢开头的句子，觉得既鼓舞人心又触动人心：

“人类在许多方面与其他物种不同，但有两点特别值得注意。人类展示了异常的学习能力；而人类以异常长的时间达到成熟而显著。学习的适应性优势是明显的，可以说，通过文化，学习已经创造了一种非基因传播行为的基础，这可能加速了我们物种的进化。”

实际上，学习可能是我们人类拥有的最好的超能力。

任务特定的课程

Bengio 等人（2009）在旧时代提供了课程学习的良好概述。该论文通过使用手动设计的任务特定课程进行玩具实验，提出了两个想法：

更干净的例子可能更快地产生更好的泛化。
逐渐引入更难的例子可以加快在线训练速度。

有可能一些课程策略是无用的甚至有害的。在这个领域要回答的一个好问题是：是什么一般原则使一些课程策略比其他更有效？ Bengio 2009 年的论文假设，让学习集中在既不太难也不太容易的“有趣”例子上可能是有益的。

如果我们朴素的课程是训练模型逐渐增加复杂性的样本，我们需要一种方法来首先量化任务的难度。一个想法是使用其相对于另一个模型的最小损失，而这个模型是在其他任务上预训练的（Weinshall, et al. 2018）。通过这种方式，预训练模型的知识可以通过建议训练样本的排名传递给新模型。图 2 显示了curriculum组（绿色）的有效性，与control（随机顺序；黄色）和anti（反向顺序；红色）组相比。

图 2. 测试图像集上的图像分类准确性（CIFAR100 中“小型哺乳动物”的 5 个成员类别）。有 4 个实验组，(a) curriculum：按另一个训练好的分类器的置信度（例如 SVM 的边缘）对标签进行排序；(b) control-curriculum：随机排序标签；(c) anti-curriculum：反向排序标签；(d) None：无课程。（图片来源：Weinshall, et al. 2018）

Zaremba & Sutskever (2014) 对训练 LSTM 来预测数学运算的短 Python 程序输出进行了有趣的实验，而不实际执行代码。他们发现课程对学习是必要的。程序的复杂性由两个参数控制，length ∈ [1, a] 和 nesting∈ [1, b]。考虑了三种策略：

朴素课程：首先增加length直到达到a；然后增加nesting并将length重置为 1；重复此过程直到两者都达到最大值。
混合课程：样本length ~ [1, a] 和 nesting ~ [1, b]
组合：朴素 + 混合。

他们注意到，组合策略总是优于朴素课程，并且通常（但不总是）优于混合策略 — 表明在训练过程中混合易任务是非常重要的，以避免遗忘。

过程内容生成（PCG）是创建各种难度视频游戏的流行方法。 PCG 涉及算法随机性和大量人类专业知识在设计游戏元素和它们之间的依赖关系。程序生成的关卡已经被引入几个基准环境中，用于评估 RL 代理是否能够推广到未经训练的新关卡（元 RL！），如GVGAI，OpenAI 的CoinRun和Procgen benchmark。使用 GVGAI，Justesen 等人（2018）证明了 RL 策略可以轻松过拟合到特定游戏，但通过训练一个简单的课程，使任务难度与模型性能一起增加，有助于其推广到新的人类设计关卡。CoinRun 中也发现了类似的结果（Cobbe 等人，2018）。POET（Wang 等人，2019）是利用进化算法和程序生成的游戏关卡来改善 RL 泛化的另一个例子，我在我的元 RL 文章中详细描述了这一点。

要遵循上述描述的课程学习方法，通常我们需要解决培训过程中的两个问题：

设计一个度量标准来量化任务的难度，以便我们可以根据任务进行排序。
在训练过程中向模型提供一系列难度逐渐增加的任务。

然而，任务的顺序不一定要是顺序的。在我们的魔方论文（OpenAI 等人，2019）中，我们依赖自动领域随机化（ADR）通过增加复杂性生成一系列环境的分布来生成课程。每个任务的难度（即在一组环境中解决魔方）取决于各种环境参数的随机化范围。即使假设所有环境参数都不相关，我们也能为我们的机器手创建一个不错的课程来学习任务。

教师引导的课程

自动课程学习的概念是由Graves 等人，2017稍早提出的。它将$N$任务课程视为一个$N$臂老虎丨机问题，并且一个自适应策略学习如何优化这个老虎丨机的回报。

论文中考虑了两类学习信号：

损失驱动的进展：梯度更新前后的损失函数变化。这种奖励信号跟踪学习过程的速度，因为最大的任务损失减少等同于最快的学习。
复杂驱动的进展：后验分布和先验分布之间的 KL 散度。这种学习信号的灵感来自于MDL原则，“通过一定量增加模型复杂性只有在它能够以更大量压缩数据时才值得”。因此，模型复杂性预计会在模型很好地泛化到训练示例时增加最多。

通过另一个 RL 代理自动提出课程的框架被正式化为教师-学生课程学习（TSCL；Matiisen, et al. 2017）。在 TSCL 中，学生是一个在实际任务上工作的 RL 代理，而教师代理是选择任务的策略。学生的目标是掌握一个可能直接学习困难的复杂任务。为了使这个任务更容易学习，我们设置教师代理来引导学生的训练过程，选择适当的子任务。

图 3。教师-学生课程学习的设置。（图片来源：Matiisen, et al. 2017 + 我的红色注释。）

在这个过程中，学生应该学习以下任务：

可以帮助学生取得最快的学习进展，或
有被遗忘的风险。

注意：将教师模型设置为 RL 问题的框架与神经架构搜索（NAS）非常相似，但 TSCL 中的 RL 模型在任务空间上运行，而 NAS 在主模型架构空间上运行。

训练教师模型是为了解决POMDP问题：

未观察到的$s_t$是学生模型的完整状态。
观察到的$o = (x_t^{(1)}, \dots, x_t^{(N)})$是$N$个任务的分数列表。
动作$a$是选择子任务。
每步的奖励是分数差值。$r_t = \sum_{i=1}^N x_t^{(i)} - x_{t-1}^{(i)}$（即，等同于在剧集结束时最大化所有任务的分数）。

从嘈杂的任务分数中估计学习进度的方法，同时平衡探索与开发，可以从非稳态多臂老虎丨机问题中借鉴——使用ε-greedy，或汤普森抽样。

核心思想，总结起来，是使用一个策略为另一个策略提出更好的任务。有趣的是，以上两项工作（在离散任务空间中）发现均匀地从所有任务中抽样是一个令人惊讶地强大的基准。

如果任务空间是连续的会怎样？Portelas, et al. (2019)研究了一个连续的师生框架，其中老师必须从连续的任务空间中采样参数以生成学习课程。给定一个新采样的参数$p$，绝对学习进度（简称 ALP）被测量为$\text{ALP}_p = \vert r - r_\text{old} \vert$，其中$r$是与$p$相关的一个周期性奖励，$r_\text{old}$是与$p_\text{old}$相关的奖励。这里，$p_\text{old}$是任务空间中最接近$p$的先前采样参数，可以通过最近邻检索。请注意，这个 ALP 分数如何与 TSCL 或 Grave, et al. 2017 中的学习信号不同：ALP 分数衡量了两个任务之间的奖励差异，而不是同一任务两个时间步的表现。

在任务参数空间的顶部，训练一个高斯混合模型来拟合$\text{ALP}_p$在$p$上的分布。在采样任务时使用ε-greedy 策略：以一定概率随机采样一个任务；否则根据 GMM 模型中的 ALP 分数比例采样。

图 4. ALP-GMM（绝对学习进度高斯混合模型）的算法。（图片来源：Portelas, et al., 2019)

通过自我对弈进行课程设置

与师生框架不同，两个代理在做非常不同的事情。老师学习为学生挑选任务，而不知道实际任务内容。如果我们想让两者直接在主要任务上训练呢？甚至让他们互相竞争呢？

Sukhbaatar, et al. (2017)提出了一个通过非对称自我对弈进行自动课程学习的框架。两个代理，Alice 和 Bob，玩同一个任务但有不同的目标：Alice 挑战 Bob 达到相同状态，而 Bob 则尽可能快地完成。

图 5. 展示了训练两个代理时的自我对弈设置。示例任务是MazeBase：一个代理被要求在一个迷宫中达到一个带有灯开关、钥匙和门的墙的目标旗帜。切换钥匙开关可以打开或关闭门，关闭灯只能让代理使用发光的开关。（图片来源：Sukhbaatar, et al. 2017）

让我们将 Alice 和 Bob 视为同一 RL 代理的两个独立副本，在相同环境中训练，但具有不同的大脑。他们各自具有独立的参数和损失目标。自我对弈驱动的训练包括两种类型的情节：

在自我对弈的情节中，Alice 将状态从$s_0$改变到$s_t$，然后 Bob 被要求将环境恢复到原始状态$s_0$以获得内部奖励。
在目标任务剧集中，如果 Bob 访问目标标志，他将获得外部奖励。

注意，由于 B 必须在 A 的相同一对$(s_0, s_t)$之间重复动作，这个框架只适用于可逆或可重置的环境。

Alice 应该学会让 Bob 走出舒适区，但不要给他不可能的任务。Bob 的奖励设定为$R_B = -\gamma t_B$，Alice 的奖励为$R_A = \gamma \max(0, t_B - t_A)$，其中$t_B$是 B 完成任务的总时间，$t_A$是 Alice 执行 STOP 动作的时间，$\gamma$是一个标量常数，用于重新调整奖励，使其可与外部任务奖励进行比较。如果 B 失败了一个任务，$t_B = t_\max - t_A$。两个策略都是目标条件的。损失意味着：

B 希望尽快完成任务。
A 更喜欢占用 B 更多时间的任务。
当 B 失败时，A 不想走太多步。

这种方式，Alice 和 Bob 之间的互动自动构建了一系列越来越具挑战性任务的课程。同时，由于 A 在向 B 提出任务之前已经完成了任务，所以可以保证任务是可解的。

A 建议任务，然后 B 解决任务的范式听起来与师生框架相似。然而，在非对称自我对弈中，扮演老师角色的 Alice 也在同一个任务上工作，寻找 Bob 的挑战性案例，而不是明确优化 B 的学习过程。

自动目标生成

通常 RL 策略需要能够执行一组任务。目标应该谨慎选择，以便在每个训练阶段，对于当前策略来说既不太难也不太容易。目标$g \in \mathcal{G}$可以定义为一组状态$S^g$，当代理到达这些状态中的任何一个时，目标被视为已实现。

生成目标学习方法（Florensa, et al. 2018）的方法依赖于目标 GAN自动生成所需目标。在他们的实验中，奖励非常稀疏，只是一个二进制标志，表示目标是否实现，策略取决于目标，

\[\begin{aligned} \pi^{*}(a_t\vert s_t, g) &= \arg\max_\pi \mathbb{E}_{g\sim p_g(.)} R^g(\pi) \\ \text{where }R^g(\pi) &= \mathbb{E}_\pi(.\mid s_t, g) \mathbf{1}[\exists t \in [1,\dots, T]: s_t \in S^g] \end{aligned} \]

这里$R^g(\pi)$是期望回报，也等同于成功概率。给定当前策略的采样轨迹，只要任何状态属于目标集，回报将为正。

他们的方法通过 3 个步骤迭代，直到策略收敛：

根据当前策略是否适当难度，为一组目标打上标签。

适当难度的目标集被命名为GOID（“中等难度目标”的缩写）。

$\text{GOID}_i := \{g : R_\text{min} \leq R^g(\pi_i) \leq R_\text{max} \} \subseteq G$
这里 $R_\text{min}$ 和 $R_\text{max}$ 可以被解释为在 T 个时间步内达到目标的最小和最大概率。

使用从步骤 1 中标记的目标训练 Goal GAN 模型以生成新目标。
使用这些新目标来训练策略，改进其覆盖目标。

Goal GAN 自动生成课程：

生成器 $G(z)$: 产生一个新的目标。 => 预期是从 $GOID$ 集合均匀抽样得到的目标。
判别器 $D(g)$: 评估一个目标是否可以实现。 => 预期能够判断目标是否来自 $GOID$ 集合。

Goal GAN 的构建类似于 LSGAN（最小二乘 GAN; Mao 等人，(2017)），相比于普通 GAN，具有更好的学习稳定性。根据 LSGAN，我们应分别最小化以下损失函数以用于 $D$ 和 $G$：

\[\begin{aligned} \mathcal{L}_\text{LSGAN}(D) &= \frac{1}{2} \mathbb{E}_{g \sim p_\text{data}(g)} [ (D(g) - b)²] + \frac{1}{2} \mathbb{E}_{z \sim p_z(z)} [ (D(G(z)) - a)²] \\ \mathcal{L}_\text{LSGAN}(G) &= \frac{1}{2} \mathbb{E}_{z \sim p_z(z)} [ (D(G(z)) - c)²] \end{aligned} \]

其中 $a$ 是假数据的标签，$b$ 是真实数据的标签，$c$ 是 $G$ 希望 $D$ 相信假数据的值。在 LSGAN 论文的实验中，他们使用了 $a=-1, b=1, c=0$。

Goal GAN 引入了额外的二进制标志 $y_b$，指示一个目标 $g$ 是真实的（$y_g = 1$）还是虚假的（$y_g = 0$），以便模型可以使用负样本进行训练：

\[ \begin{aligned} \mathcal{L}_\text{GoalGAN}(D) &= \frac{1}{2} \mathbb{E}_{g \sim p_\text{data}(g)} [ (D(g) - b)² + (1-y_g) (D(g) - a)²] + \frac{1}{2} \mathbb{E}_{z \sim p_z(z)} [ (D(G(z)) - a)²] \\ \mathcal{L}_\text{GoalGAN}(G) &= \frac{1}{2} \mathbb{E}_{z \sim p_z(z)} [ (D(G(z)) - c)²] \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/6d4e8e1e646bb9e16e5842b52052d8cf.png) 图 6\. 生成式目标学习算法。 (图片来源: ([Florensa, et al. 2018](https://arxiv.org/abs/1705.06366)) 遵循相同的思路，[Racaniere & Lampinen, et al. (2019)](https://arxiv.org/abs/1909.12892) 设计了一种方法，使目标生成器的目标更加复杂。他们的方法包含三个组件，与上述生成式目标学习相同： + **Solver**/Policy $\pi$: 在每一集中，求解器在开始时获得一个目标 $g$，并在结束时获得单一的二进制奖励 $R^g$。 + **Judge**/Discriminator $D(.)$: 用于预测二进制奖励的分类器（目标是否可以实现）；准确地输出给定目标实现概率的对数几率，$\sigma(D(g)) = p(R^g=1\vert g)$，其中 $\sigma$ 是 Sigmoid 函数。 + **Setter**/Generator $G(.)$: 目标设定者接受期望的可行性得分 $f \in \text{Unif}(0, 1)$ 作为输入，并生成 $g = G(z, f)$，其中潜变量 $z$ 是由 $z \sim \mathcal{N}(0, I)$ 抽样得到的。目标生成器被设计为可逆的，因此 $G^{-1}$ 可以从目标 $g$ 逆向映射到潜变量 $z = G^{-1}(g, f)$ 生成器被优化为三个目标： 1. 目标**有效性**：提出的目标应该可以由专家策略实现。相应的生成损失旨在增加生成已被解算器策略实现过的目标的可能性（就像在[HER](https://arxiv.org/abs/1707.01495)中一样）。 + $\mathcal{L}_\text{val}$ 是过去已被解决的生成目标的负对数似然。 $$ \begin{align*} \mathcal{L}_\text{val} = \mathbb{E}_{\substack{ g \sim \text{ achieved by solver}, \\ \xi \in \text{Uniform}(0, \delta), \\ f \in \text{Uniform}(0, 1) }} \big[ -\log p(G^{-1}(g + \xi, f)) \big] \end{align*} \]

目标可行性：提出的目标应该可以由当前策略实现；即，难度水平应该适当。
- $\mathcal{L}_\text{feas}$ 是评判模型 $D$ 对生成目标 $G(z, f)$ 的输出概率应该与期望的 $f$ 匹配。

\[\begin{align*} \mathcal{L}_\text{feas} = \mathbb{E}_{\substack{ z \in \mathcal{N}(0, 1), \\ f \in \text{Uniform}(0, 1) }} \big[ D(G(z, f)) - \sigma^{-1}(f)² \big] \end{align*} \]

目标覆盖率：我们应该最大化生成目标的熵，以鼓励多样化的目标并提高对目标空间的覆盖率。

\[\begin{align*} \mathcal{L}_\text{cov} = \mathbb{E}_{\substack{ z \in \mathcal{N}(0, 1), \\ f \in \text{Uniform}(0, 1) }} \big[ \log p(G(z, f)) \big] \end{align*} \]

他们的实验表明，复杂环境需要上述三种损失。当环境在不同剧集之间变化时，目标生成器和鉴别器都需要根据环境观察进行条件化，以产生更好的结果。如果有一个期望的目标分布，可以添加额外的损失以使用 Wasserstein 距离匹配期望的目标分布。使用这种损失，生成器可以更有效地推动解算器掌握期望的任务。

图 7. (a) 解算器/策略，(b) 评判者/鉴别器，和 (c) 设定者/目标生成器模型的训练示意图。 (图片来源：Racaniere & Lampinen, et al., 2019)

基于技能的课程

另一个观点是将代理能够完成的任务分解为各种技能，并且每个技能集可以映射到一个任务。想象一下，当一个代理以无监督的方式与环境互动时，是否有一种方法可以从这种互动中发现有用的技能，并进一步构建成更复杂任务的解决方案？

Jabri 等人（2019）通过将无监督轨迹建模为潜在技能空间，开发了一个自动课程，CARML（“无监督元强化学习课程”），专注于训练元强化学习（meta-RL）策略（即可以转移到未见过的任务）。CARML 中的训练环境设置类似于DIAYN。不同的是，CARML 在像素级观察上进行训练，而 DIAYN 在真实状态空间上运行。通过与学习奖励函数 $r$ 结合的无监督交互形式化为 CMP 的 RL 算法 $\pi_\theta$，参数化为 $\theta$，进行训练。这种设置自然适用于元学习目的，因为在测试时可以仅提供定制的奖励函数。

图 8. 展示了 CARML 的示意图，包含两个步骤：(1) 将经验数据组织到潜在技能空间中；(2) 使用从学习到的技能构建的奖励函数对策略进行元训练。（图片来源：Jabri 等人，2019）

CARML 被构建为一个变分期望最大化（EM）。

(1) E-Step：这是组织经验数据的阶段。收集到的轨迹被建模为形成技能的潜在组件的混合物。

让 $z$ 成为一个潜在任务变量，$q_\phi$ 成为 $z$ 的变分分布，它可以是具有离散 $z$ 的混合模型或具有连续 $z$ 的 VAE。变分后验 $q_\phi(z \vert s)$ 的作用类似于一个分类器，预测给定状态的技能，并且我们希望最大化 $q_\phi(z \vert s)$，尽可能地区分由不同技能产生的数据。在 E 步中，$q_\phi$ 被拟合到由 $\pi_\theta$ 产生的一组轨迹。

精确地说，给定一个轨迹 $\tau = (s_1,\dots,s_T)$，我们希望找到 $\phi$，使得

\[\max_\phi \mathbb{E}_{z\sim q_\phi(z)} \big[ \log q_\phi(\tau \vert z) \big] = \max_\phi \mathbb{E}_{z\sim q_\phi(z)} \big[ \sum_{s_i \in \tau} \log q_\phi(s_i \vert z) \big] \]

这里做出了一个简化假设，忽略了一个轨迹中状态的顺序。

(2) M-Step：这是进行与 $\pi_\theta$ 的元强化学习训练的阶段。学习到的技能空间被视为训练任务分布。CARML 对于策略参数更新的元 RL 算法类型是不可知的。

给定一个轨迹 $\tau$，策略最大化 $\tau$ 和 $z$ 之间的互信息是有意义的，$I(\tau;z) = H(\tau) - H(\tau \vert z)$，因为：

最大化 $H(\tau)$ => 策略数据空间中的多样性；预计会很大。
最小化$H(\tau \vert z)$ => 给定某个技能，行为应受限制；预期应该很小。

然后我们有，

\[\begin{aligned} I(\tau; z) &= \mathcal{H}(z) - \mathcal{H}(z \vert s_1,\dots, s_T) \\ &\geq \mathbb{E}_{s \in \tau} [\mathcal{H}(z) - \mathcal{H}(z\vert s)] & \scriptstyle{\text{; 忽略状态的顺序。}} \\ &= \mathbb{E}_{s \in \tau} [\mathcal{H}(s_t) - \mathcal{H}(s\vert z)] & \scriptstyle{\text{; 根据互信息的定义。}} \\ &= \mathbb{E}_{z\sim q_\phi(z), s\sim \pi_\theta(s|z)} [\log q_\phi(s|z) - \log \pi_\theta(s)] \\ &\approx \mathbb{E}_{z\sim q_\phi(z), s\sim \pi_\theta(s|z)} [\color{green}{\log q_\phi(s|z) - \log q_\phi(s)}] & \scriptstyle{\text{; 假设学习的边缘分布与策略匹配。}} \end{aligned} \]

我们可以将奖励设置为$\log q_\phi(s \vert z) - \log q_\phi(s)$，如上述方程中的红色部分所示。为了在任务特定的探索（如下面的红色部分）和潜在技能匹配（如下面的蓝色部分）之间取得平衡，添加了一个参数$\lambda \in [0, 1]$。每个$z \sim q_\phi(z)$的实现引入了一个奖励函数$r_z(s)$（记住奖励 + CMP => MDP）如下：

\[ \begin{aligned} r_z(s) &= \lambda \log q_\phi(s|z) - \log q_\phi(s) \\ &= \lambda \log q_\phi(s|z) - \log \frac{q_\phi(s|z) q_\phi(z)}{q_\phi(z|s)} \\ &= \lambda \log q_\phi(s|z) - \log q_\phi(s|z) - \log q_\phi(z) + \log q_\phi(z|s) \\ &= (\lambda - 1) \log \color{red}{q_\phi(s|z)} + \color{blue}{\log q_\phi(z|s)} + C \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/38d4921e21dd996b2759fffbce3f3cb8.png) 图 9\. CARML 的算法。（图片来源：[Jabri, et al 2019](https://arxiv.org/abs/1912.04226)）学习潜在技能空间可以通过不同的方式完成，比如在[Hausman, et al. 2018](https://openreview.net/forum?id=rk07ZXZRb)中。他们方法的目标是学习一个任务条件的策略，$\pi(a \vert s, t^{(i)})$，其中$t^{(i)}$来自于一个包含$N$个任务的离散列表，$\mathcal{T} = [t^{(1)}, \dots, t^{(N)}]$。然而，与其学习$N$个单独的解决方案，一个解决方案对应一个任务，学习一个潜在技能空间会更好，这样每个任务可以在技能分布中表示，因此技能在任务之间*得以重复利用*。策略定义为$\pi_\theta(a \vert s,t) = \int \pi_\theta(a \vert z,s,t) p_\phi(z \vert t)\mathrm{d}z$，其中$\pi_\theta$和$p_\phi$分别是要学习的策略和嵌入网络。如果$z$是离散的，即从$K$个技能中抽取，那么策略就变成了$K$个子策略的混合。策略训练使用[SAC](http://127.0.0.1:4000/lil-log/2018/04/07/policy-gradient-algorithms.html#sac)，并且对$z$的依赖性是通过熵项引入的。 # 通过蒸馏进行课程设计 [我考虑了一段时间这一部分的名称，考虑在克隆、继承和蒸馏之间做出选择。最终，我选择了蒸馏，因为听起来最酷 B-)] **渐进神经网络**（[Rusu 等人，2016](https://arxiv.org/abs/1606.04671)）架构的动机是在不同任务之间有效地转移学习到的技能，同时避免灾难性遗忘。通过一组逐渐堆叠的神经网络塔（或“列”，如论文中所述）来实现课程。渐进网络具有以下结构： 1. 它始于一个包含$L$层神经元的单列，其中相应的激活层被标记为$h^{(1)}_i, i=1, \dots, L$。我们首先将这个单列网络训练到收敛，实现参数配置$\theta^{(1)}$。 1. 一旦转移到下一个任务，我们需要添加一个新列以适应新的上下文，同时冻结$\theta^{(1)}$以锁定从先前任务中学到的技能。新列具有标记为$h^{(2)}_i, i=1, \dots, L$的激活层，以及参数$\theta^{(2)}$。 1. 第 2 步可以针对每个新任务重复进行。第$k$列中第$i$层的激活取决于所有现有列中先前激活层的激活： $$ h^{(k)}_i = f(W^{(k)}_i h^{(k)}_{i-1} + \sum_{j < k} U_i^{(k:j)} h^{(j)}_{i-1}) \]

其中$W^{(k)}_i$是第$k$列中第$i$层的权重矩阵；$U_i^{(k:j)}, j < k$是用于将第$j$列的第$i-1$层投影到第$k$列的第$i$层的权重矩阵（$ j < k $）。上述权重矩阵应该被学习。$f(.)$是一个非线性激活函数的选择。

图 10. 渐进神经网络架构。（图片来源：Rusu 等人，2017)

该论文通过在多个游戏上训练渐进网络来进行 Atari 游戏实验，以检查在一个游戏中学到的特征是否可以转移到另一个游戏。事实上是这样的。尽管有趣的是，对先前列中特征的高依赖并不总是表明在新任务上有良好的转移性能。一个假设是，从旧任务学到的特征可能会引入偏见到新任务中，导致策略陷入次优解。总体而言，渐进网络比仅微调顶层效果更好，并且可以实现与微调整个网络相似的转移性能。

渐进网络的一个用例是进行 sim2real 转移（Rusu 等人，2017），其中第一列在模拟器中用大量样本进行训练，然后添加并用少量真实数据样本训练额外列（可能用于不同的真实世界任务）。

Czarnecki 等人 (2018) 提出了另一个 RL 训练框架，Mix & Match（简称 M&M），通过在代理之间共享知识提供课程。给定一系列从简单到复杂的代理，$\pi_1, \dots, \pi_K$，每个都使用一些共享权重进行参数化（例如通过共享一些较低的公共层）。M&M 训练一组代理，但只有最复杂的一个 $\pi_K$ 的最终表现才重要。

与此同时，M&M 学习了一个分类分布 $c \sim \text{Categorical}(1, \dots, K \vert \alpha)$，其 pmf 为 $p(c=i) = \alpha_i$，表示在特定时间选择使用哪种策略的概率。混合 M&M 策略是一个简单的加权和：$\pi_\text{mm}(a \vert s) = \sum_{i=1}^K \alpha_i \pi_i(a \vert s)$。课程学习通过动态调整 $\alpha_i$ 实现，从 $\alpha_K=0$ 调整到 $\alpha_K=1$。调整 $\alpha$ 可以是手动的，也可以通过 population-based training 进行。

为了鼓励策略之间的合作而不是竞争，除了 RL 损失 $\mathcal{L}_\text{RL}$ 外，还添加了另一个类似于蒸馏的损失 $\mathcal{L}_\text{mm}(\theta)$。知识传输损失 $\mathcal{L}_\text{mm}(\theta)$ 衡量了两个策略之间的 KL 散度，$\propto D_\text{KL}(\pi_{i}(. \vert s) | \pi_j(. \vert s))$ 对于 $i < j$。它鼓励复杂的代理尽早与简单的代理匹配。最终损失为 $\mathcal{L} = \mathcal{L}_\text{RL}(\theta \vert \pi_\text{mm}) + \lambda \mathcal{L}_\text{mm}(\theta)$。

图 11. 用于训练一组策略的 Mix & Match 架构。（图片来源：Czarnecki 等人，2018）

引用

引用为：

Weng, Lilian.（2020 年 1 月）。强化学习的课程。Lil’Log。https://lilianweng.github.io/posts/2020-01-29-curriculum-rl/。

或

@article{weng2020curriculum,
  title   = "Curriculum for Reinforcement Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2020",
  month   = "Jan",
  url     = "https://lilianweng.github.io/posts/2020-01-29-curriculum-rl/"
}

参考文献

[1] Jeffrey L. Elman。“Learning and development in neural networks: The importance of starting small.” Cognition 48.1 (1993): 71-99。

[2] Yoshua Bengio 等人。“Curriculum learning.” ICML 2009。

[3] Daphna Weinshall, Gad Cohen 和 Dan Amir。“Curriculum learning by transfer learning: Theory and experiments with deep networks.” ICML 2018。

[4] Wojciech Zaremba 和 Ilya Sutskever。“Learning to execute.” arXiv 预印本 arXiv:1410.4615 (2014)。

[5] Tambet Matiisen 等人。“Teacher-student curriculum learning.” IEEE Trans. on neural networks and learning systems (2017)。

[6] Alex Graves 等人，《神经网络的自动课程学习》，ICML 2017。

[7] Remy Portelas 等人，《连续参数化环境中深度 RL 课程学习的教师算法》，CoRL 2019。

[8] Sainbayar Sukhbaatar 等人，《通过不对称自我对弈实现内在动机和自动课程设置》，ICLR 2018。

[9] Carlos Florensa 等人，《强化学习代理的自动生成目标》，ICML 2019。

[10] Sebastien Racaniere & Andrew K. Lampinen 等人，《通过 Setter-Solver 互动实现自动课程设置》，ICLR 2020。

[11] Allan Jabri 等人，《视觉元强化学习的无监督课程设置》，NeuriPS 2019。

[12] Karol Hausman 等人，《学习可转移机器人技能的嵌入空间》，ICLR 2018。

[13] Josh Merel 等人，《用于视觉引导全身运动和物体操作的可重用神经技能嵌入》，arXiv 预印本 arXiv:1911.06636（2019）。

[14] OpenAI 等人，《用机器人手解决魔方问题》，arXiv 预印本 arXiv:1910.07113（2019）。

[15] Niels Justesen 等人，《通过程序级别生成揭示深度强化学习中的泛化能力》，NeurIPS 2018 深度 RL 研讨会。

[16] Karl Cobbe 等人，《量化强化学习中的泛化能力》，arXiv 预印本 arXiv:1812.02341（2018）。

[17] Andrei A. Rusu 等人，《渐进式神经网络》，arXiv 预印本 arXiv:1606.04671（2016）。

[18] Andrei A. Rusu 等人，《从像素到真实机器人学习的渐进式网络》，CoRL 2017。

[19] Wojciech Marian Czarnecki 等人，《混合与匹配 - 强化学习代理课程设置》，ICML 2018。

自监督表示学习

原文：lilianweng.github.io/posts/2019-11-10-self-supervised/

更新于 2020-01-09：添加了一个关于[对比预测编码的新部分]。

~~[更新于 2020-04-13：在 MoCo、SimCLR 和 CURL 上添加了一个“动量对比”部分。]~~

更新于 2020-07-08：在 DeepMDP 和 DBC 上添加了一个[“双模拟”部分。]

~~[更新于 2020-09-12：在“动量对比”部分添加了MoCo V2和BYOL。]~~

[更新于 2021-05-31：删除了“动量对比”部分，并添加了指向“对比表示学习”完整文章的链接]

给定一个任务和足够的标签，监督学习可以很好地解决问题。良好的性能通常需要相当数量的标签，但收集手动标签是昂贵的（例如 ImageNet），而且很难扩展。考虑到未标记数据的数量（例如自由文本，互联网上的所有图像）远远超过有限数量的人工策划的标记数据集，不利用它们有点浪费。然而，无监督学习并不容易，通常效率远低于监督学习。

如果我们可以免费为未标记数据获取标签，并以监督方式训练无监督数据集，会怎样？我们可以通过以特殊形式构建一个监督学习任务来实现这一点，仅使用其余部分来预测信息的子集。通过这种方式，提供了所需的所有信息，包括输入和标签。这被称为自监督学习。

这个想法已被广泛应用于语言建模。语言模型的默认任务是在给定过去序列的情况下预测下一个单词。BERT添加了另外两个辅助任务，两者都依赖于自动生成的标签。

图 1. 一个很好的总结，展示了如何构建自监督学习任务（图片来源：LeCun 的演讲）

这里是一个精心策划的自监督学习论文列表。如果您对深入阅读感兴趣，请查看。

请注意，本文不专注于自然语言处理/NLP 或语言建模或生成建模。

为什么要进行自监督学习？

自监督学习使我们能够免费利用数据中附带的各种标签。动机非常直接。生成一个带有清晰标签的数据集是昂贵的，但未标记数据一直在生成。为了利用这个更大量的未标记数据，一个方法是适当设置学习目标，以便从数据本身获得监督。

自监督任务，也称为假任务，引导我们到一个监督损失函数。然而，我们通常不关心这个虚构任务的最终表现。相反，我们对学到的中间表示感兴趣，期望这个表示能够携带良好的语义或结构含义，并对各种实际下游任务有益。

例如，我们可以随机旋转图像并训练模型来预测每个输入图像的旋转方式。旋转预测任务是虚构的，因此实际准确性并不重要，就像我们对待辅助任务一样。但我们期望模型学习到高质量的潜在变量，以用极少标记样本构建物体识别分类器等真实世界任务。

广义上说，所有生成模型都可以被视为自监督的，但目标不同：生成模型专注于创建多样且逼真的图像，而自监督表示学习关注于生成对许多任务有帮助的良好特征。生成建模不是本文的重点，但欢迎查看我的之前的文章。

基于图像

对于图像的自监督表示学习已经提出了许多想法。一个常见的工作流程是在未标记的图像上训练一个模型进行一个或多个假任务，然后使用该模型的一个中间特征层来为 ImageNet 分类上的多项式逻辑回归分类器提供输入。最终的分类准确度量化了学习到的表示有多好。

最近，一些研究人员提出同时在标记数据上进行监督学习和在未标记数据上进行自监督假任务学习，共享权重，例如Zhai 等人，2019和Sun 等人，2019。

扭曲

我们期望对图像进行轻微扭曲不会改变其原始语义含义或几何形式。轻微扭曲的图像被视为与原始图像相同，因此学到的特征预期对扭曲具有不变性。

典范-CNN（Dosovitskiy 等人，2015）使用未标记的图像补丁创建替代训练数据集：

从不同图像中的不同位置和比例中随机采样大小为 32×32 像素的$N$个补丁，仅从包含相当梯度的区域中采样，因为这些区域涵盖边缘并倾向于包含对象或对象的部分。它们是“典型的”补丁。
通过应用各种随机变换（即平移、旋转、缩放等）来扭曲每个补丁。所有生成的扭曲补丁都被视为属于同一代理类。
假设任务是区分一组代理类。我们可以任意创建任意多个代理类。

图 2。一只可爱鹿的原始补丁位于左上角。应用随机变换后，产生各种扭曲补丁。所有这些补丁在假设任务中应被分类为同一类。（图片来源：Dosovitskiy 等人，2015）

旋转整个图像（Gidaris 等人，2018是另一种有趣且廉价的修改输入图像的方式，同时语义内容保持不变。每个输入图像首先以随机的$90^\circ$的倍数旋转，对应于$[0^\circ, 90^\circ, 180^\circ, 270^\circ]$。模型被训练以预测应用了哪种旋转，因此是一个 4 类分类问题。

为了识别不同旋转的相同图像，模型必须学会识别高级对象部分，如头部、鼻子和眼睛，以及这些部分的相对位置，而不是局部模式。这个假设任务驱使模型以这种方式学习对象的语义概念。

图 3。通过旋转整个输入图像进行自监督学习的示意图。模型学会预测应用了哪种旋转。（图片来源：Gidaris 等人，2018）

补丁

第二类自监督学习任务从一幅图像中提取多个补丁，并要求模型预测这些补丁之间的关系。

Doersch 等人（2015）将假设任务规定为预测一幅图像中两个随机补丁之间的相对位置。模型需要理解对象的空间上下文，以便告知部分之间的相对位置。

训练补丁的采样方式如下：

随机采样第一个补丁，不参考图像内容。
考虑第一个补丁放置在 3x3 网格的中间，第二个补丁从其周围 8 个相邻位置中采样。
为了避免模型仅捕捉低级琐碎信号，如穿过边界连接一条直线或匹配局部模式，通过引入额外的噪声来增加：
- 在补丁之间添加间隙
- 小的抖动
- 随机降低一些补丁的分辨率至少为 100 个像素，然后上采样，以增强对像素化的鲁棒性。
- 将绿色和品红色向灰色移动或随机丢弃 3 种颜色通道中的 2 种（见下文的“色差”）
模型被训练来预测第二个补丁选自 8 个相邻位置中的哪一个，这是一个包含 8 个类别的分类问题。

图 4. 通过预测两个随机补丁的相对位置进行自监督学习的示意图。（图片来源：Doersch et al., 2015）

除了像边界模式或纹理等微不足道的信号持续外，另一个有趣且有点令人惊讶的微不足道解决方案被发现，称为“色差”。这是由于不同波长的光在透过镜头时具有不同的焦距而触发的。在这个过程中，颜色通道之间可能存在小的偏移。因此，模型可以通过简单比较两个补丁中绿色和品红的分离方式来学会告诉相对位置。这是一个微不足道的解决方案，与图像内容无关。通过将图像预处理为将绿色和品红向灰色移动或随机丢弃 3 个颜色通道中的 2 个来避免这个微不足道的解决方案。

图 5. 色差发生的示意图。（图片来源：维基百科）

既然在上述任务中每个图像中已经设置了一个 3x3 的网格，为什么不使用所有 9 个补丁而不仅仅是 2 个来使任务更加困难呢？根据这个想法，Noroozi & Favaro (2016)设计了一个拼图游戏作为预文本任务：模型被训练将 9 个洗牌后的补丁放回原始位置。

卷积网络独立处理每个补丁，共享权重，并为预定义的排列集合中的每个补丁索引输出一个概率向量。为了控制拼图谜题的难度，该论文建议根据预定义的排列集合对补丁进行洗牌，并配置模型以预测整个集合中所有索引的概率向量。

因为输入补丁的洗牌方式不会改变正确的预测顺序。加快训练的一个潜在改进是使用不变排列图卷积网络（GCN），这样我们就不必多次洗牌相同的补丁集，与这篇论文中的想法相同。

图 6. 通过解决拼图谜题进行自监督学习的示意图。（图片来源：Noroozi & Favaro, 2016）

另一个想法是将“特征”或“视觉基元”视为可以在多个补丁上求和并在不同补丁之间进行比较的标量属性。然后，通过计数特征和简单算术来定义补丁之间的关系（Noroozi, et al, 2017）。

本文考虑了两种变换：

缩放：如果一个图像被放大 2 倍，视觉基元的数量应该保持不变。
平铺：如果一个图像被平铺成一个 2x2 的网格，预期视觉基元的数量将是原始特征计数的四倍。

该模型通过上述特征计数关系学习特征编码器 $\phi(.)$。给定一个输入图像 $\mathbf{x} \in \mathbb{R}^{m \times n \times 3}$，考虑两种类型的变换操作：

下采样操作符，$D: \mathbb{R}^{m \times n \times 3} \mapsto \mathbb{R}^{\frac{m}{2} \times \frac{n}{2} \times 3}$：按 2 倍下采样
平铺操作符 $T_i: \mathbb{R}^{m \times n \times 3} \mapsto \mathbb{R}^{\frac{m}{2} \times \frac{n}{2} \times 3}$：从图像的 2x2 网格中提取第 $i$ 个瓦片。

我们期望学习：

\[\phi(\mathbf{x}) = \phi(D \circ \mathbf{x}) = \sum_{i=1}⁴ \phi(T_i \circ \mathbf{x}) \]

因此，均方误差损失为：$\mathcal{L}_\text{feat} = |\phi(D \circ \mathbf{x}) - \sum_{i=1}⁴ \phi(T_i \circ \mathbf{x})|²_2$。为了避免平凡解 $\phi(\mathbf{x}) = \mathbf{0}, \forall{\mathbf{x}}$，另一个损失项被添加以鼓励两个不同图像特征之间的差异：$\mathcal{L}_\text{diff} = \max(0, c -|\phi(D \circ \mathbf{y}) - \sum_{i=1}⁴ \phi(T_i \circ \mathbf{x})|²_2)$，其中 $\mathbf{y}$ 是与 $\mathbf{x}$ 不同的另一个输入图像，$c$ 是一个标量常数。最终损失为：

\[ \mathcal{L} = \mathcal{L}_\text{feat} + \mathcal{L}_\text{diff} = \|\phi(D \circ \mathbf{x}) - \sum_{i=1}⁴ \phi(T_i \circ \mathbf{x})\|²_2 + \max(0, M -\|\phi(D \circ \mathbf{y}) - \sum_{i=1}⁴ \phi(T_i \circ \mathbf{x})\|²_2) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c4ca05d54f791f8effc2c2ae667205fc.png) 图 7\. 通过计数特征进行自监督表示学习。（图片来源：[Noroozi 等人，2017](https://arxiv.org/abs/1708.06734)） ## 上色 **上色**可以作为一个强大的自监督任务：模型被训练为给灰度输入图像上色；准确地说，任务是将这个图像映射到一个分布上的量化颜色值输出（[Zhang 等人，2016](https://arxiv.org/abs/1603.08511)）。该模型在[CIE L*a*b*颜色空间](https://en.wikipedia.org/wiki/CIELAB_color_space)中输出颜色。L*a*b*颜色旨在近似人类视觉，而相比之下，RGB 或 CMYK 模型则输出物理设备的颜色。 + L* 组件匹配了光亮度的人类感知；L* = 0 代表黑色，L* = 100 代表白色。 + a* 组件代表绿色（负值）/品红色（正值）。 + b* 组件模拟蓝色（负值）/黄色（正值）。由于上色问题的多模态性质，预测的颜色值分布的交叉熵损失比原始颜色值的 L2 损失效果更好。a*b* 颜色空间被量化为桶大小为 10。为了在常见颜色（通常是低 a*b*值，如云、墙壁和泥土等常见背景）和稀有颜色之间取得平衡（这些颜色可能与图像中的关键对象相关），损失函数通过加权项进行重新平衡，增加了罕见颜色桶的损失。这就像我们在信息检索模型中为什么需要[tf 和 idf](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)来评分单词一样。加权项构造如下：(1-λ) * 高斯核平滑的经验概率分布 + λ * 均匀分布，其中两个分布都是在量化的 a*b*颜色空间上。 ## 生成建模生成建模中的预设任务是在学习有意义的潜在表示的同时重建原始输入。 **去噪自动编码器**（[Vincent 等人，2008](https://www.cs.toronto.edu/~larocheh/publications/icml-2008-denoising-autoencoders.pdf)）学习从部分损坏或带有随机噪声的图像中恢复图像。该设计灵感来自于人类即使在有噪声的图片中也能轻松识别物体，表明关键的视觉特征可以从噪声中提取和分离出来。查看我的[旧文章](https://lilianweng.github.io/posts/2018-08-12-vae/#denoising-autoencoder)。 **上下文编码器**（[Pathak 等人，2016](https://arxiv.org/abs/1604.07379)）被训练用于填补图像中的缺失部分。设$\hat{M}$为二进制掩码，0 表示删除的像素，1 表示剩余的输入像素。该模型通过重建（L2）损失和对抗损失的组合进行训练。由掩码定义的移除区域可以是任意形状。 $$ \begin{aligned} \mathcal{L}(\mathbf{x}) &= \mathcal{L}_\text{recon}(\mathbf{x}) + \mathcal{L}_\text{adv}(\mathbf{x})\\ \mathcal{L}_\text{recon}(\mathbf{x}) &= \|(1 - \hat{M}) \odot (\mathbf{x} - E(\hat{M} \odot \mathbf{x})) \|_2² \\ \mathcal{L}_\text{adv}(\mathbf{x}) &= \max_D \mathbb{E}_{\mathbf{x}} [\log D(\mathbf{x}) + \log(1 - D(E(\hat{M} \odot \mathbf{x})))] \end{aligned} \]

其中$E(.)$是编码器，$D(.)$是解码器。

图 8. 上下文编码器的示意图。（图片来源：Pathak 等人，2016）

在图像上应用遮罩时，上下文编码器会删除部分区域中所有颜色通道的信息。那么只隐藏一部分通道呢？ 分裂脑自动编码器（Zhang 等人，2017）通过从其余通道预测一部分颜色通道来实现这一点。让数据张量 $\mathbf{x} \in \mathbb{R}^{h \times w \times \vert C \vert }$，其中 $C$ 为颜色通道，成为网络的第 $l$ 层的输入。它被分成两个不相交的部分，$\mathbf{x}_1 \in \mathbb{R}^{h \times w \times \vert C_1 \vert}$ 和 $\mathbf{x}_2 \in \mathbb{R}^{h \times w \times \vert C_2 \vert}$，其中 $C_1 , C_2 \subseteq C$。然后训练两个子网络进行两个互补的预测：一个网络 $f_1$ 从 $\mathbf{x}_1$ 预测 $\mathbf{x}_2$，另一个网络 $f_1$ 从 $\mathbf{x}_2$ 预测 $\mathbf{x}_1$。如果颜色值被量化，则损失可以是 L1 损失或交叉熵损失。

分割可以在 RGB-D 或 Lab*颜色空间中进行一次，也可以在 CNN 网络的每一层中进行，其中通道数可以是任意的。

图 9. 分裂脑自动编码器的示意图。 (图片来源：Zhang 等人，2017)

生成对抗网络（GANs）能够学习将简单的潜变量映射到任意复杂的数据分布。研究表明，这种生成模型的潜空间捕捉了数据中的语义变化；例如，在训练 GAN 模型时，一些潜变量与面部表情、眼镜、性别等相关联（Radford 等人，2016）。

双向 GANs（Donahue 等人，2017）引入了额外的编码器 $E(.)$ 来学习从输入到潜变量 $\mathbf{z}$ 的映射。判别器 $D(.)$ 在输入数据和潜在表示 $(\mathbf{x}, \mathbf{z})$ 的联合空间中进行预测，以区分生成的对 $(\mathbf{x}, E(\mathbf{x}))$ 和真实对 $(G(\mathbf{z}), \mathbf{z})$。该模型被训练以优化目标：$\min_{G, E} \max_D V(D, E, G)$，其中生成器 $G$ 和编码器 $E$ 学习生成足够逼真的数据和潜变量，以混淆判别器，同时判别器 $D$ 试图区分真实数据和生成数据。

\[ V(D, E, G) = \mathbb{E}_{\mathbf{x} \sim p_\mathbf{x}} [ \underbrace{\mathbb{E}_{\mathbf{z} \sim p_E(.\vert\mathbf{x})}[\log D(\mathbf{x}, \mathbf{z})]}_{\log D(\text{real})} ] + \mathbb{E}_{\mathbf{z} \sim p_\mathbf{z}} [ \underbrace{\mathbb{E}_{\mathbf{x} \sim p_G(.\vert\mathbf{z})}[\log 1 - D(\mathbf{x}, \mathbf{z})]}_{\log(1- D(\text{fake}))}) ] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d69f79a686651de000f1445d690f1ff8.png) 图 10\. 双向 GAN 的工作原理示意图。 (图片来源: [Donahue, et al, 2017](https://arxiv.org/abs/1605.09782)) ## 对比学习 **对比预测编码（CPC）** ([van den Oord, et al. 2018](https://arxiv.org/abs/1807.03748)) 是一种从高维数据中无监督学习的方法，通过将生成建模问题转化为分类问题。 CPC 中的*对比损失*或*InfoNCE 损失*，受到[噪声对比估计（NCE）](https://lilianweng.github.io/posts/2017-10-15-word-embedding/#noise-contrastive-estimation-nce)的启发，使用交叉熵损失来衡量模型在一组不相关的“负样本”中对“未来”表示进行分类的能力。这种设计部分受到的启发是，单模损失如 MSE 没有足够的容量，但学习完整的生成模型可能太昂贵。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/db27daabce7dbc6edb1c43d4165a582a.png) 图 11\. 展示了如何在音频输入上应用对比预测编码。 (图片来源: [van den Oord, et al. 2018](https://arxiv.org/abs/1807.03748)) CPC 使用编码器来压缩输入数据 $z_t = g_\text{enc}(x_t)$，并使用*自回归*解码器来学习可能在未来预测中共享的高级上下文，$c_t = g_\text{ar}(z_{\leq t})$。端到端的训练依赖于受 NCE 启发的对比损失。在预测未来信息时，CPC 被优化以最大化输入 $x$ 和上下文向量 $c$ 之间的互信息： $$ I(x; c) = \sum_{x, c} p(x, c) \log\frac{p(x, c)}{p(x)p(c)} = \sum_{x, c} p(x, c)\log\frac{p(x|c)}{p(x)} \]

CPC 不直接对未来观察结果 $p_k(x_{t+k} \vert c_t)$ 建模（这可能相当昂贵），而是模拟一个密度函数以保留 $x_{t+k}$ 和 $c_t$ 之间的互信息：

\[f_k(x_{t+k}, c_t) = \exp(z_{t+k}^\top W_k c_t) \propto \frac{p(x_{t+k}|c_t)}{p(x_{t+k})} \]

其中 $f_k$ 可以是未归一化的，用于预测的是一个线性变换 $W_k^\top c_t$，对于每一步 $k$ 使用不同的 $W_k$ 矩阵。

给定一个包含仅一个正样本 $x_t \sim p(x_{t+k} \vert c_t)$ 和 $N-1$ 个负样本 $x_{i \neq t} \sim p(x_{t+k})$ 的 $N$ 个随机样本集 $X = \{x_1, \dots, x_N\}$，正确分类正样本的交叉熵损失（其中 $\frac{f_k}{\sum f_k}$ 是预测）为：

\[ \mathcal{L}_N = - \mathbb{E}_X \Big[\log \frac{f_k(x_{t+k}, c_t)}{\sum_{i=1}^N f_k (x_i, c_t)}\Big] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d557ab76e629f89710f51d3a08680026.png) 图 12\. 展示了如何在图像上应用对比预测编码。 (图片来源: [van den Oord, et al. 2018](https://arxiv.org/abs/1807.03748)) 当在图像上使用 CPC 时 ([Henaff, et al. 2019](https://arxiv.org/abs/1905.09272))，预测网络应该只访问一个屏蔽的特征集，以避免平凡的预测。具体来说： 1. 每个输入图像被划分为一组重叠的补丁，每个补丁由一个 resnet 编码器编码，得到压缩特征向量$z_{i,j}$。 1. 掩蔽卷积网络通过一个掩码进行预测，以使给定输出神经元的感受野只能看到图像中它上方的内容。否则，预测问题将变得平凡。预测可以在两个方向（自上而下和自下而上）进行。 1. 预测是从上下文$c_{i,j}$中对$z_{i+k, j}$进行的：$\hat{z}_{i+k, j} = W_k c_{i,j}$。对比损失通过一个目标来量化这种预测，即正确识别目标在同一图像中其他补丁和同一批次中其他图像中采样的一组负表示$\{z_l\}$： $$ \mathcal{L}_\text{CPC} = -\sum_{i,j,k} \log p(z_{i+k, j} \vert \hat{z}_{i+k, j}, \{z_l\}) = -\sum_{i,j,k} \log \frac{\exp(\hat{z}_{i+k, j}^\top z_{i+k, j})}{\exp(\hat{z}_{i+k, j}^\top z_{i+k, j}) + \sum_l \exp(\hat{z}_{i+k, j}^\top z_l)} \]

欲了解更多关于对比学习的内容，请查看“对比表示学习”的文章。

基于视频的

一个视频包含一系列语义相关的帧。相邻帧在时间上接近且相关性更高，比远离的帧更相关。帧的顺序描述了某种推理和物理逻辑的规则；比如物体运动应该平滑，重力指向下方。

一个常见的工作流程是在未标记的视频上训练一个模型，然后将该模型的一个中间特征层馈送到一个简单模型上，用于下游任务的动作分类、分割或对象跟踪。

跟踪

一个物体的运动是由一系列视频帧跟踪的。同一物体在接近帧中在屏幕上的捕捉方式之间的差异通常不大，通常由物体或相机的微小运动触发。因此，学习同一物体在接近帧中的任何视觉表示应该在潜在特征空间中接近。受到这个想法的启发，Wang & Gupta, 2015提出了一种通过在视频中跟踪移动物体来无监督学习视觉表示的方法。

精确地跟踪具有运动的补丁在一个小时间窗口内（例如 30 帧）。选择第一个补丁$\mathbf{x}$和最后一个补丁$\mathbf{x}^+$作为训练数据点。如果直接训练模型以最小化两个补丁特征向量之间的差异，模型可能只学会将所有内容映射到相同的值。为避免这样的平凡解，与上文相同，添加一个随机第三个补丁$\mathbf{x}^-$。模型通过强制执行两个跟踪补丁之间的距离比特征空间中第一个补丁和随机补丁之间的距离更近来学习表示，$D(\mathbf{x}, \mathbf{x}^-)) > D(\mathbf{x}, \mathbf{x}^+)$，其中$D(.)$是余弦距离，

\[D(\mathbf{x}_1, \mathbf{x}_2) = 1 - \frac{f(\mathbf{x}_1) f(\mathbf{x}_2)}{\|f(\mathbf{x}_1)\| \|f(\mathbf{x}_2\|)} \]

损失函数为：

\[\mathcal{L}(\mathbf{x}, \mathbf{x}^+, \mathbf{x}^-) = \max\big(0, D(\mathbf{x}, \mathbf{x}^+) - D(\mathbf{x}, \mathbf{x}^-) + M\big) + \text{weight decay regularization term} \]

其中$M$是一个标量常数，控制两个距离之间的最小间隙；本文中$M=0.5$。该损失在最佳情况下强制执行$D(\mathbf{x}, \mathbf{x}^-) >= D(\mathbf{x}, \mathbf{x}^+) + M$。

这种形式的损失函数在人脸识别任务中也被称为三元损失，其中数据集包含来自多个摄像机角度的多个人的图像。设$\mathbf{x}^a$为特定人员的锚定图像，$\mathbf{x}^p$为该同一人员的不同角度的正图像，$\mathbf{x}^n$为不同人员的负图像。在嵌入空间中，$\mathbf{x}^a$应比$\mathbf{x}^n$更接近$\mathbf{x}^p$：

\[\mathcal{L}_\text{triplet}(\mathbf{x}^a, \mathbf{x}^p, \mathbf{x}^n) = \max(0, \|\phi(\mathbf{x}^a) - \phi(\mathbf{x}^p) \|_2² - \|\phi(\mathbf{x}^a) - \phi(\mathbf{x}^n) \|_2² + M) \]

一种略有不同的三元损失形式，名为n-pair loss也常用于机器人任务中学习观测嵌入。更多相关内容请参见后续章节。

图 13. 视频中通过跟踪物体学习表示的概述。 (a) 在短跟踪中识别移动补丁； (b) 将两个相关补丁和一个随机补丁输入具有共享权重的卷积网络。 (c) 损失函数强制执行相关补丁之间的距离比随机补丁之间的距离更近。 (图片来源：Wang & Gupta, 2015)

通过两步无监督的光流方法跟踪和提取相关补丁：

获取SURF兴趣点并使用IDT获取每个 SURF 点的运动。
给定 SURF 兴趣点的轨迹，如果流量大小超过 0.5 像素，则将这些点分类为移动点。

在训练期间，给定一对相关的补丁$\mathbf{x}$和$\mathbf{x}^+$，在同一批次中随机采样$K$个补丁$\{\mathbf{x}^-\}$以形成$K$个训练三元组。经过几个时期后，应用硬负样本挖掘使训练更加困难和高效，即搜索最大化损失的随机补丁，并使用它们进行梯度更新。

帧序列

视频帧自然地按时间顺序排列。研究人员提出了几个自监督任务，这些任务的动机是良好的表示应该学习正确的帧序列。

其中一个想法是验证帧序列（Misra 等人，2016）。预设任务是确定视频中的一系列帧是否按正确的时间顺序排列（“时间有效”）。模型需要跟踪和推理物体在帧之间的微小运动，以完成这样的任务。

训练帧从高运动窗口中采样。每次采样 5 帧$(f_a, f_b, f_c, f_d, f_e)$，时间戳按顺序排列$a < b < c < d < e$。在 5 帧中，创建一个正元组$(f_b, f_c, f_d)$和两个负元组，$(f_b, f_a, f_d)$和$(f_b, f_e, f_d)$。参数$\tau_\max = \vert b-d \vert$控制正训练实例的难度（即越高→越难），参数$\tau_\min = \min(\vert a-b \vert, \vert d-e \vert)$控制负样本的难度（即越低→越难）。

视频帧顺序验证的预设任务被证明在作为预训练步骤时，可以提高动作识别等下游任务的性能。

图 14。通过验证视频帧顺序学习表示的概述。 (a) 数据样本处理过程；(b) 模型是一个三元组孪生网络，其中所有输入帧共享权重。 (图片来源：Misra 等人，2016)

O3N（Odd-One-Out Network；Fernando 等人，2017）中的任务也是基于视频帧序列验证。比上述进一步，任务是从多个视频剪辑中选择错误的序列。

给定$N+1$个输入视频剪辑，其中一个剪辑的帧被打乱，因此顺序错误，其余$N$个剪辑保持正确的时间顺序。O3N 学习预测奇数视频剪辑的位置。在他们的实验中，有 6 个输入剪辑，每个剪辑包含 6 帧。

视频中的时间箭头包含非常丰富的信息，既有低级物理（例如重力将物体拉向地面；烟雾上升；水向下流动），也有高级事件推理（例如鱼向前游动；你可以打破一个鸡蛋但不能逆转它）。因此，受此启发，另一个想法是通过预测时间箭头（AoT）来学习潜在表示，即视频是正向播放还是反向播放（Wei et al., 2018）。

一个分类器应该捕捉低级物理和高级语义，以便预测时间的箭头。所提出的T-CAM（时间类激活图）网络接受$T$组，每组包含一定数量的光流帧。来自每组的卷积层输出被串联并馈入二元逻辑回归，用于预测时间的箭头。

图 15. 通过预测时间箭头学习表示的概述。（a）多组帧序列的卷积特征被串联。（b）顶层包含 3 个卷积层和平均池化。（图片来源：Wei et al, 2018)

有趣的是，数据集中存在一些人工线索。如果处理不当，可能会导致一个不依赖于实际视频内容的琐碎分类器：

由于视频压缩，黑色边框可能不完全是黑色，而是可能包含某些关于时间顺序的信息。因此，在实验中应该去除黑色边框。
大的摄像机运动，如垂直平移或缩放，也提供了时间箭头的强烈信号，但与内容无关。处理阶段应稳定摄像机运动。

当作为预训练步骤使用时，AoT 预文本任务被证明可以提高下游任务中的动作分类性能。请注意，仍然需要微调。

视频着色

Vondrick et al. (2018)提出了视频着色作为一个自监督学习问题，产生了一个丰富的表示，可用于视频分割和未标记的视觉区域跟踪，无需额外微调。

与基于图像的着色不同，这里的任务是通过利用视频帧之间的自然时间一致性，从一个彩色参考帧中复制颜色到另一个灰度目标帧，因此这两个帧在时间上不应该相隔太远。为了一致地复制颜色，模型被设计为学习跟踪不同帧中相关像素。

图 16. 通过从参考帧复制颜色到灰度目标帧进行视频着色。（图片来源：Vondrick et al. 2018）

这个想法非常简单而聪明。让$c_i$表示参考帧中第$i$个像素的真实颜色，$c_j$表示目标帧中第$j$个像素的颜色。目标帧中第$j$个像素的预测颜色$\hat{c}_j$是参考帧中所有像素颜色的加权和，其中加权项衡量了相似性：

\[\hat{c}_j = \sum_i A_{ij} c_i \text{ where } A_{ij} = \frac{\exp(f_i f_j)}{\sum_{i'} \exp(f_{i'} f_j)} \]

其中$f$是对应像素的学习嵌入；$i'$索引参考帧中的所有像素。加权项实现了一种基于注意力的指向机制，类似于匹配网络和指针网络。由于完整的相似性矩阵可能非常庞大，因此对两个帧进行了降采样。使用$c_j$和$\hat{c}_j$之间的分类交叉熵损失，使用量化颜色，就像Zhang 等人 2016 年中一样。

根据参考帧的标记方式，该模型可用于完成多个基于颜色的下游任务，如时间上的跟踪分割或人体姿势。无需微调。参见图 15。

图 17。使用视频着色来跟踪对象分割和人体姿势随时间变化。（图片来源：Vondrick et al. (2018)）

几个常见观察：

结合多个预训练任务可以提高性能；

更深的网络提高了表示的质量；

监督学习基线仍然远远超过所有其他方法。

基于控制

在现实世界中运行 RL 策略，比如控制一个基于视觉输入的物理机器人，正确跟踪状态、获取奖励信号或确定是否实现目标并不是一件简单的事情。视觉数据中存在许多与真实状态无关的噪音，因此无法通过像素级比较推断状态的等价性。自监督表示学习在学习可用作控制策略输入的有用状态嵌入方面表现出巨大潜力。

本节讨论的所有案例都是关于机器人学习的，主要是从多个摄像头视图中获取状态表示和目标表示。

多视图度量学习

在前面的多个部分中多次提到了度量学习的概念。一个常见的设置是：给定一组样本三元组，（锚点 $s_a$，正样本 $s_p$，负样本 $s_n$），学习到的表示嵌入$\phi(s)$使得在潜在空间中$s_a$与$s_p$保持接近，但与$s_n$保持远离。

Grasp2Vec（Jang & Devin 等人，2018）旨在从自由、未标记的抓取活动中学习机器人抓取任务中的以物体为中心的视觉表示。所谓以物体为中心，意味着无论环境或机器人的外观如何，如果两幅图像包含相似的物品，它们应该被映射到相似的表示；否则，嵌入应该相距甚远。

图 18. grasp2vec 学习以物体为中心的状态嵌入的概念示意图。（图片来源：Jang & Devin 等人，2018）

抓取系统可以告诉它是否移动了一个物体，但无法告诉是哪个物体。摄像头设置为拍摄整个场景和被抓取的物体的图像。在早期训练期间，抓取机器人被执行以随机抓取任何物体$o$，产生一组图像，$(s_\text{pre}, s_\text{post}, o)$：

$o$是被抓取的物体的图像，被举到摄像头前；
$s_\text{pre}$是抓取前的场景图像，托盘中有物体$o`。
$s_\text{post}$是同一场景的一幅图像，在抓取后，托盘中没有物体$o$。

学习以物体为中心的表示，我们期望$s_\text{pre}$和$s_\text{post}$的嵌入之间的差异能够捕捉到被移除的物体$o$。这个想法非常有趣，类似于在word embedding中观察到的关系，例如距离(“king”, “queen”) ≈ 距离(“man”, “woman”)。

让$\phi_s$和$\phi_o$分别是场景和物体的嵌入函数。模型通过最小化$\phi_s(s_\text{pre}) - \phi_s(s_\text{post})$和$\phi_o(o)$之间的距离来学习表示，使用n-pair loss：

\[ \begin{aligned} \mathcal{L}_\text{grasp2vec} &= \text{NPair}(\phi_s(s_\text{pre}) - \phi_s(s_\text{post}), \phi_o(o)) + \text{NPair}(\phi_o(o), \phi_s(s_\text{pre}) - \phi_s(s_\text{post})) \\ \text{where }\text{NPair}(a, p) &= \sum_{i 其中$B$指的是一批（锚点，正样本）样本对。当将表示学习构建为度量学习时，[**n-pair loss**](https://papers.nips.cc/paper/6200-improved-deep-metric-learning-with-multi-class-n-pair-loss-objective)是一个常见选择。与处理显式的三元组（锚点，正样本，负样本）样本不同，n-pairs loss 将一个小批次中的所有其他正实例视为负实例。嵌入函数 $\phi_o$ 在展示目标 $g$ 与图像时效果很好。量化实际抓取物体 $o$ 与目标之间接近程度的奖励函数定义为 $r = \phi_o(g) \cdot \phi_o(o)$。请注意，计算奖励仅依赖于学习到的潜在空间，不涉及地面真实位置，因此可用于在真实机器人上进行训练。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/44f15aa0a61f3a9059d4f50bd3375d9e.png) 图 19\. grasp2vec 嵌入的定位结果。在抓取前场景中定位目标物体的热图定义为 $\phi\_o(o)^\top \phi\_{s, \text{spatial}} (s\_\text{pre})$，其中 $\phi\_{s, \text{spatial}}$ 是经过 ReLU 后的最后一个 resnet 块的输出。第四列是一个失败案例，最后三列使用真实图像作为目标。（图片来源：[Jang & Devin 等人，2018](https://arxiv.org/abs/1811.06964)）除了基于嵌入相似性的奖励函数外，在 grasp2vec 框架中训练 RL 策略还有一些其他技巧： + *事后标记*：通过将随机抓取的物体标记为正确目标来增强数据集，类似于 HER（回顾经验重放；[Andrychowicz, et al., 2017](https://papers.nips.cc/paper/7090-hindsight-experience-replay.pdf)）。 + *辅助目标增强*：通过使用未实现目标重新标记转换来进一步增强重放缓冲区；准确地说，在每次迭代中，会随机抽取两个目标 $(g, g’)$ 并将两者用于向重放缓冲区添加新的转换。 **TCN**（**时间对比网络**；[Sermanet, et al. 2018](https://arxiv.org/abs/1704.06888)）从多摄像头视角视频中学习，其直觉是同一场景在同一时间步的不同视角应该共享相同的嵌入（类似于 [FaceNet](https://arxiv.org/abs/1503.03832)），而嵌入在时间上应该变化，即使是相同摄像头视角。因此，嵌入捕捉了潜在状态的语义含义，而不是视觉相似性。TCN 嵌入使用三元组损失进行训练。训练数据是通过同时从不同角度拍摄同一场景的视频收集的。所有视频都没有标签。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/b7b511f34d4538626b06603a1f8ccc8f.png) 图 20\. 时间对比学习状态嵌入方法的示意图。在同一时间步从两个摄像头视角选择的蓝色帧是锚点和正样本，而在不同时间步的红色帧是负样本。 TCN 嵌入提取对摄像头配置不变的视觉特征。它可以用于构建基于欧氏距离的模仿学习奖励函数，该距离是演示视频与潜在空间中的观察之间的距离。对 TCN 的进一步改进是联合学习多帧的嵌入，而不是单帧，从而产生**mfTCN**（**多帧时间对比网络**；[Dwibedi 等人，2019](https://arxiv.org/abs/1808.00928)）。给定来自多个同步摄像机视角的视频集$v_1, v_2, \dots, v_k$，在每个视频中以步长$s$选择时间$t$和前$n-1$帧的帧，将其聚合并映射为一个嵌入向量，从而产生大小为$(n−1) \times s + 1$的回顾窗口。每帧首先经过 CNN 提取低级特征，然后我们使用 3D 时间卷积在时间上聚合帧。该模型使用 n-pairs loss 进行训练。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/7c33aad9321cb07e3f167db2f9e3e746.png) 图 21。训练 mfTCN 的采样过程。（图片来源：[Dwibedi 等人，2019](https://arxiv.org/abs/1808.00928)）训练数据的采样方式如下： 1. 首先构建两对视频剪辑。每对包含来自不同摄像机视图但具有同步时间步的两个剪辑。这两组视频应该在时间上相隔很远。 1. 同时从同一对视频剪辑中抽取固定数量的帧，步幅相同。 1. 具有相同时间步的帧在 n-pair loss 中被训练为正样本，而跨对的帧则为负样本。 mfTCN 嵌入可以捕捉场景中物体的位置和速度（例如在倒立摆中），也可以用作策略的输入。 ## 自主目标生成 **RIG**（**具有想象目标的强化学习**；[Nair 等人，2018](https://arxiv.org/abs/1807.04742)）描述了一种训练带有无监督表示学习的目标条件策略的方法。策略通过首先想象“虚假”目标，然后尝试实现这些目标来从自我监督练习中学习。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/4b34b3ae77cd181a90ddba6b172fc052.png) 图 22。RIG 的工作流程。（图片来源：[Nair 等人，2018](https://arxiv.org/abs/1807.04742)）任务是控制机器臂将桌子上的小冰球推到所需位置。所需位置或目标在图像中呈现。在训练过程中，通过$\beta$-VAE 编码器学习状态$s$和目标$g$的潜在嵌入，控制策略完全在潜在空间中运行。假设一个[$\beta$-VAE](https://lilianweng.github.io/posts/2018-08-12-vae/#beta-vae)具有一个编码器$q_\phi$将输入状态映射到由高斯分布建模的潜在变量$z$，并且一个解码器$p_\psi$将$z$映射回状态。RIG 中的状态编码器设置为$\beta$-VAE 编码器的均值。 $$ \begin{aligned} z &\sim q_\phi(z \vert s) = \mathcal{N}(z; \mu_\phi(s), \sigma²_\phi(s)) \\ \mathcal{L}_{\beta\text{-VAE}} &= - \mathbb{E}_{z \sim q_\phi(z \vert s)} [\log p_\psi (s \vert z)] + \beta D_\text{KL}(q_\phi(z \vert s) \| p_\psi(s)) \\ e(s) &\triangleq \mu_\phi(s) \end{aligned} \]

奖励是状态和目标嵌入向量之间的欧氏距离：$r(s, g) = -|e(s) - e(g)|$。类似于 grasp2vec，RIG 通过潜在目标重新标记的数据增强来实现：随机生成一半的目标来自先验，另一半使用 HER 选择。与 grasp2vec 一样，奖励不依赖于任何地面真实状态，而只依赖于学习到的状态编码，因此可以用于在真实机器人上进行训练。

图 23. RIG 的算法。（图片来源：Nair 等，2018）

RIG 的问题在于在想象的目标图片中缺乏物体变化。如果$\beta$-VAE 只用黑色的冰球进行训练，它将无法创建具有其他形状和颜色的块等其他物体的目标。后续改进将$\beta$-VAE 替换为CC-VAE（上下文条件化 VAE；Nair 等，2019），灵感来自CVAE（条件化 VAE；Sohn，Lee 和 Yan，2015），用于目标生成。

图 24. 上下文条件化 RIG 的工作流程。（图片来源：Nair 等，2019）。

CVAE 在上下文变量$c$上进行条件化。它训练一个编码器$q_\phi(z \vert s, c)$和一个解码器$p_\psi (s \vert z, c)$，请注意两者都可以访问$c$。CVAE 损失惩罚从输入状态$s$通过信息瓶颈传递信息，但允许无限制地从$c$传递信息到编码器和解码器。

\[\mathcal{L}_\text{CVAE} = - \mathbb{E}_{z \sim q_\phi(z \vert s,c)} [\log p_\psi (s \vert z, c)] + \beta D_\text{KL}(q_\phi(z \vert s, c) \| p_\psi(s)) \]

为了创建合理的目标，CC-VAE 在起始状态$s_0$上进行条件化，以便生成的目标呈现与$s_0$中相同类型的对象。这种目标一致性是必要的；例如，如果当前场景包含红色冰球，但目标是蓝色块，这将使策略混淆。

除了状态编码器$e(s) \triangleq \mu_\phi(s)$之外，CC-VAE 还训练第二个卷积编码器$e_0(.)$将起始状态$s_0$转换为紧凑的上下文表示$c = e_0(s_0)$。两个编码器$e(.)$和$e_0(.)$有意不共享权重，因为它们预期编码图像变化的不同因素。除了 CVAE 的损失函数外，CC-VAE 还添加了一个额外项来学习将$c$重构回$s_0$，$\hat{s}_0 = d_0(c)$。

\[ \mathcal{L}_\text{CC-VAE} = \mathcal{L}_\text{CVAE} + \log p(s_0\vert c) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/44e70163ea82a251cc0de439a2dd8925.png) 图 25\. CVAE 生成的想象目标示例，条件是上下文图像（第一行），而 VAE 无法捕捉对象的一致性。（图片来源：[Nair 等人，2019](https://arxiv.org/abs/1910.11670)）。 ## 双模拟任务不可知的表示（例如，一个旨在表示系统中所有动态的模型）可能会分散 RL 算法，因为还会呈现不相关信息。例如，如果我们只是训练一个自动编码器来重构输入图像，那么不能保证整个学习到的表示对 RL 有用。因此，如果我们只想学习与控制相关的信息，那么我们需要摆脱基于重构的表示学习，因为不相关的细节对于重构仍然很重要。基于双模拟的控制表示学习不依赖于重构，而是旨在根据 MDP 中的行为相似性对状态进行分组。 **双模拟**（[Givan 等人，2003](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.2493&rep=rep1&type=pdf)）指的是两个具有相似长期行为的状态之间的等价关系。*双模拟度量*量化这种关系，以便我们可以聚合状态以将高维状态空间压缩为更小的空间以进行更有效的计算。两个状态之间的*双模拟距离*对应于这两个状态在行为上有多大不同。给定一个[MDP](https://lilianweng.github.io/posts/2018-02-19-rl-overview/#markov-decision-processes) $\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma \rangle$和一个双模拟关系$B$，在关系$B$下相等的两个状态（即$s_i B s_j$）应该对所有动作具有相同的即时奖励和相同的转移概率到下一个双模拟状态： $$ \begin{aligned} \mathcal{R}(s_i, a) &= \mathcal{R}(s_j, a) \; \forall a \in \mathcal{A} \\ \mathcal{P}(G \vert s_i, a) &= \mathcal{P}(G \vert s_j, a) \; \forall a \in \mathcal{A} \; \forall G \in \mathcal{S}_B \end{aligned} \]

其中$\mathcal{S}_B$是在关系$B$下状态空间的一个分区。

注意$=$始终是一个双模拟关系。最有趣的是最大双模拟关系$\sim$，它定义了一个具有最少状态组的分区$\mathcal{S}_\sim$。

图 26. DeepMDP 通过在奖励模型和动态模型上最小化两个损失来学习潜在空间模型。（图片来源：Gelada 等人，2019）

与双模拟度量类似，DeepMDP（Gelada 等人，2019）简化了 RL 任务中的高维观察，并通过最小化两个损失来学习潜在空间模型：

奖励的预测和
预测下一个潜在状态的分布。

\[\begin{aligned} \mathcal{L}_{\bar{\mathcal{R}}}(s, a) = \vert \mathcal{R}(s, a) - \bar{\mathcal{R}}(\phi(s), a) \vert \\ \mathcal{L}_{\bar{\mathcal{P}}}(s, a) = D(\phi \mathcal{P}(s, a), \bar{\mathcal{P}}(. \vert \phi(s), a)) \end{aligned} \]

其中 $\phi(s)$ 是状态 $s$ 的嵌入；带有横线的符号是在潜在的低维观察空间中运行的函数（奖励函数 $R$ 和转移函数 $P$）在同一个 MDP 中。这里的嵌入表示 $\phi$ 可以与双模拟度量联系起来，因为双模拟距离被证明上界由潜在空间中的 L2 距离给出。

函数 $D$ 量化了两个概率分布之间的距离，应该谨慎选择。DeepMDP 专注于Wasserstein-1度量（也称为“地球移动者距离”）。度量空间 $(M, d)$ 上分布 $P$ 和 $Q$ 之间的 Wasserstein-1 距离（即 $d: M \times M \to \mathbb{R}$）是：

\[W_d (P, Q) = \inf_{\lambda \in \Pi(P, Q)} \int_{M \times M} d(x, y) \lambda(x, y) \; \mathrm{d}x \mathrm{d}y \]

其中 $\Pi(P, Q)$ 是 $P$ 和 $Q$ 的所有耦合的集合。$d(x, y)$ 定义了将粒子从点 $x$ 移动到点 $y$ 的成本。

Wasserstein 度量具有根据蒙日-坎托罗维奇对偶的双重形式：

\[W_d (P, Q) = \sup_{f \in \mathcal{F}_d} \vert \mathbb{E}_{x \sim P} f(x) - \mathbb{E}_{y \sim Q} f(y) \vert \]

其中 $\mathcal{F}_d$ 是在度量 $d$ 下的 1-利普希茨函数集 - $\mathcal{F}_d = \{ f: \vert f(x) - f(y) \vert \leq d(x, y) \}$。

DeepMDP 将模型推广到规范最大均值差异（Norm-MMD）度量，以改善其深度值函数的界限紧密度，并同时节省计算（Wasserstein 在计算上很昂贵）。在他们的实验中，他们发现转移预测模型的模型架构对性能有很大影响。在训练无模型 RL 代理时添加这些 DeepMDP 损失作为辅助损失会在大多数 Atari 游戏中带来很好的改进。

控制的深度双模拟（简称DBC；Zhang et al. 2020）学习了在 RL 任务中对控制有利的观察的潜在表示，无需领域知识或像素级重建。

图 27. 控制的深度双模拟算法通过学习奖励模型和动力学模型学习双模拟度量表示。模型架构是孪生网络。（图片来源：Zhang et al. 2020）

与 DeepMDP 类似，DBC 通过学习奖励模型和转移模型来建模动态。这两个模型在潜在空间 $\phi(s)$ 中运行。嵌入 $\phi$ 的优化取决于 Ferns 等人 2004（定理 4.5）和 Ferns 等人 2011（定理 2.6）中的一个重要结论：

给定 $c \in (0, 1)$ 为折扣因子，$\pi$ 为持续改进的策略，$M$ 为状态空间 $\mathcal{S}$ 上有界伪度量的空间，我们可以定义 $\mathcal{F}: M \mapsto M$：

\[\mathcal{F}(d; \pi)(s_i, s_j) = (1-c) \vert \mathcal{R}_{s_i}^\pi - \mathcal{R}_{s_j}^\pi \vert + c W_d (\mathcal{P}_{s_i}^\pi, \mathcal{P}_{s_j}^\pi) \]
然后，$\mathcal{F}$ 有一个唯一的不动点 $\tilde{d}$，它是一个 $\pi^*$-双模拟度量，且 $\tilde{d}(s_i, s_j) = 0 \iff s_i \sim s_j$.

[证明并不是微不足道的。我可能会在将来添加或不添加 (:3」∠) …]

给定观察对的批次，$\phi$ 的训练损失 $J(\phi)$ 最小化策略内的双模拟度量和潜在空间中的欧氏距离之间的均方误差：

\[J(\phi) = \Big( \|\phi(s_i) - \phi(s_j)\|_1 - \vert \hat{\mathcal{R}}(\bar{\phi}(s_i)) - \hat{\mathcal{R}}(\bar{\phi}(s_j)) \vert - \gamma W_2(\hat{\mathcal{P}}(\cdot \vert \bar{\phi}(s_i), \bar{\pi}(\bar{\phi}(s_i))), \hat{\mathcal{P}}(\cdot \vert \bar{\phi}(s_j), \bar{\pi}(\bar{\phi}(s_j)))) \Big)² \]

其中 $\bar{\phi}(s)$ 表示带有停止梯度的 $\phi(s)$，$\bar{\pi}$ 是平均策略输出。学习的奖励模型 $\hat{\mathcal{R}}$ 是确定性的，学习的前向动力学模型 $\hat{\mathcal{P}}$ 输出一个高斯分布。

DBC 基于 SAC，但在潜在空间中运行：

图 28. Deep Bisimulation for Control 的算法。（图片来源：Zhang 等人 2020）

引用为：

@article{weng2019selfsup,
  title   = "Self-Supervised Representation Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2019",
  url     = "https://lilianweng.github.io/posts/2019-11-10-self-supervised/"
}

参考文献

[1] Alexey Dosovitskiy 等人。“利用示例卷积神经网络进行有区别的无监督特征学习。” IEEE transactions on pattern analysis and machine intelligence 38.9 (2015): 1734-1747.

[2] Spyros Gidaris, Praveer Singh & Nikos Komodakis. “通过预测图像旋转进行无监督表示学习” ICLR 2018.

[3] Carl Doersch, Abhinav Gupta, 和 Alexei A. Efros. “通过上下文预测进行无监督视觉表示学习。” ICCV. 2015.

[4] Mehdi Noroozi & Paolo Favaro. “通过解决拼图难题进行视觉表示的无监督学习。” ECCV, 2016.

[5] Mehdi Noroozi, Hamed Pirsiavash, 和 Paolo Favaro. “通过学习计数进行表示学习。” ICCV. 2017.

[6] Richard Zhang，Phillip Isola 和 Alexei A. Efros。“丰富多彩的图像着色。” ECCV，2016。

[7] Pascal Vincent 等人。“使用去噪自动编码器提取和组合稳健特征。” ICML，2008。

[8] Jeff Donahue，Philipp Krähenbühl 和 Trevor Darrell。“对抗特征学习。” ICLR 2017。

[9] Deepak Pathak 等人。“上下文编码器：通过修补学习特征。” CVPR。2016。

[10] Richard Zhang，Phillip Isola 和 Alexei A. Efros。“分裂脑自动编码器：通过跨通道预测进行无监督学习。” CVPR。2017。

[11] Xiaolong Wang 和 Abhinav Gupta。“使用视频进行视觉表示的无监督学习。” ICCV。2015。

[12] Carl Vondrick 等人。“通过给视频上色来跟踪的出现” ECCV。2018。

[13] Ishan Misra，C. Lawrence Zitnick 和 Martial Hebert。“洗牌和学习：使用时间顺序验证的无监督学习。” ECCV。2016。

[14] Basura Fernando 等人。“使用奇偶网络进行自监督视频表示学习” CVPR。2017。

[15] Donglai Wei 等人。“学习并使用时间的箭头” CVPR。2018。

[16] Florian Schroff，Dmitry Kalenichenko 和 James Philbin。“FaceNet：用于人脸识别和聚类的统一嵌入” CVPR。2015。

[17] Pierre Sermanet 等人。“时间对比网络：从视频中自监督学习” CVPR。2018。

[18] Debidatta Dwibedi 等人。“从视觉观察中学习可操作表示。” IROS。2018。

[19] Eric Jang 和 Coline Devin 等人。“Grasp2Vec：从自监督抓取中学习对象表示” CoRL。2018。

[20] Ashvin Nair 等人。“具有想象目标的视觉强化学习” NeuriPS。2018。

[21] Ashvin Nair 等人。“自监督机器人学习的情境想象目标” CoRL。2019。

[22] Aaron van den Oord，Yazhe Li 和 Oriol Vinyals。“对比预测编码的表示学习” arXiv 预印本 arXiv:1807.03748，2018。

[23] Olivier J. Henaff 等人。“对比预测编码的数据高效图像识别” arXiv 预印本 arXiv:1905.09272，2019。

[24] Kaiming He 等人。“动量对比用于无监督视觉表示学习。” CVPR 2020。

[25] Zhirong Wu 等人。“通过非参数实例级别区分进行无监督特征学习。” CVPR 2018。

[26] Ting Chen 等人。“一种用于对比学习视觉表示的简单框架。” arXiv 预印本 arXiv:2002.05709，2020 年。

[27] Aravind Srinivas, Michael Laskin & Pieter Abbeel “CURL: 对比无监督表示用于强化学习。” arXiv 预印本 arXiv:2004.04136，2020 年。

[28] Carles Gelada 等人。“DeepMDP: 学习连续潜在空间模型进行表示学习” ICML 2019。

[29] Amy Zhang 等人。“学习无需重构的强化学习不变表示” arXiv 预印本 arXiv:2006.10742，2020 年。

[30] Xinlei Chen 等人。“通过动量对比学习改进基线” arXiv 预印本 arXiv:2003.04297，2020 年。

[31] Jean-Bastien Grill 等人。“Bootstrap Your Own Latent: 一种新的自监督学习方法” arXiv 预印本 arXiv:2006.07733，2020 年。

[32] Abe Fetterman & Josh Albrecht. “通过 Bootstrap Your Own Latent (BYOL) 了解自监督和对比学习” 无标题博客。2020 年 8 月 24 日。

[«

强化学习课程](https://lilianweng.github.io/posts/2020-01-29-curriculum-rl/) [»

进化策略

原文：lilianweng.github.io/posts/2019-09-05-evolution-strategies/

随机梯度下降是优化深度学习模型的通用选择。然而，并不是唯一的选择。通过黑盒优化算法，您可以评估目标函数$f(x): \mathbb{R}^n \to \mathbb{R}$，即使您不知道$f(x)$的精确解析形式，因此无法计算梯度或 Hessian 矩阵。黑盒优化方法的示例包括模拟退火，爬山算法和Nelder-Mead 方法。

进化策略（ES）是黑盒优化算法的一种类型，诞生于进化算法（EA）家族中。在本文中，我将深入探讨一些经典的 ES 方法，并介绍 ES 在深度强化学习中的一些应用。

什么是进化策略？

进化策略（ES）属于进化算法的大家族。ES 的优化目标是实数向量，$x \in \mathbb{R}^n$。

进化算法是受自然选择启发的一类基于群体的优化算法。自然选择认为，具有有利于其生存的特征的个体可以在世代中生存下来，并将良好的特征传递给下一代。进化是通过逐渐的选择过程发生的，群体逐渐适应环境变得更好。

图 1. 自然选择的工作原理。（图片来源：可汗学院：达尔文、进化和自然选择）

进化算法可以总结为以下格式作为一种通用的优化解决方案：

假设我们想要优化一个函数$f(x)$，但无法直接计算梯度。但我们仍然可以评估给定任何$x$的$f(x)$，结果是确定的。我们对$x$上的概率分布作为$f(x)$优化的好解决方案的信念是$p_\theta(x)$，由$\theta$参数化。目标是找到$\theta$的最佳配置。

在给定固定分布格式（即高斯）的情况下，参数$\theta$携带有关最佳解决方案的知识，并在各代之间进行迭代更新。

从初始值$\theta$开始，我们可以通过以下三个步骤循环连续更新$\theta$：

生成样本群$D = \{(x_i, f(x_i)\}$，其中$x_i \sim p_\theta(x)$。
评估$D$中样本的“适应度”。
选择最佳个体子集并使用它们来更新$\theta$，通常基于适应度或排名。

在遗传算法（GA）中，另一个流行的 EA 子类，$x$是一系列二进制代码，$x \in \{0, 1\}^n$。而在 ES 中，$x$只是一组实数，$x \in \mathbb{R}^n$。

简单高斯进化策略

这里是进化策略的最基本和经典版本。它将$p_\theta(x)$建模为一个$n$维各向同性高斯分布，其中$\theta$只跟踪均值$\mu$和标准差$\sigma$。

\[\theta = (\mu, \sigma),\;p_\theta(x) \sim \mathcal{N}(\mathbf{\mu}, \sigma² I) = \mu + \sigma \mathcal{N}(0, I) \]

简单高斯 ES 的过程，给定$x \in \mathcal{R}^n$：

初始化$\theta = \theta^{(0)}$和代数计数器$t=0`
通过从高斯分布中抽样生成大小为$\Lambda$的后代种群：

$D^{(t+1)}=\{ x^{(t+1)}_i \mid x^{(t+1)}_i = \mu^{(t)} + \sigma^{(t)} y^{(t+1)}_i \text{ where } y^{(t+1)}_i \sim \mathcal{N}(x \vert 0, \mathbf{I}),;i = 1, \dots, \Lambda\}$

.
选择具有最佳$f(x_i)$的$\lambda$个样本的顶部子集，这个子集被称为精英集。不失一般性，我们可以考虑$D^{(t+1)}$中的前$k$个样本属于精英组 — 让我们将它们标记为

\[D^{(t+1)}\_\text{elite} = \\{x^{(t+1)}\_i \mid x^{(t+1)}\_i \in D^{(t+1)}, i=1,\dots, \lambda, \lambda\leq \Lambda\\} \]

然后我们使用精英集估计下一代的新均值和标准差：

\[\begin{aligned} \mu^{(t+1)} &= \text{avg}(D^{(t+1)}_\text{elite}) = \frac{1}{\lambda}\sum_{i=1}^\lambda x_i^{(t+1)} \\ {\sigma^{(t+1)}}² &= \text{var}(D^{(t+1)}_\text{elite}) = \frac{1}{\lambda}\sum_{i=1}^\lambda (x_i^{(t+1)} -\mu^{(t)})² \end{aligned} \]

重复步骤(2)-(4)直到结果足够好 ✌️

协方差矩阵自适应进化策略（CMA-ES）

标准差$\sigma$代表探索的程度：$\sigma$越大，我们可以从中抽样后代种群的搜索空间就越大。在简单高斯进化策略中，$\sigma^{(t+1)}$与$\sigma^{(t)}$高度相关，因此算法无法在需要时（即置信水平变化时）快速调整探索空间。

CMA-ES，简称“协方差矩阵自适应进化策略”，通过跟踪分布中样本之间的成对依赖关系，解决了这个问题，使用协方差矩阵$C$。新的分布参数变为：

\[\theta = (\mu, \sigma, C),\; p_\theta(x) \sim \mathcal{N}(\mu, \sigma² C) \sim \mu + \sigma \mathcal{N}(0, C) \]

其中$\sigma$控制分布的整体尺度，通常称为步长。

在深入研究 CMA-ES 中参数如何更新之前，最好先回顾一下协方差矩阵在多元高斯分布中的作用。作为一个实对称矩阵，协方差矩阵$C$具有以下良好特性（参见证明 & 证明）：

总是可对角化的。
总是半正定的。
所有的特征值都是实非负数。
所有的特征向量都是正交的。
有一个$\mathbb{R}^n$的标准正交基组成的正交基。

假设矩阵$C$有一个标准正交的特征向量基$B = [b_1, \dots, b_n]$，对应的特征值为$\lambda_1², \dots, \lambda_n²$。令$D=\text{diag}(\lambda_1, \dots, \lambda_n)$。

\[C = B^\top D² B = \begin{bmatrix} \mid & \mid & & \mid \\ b_1 & b_2 & \dots & b_n\\ \mid & \mid & & \mid \\ \end{bmatrix} \begin{bmatrix} \lambda_1² & 0 & \dots & 0 \\ 0 & \lambda_2² & \dots & 0 \\ \vdots & \dots & \ddots & \vdots \\ 0 & \dots & 0 & \lambda_n² \end{bmatrix} \begin{bmatrix} - & b_1 & - \\ - & b_2 & - \\ & \dots & \\ - & b_n & - \\ \end{bmatrix} \]

$C$的平方根为：

\[C^{\frac{1}{2}} = B^\top D B \]

符号	含义
$x_i^{(t)} \in \mathbb{R}^n$	第(t)代第$i$个样本
$y_i^{(t)} \in \mathbb{R}^n$	$x_i^{(t)} = \mu^{(t-1)} + \sigma^{(t-1)} y_i^{(t)} $
$\mu^{(t)}$	第(t)代的均值
$\sigma^{(t)}$	步长
$C^{(t)}$	协方差矩阵
$B^{(t)}$	$C$的特征向量构成的矩阵，作为行向量
$D^{(t)}$	一个对角线矩阵，对角线上是$C$的特征值。
$p_\sigma^{(t)}$	第(t)代$\sigma$的评估路径
$p_c^{(t)}$	第(t)代$C$的评估路径
$\alpha_\mu$	$\mu$更新的学习率
$\alpha_\sigma$	$p_\sigma$的学习率
$d_\sigma$	$\sigma$更新的阻尼因子
$\alpha_{cp}$	$p_c$的学习率
$\alpha_{c\lambda}$	$C$的秩-min(λ, n)更新的学习率
$\alpha_{c1}$	$C$的秩-1 更新的学习率

更新均值

\[\mu^{(t+1)} = \mu^{(t)} + \alpha_\mu \frac{1}{\lambda}\sum_{i=1}^\lambda (x_i^{(t+1)} - \mu^{(t)}) \]

CMA-ES 有一个学习率$\alpha_\mu \leq 1$来控制均值$\mu$的更新速度。通常设置为 1，因此方程变为与普通 ES 相同，$\mu^{(t+1)} = \frac{1}{\lambda}\sum_{i=1}^\lambda (x_i^{(t+1)}$。

控制步长

采样过程可以与均值和标准差分离：

\[x^{(t+1)}_i = \mu^{(t)} + \sigma^{(t)} y^{(t+1)}_i \text{, 其中 } y^{(t+1)}_i = \frac{x_i^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \sim \mathcal{N}(0, C) \]

参数$\sigma$控制分布的整体尺度。它与协方差矩阵分开，以便我们可以比完整协方差更快地改变步骤。较大的步长导致更快的参数更新。为了评估当前步长是否合适，CMA-ES 构建了一个演化路径$p_\sigma$，通过对一系列移动步骤的连续序列求和，$\frac{1}{\lambda}\sum_{i}^\lambda y_i^{(j)}, j=1, \dots, t$。通过将此路径长度与在随机选择下的预期长度（意味着单步不相关）进行比较，我们能够相应地调整$\sigma$（见图 2）。

图 2。三种不同方式的单步相关性及其对步长更新的影响的场景。（图片来源：CMA-ES 教程论文中图 5 的附加注释）

每次更新演化路径时，使用同一代中移动步骤$y_i$的平均值。

\[\begin{aligned} &\frac{1}{\lambda}\sum_{i=1}^\lambda y_i^{(t+1)} = \frac{1}{\lambda} \frac{\sum_{i=1}^\lambda x_i^{(t+1)} - \lambda \mu^{(t)}}{\sigma^{(t)}} = \frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \\ &\frac{1}{\lambda}\sum_{i=1}^\lambda y_i^{(t+1)} \sim \frac{1}{\lambda}\mathcal{N}(0, \lambda C^{(t)}) \sim \frac{1}{\sqrt{\lambda}}{C^{(t)}}^{\frac{1}{2}}\mathcal{N}(0, I) \\ &\text{因此 } \sqrt{\lambda}\;{C^{(t)}}^{-\frac{1}{2}} \frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \sim \mathcal{N}(0, I) \end{aligned} \]

通过与$C^{-\frac{1}{2}}$相乘，演化路径被转换为与其方向无关。术语${C^{(t)}}^{-\frac{1}{2}} = {B^{(t)}}^\top {D^{(t)}}^{-\frac{1}{2}} {B^{(t)}}$ 变换的工作方式如下：

${B^{(t)}}$ 包含$C$的特征向量的行向量。它将原始空间投影到垂直主轴上。
然后${D^{(t)}}^{-\frac{1}{2}} = \text{diag}(\frac{1}{\lambda_1}, \dots, \frac{1}{\lambda_n})$ 将主轴的长度缩放为相等。
${B^{(t)}}^\top$ 将空间转换回原始坐标系。

为了给最近的代分配更高的权重，我们使用 Polyak 平均来使用学习率$\alpha_\sigma$更新演化路径。同时，权重是平衡的，使得$p_\sigma$在更新前后都是共轭的，$\sim \mathcal{N}(0, I)$。

\[\begin{aligned} p_\sigma^{(t+1)} & = (1 - \alpha_\sigma) p_\sigma^{(t)} + \sqrt{1 - (1 - \alpha_\sigma)²}\;\sqrt{\lambda}\; {C^{(t)}}^{-\frac{1}{2}} \frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \\ & = (1 - \alpha_\sigma) p_\sigma^{(t)} + \sqrt{c_\sigma (2 - \alpha_\sigma)\lambda}\;{C^{(t)}}^{-\frac{1}{2}} \frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \end{aligned} \]

在随机选择下，$p_\sigma$的期望长度是$\mathbb{E}|\mathcal{N}(0,I)|$，即$\mathcal{N}(0,I)$随机变量的 L2 范数的期望。根据图 2 中的思想，我们根据$|p_\sigma^{(t+1)}| / \mathbb{E}|\mathcal{N}(0,I)|$的比率调整步长大小：

\[\begin{aligned} \ln\sigma^{(t+1)} &= \ln\sigma^{(t)} + \frac{\alpha_\sigma}{d_\sigma} \Big(\frac{\|p_\sigma^{(t+1)}\|}{\mathbb{E}\|\mathcal{N}(0,I)\|} - 1\Big) \\ \sigma^{(t+1)} &= \sigma^{(t)} \exp\Big(\frac{\alpha_\sigma}{d_\sigma} \Big(\frac{\|p_\sigma^{(t+1)}\|}{\mathbb{E}\|\mathcal{N}(0,I)\|} - 1\Big)\Big) \end{aligned} \]

其中$d_\sigma \approx 1$是一个阻尼参数，用于调整$\ln\sigma$的变化速度。

调整协方差矩阵

对于协方差矩阵，可以从头开始使用精英样本$y_i$进行估计（回想一下$y_i \sim \mathcal{N}(0, C)$）：

\[C_\lambda^{(t+1)} = \frac{1}{\lambda}\sum_{i=1}^\lambda y^{(t+1)}_i {y^{(t+1)}_i}^\top = \frac{1}{\lambda {\sigma^{(t)}}²} \sum_{i=1}^\lambda (x_i^{(t+1)} - \mu^{(t)})(x_i^{(t+1)} - \mu^{(t)})^\top \]

以上估计仅在选择的样本量足够大时才可靠。然而，我们希望在每一代中使用小样本量进行快速迭代。这就是为什么 CMA-ES 发明了一种更可靠但也更复杂的更新$C$的方法。它涉及两条独立的路径，

秩-最小(λ, n)更新：使用$\{C_\lambda\}$的历史记录，每一代中都从头开始估计。
秩-一更新：从历史中估计移动步长$y_i$和符号信息。

第一条路径考虑从$\{C_\lambda\}$的整个历史中估计$C$。例如，如果我们经历了大量的代数，$C^{(t+1)} \approx \text{avg}(C_\lambda^{(i)}; i=1,\dots,t)$将是一个很好的估计量。类似于$p_\sigma$，我们还使用带有学习率的 Polyak 平均法来融合历史：

\[C^{(t+1)} = (1 - \alpha_{c\lambda}) C^{(t)} + \alpha_{c\lambda} C_\lambda^{(t+1)} = (1 - \alpha_{c\lambda}) C^{(t)} + \alpha_{c\lambda} \frac{1}{\lambda} \sum_{i=1}^\lambda y^{(t+1)}_i {y^{(t+1)}_i}^\top \]

学习率的常见选择是$\alpha_{c\lambda} \approx \min(1, \lambda/n²)$。

第二条路径试图解决$y_i{y_i}^\top = (-y_i)(-y_i)^\top$丢失符号信息的问题。类似于我们如何调整步长$\sigma$，演化路径$p_c$用于跟踪符号信息，并且构造方式使得$p_c$在新一代之前和之后都是共轭的，$\sim \mathcal{N}(0, C)$。

我们可以将$p_c$视为计算$\text{avg}_i(y_i)$的另一种方式（注意两者都$\sim \mathcal{N}(0, C)$），同时使用整个历史记录并保持符号信息。请注意，在上一节中我们已经知道$\sqrt{k}\frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \sim \mathcal{N}(0, C)$，

\[\begin{aligned} p_c^{(t+1)} &= (1-\alpha_{cp}) p_c^{(t)} + \sqrt{1 - (1-\alpha_{cp})²}\;\sqrt{\lambda}\;\frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \\ &= (1-\alpha_{cp}) p_c^{(t)} + \sqrt{\alpha_{cp}(2 - \alpha_{cp})\lambda}\;\frac{\mu^{(t+1)} - \mu^{(t)}}{\sigma^{(t)}} \end{aligned} \]

然后根据 $p_c$ 更新协方差矩阵：

\[C^{(t+1)} = (1-\alpha_{c1}) C^{(t)} + \alpha_{c1}\;p_c^{(t+1)} {p_c^{(t+1)}}^\top \]

rank-one update 方法声称在 $k$ 较小时相对于 rank-min(λ, n)-update 生成了显著的改进，因为移动步骤的符号和连续步骤之间的相关性都被利用并传递给后代。

最终我们将两种方法结合在一起，

\[ C^{(t+1)} = (1 - \alpha_{c\lambda} - \alpha_{c1}) C^{(t)} + \alpha_{c1}\;\underbrace{p_c^{(t+1)} {p_c^{(t+1)}}^\top}_\textrm{rank-one update} + \alpha_{c\lambda} \underbrace{\frac{1}{\lambda} \sum_{i=1}^\lambda y^{(t+1)}_i {y^{(t+1)}_i}^\top}_\textrm{rank-min(lambda, n) update} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/849af8d9302f2fccd386650053423e98.png) 在我上面的所有示例中，每个精英样本被认为贡献相等的权重，$1/\lambda$。该过程可以轻松扩展到所选样本根据其表现分配不同权重，$w_1, \dots, w_\lambda$ 的情况。更多细节请参见 [教程](https://arxiv.org/abs/1604.00772)。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/83ecb3db46a1645979b4796e3a1f59fc.png) 图 3\. 展示了 CMA-ES 在 2D 优化问题上的工作原理（颜色越浅越好）。黑点是一代中的样本。样本最初更分散，但当模型在后期对找到全局最优解有更高的信心时，样本会非常集中在全局最优解上。（图片来源：[维基百科 CMA-ES](https://en.wikipedia.org/wiki/CMA-ES)） # 自然进化策略自然进化策略（**NES**；[Wierstra, et al, 2008](https://arxiv.org/abs/1106.4487)）在参数搜索分布中进行优化，并沿着 *自然梯度* 指示的高适应度方向移动分布。 ## 自然梯度给定一个由 $\theta$ 参数化的目标函数 $\mathcal{J}(\theta)$，假设我们的目标是找到最优的 $\theta$ 以最大化目标函数值。*普通梯度* 找到当前 $\theta$ 附近小的欧几里德距离内的最陡方向；距离限制应用于参数空间。换句话说，我们计算相对于 $\theta$ 的绝对值的小变化的普通梯度。最优步骤是： $$ d^{*} = \operatorname*{argmax}_{\|d\| = \epsilon} \mathcal{J}(\theta + d)\text{, where }\epsilon \to 0 \]

自然梯度与由$\theta$参数化的概率分布空间$p_\theta(x)$（在 NES 论文中称为“搜索分布”）一起工作。它在分布空间中寻找在 KL 散度度量的小步长内最陡的方向。通过这个约束，我们确保每次更新都沿着分布流形以恒定速度移动，而不会被其曲率减慢。

\[d^{*}_\text{N} = \operatorname*{argmax}_{\text{KL}[p_\theta \| p_{\theta+d}] = \epsilon} \mathcal{J}(\theta + d) \]

使用费舍尔信息矩阵进行估计

但是，如何精确计算$\text{KL}[p_\theta | p_{\theta+\Delta\theta}]$？通过在$\theta$处运行$\log p_{\theta + d}$的泰勒展开，我们得到：

\[\begin{aligned} & \text{KL}[p_\theta \| p_{\theta+d}] \\ &= \mathbb{E}_{x \sim p_\theta} [\log p_\theta(x) - \log p_{\theta+d}(x)] & \\ &\approx \mathbb{E}_{x \sim p_\theta} [ \log p_\theta(x) -( \log p_{\theta}(x) + \nabla_\theta \log p_{\theta}(x) d + \frac{1}{2}d^\top \nabla²_\theta \log p_{\theta}(x) d)] & \scriptstyle{\text{；在}\theta\text{处展开}\log p_{\theta+d}} \\ &\approx - \mathbb{E}_x [\nabla_\theta \log p_{\theta}(x)] d - \frac{1}{2}d^\top \mathbb{E}_x [\nabla²_\theta \log p_{\theta}(x)] d & \end{aligned} \]

其中

\[\begin{aligned} \mathbb{E}_x [\nabla_\theta \log p_{\theta}] d &= \int_{x\sim p_\theta} p_\theta(x) \nabla_\theta \log p_\theta(x) & \\ &= \int_{x\sim p_\theta} p_\theta(x) \frac{1}{p_\theta(x)} \nabla_\theta p_\theta(x) & \\ &= \nabla_\theta \Big( \int_{x} p_\theta(x) \Big) & \scriptstyle{\textrm{；注意}p_\theta(x)\textrm{是概率分布。}} \\ &= \nabla_\theta (1) = 0 \end{aligned} \]

最后我们有，

\[\text{KL}[p_\theta \| p_{\theta+d}] = - \frac{1}{2}d^\top \mathbf{F}_\theta d \text{，其中 }\mathbf{F}_\theta = \mathbb{E}_x [(\nabla_\theta \log p_{\theta}) (\nabla_\theta \log p_{\theta})^\top] \]

其中$\mathbf{F}_\theta$被称为费舍尔信息矩阵，它是由于$\mathbb{E}[\nabla_\theta \log p_\theta] = 0$，所以是$\nabla_\theta \log p_\theta$的协方差矩阵。

以下优化问题的解决方案：

\[\max \mathcal{J}(\theta + d) \approx \max \big( \mathcal{J}(\theta) + {\nabla_\theta\mathcal{J}(\theta)}^\top d \big)\;\text{ s.t. }\text{KL}[p_\theta \| p_{\theta+d}] - \epsilon = 0 \]

可以通过拉格朗日乘子找到，

\[\begin{aligned} \mathcal{L}(\theta, d, \beta) &= \mathcal{J}(\theta) + \nabla_\theta\mathcal{J}(\theta)^\top d - \beta (\frac{1}{2}d^\top \mathbf{F}_\theta d + \epsilon) = 0 \text{ s.t. } \beta > 0 \\ \nabla_d \mathcal{L}(\theta, d, \beta) &= \nabla_\theta\mathcal{J}(\theta) - \beta\mathbf{F}_\theta d = 0 \\ \text{因此 } d_\text{N}^* &= \nabla_\theta^\text{N} \mathcal{J}(\theta) = \mathbf{F}_\theta^{-1} \nabla_\theta\mathcal{J}(\theta) \end{aligned} \]

$d_\text{N}^*$ 只提取了在 $\theta$ 上最佳移动步骤的方向，忽略了标量 $\beta^{-1}$。

图 4. 右侧的自然梯度样本（黑色实箭头）是左侧的普通梯度样本（黑色实箭头）乘以它们的协方差的倒数。通过这种方式，具有高不确定性的梯度方向（由与其他样本的高协方差表示）将以较小的权重进行惩罚。因此，聚合的自然梯度（红色虚线箭头）比自然梯度（绿色实箭头）更可信。（图片来源：NES 论文中对图 2 的附加注释）

NES 算法

与一个样本相关联的适应度标记为 $f(x)$，对 $x$ 的搜索分布由 $\theta$ 参数化。NES 期望优化参数 $\theta$ 以实现最大期望适应度：

\[\mathcal{J}(\theta) = \mathbb{E}_{x\sim p_\theta(x)} [f(x)] = \int_x f(x) p_\theta(x) dx \]

在REINFORCE中使用相同的对数似然技巧：

\[ \begin{aligned} \nabla_\theta\mathcal{J}(\theta) &= \nabla_\theta \int_x f(x) p_\theta(x) dx \\ &= \int_x f(x) \frac{p_\theta(x)}{p_\theta(x)}\nabla_\theta p_\theta(x) dx \\ & = \int_x f(x) p_\theta(x) \nabla_\theta \log p_\theta(x) dx \\ & = \mathbb{E}_{x \sim p_\theta} [f(x) \nabla_\theta \log p_\theta(x)] \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/4e95bc8c6a8052cf211ebb3310273b66.png) 除了自然梯度，NES 采用了一些重要的启发式方法，使算法性能更加稳健。 + NES 应用**基于排名的适应度塑形**，即使用在单调递增适应度值下的*排名*，而不是直接使用 $f(x)$。或者可以是排名的函数（“效用函数”），被视为 NES 的一个自由参数。 + NES 采用**适应性抽样**来在运行时调整超参数。当改变$\theta \to \theta’$时，从$p_\theta$中抽取的样本与从$p_{\theta’}$中抽取的样本进行比较，使用[Mann-Whitney U 检验(https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test)]；如果显示正负号，则目标超参数通过乘法常数减少或增加。注意样本$x’_i \sim p_{\theta’}(x)$的得分应用重要性抽样权重$w_i’ = p_\theta(x) / p_{\theta’}(x)$。 # 应用：深度强化学习中的进化策略 ## OpenAI 强化学习中的进化策略在强化学习中使用进化算法的概念可以追溯到[很久以前](https://arxiv.org/abs/1106.0221)，但由于计算限制只限于表格型强化学习。受 NES 启发，OpenAI 的研究人员（[Salimans, et al. 2017](https://arxiv.org/abs/1703.03864)）提出使用 NES 作为无梯度黑盒优化器来找到最大化回报函数$F(\theta)$的最优策略参数$\theta$。关键是在模型参数$\theta$上添加高斯噪声$\epsilon$，然后使用对数似然技巧将其写成高斯概率密度函数的梯度。最终，只有噪声项作为衡量性能的加权标量留下。假设当前参数值为$\hat{\theta}$（添加帽子是为了区分该值与随机变量$\theta$）。$\theta$的搜索分布被设计为具有均值$\hat{\theta}$和固定协方差矩阵$\sigma² I$的各向同性多元高斯分布， $$ \theta \sim \mathcal{N}(\hat{\theta}, \sigma² I) \text{ 等价于 } \theta = \hat{\theta} + \sigma\epsilon, \epsilon \sim \mathcal{N}(0, I) \]

$\theta$ 更新的梯度为：

\[\begin{aligned} & \nabla_\theta \mathbb{E}_{\theta\sim\mathcal{N}(\hat{\theta}, \sigma² I)} F(\theta) \\ &= \nabla_\theta \mathbb{E}_{\epsilon\sim\mathcal{N}(0, I)} F(\hat{\theta} + \sigma\epsilon) \\ &= \nabla_\theta \int_{\epsilon} p(\epsilon) F(\hat{\theta} + \sigma\epsilon) d\epsilon & \scriptstyle{\text{; 高斯 }p(\epsilon)=(2\pi)^{-\frac{n}{2}} \exp(-\frac{1}{2}\epsilon^\top\epsilon)} \\ &= \int_{\epsilon} p(\epsilon) \nabla_\epsilon \log p(\epsilon) \nabla_\theta \epsilon\;F(\hat{\theta} + \sigma\epsilon) d\epsilon & \scriptstyle{\text{; 对数似然技巧}}\\ &= \mathbb{E}_{\epsilon\sim\mathcal{N}(0, I)} [ \nabla_\epsilon \big(-\frac{1}{2}\epsilon^\top\epsilon\big) \nabla_\theta \big(\frac{\theta - \hat{\theta}}{\sigma}\big) F(\hat{\theta} + \sigma\epsilon) ] & \\ &= \mathbb{E}_{\epsilon\sim\mathcal{N}(0, I)} [ (-\epsilon) (\frac{1}{\sigma}) F(\hat{\theta} + \sigma\epsilon) ] & \\ &= \frac{1}{\sigma}\mathbb{E}_{\epsilon\sim\mathcal{N}(0, I)} [ \epsilon F(\hat{\theta} + \sigma\epsilon) ] & \scriptstyle{\text{; 负号可以被吸收。}} \end{aligned} \]

在一个世代中，我们可以并行地抽样许多 $epsilon_i, i=1,\dots,n$ 并评估适应度。一个美妙的设计是不需要共享大型模型参数。只需在工作节点之间通信随机种子，主节点就足以进行参数更新。这种方法后来被扩展为自适应学习损失函数；请参阅我的先前文章Evolved Policy Gradient。

图 5. 使用进化策略训练 RL 策略的算法。（图片来源：ES-for-RL 论文）

为了使性能更加稳健，OpenAI ES 采用了虚拟批量归一化（BN 使用固定的小批量计算统计数据）、镜像抽样（对评估抽样一对 $(-\epsilon, \epsilon)$）、和适应性塑形。

用 ES 进行探索

探索（与开发）是强化学习中的一个重要主题。ES 算法中的优化方向上面仅从累积回报 $F(\theta)$ 中提取。没有明确的探索，代理可能会陷入局部最优解。

Novelty-Search ES（NS-ES；Conti et al, 2018）通过更新参数以最大化新颖性分数的方向来鼓励探索。新颖性分数取决于特定于领域的行为表征函数 $b(\pi_\theta)$。选择 $b(\pi_\theta)$ 针对任务是特定的，似乎有点随意；例如，在论文中的人形机器人运动任务中，$b(\pi_\theta)$ 是代理的最终 $(x,y)$ 位置。

每个政策的 $b(\pi_\theta)$ 都被推送到一个档案集 $\mathcal{A}$ 中。
政策 $\pi_\theta$ 的新颖性是通过 $b(\pi_\theta)$ 与 $\mathcal{A}$ 中所有其他条目之间的 k-最近邻分数来衡量的。（档案集的用例听起来与情节记忆非常相似。）

\[N(\theta, \mathcal{A}) = \frac{1}{\lambda} \sum_{i=1}^\lambda \| b(\pi_\theta), b^\text{knn}_i \|_2 \text{，其中 }b^\text{knn}_i \in \text{kNN}(b(\pi_\theta), \mathcal{A}) \]

ES 优化步骤依赖于新颖性分数而不是适应度：

\[\nabla_\theta \mathbb{E}_{\theta\sim\mathcal{N}(\hat{\theta}, \sigma² I)} N(\theta, \mathcal{A}) = \frac{1}{\sigma}\mathbb{E}_{\epsilon\sim\mathcal{N}(0, I)} [ \epsilon N(\hat{\theta} + \sigma\epsilon, \mathcal{A}) ] \]

NS-ES 维护一组独立训练的代理（“元种群”）$M$，$\mathcal{M} = \{\theta_1, \dots, \theta_M \}$ 并根据新颖性得分选择一个代理进行推进。最终我们选择最佳策略。这个过程等同于集成学习；也可以参考SVPG中相同的想法。

\[\begin{aligned} m &\leftarrow \text{根据概率选择 } i=1,\dots,M\text{，概率为}\frac{N(\theta_i, \mathcal{A})}{\sum_{j=1}^M N(\theta_j, \mathcal{A})} \\ \theta_m^{(t+1)} &\leftarrow \theta_m^{(t)} + \alpha \frac{1}{\sigma}\sum_{i=1}^N \epsilon_i N(\theta^{(t)}_m + \epsilon_i, \mathcal{A}) \text{其中 }\epsilon_i \sim \mathcal{N}(0, I) \end{aligned} \]

其中 $N$ 是高斯扰动噪声向量的数量，$\alpha$ 是学习率。

NS-ES 完全舍弃了奖励函数，仅优化新颖性以避免欺骗性局部最优解。为了将适应度重新纳入公式，提出了另外两种变体。

NSR-ES:

\[\theta_m^{(t+1)} \leftarrow \theta_m^{(t)} + \alpha \frac{1}{\sigma}\sum_{i=1}^N \epsilon_i \frac{N(\theta^{(t)}_m + \epsilon_i, \mathcal{A}) + F(\theta^{(t)}_m + \epsilon_i)}{2} \]

NSRAdapt-ES (NSRA-ES): 自适应权重参数 $w = 1.0$ 初始值。如果性能保持不变一段时间，我们开始减小 $w$。然后当性能开始提高时，我们停止减小 $w$，反而增加它。这样，当性能停止增长时更偏向适应度，否则更偏向新颖性。

\[ \theta_m^{(t+1)} \leftarrow \theta_m^{(t)} + \alpha \frac{1}{\sigma}\sum_{i=1}^N \epsilon_i \big((1-w) N(\theta^{(t)}_m + \epsilon_i, \mathcal{A}) + w F(\theta^{(t)}_m + \epsilon_i)\big) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/0d42d675b0f19463db8f6544ac8715a2.png) 图 6\.（左）环境是具有三面墙的人形机器人运动，起欺骗性陷阱作用以创建局部最优解。（右）实验比较了 ES 基线和其他鼓励探索的变体。（图片来源：[NS-ES](https://arxiv.org/abs/1712.06560) 论文） ## CEM-RL ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/67b8f81b4b647952a01ed649cbad2ab9.png) 图 7\. (a) CEM-RL 和 (b) [ERL](https://papers.nips.cc/paper/7395-evolution-guided-policy-gradient-in-reinforcement-learning.pdf) 算法的架构（图片来源：[CEM-RL](https://arxiv.org/abs/1810.01222) 论文） CEM-RL 方法（[Pourchot & Sigaud，2019](https://arxiv.org/abs/1810.01222)）将交叉熵方法（CEM）与[DDPG](https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#ddpg)或[TD3](https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#td3)结合。这里的 CEM 与上文描述的简单高斯 ES 基本相同，因此可以使用 CMA-ES 替换相同的函数。CEM-RL 建立在*进化强化学习*（*ERL*；[Khadka & Tumer，2018](https://papers.nips.cc/paper/7395-evolution-guided-policy-gradient-in-reinforcement-learning.pdf)）框架上，标准 EA 算法选择和演化一组演员，然后在过程中生成的回滚经验被添加到回放缓冲区中，用于训练 RL-actor 和 RL-critic 网络。工作流程： + 1. CEM 种群的平均 actor 是$\pi_\mu$，初始化为一个随机 actor 网络。 + 1. 评论者网络$Q$也被初始化，将由 DDPG/TD3 更新。 + 1. 直到满意为止重复： + a. 从演员种群中抽样$\sim \mathcal{N}(\pi_\mu, \Sigma)$。 + b. 评估种群的一半。他们的适应度分数被用作累积奖励$R，并添加到重放缓冲区中。 + c. 另一半与评论者一起更新。 + d. 使用表现最佳的精英样本计算新的$\pi_mu$和$\Sigma$。CMA-ES 也可以用于参数更新。 # 扩展：深度学习中的 EA （本节不涉及进化策略，但仍然是一篇有趣且相关的阅读。） *进化算法* 已经应用在许多深度学习问题上。POET（[Wang 等，2019](https://arxiv.org/abs/1901.01753)）是一个基于 EA 的框架，试图在解决问题的同时生成各种不同的任务。 POET 已经在我关于元强化学习的[上一篇文章](https://lilianweng.github.io/posts/2019-06-23-meta-rl/#task-generation-by-domain-randomization)中介绍过。进化强化学习（ERL）是另一个例子；见图 7（b）。下面我想更详细地介绍两个应用，*基于种群的训练（PBT）* 和 *无权重神经网络（WANN）*。 ## 超参数调整：PBT ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/5439860ef5b0d257ee144c2804e5304f.png) 图 8. 比较不同超参数调整方式的范例。（图片来源：[PBT](https://arxiv.org/abs/1711.09846) 论文）基于种群的训练（[Jaderberg 等，2017](https://arxiv.org/abs/1711.09846)），简称**PBT**，将 EA 应用于超参数调整问题。它同时训练一组模型和相应的超参数以获得最佳性能。 PBT 从一组随机候选开始，每个候选包含一对模型权重初始化和超参数，$\{(\theta_i, h_i)\mid i=1, \dots, N\}$。每个样本都会并行训练，并异步地定期评估自己的性能。每当一个成员认为准备就绪（即经过足够的梯度更新步骤，或者性能足够好时），它有机会通过与整个种群进行比较来更新： + **`exploit()`**：当该模型表现不佳时，权重可以被更好表现的模型替换。 + **`explore()`**：如果模型权重被覆盖，`explore` 步骤会用随机噪声扰动超参数。在这个过程中，只有有前途的模型和超参数对才能存活并不断进化，实现对计算资源的更好利用。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d60ab337d80382c1f608e9cd6c8d0bf2.png) 图 9\. 基于种群的训练算法。（图片来源：[PBT](https://arxiv.org/abs/1711.09846) 论文） ## 网络拓扑优化：WANN *Weight Agnostic Neural* Networks（简称 **WANN**；[Gaier & Ha 2019](https://arxiv.org/abs/1906.04358)）尝试搜索可以在不训练网络权重的情况下实现最佳性能的最小网络拓扑。通过不考虑网络权重的最佳配置，WANN 更加注重架构本身，使焦点与 [NAS](http://openaccess.thecvf.com/content_cvpr_2018/papers/Zoph_Learning_Transferable_Architectures_CVPR_2018_paper.pdf) 不同。WANN 受到经典遗传算法 NEAT（“Neuroevolution of Augmenting Topologies”；[Stanley & Miikkulainen 2002](http://nn.cs.utexas.edu/downloads/papers/stanley.gecco02_1.pdf)）的启发，用于演化网络拓扑。 WANN 的工作流程与标准 GA 几乎相同： 1. 初始化：创建一组最小网络的种群。 1. 评估：测试一系列*共享*权重值。 1. 排名和选择：按性能和复杂性排名。 1. 变异：通过改变最佳网络创建新种群。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/9045d630e8aff012af2867c1d8af08f8.png) 图 10\. WANN 中搜索新网络拓扑的变异操作（图片来源：[WANN](https://arxiv.org/abs/1906.04358) 论文）在“评估”阶段，所有网络权重都设置为相同。这样，WANN 实际上是在寻找可以用最小描述长度描述的网络。在“选择”阶段，同时考虑网络连接和模型性能。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/3ec1ae75344aa740105314d20d4a4d9e.png) 图 11\. 在不同 RL 任务上找到的 WANN 网络拓扑的性能与文献中常用的基线 FF 网络进行比较。“调整共享权重”只需要调整一个权重值。（图片来源：[WANN](https://arxiv.org/abs/1906.04358) 论文）如图 11 所示，WANN 结果使用随机权重和共享权重（单一权重）进行评估。有趣的是，即使在所有权重上强制执行权重共享并调整这个单一参数时，WANN 也能发现实现非平凡良好性能的拓扑结构。 * * * 引用为： ```py @article{weng2019ES, title = "Evolution Strategies", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2019", url = "https://lilianweng.github.io/posts/2019-09-05-evolution-strategies/" } ``` # 参考文献 [1] 尼古拉斯·汉森。[“CMA 进化策略：教程”](https://arxiv.org/abs/1604.00772) arXiv 预印本 arXiv:1604.00772 (2016). [2] 马克·图桑特。[幻灯片：“优化简介”](https://ipvs.informatik.uni-stuttgart.de/mlr/marc/teaching/13-Optimization/06-blackBoxOpt.pdf) [3] 大卫·哈。[“演化策略的视觉指南”](http://blog.otoro.net/2017/10/29/visual-evolution-strategies/) blog.otoro.net。2017 年 10 月。 [4] 丹·维尔斯特拉等。[“自然进化策略。”](https://arxiv.org/abs/1106.4487) 2008 年 IEEE 世界计算智能大会。 [5] 阿古斯蒂努斯·克里斯蒂亚迪。[“自然梯度下降”](https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/) 2018 年 3 月。 [6] Razvan Pascanu & Yoshua Bengio。[“重温深度网络的自然梯度。”](https://arxiv.org/abs/1301.3584v7) arXiv 预印本 arXiv:1301.3584 (2013). [7] 蒂姆·萨利曼斯等。[“进化策略作为可扩展的替代强化学习。”](https://arxiv.org/abs/1703.03864) arXiv 预印本 arXiv:1703.03864 (2017). [8] 埃多阿多·孔蒂等。[“通过一群寻求新颖性的代理改进进化策略在深度强化学习中的探索。”](https://arxiv.org/abs/1712.06560) NIPS。2018 年。 [9] 阿洛伊斯·普尔肖 & 奥利维尔·西戈。[“CEM-RL：结合进化和基于梯度的方法进行策略搜索。”](https://arxiv.org/abs/1810.01222) ICLR 2019。 [10] 肖哈尔达·卡德卡 & 卡甘·图默。[“进化引导的强化学习中的策略梯度。”](https://papers.nips.cc/paper/7395-evolution-guided-policy-gradient-in-reinforcement-learning.pdf) NIPS 2018。 [11] 马克斯·贾德伯格等。[“基于种群的神经网络训练。”](https://arxiv.org/abs/1711.09846) arXiv 预印本 arXiv:1711.09846 (2017). [12] 亚当·盖尔 & 大卫·哈。[“无权重神经网络。”](https://arxiv.org/abs/1906.04358) arXiv 预印本 arXiv:1906.04358 (2019). # 元强化学习 > 原文：[`lilianweng.github.io/posts/2019-06-23-meta-rl/`](https://lilianweng.github.io/posts/2019-06-23-meta-rl/) 在我之前关于[元学习](https://lilianweng.github.io/posts/2018-11-30-meta-learning/)的帖子中，问题主要是在少样本分类的背景下定义的。在这里，我想更深入探讨当我们尝试通过开发一个可以快速高效解决未见任务的代理来“元学习”[强化学习（RL）](https://lilianweng.github.io/posts/2018-02-19-rl-overview/)任务的情况。总结一下，一个好的元学习模型应该能够推广到在训练期间从未遇到过的新任务或新环境。适应过程，本质上是一个*小型学习会话*，在测试中对新配置进行有限暴露。即使没有任何明确的微调（不对可训练变量进行梯度反向传播），元学习模型也会自主调整内部隐藏状态以学习。训练强化学习算法有时可能非常困难。如果元学习代理能够变得如此聪明，以至于可解决的未见任务的分布变得极其广泛，我们就朝着[通用方法](http://incompleteideas.net/IncIdeas/BitterLesson.html)的方向迈进了——基本上构建一个可以解决各种强化学习问题的“大脑”，几乎不需要人类干预或手动特征工程。听起来很神奇，对吧？💖 # 关于元强化学习的起源 ## 回到 2001 年当阅读[Wang 等人，2016 年](https://arxiv.org/pdf/1611.05763.pdf)时，我遇到了[Hochreiter 等人，2001 年](http://snowedin.net/tmp/Hochreiter2001.pdf)撰写的一篇论文。尽管这个想法是为监督学习提出的，但与当前元强化学习方法有很多相似之处。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/2463abee23d720181366b8c89906e5e7.png) 图 1. 元学习系统由监督系统和从属系统组成。从属系统是一个循环神经网络，它以当前时间步的观察$x\_t$和上一个时间步的标签$y\_{t-1}$作为输入。（图片来源：[Hochreiter 等人，2001 年](http://snowedin.net/tmp/Hochreiter2001.pdf)） Hochreiter 的元学习模型是一个带有 LSTM 单元的循环网络。 LSTM 是一个不错的选择，因为它可以内部化输入的历史并通过[BPTT](https://en.wikipedia.org/wiki/Backpropagation_through_time)有效地调整自己的权重。训练数据包含$K$个序列，每个序列由目标函数$f_k(.)$生成的$N$个样本组成，其中$k=1, \dots, K$， $$ \{\text{输入: }(\mathbf{x}^k_i, \mathbf{y}^k_{i-1}) \to \text{标签: }\mathbf{y}^k_i\}_{i=1}^N \text{ 其中 }\mathbf{y}^k_i = f_k(\mathbf{x}^k_i) \]

注意上一个标签 $\mathbf{y}^k_{i-1}$ 也作为辅助输入提供，以便函数可以学习所呈现的映射。

在解码二维二次函数$a x_1² + b x_2² + c x_1 x_2 + d x_1 + e x_2 + f$的实验中，系数$a$-$f$从[-1, 1]中随机抽样，这个元学习系统在仅看到约 35 个示例后就能近似表示函数。

2016 年的提议

在深度学习的现代时代，Wang 等人（2016 年）和Duan 等人（2017 年）同时提出了非常相似的元强化学习的想法（在第二篇论文中称为RL²）。元强化学习模型在一系列 MDP 上进行训练，在测试时，能够快速学习解决新任务。元强化学习的目标是雄心勃勃的，迈出了通向通用算法的一步。

定义元强化学习

元强化学习，简而言之，是在强化学习领域进行元学习。通常训练和测试任务不同，但来自同一类问题族；即，论文中的实验包括具有不同奖励概率的多臂赌丨博机，具有不同布局的迷宫，模拟器中具有不同物理参数的相同机器人，以及许多其他实验。

公式化

假设我们有一系列任务的分布，每个任务都被形式化为一个MDP（马尔可夫决策过程），$M_i \in \mathcal{M}$。一个 MDP 由一个 4 元组确定，$M_i= \langle \mathcal{S}, \mathcal{A}, P_i, R_i \rangle$：

符号	意义
$\mathcal{S}$	一组状态。
$\mathcal{A}$	一组动作。
$P_i: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}_{+}$	转移概率函数。
$R_i: \mathcal{S} \times \mathcal{A} \to \mathbb{R}$	奖励函数。

（RL² 论文在 MDP 元组中添加了一个额外的参数，horizon $T$，以强调每个 MDP 应具有有限的 horizon。）

请注意上述使用了常见状态$\mathcal{S}$和动作空间$\mathcal{A}$，以便一个（随机的）策略：$\pi_\theta: \mathcal{S} \times \mathcal{A} \to \mathbb{R}_{+}$能够获得跨不同任务兼容的输入。测试任务从相同分布$\mathcal{M}$或稍作修改中抽样。

图 2. 元强化学习的示意图，包含两个优化循环。外部循环在每次迭代中对新环境进行采样，并调整确定代理行为的参数。在内部循环中，代理与环境交互并优化以获得最大奖励。（图片来源：Botvinick 等人，2019）

与强化学习的主要区别

元强化学习的整体配置与普通的 RL 算法非常相似，只是上一个奖励 $r_{t-1}$ 和上一个动作 $a_{t-1}$ 也被纳入到策略观察中，除了当前状态 $s_t$。

在 RL 中：$\pi_\theta(s_t) \to$ 一个关于 $\mathcal{A}$ 的分布
在元强化学习中：$\pi_\theta(a_{t-1}, r_{t-1}, s_t) \to$ 一个关于 $\mathcal{A}$ 的分布

这种设计的意图是将历史记录输入模型，以便策略可以内化当前 MDP 中状态、奖励和动作之间的动态，并相应地调整其策略。这与 Hochreiter 的系统中的设置非常一致。元强化学习和 RL² 都实现了一个 LSTM 策略，LSTM 的隐藏状态作为跟踪轨迹特征的记忆。由于策略是循环的，因此不需要明确地将上一个状态作为输入馈送。

训练过程如下：

从 $\mathcal{M}$ 中抽取一个新的 MDP，$M_i \sim \mathcal{M}$；
重置模型的隐藏状态；
收集多条轨迹并更新模型权重；
重复从步骤 1 开始。

图 3。在元强化学习论文中，不同的演员-评论家架构都使用了一个循环模型。最后的奖励和最后的动作是额外的输入。观察结果被馈送到 LSTM 中，可以是一个独热向量，也可以是通过编码器模型传递后的嵌入向量。（图片来源：Wang 等人，2016）

图 4。如 RL² 论文中所述，展示了模型在训练时与一系列 MDP 交互的过程。（图片来源：Duan 等人，2017）

关键组件

元强化学习中有三个关键组件：

⭐ 带有记忆的模型

一个循环神经网络维护一个隐藏状态。因此，它可以通过在 rollouts 期间更新隐藏状态来获取和记忆关于当前任务的知识。没有记忆，元强化学习将无法运行。

⭐ 元学习算法

元学习算法指的是我们如何更新模型权重，以便在测试时快速解决未见过的任务。在元强化学习和 RL² 论文中，元学习算法是在 MDP 切换时重置隐藏状态的普通梯度下降更新 LSTM。

⭐ MDP 的分布

当代理在训练过程中暴露于各种环境和任务时，它必须学会如何适应不同的 MDP。

根据Botvinick 等人（2019）的说法，RL 训练中的一种缓慢源于弱归纳偏差（=“学习者用来预测给定未遇到的输入时的输出的一组假设”）。作为一般的 ML 规则，具有弱归纳偏差的学习算法将能够掌握更广泛的变化范围，但通常会更少地利用样本。因此，通过缩小具有更强归纳偏差的假设有助于提高学习速度。

在元强化学习中，我们从任务分布中施加某些类型的归纳偏差，并将它们存储在内存中。在测试时采用哪种归纳偏差取决于算法。这三个关键组件共同描绘了元强化学习的一个引人注目的视角：调整循环网络的权重虽然慢，但它允许模型通过其内部活动动态中实现的自己的 RL 算法快速解决新任务。

有趣而又不太令人惊讶的是，元强化学习与 Jeff Clune（2019）的AI-GAs（“AI-Generating Algorithms”）论文中的想法相匹配。他提出，构建通用人工智能的一种有效方式是尽可能使学习自动化。AI-GAs 方法涉及三大支柱：（1）元学习架构，（2）元学习算法，以及（3）为有效学习而自动生成的环境。

设计良好的循环网络架构的主题有点太广泛，这里不讨论。接下来，让我们进一步探讨另外两个组成部分：在元强化学习背景下的元学习算法以及如何获取各种训练 MDP。

用于元强化学习的元学习算法

我之前的帖子关于元学习已经涵盖了几种经典的元学习算法。在这里，我将包括更多与 RL 相关的内容。

为元学习优化模型权重

MAML（Finn 等人，2017）和 Reptile（Nichol 等人，2018）都是更新模型参数以在新任务上实现良好泛化性能的方法。请参阅有关 MAML 和 Reptile 的早期帖子部分。

元学习超参数

在强化学习问题中，$G_t^{(n)}$或$G_t^\lambda$的回报函数涉及一些经常启发式设置的超参数，如折扣因子$\gamma$和自举参数$\lambda$。元梯度强化学习（Xu 等，2018）将它们视为元参数，$\eta=\{\gamma, \lambda \}$，可以在代理与环境交互时在线调整和学习。因此，回报成为$\eta$的函数，并随着时间动态地适应特定任务。

\[\begin{aligned} G_\eta^{(n)}(\tau_t) &= R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1}R_{t+n} + \gamma^n v_\theta(s_{t+n}) & \scriptstyle{\text{; n 步回报}} \\ G_\eta^{\lambda}(\tau_t) &= (1-\lambda) \sum_{n=1}^\infty \lambda^{n-1} G_\eta^{(n)} & \scriptstyle{\text{; λ回报，n 步回报的混合}} \end{aligned} \]

在训练过程中，我们希望根据手头所有信息的梯度更新策略参数，$\theta' = \theta + f(\tau, \theta, \eta)$，其中$\theta$是当前模型权重，$\tau$是一系列轨迹，$\eta$是元参数。

同时，假设我们有一个元目标函数$J(\tau, \theta, \eta)$作为性能度量。训练过程遵循在线交叉验证原则，使用一系列连续的经验：

从参数$\theta$开始，策略$\pi_\theta$在第一批样本$\tau$上进行更新，得到$\theta'$。
然后我们继续运行策略$\pi_{\theta'}$以收集一组新的经验$\tau'$，只是按时间顺序连续地跟随$\tau$。性能以固定的元参数$\bar{\eta}$来衡量为$J(\tau', \theta', \bar{\eta})$。
元目标函数$J(\tau', \theta', \bar{\eta})$相对于$\eta$的梯度用于更新$\eta$：

\[\begin{aligned} \Delta \eta &= -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \eta} \\ &= -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \theta'} \frac{d\theta'}{d\eta} & \scriptstyle{\text{ ; 单变量链式法则。}} \\ &= -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \theta'} \frac{\partial (\theta + f(\tau, \theta, \eta))}{\partial\eta} \\ &= -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \theta'} \Big(\frac{d\theta}{d\eta} + \frac{\partial f(\tau, \theta, \eta)}{\partial\theta}\frac{d\theta}{d\eta} + \frac{\partial f(\tau, \theta, \eta)}{\partial\eta}\frac{d\eta}{d\eta} \Big) & \scriptstyle{\text{; 多变量链式法则。}}\\ &= -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \theta'} \Big( \color{red}{\big(\mathbf{I} + \frac{\partial f(\tau, \theta, \eta)}{\partial\theta}\big)}\frac{d\theta}{d\eta} + \frac{\partial f(\tau, \theta, \eta)}{\partial\eta}\Big) & \scriptstyle{\text{; 红色的二次梯度项。}} \end{aligned} \]

其中 $\beta$ 是 $\eta$ 的学习率。

元梯度强化学习算法通过将二次梯度项设置为零来简化计算，$\mathbf{I} + \partial g(\tau, \theta, \eta)/\partial\theta = 0$ — 这个选择更偏向于元参数 $\eta$ 对参数 $\theta$ 的直接影响。最终我们得到：

\[\Delta \eta = -\beta \frac{\partial J(\tau', \theta', \bar{\eta})}{\partial \theta'} \frac{\partial f(\tau, \theta, \eta)}{\partial\eta} \]

论文中的实验采用了与 $TD(\lambda)$ 算法相同的元目标函数，最小化近似值函数 $v_\theta(s)$ 与 $\lambda$-回报之间的误差：

\[\begin{aligned} J(\tau, \theta, \eta) &= (G^\lambda_\eta(\tau) - v_\theta(s))² \\ J(\tau', \theta', \bar{\eta}) &= (G^\lambda_{\bar{\eta}}(\tau') - v_{\theta'}(s'))² \end{aligned} \]

元学习损失函数

在策略梯度算法中，通过更新策略参数 $\theta$ 朝着估计梯度的方向进行，最大化期望总奖励（Schulman et al., 2016），

\[g = \mathbb{E}[\sum_{t=0}^\infty \Psi_t \nabla_\theta \log \pi_\theta (a_t \mid s_t)] \]

其中 $\Psi_t$ 的候选包括轨迹回报 $G_t$，Q 值 $Q(s_t, a_t)$，或优势值 $A(s_t, a_t)$。策略梯度的相应替代损失函数可以被反向工程出来：

\[L_\text{pg} = \mathbb{E}[\sum_{t=0}^\infty \Psi_t \log \pi_\theta (a_t \mid s_t)] \]

这个损失函数是对轨迹历史$(s_0, a_0, r_0, \dots, s_t, a_t, r_t, \dots)$的度量。进化策略梯度（EPG；Houthooft 等人，2018）进一步定义了策略梯度损失函数为代理过去经验的时间卷积（1-D 卷积）$L_\phi$。损失函数网络的参数$\phi$被演化，以使代理能够获得更高的回报。

与许多元学习算法类似，EPG 有两个优化循环：

在内部循环中，代理学习改进其策略$\pi_\theta$。
在外循环中，模型更新损失函数$L_\phi$的参数$\phi$。由于回报和损失之间没有明确的可微方程，EPG 转向进化策略（ES）。

一个一般的想法是训练一个由$N$个代理组成的群体，每个代理都使用带有$\phi$的损失函数$L_{\phi + \sigma \epsilon_i}$进行训练，加上标准差为$\sigma$的小高斯噪声$\epsilon_i \sim \mathcal{N}(0, \mathbf{I})$。在内循环的训练过程中，EPG 跟踪经验历史，并根据每个代理的损失函数$L_{\phi + \sigma\epsilon_i}$更新策略参数：

\[\theta_i \leftarrow \theta - \alpha_\text{in} \nabla_\theta L_{\phi + \sigma \epsilon_i} (\pi_\theta, \tau_{t-K, \dots, t}) \]

其中$\alpha_\text{in}$是内循环的学习率，$\tau_{t-K, \dots, t}$是直到当前时间步$t$的$M$个转换的序列。

一旦内循环策略足够成熟，该策略将通过多个随机采样的轨迹的平均回报$\bar{G}_{\phi+\sigma\epsilon_i}$进行评估。最终，我们能够根据NES在数值上评估$\phi$的梯度（Salimans 等人，2017）。在重复这个过程的同时，策略参数$\theta$和损失函数权重$\phi$同时更新，以实现更高的回报。

\[\phi \leftarrow \phi + \alpha_\text{out} \frac{1}{\sigma N} \sum_{i=1}^N \epsilon_i G_{\phi+\sigma\epsilon_i} \]

其中$\alpha_\text{out}$是外循环的学习率。

在实践中，损失$L_\phi$使用普通策略梯度（如 REINFORCE 或 PPO）替代损失$L_\text{pg}$进行引导，$\hat{L} = (1-\alpha) L_\phi + \alpha L_\text{pg}$。权重$\alpha$在训练过程中逐渐从 1 降至 0。在测试时，损失函数参数$\phi$保持固定，损失值是根据经验历史计算的，以更新策略参数$\theta$。

元学习探索策略

在强化学习中，开发 vs 探索困境是一个关键问题。常见的探索方式包括$\epsilon$-贪心、在动作上添加随机噪声，或者在动作空间上具有内置随机性的随机策略。

MAESN（Gupta et al, 2018）是一种算法，用于从先前经验中学习结构化的动作噪声，以实现更好更有效的探索。简单地在动作上添加随机噪声无法捕捉任务相关或时间相关的探索策略。MAESN 改变策略以依赖于每个任务的随机变量$z_i \sim \mathcal{N}(\mu_i, \sigma_i)$，对于第$i$个任务$M_i$，因此我们会有一个策略$a \sim \pi_\theta(a\mid s, z_i)$。潜变量$z_i$在一个 episode 中被采样一次并固定。直观地，潜变量确定了在一个 rollout 开始时应更多探索的一种行为（或技能），代理会相应地调整其动作。策略参数和潜空间都被优化以最大化总任务奖励。同时，策略学会利用潜变量进行探索。

此外，损失函数包括学习的潜变量与单位高斯先验之间的 KL 散度，$D_\text{KL}(\mathcal{N}(\mu_i, \sigma_i)|\mathcal{N}(0, \mathbf{I}))$。一方面，它限制了学习的潜空间不要离常见先验太远。另一方面，它为奖励函数创建了变分证据下界（ELBO）。有趣的是，论文发现每个任务的$(\mu_i, \sigma_i)$在收敛时通常接近先验。

图 5. 策略以一个每个 episode 采样一次的潜变量$z\_i \sim \mathcal{N}(\mu, \sigma)$为条件。每个任务对于潜变量分布有不同的超参数$(\mu\_i, \sigma\_i)$，它们在外部循环中被优化。（图片来源：Gupta et al, 2018）

情节控制

强化学习的一个主要批评是其样本效率低。在强化学习中，为了最大化泛化并避免早期学习的灾难性遗忘，需要大量样本和小的学习步骤进行增量参数调整（Botvinick et al., 2019）。

情节控制（Lengyel＆Dayan，2008）被提出作为一个解决方案，以避免遗忘并在更快的速度下提高泛化能力。它在一定程度上受到了关于基于实例的海马学习的假设的启发。

情节记忆会明确记录过去事件，并直接将这些记录用作制定新决策的参考点（即就像基于度量的元学习）。在MFEC（无模型情节控制；Blundell 等人，2016）中，记忆被建模为一个大表格，将状态-动作对$(s, a)$作为键，相应的 Q 值$Q_\text{EC}(s, a)$作为值进行存储。当接收到新的观察$s$时，Q 值以非参数化方式估计为最相似样本的前$k$个的平均 Q 值：

\[\hat{Q}_\text{EC}(s, a) = \begin{cases} Q_\text{EC}(s, a) & \text{if } (s,a) \in Q_\text{EC}, \\ \frac{1}{k} \sum_{i=1}^k Q(s^{(i)}, a) & \text{otherwise} \end{cases} \]

其中$s^{(i)}, i=1, \dots, k$是与状态$s$距离最小的前$k$个状态。然后选择产生最高估计 Q 值的动作。然后根据在$s_t$处收到的回报更新记忆表：

\[Q_\text{EC}(s, a) \leftarrow \begin{cases} \max\{Q_\text{EC}(s_t, a_t), G_t\} & \text{if } (s,a) \in Q_\text{EC}, \\ G_t & \text{otherwise} \end{cases} \]

作为一种表格化强化学习方法，MFEC 存在着大量的内存消耗和缺乏在相似状态之间泛化的方法。第一个问题可以通过 LRU 缓存来解决。受到基于度量的元学习的启发，特别是匹配网络（Vinyals 等人，2016），泛化问题在后续算法NEC（神经记忆控制；Pritzel 等人，2016）中得到改善。

NEC 中的情节记忆是一个可微分神经字典（DND），其中键是输入图像像素的卷积嵌入向量，值存储估计的 Q 值。给定一个查询键，输出是最相似键的值的加权和，其中权重是查询键和字典中选定键之间的归一化核度量。这听起来像是一种复杂的注意力机制。

图 6 NEC 中情节记忆模块的示意图以及可微分神经字典上的两种操作。（图片来源：Pritzel 等人，2016）

此外，记忆 LSTM（Ritter 等人，2018）通过 DND 记忆增强了基本 LSTM 结构，其中将任务上下文嵌入存储为键，将 LSTM 单元状态存储为值。存储的隐藏状态通过 LSTM 内相同的门控机制直接检索并添加到当前单元状态中：

图 7. 显示了记忆 LSTM 结构的示意图。记忆结构的额外部分用粗体标出。（图片来源：Ritter 等人，2018）

\[\begin{aligned} \mathbf{c}_t &= \mathbf{i}_t \circ \mathbf{c}_\text{in} + \mathbf{f}_t \circ \mathbf{c}_{t-1} + \color{green}{\mathbf{r}_t \circ \mathbf{c}_\text{ep}} &\\ \mathbf{i}_t &= \sigma(\mathbf{W}_{i} \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_i) & \scriptstyle{\text{; 输入门}} \\ \mathbf{f}_t &= \sigma(\mathbf{W}_{f} \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_f) & \scriptstyle{\text{; 遗忘门}} \\ \color{green}{\mathbf{r}_t} & \color{green}{=} \color{green}{\sigma(\mathbf{W}_{r} \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_r)} & \scriptstyle{\text{; 重建门}} \end{aligned} \]

其中$\mathbf{c}_t$和$\mathbf{h}_t$分别是时间$t$的隐藏状态和单元状态；$\mathbf{i}_t$、$\mathbf{f}_t$和$\mathbf{r}_t$分别是输入、遗忘和重建门；$\mathbf{c}_\text{ep}$是从记忆中检索到的单元状态。新增的记忆组件用绿色标出。

该架构通过基于上下文的检索提供了对先前经验的快捷方式。同时，明确地将任务相关经验保存在外部存储器中避免了遗忘。在论文中，所有实验都是手动设计的上下文向量。如何为更自由形式的任务构建有效和高效的任务上下文嵌入格式将是一个有趣的课题。

总体而言，记忆控制的能力受到环境复杂性的限制。在真实任务中，代理很少会重复访问完全相同的状态，因此正确编码状态至关重要。学习的嵌入空间将观察数据压缩到较低维度空间中，同时，在此空间中接近的两个状态预计需要相似的策略。

训练任务获取

在三个关键组件中，如何设计适当的任务分布是研究较少且可能是最具体于元强化学习本身的。如上所述，每个任务都是一个马尔可夫决策过程：$M_i = \langle \mathcal{S}, \mathcal{A}, P_i, R_i \rangle \in \mathcal{M}$。我们可以通过修改来构建一个马尔可夫决策过程的分布：

奖励配置：在不同任务中，相同行为可能根据$R_i$而获得不同的奖励。
或者，环境：过渡函数$P_i$可以通过在状态之间初始化不同的偏移来重新塑造。

通过领域随机化生成任务

在模拟器中随机化参数是获得具有修改过渡函数的任务的简单方法。如果想进一步了解，请查看我上一篇关于领域随机化的文章。

环境生成上的进化算法

进化算法是一种基于启发式的无梯度优化方法，灵感来自自然选择。一群解决方案遵循评估、选择、繁殖和突变的循环。最终，好的解决方案会存活下来并被选中。

POET（Wang 等人，2019），一个基于进化算法的框架，试图在解决问题的同时生成任务。 POET 的实现仅针对简单的 2D 双足行走者环境，但指出了一个有趣的方向。值得注意的是，进化算法在深度学习中已经有一些引人注目的应用，如 EPG 和 PBT（基于种群的训练；Jaderberg 等人，2017）。

图 8. 一个双足行走环境示例（上）和 POET 概述（下）。 (图片来源：POET 博客文章)

2D 双足行走环境正在发展：从简单的平坦表面到具有潜在间隙、树桩和崎岖地形的更加困难的路径。 POET 将环境挑战的生成与代理的优化配对在一起，以便 (a) 选择能够解决当前挑战的代理和 (b) 进化环境以便解决。该算法维护一个环境-代理对列表，并重复以下步骤：

突变：从当前活跃环境生成新环境。请注意，这里的突变操作类型仅针对双足行走者，新环境将需要一组新的配置。
优化：在各自的环境中训练配对的代理。
选择：定期尝试将当前代理从一个环境转移到另一个环境。复制并更新每个环境中表现最佳的代理。直觉是在一个环境中学到的技能可能对另一个环境有所帮助。

上述过程与PBT非常相似，但 PBT 会改变和演化超参数。在某种程度上，POET 正在进行领域随机化，因为所有的间隙、树桩和地形粗糙度都由一些随机化概率参数控制。与 DR 不同，代理们不会一次性暴露于完全随机化的困难环境中，而是通过进化算法配置的课程逐渐学习。

使用随机奖励进行学习

没有奖励函数$R$的 MDP 被称为受控马尔可夫过程（CMP）。给定预定义的 CMP，$\langle \mathcal{S}, \mathcal{A}, P\rangle$，我们可以通过生成一系列鼓励有效元学习策略训练的奖励函数$\mathcal{R}$来获得各种任务。

Gupta 等人（2018）提出了两种无监督方法，用于在 CMP 背景下扩展任务分布。假设每个任务都有一个潜在的潜变量$z \sim p(z)$，与每个任务相关联，它参数化/确定了一个奖励函数：$r_z(s) = \log D(z|s)$，其中“鉴别器”函数$D(.)$用于从状态中提取潜变量。论文描述了构建鉴别器函数的两种方法：

样本随机权重$\phi_\text{rand}$的鉴别器，$D_{\phi_\text{rand}}(z \mid s)$。
学习一个鉴别器函数以鼓励多样化驱动的探索。这种方法在另一篇姊妹论文“DIAYN”中有更详细的介绍（Eysenbach 等人，2018）。

DIAYN，即“多样性就是你所需要的”，是一种鼓励策略学习有用技能而无需奖励函数的框架。它明确地将潜变量$z$建模为技能嵌入，并使策略除了状态$s$外还取决于$z$，$\pi_\theta(a \mid s, z)$。（嗯，这部分与 MAESN 一样，毫不奇怪，因为这些论文来自同一团队。）DIAYN 的设计受到几个假设的启发：

技能应该多样化，并导致访问不同状态。→ 最大化状态和技能之间的互信息，$I(S; Z)$
技能应该由状态而不是动作来区分。→ 最小化在给定状态的情况下动作和技能之间的互信息，$I(A; Z \mid S)$

要最大化的目标函数如下，同时还添加了策略熵以鼓励多样性：

\[\begin{aligned} \mathcal{F}(\theta) &= I(S; Z) + H[A \mid S] - I(A; Z \mid S) & \\ &= (H(Z) - H(Z \mid S)) + H[A \mid S] - (H[A\mid S] - H[A\mid S, Z]) & \\ &= H[A\mid S, Z] \color{green}{- H(Z \mid S) + H(Z)} & \\ &= H[A\mid S, Z] + \mathbb{E}_{z\sim p(z), s\sim\rho(s)}[\log p(z \mid s)] - \mathbb{E}_{z\sim p(z)}[\log p(z)] & \scriptstyle{\text{；可以从状态推断技能 & p(z)是多样的。}} \\ &\ge H[A\mid S, Z] + \mathbb{E}_{z\sim p(z), s\sim\rho(s)}[\color{red}{\log D_\phi(z \mid s) - \log p(z)}] & \scriptstyle{\text{；根据 Jensen 不等式；红色的“伪奖励”。}} \end{aligned} \]

其中$I(.)$是互信息，$H[.]$是熵度量。我们无法整合所有状态来计算$p(z \mid s)$，因此用$D_\phi(z \mid s)$来近似——这就是以多样性为驱动的鉴别器函数。

图 9. DIAYN 算法。（图片来源：Eysenbach 等人，2019）

一旦学习了鉴别器函数，对于训练来说，采样一个新的 MDP 是直截了当的：首先，采样一个潜变量，$z \sim p(z)$并构建一个奖励函数$r_z(s) = \log(D(z \vert s))$。将奖励函数与预定义的 CMP 配对，创建一个新的 MDP。

引用为：

@article{weng2019metaRL,
  title   = "Meta Reinforcement Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2019",
  url     = "https://lilianweng.github.io/posts/2019-06-23-meta-rl/"
}

参考文献

[1] Richard S. Sutton。“苦涩的教训。” 2019 年 3 月 13 日。

[2] Sepp Hochreiter, A. Steven Younger 和 Peter R. Conwell。“使用梯度下降学习学习。” 人工神经网络国际会议。2001 年。

[3] 王简等人。“学习强化学习。” arXiv 预印本 arXiv:1611.05763（2016 年）。

[4] 段燕等人。“RL $^ 2$：通过缓慢强化学习快速强化学习。” ICLR 2017。

[5] Matthew Botvinick 等人。“强化学习，快与慢” Cell Review，第 23 卷，第 5 期，P408-422，2019 年 5 月 1 日。

[6] Jeff Clune。“AI-GAs：生成人工智能的算法，一种产生通用人工智能的替代范式” arXiv 预印本 arXiv:1905.10985（2019 年）。

[7] 徐中文等人。“元梯度强化学习” NIPS 2018。

[8] Rein Houthooft 等人。“进化策略梯度。” NIPS 2018。

[9] Tim Salimans 等人。“进化策略作为可扩展的强化学习替代方案。” arXiv 预印本 arXiv:1703.03864（2017 年）。

[10] Abhishek Gupta 等人。“结构化探索策略的元强化学习。” NIPS 2018。

[11] Alexander Pritzel 等人 “神经元情节控制。” 机器学习国际会议论文集，第 70 卷，2017.

[12] Charles Blundell 等人 “无模型的情节控制。” arXiv 预印本 arXiv:1606.04460 (2016).

[13] Samuel Ritter 等人 “曾经历过，已经做过：具有情节回忆的元学习。” ICML, 2018.

[14] Rui Wang 等人 “配对开放式先驱者（POET）：不断生成越来越复杂和多样化的学习环境及其解决方案” arXiv 预印本 arXiv:1901.01753 (2019).

[15] Uber 工程博客: “POET：通过配对开放式先驱者不断生成越来越复杂和多样化的学习环境及其解决方案。” 2019 年 1 月 8 日.

[16] Abhishek Gupta 等人 “强化学习的无监督元学习” arXiv 预印本 arXiv:1806.04640 (2018).

[17] Eysenbach, Benjamin 等人 “多样性就是你所需要的：在没有奖励函数的情况下学习技能。” ICLR 2019.

[18] Max Jaderberg 等人 “基于种群的神经网络训练。” arXiv 预印本 arXiv:1711.09846 (2017).

用于 Sim2Real 转移的领域随机化

原文：lilianweng.github.io/posts/2019-05-05-domain-randomization/

在机器人领域，最困难的问题之一是如何使你的模型在现实世界中转化。由于深度强化学习算法的样本效率低和在真实机器人上收集数据的成本，我们经常需要在模拟器中训练模型，理论上提供无限量的数据。然而，模拟器和物理世界之间的现实差距经常导致在与物理机器人合作时失败。这种差距是由物理参数（即摩擦、kp、阻尼、质量、密度）之间的不一致性以及更致命的是不正确的物理建模（即软表面之间的碰撞）引起的。

要缩小 sim2real 差距，我们需要改进模拟器并使其更接近现实。一些方法包括：

系统辨识
- 系统辨识是为物理系统建立数学模型；在 RL 的背景下，数学模型就是模拟器。为了使模拟器更加真实，需要仔细校准。
- 不幸的是，校准是昂贵的。此外，由于温度、湿度、位置或时间中的磨损，同一机器的许多物理参数可能会有显著变化。
领域自适应
- 领域自适应（DA）指的是一组转移学习技术，通过任务模型强制执行的映射或正则化来更新模拟数据分布以匹配真实数据分布。
- 许多 DA 模型，特别是用于图像分类或端到端基于图像的 RL 任务，都建立在对抗损失或GAN上。
领域随机化
- 通过领域随机化（DR），我们能够创建具有随机属性的各种模拟环境，并训练一个可以在所有这些环境中运行的模型。
- 很可能这个模型可以适应真实世界环境，因为真实系统预计是在那个丰富的训练变化分布中的一个样本。

DA 和 DR 都是无监督的。与 DA 相比，需要相当数量的真实数据样本来捕捉分布，DR 可能只需要很少或没有真实数据。本文重点关注 DR。

图 1. 三种 sim2real 转移方法的概念图示。

什么是领域随机化？

为了使定义更加通用，让我们称我们完全访问的环境（即模拟器）为源领域，我们希望将模型转移到的环境为目标领域（即物理世界）。训练发生在源领域中。我们可以在源领域中控制一组$N$个随机化参数$e_\xi$，具有从随机化空间$\xi \in \Xi \subset \mathbb{R}^N$中采样的配置$\xi$。

在策略训练期间，从应用随机化的源域收集剧集。因此，策略暴露于各种环境并学会泛化。策略参数$\theta$被训练以最大化在一系列配置中平均的预期奖励$R(.)$：

\[\theta^* = \arg\max_\theta \mathbb{E}_{\xi \sim \Xi} [\mathbb{E}_{\pi_\theta, \tau \sim e_\xi} [R(\tau)]] \]

其中$\tau_\xi$是在源域中随机化的轨迹$\xi$收集的。从某种意义上说，“源域和目标域之间的差异被建模为源域中的变异性。”（引自Peng et al. 2018）

均匀域随机化

在 DR 的原始形式中（Tobin et al, 2017; Sadeghi et al. 2016），每个随机化参数$\xi_i$都受到一个区间的限制，$\xi_i \in [\xi_i^\text{low}, \xi_i^\text{high}], i=1,\dots,N$，并且每个参数在范围内均匀采样。

随机化参数可以控制场景的外观，包括但不限于以下内容（见图 2）。在模拟和随机化图像上训练的模型能够转移到真实的非随机化图像。

物体的位置、形状和颜色，
材料纹理，
光照条件，
图像中添加的随机噪声，
模拟器中相机的位置、方向和视场。

图 2。在训练环境中捕获的图像被随机化。（图片来源：Tobin et al, 2017）

模拟器中的物理动力学也可以随机化（Peng et al. 2018）。研究表明，循环策略可以适应不同的物理动力学，包括部分可观察的现实。一组物理动力学特征包括但不限于：

物体的质量和尺寸，
机器人身体的质量和尺寸，
关节的阻尼、kp、摩擦力，
PID 控制器的增益（P 项），
关节限制，
行动延迟，
观测噪声。

通过视觉和动力学 DR，在 OpenAI Robotics，我们能够学习一个适用于真实灵巧机器人手的策略（OpenAI, 2018）。我们的操纵任务是教导机器人手连续旋转物体以实现 50 个连续的随机目标方向。在这个任务中，模拟到真实的差距非常大，原因是（a）机器人和物体之间同时接触的数量很高，以及（b）对物体碰撞和其他运动的模拟不完美。起初，策略几乎无法在不掉落物体的情况下生存超过 5 秒。但通过 DR 的帮助，策略最终在现实中表现出乎意料地良好。

www.youtube.com/embed/DKe8FumoD4E

为什么域随机化有效？

现在你可能会问，为什么领域随机化效果这么好？这个想法听起来真的很简单。以下是我发现最具说服力的两个非排他性解释。

DR 作为优化

一种想法（Vuong, et al, 2019）是将 DR 中的学习随机化参数视为双层优化。假设我们可以访问真实环境 $e_\text{real}$，并且随机化配置是从由 $\phi$ 参数化的分布中采样的，$\xi \sim P_\phi(\xi)$，我们希望学习一个分布，使得在 $e_\text{real}$ 中训练的策略 $\pi_\theta$ 可以实现最佳性能：

\[\begin{aligned} &\phi^* = \arg\min_{\phi} \mathcal{L}(\pi_{\theta^*(\phi)}; e_\text{real}) \\ \text{where } &\theta^*(\phi) = \arg\min_\theta \mathbb{E}_{\xi \sim P_\phi(\xi)}[\mathcal{L}(\pi_\theta; e_\xi)] \end{aligned} \]

其中 $\mathcal{L}(\pi; e)$ 是在环境 $e$ 中评估的策略 $\pi$ 的损失函数。

尽管在均匀 DR 中手动选择随机化范围，通常涉及领域知识和几轮基于转移性能的试错调整。本质上，这是一个手动优化过程，调整 $\phi$ 以获得最佳 $\mathcal{L}(\pi_{\theta^*(\phi)}; e_\text{real})$。

下一节中的引导领域随机化在很大程度上受到这种观点的启发，旨在进行双层优化，并自动学习最佳参数分布。

DR 作为元学习

在我们的学习灵巧项目中（OpenAI, 2018），我们训练了一个 LSTM 策略来泛化不同的环境动态。我们观察到一旦机器人完成第一次旋转，它需要的时间来实现后续的成功就会大大缩短。此外，我们发现没有记忆的 FF 策略无法转移到物理机器人。这两者都是策略动态学习和适应新环境的证据。

在某种程度上，领域随机化组成了不同任务的集合。循环网络中的记忆使得策略能够在任务之间实现元学习，并在真实世界环境中进一步工作。

引导领域随机化

原始 DR 假设没有访问真实数据，因此在模拟中尽可能广泛和均匀地采样随机化配置，希望真实环境可以在这种广泛分布下被覆盖。可以考虑更复杂的策略 — 用任务性能、真实数据或模拟器的指导替换均匀采样。

引导 DR 的一个动机是通过避免在不真实环境中训练模型来节省计算资源。另一个是避免由过于广泛的随机化分布引起的不可行解决方案，从而可能阻碍成功的策略学习。

任务性能优化

假设我们训练了一系列具有不同随机化参数$\xi \sim P_\phi(\xi)$的策略，其中$P_\xi$是由$\phi$参数化的$\xi$分布。后来我们决定在目标领域的下游任务（例如在现实中控制机器人或在验证集上评估）上尝试每一个策略，以收集反馈。这个反馈告诉我们配置$\xi$有多好，并为优化$\phi$提供信号。

受NAS的启发，AutoAugment（Cubuk, et al. 2018）将学习最佳数据增强操作（例如剪切、旋转、反转等）的问题框架化为强化学习问题，用于图像分类。请注意，AutoAugment 并非提出用于从模拟到现实的转移，而是属于由任务性能引导的数据增强。个别增强配置在评估集上进行测试，性能改进被用作奖励来训练 PPO 策略。该策略为不同数据集输出不同的增强策略；例如，对于 CIFAR-10，AutoAugment 主要选择基于颜色的转换，而 ImageNet 更偏好基于几何的转换。

Ruiz (2019)认为在强化学习问题中，任务反馈被视为奖励，并提出了一种基于强化学习的方法，名为“学习模拟”，用于调整$\xi$。一个策略被训练来预测$\xi$，使用主任务验证数据上的性能指标作为奖励，这被建模为一个多变量高斯分布。总体而言，这个想法类似于 AutoAugment，在数据生成上应用 NAS。根据他们的实验，即使主任务模型没有收敛，它仍然可以为数据生成策略提供合理的信号。

图 3。"学习模拟"方法的概述。（图片来源：Ruiz (2019)）

进化算法是另一种选择，其中反馈被视为适应度以指导进化（Yu et al, 2019）。在这项研究中，他们使用了CMA-ES（协方差矩阵适应进化策略），而适应度是目标环境中$\xi$条件策略的性能。在附录中，他们将 CMA-ES 与其他建模$\xi$动态的方法进行了比较，包括贝叶斯优化或神经网络。主要观点是这些方法不如 CMA-ES 稳定或样本效率高。有趣的是，当将$P(\xi)$建模为神经网络时，发现 LSTM 明显优于 FF。

有人认为 sim2real 间隙是外观间隙和内容间隙的组合；即大多数受 GAN 启发的 DA 模型关注外观间隙。Meta-Sim（Kar, et al. 2019）旨在通过生成特定任务的合成数据集来关闭内容间隙。Meta-Sim 以自动驾驶汽车训练为例，因此场景可能非常复杂。在这种情况下，合成场景由具有属性（即位置、颜色）以及对象之间关系的对象层次结构参数化。层次结构由类似于结构领域随机化（SDR；Prakash et al., 2018）的概率场景语法指定，并假定事先已知。模型 $G$ 被训练以通过以下方式增强场景属性 $s$ 的分布：

首先学习先验：预先训练 $G$ 学习恒等函数 $G(s) = s$。
最小化真实和模拟数据分布之间的 MMD 损失。这涉及通过不可微分的渲染器进行反向传播。该论文通过扰动 $G(s)$ 的属性来数值计算。
在合成数据上训练时最小化 REINFORCE 任务损失，但在真实数据上评估。再次，与 AutoAugment 非常相似。

不幸的是，这类方法不适用于 sim2real 情况。无论是 RL 策略还是 EA 模型都需要大量的真实样本。在训练循环中包含物理机器人的实时反馈收集非常昂贵。是否愿意为真实数据收集交换更少的计算资源取决于您的任务。

匹配真实数据分布

使用真实数据指导领域随机化感觉很像进行系统识别或 DA。DA 的核心思想是改进合成数据以匹配真实数据分布。在真实数据引导的 DR 情况下，我们希望学习将模拟器中的状态分布与真实世界中的状态分布接近的随机化参数 $\xi$。

SimOpt 模型（Chebotar et al, 2019）首先在初始随机分布 $P_\phi(\xi)$ 下进行训练，得到一个策略 $\pi_{\theta, P_\phi}$。然后这个策略被部署在模拟器和物理机器人上，分别收集轨迹 $\tau_\xi$ 和 $\tau_\text{real}$。优化目标是最小化模拟和真实轨迹之间的差异：

\[\phi^* = \arg\min_{\phi}\mathbb{E}_{\xi \sim P_\phi(\xi)} [\mathbb{E}_{\pi_{\theta, P_\phi}} [D(\tau_\text{sim}, \tau_\text{real})]] \]

其中 $D(.)$ 是基于轨迹的差异度量。与“学习模拟”的论文一样，SimOpt 也必须解决如何通过不可微分模拟器传播梯度的棘手问题。它使用了一种称为相对熵策略搜索的方法，详细信息请参阅论文。

图 4. SimOpt 框架概述。 (图片来源：Chebotar 等人，2019)

RCAN (James 等人，2019)，简称“随机到规范适应网络”，是 DA 和 DR 的一个很好的组合，用于端到端 RL 任务。在模拟器中训练了一个图像条件 GAN (cGAN)，将一个领域随机化的图像转换为非随机化版本（也称为“规范版本”）。稍后，同一模型用于将真实图像转换为相应的模拟版本，以便代理程序消耗与训练中遇到的一致的观察。然而，基本假设是领域随机化的模拟图像分布足够广泛，可以覆盖真实世界样本。

图 5. RCAN 是一个图像条件生成器，可以将领域随机化或真实图像转换为其相应的非随机化模拟器版本。 (图片来源：James 等人，2019)

RL 模型在模拟器中端到端地训练，以进行基于视觉的机器人臂抓取。在每个时间步骤应用随机化，包括托盘分隔器的位置、要抓取的对象、随机纹理，以及照明的位置、方向和颜色。规范版本是默认的模拟器外观。RCAN 试图学习一个生成器

$G$: 随机化图像 $\to$ {规范图像，分割，深度}

分割掩模和深度图像被用作辅助任务。与均匀 DR 相比，RCAN 具有更好的零样本转移，尽管两者都显示比仅在真实图像上训练的模型更差。从概念上讲，RCAN 的操作方向与GraspGAN相反，后者通过领域适应将合成图像转换为真实图像。

在模拟器中由数据引导

网络驱动的领域随机化 (Zakharov 等人，2019)，也称为DeceptionNet，受到了学习哪些随机化实际上对于缩小图像分类任务的领域差距有用的启发。

随机化是通过一组具有编码器-解码器架构的欺骗模块应用的。这些欺骗模块专门设计用于转换图像；例如更改背景、添加扭曲、改变光照等。另一个识别网络通过对转换后的图像进行分类来处理主要任务。

训练包括两个步骤：

在识别网络固定的情况下，通过在反向传播过程中应用反向梯度来最大化预测和标签之间的差异。这样欺骗模块就可以学习最令人困惑的技巧。
在欺骗模块固定的情况下，用改变过的输入图像训练识别网络。

图 6. DeceptionNet 的工作原理。 (图片来源：Zakharov 等人，2019)

训练欺骗模块的反馈由下游分类器提供。但与上面的章节不同，随机化模块的目标是创建更难的情况。一个很大的缺点是你需要为不同的数据集或任务手动设计不同的欺骗模块，这使得它不容易扩展。考虑到它是零样本，结果仍然比 MNIST 和 LineMOD 上的 SOTA DA 方法差。

同样，主动领域随机化（ADR；Mehta 等人，2019）也依赖于模拟数据来创建更难的训练样本。ADR 寻找在给定随机化范围内最具信息量的环境变化，其中“信息量”被定义为随机化和参考（原始，非随机化）环境实例中策略轨迹的差异。听起来有点像 SimOpt？请注意，SimOpt 测量模拟和真实轨迹之间的差异，而 ADR 测量随机化和非随机化模拟之间的差异，避免了昂贵的真实数据收集部分。

图 7. 主动领域随机化（ADR）的工作原理。 (图片来源：Mehta 等人，2019)

训练过程如下：

给定一个策略，在参考环境和随机化环境上运行，并分别收集两组轨迹。
训练一个鉴别器模型，告诉一个轨迹是否是随机化的，除了参考运行。预测的 $\log p$（被随机化的概率）被用作奖励。随机化和参考轨迹越不同，预测越容易，奖励越高。
- 直觉是，如果一个环境很容易，同样的策略代理可以产生与参考环境中相似的轨迹。然后模型应该通过鼓励不同的行为来奖励和探索困难的环境。
鉴别器的奖励被馈送到Stein 变分策略梯度（SVPG）粒子中，输出一组多样化的随机化配置。

ADR 的想法非常吸引人，但有两个小问题。当运行随机策略时，轨迹之间的相似性可能不是衡量环境难度的好方法。虽然 sim2real 的结果看起来不那么令人兴奋，但论文指出 ADR 的优势在于探索了更小范围的随机化参数。

被引用为：

@article{weng2019DR,
  title   = "Domain Randomization for Sim2Real Transfer",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2019",
  url     = "https://lilianweng.github.io/posts/2019-05-05-domain-randomization/"
}

总的来说，阅读完这篇文章后，我希望你和我一样喜欢领域随机化 😃.

参考文献

[1] Josh Tobin 等人。“领域随机化：将深度神经网络从模拟迁移到现实世界。” IROS，2017。

[2] Fereshteh Sadeghi 和 Sergey Levine。“CAD2RL：没有真实图像的真实单图像飞行。” arXiv:1611.04201 (2016).

[3] Xue Bin Peng 等人。“通过动力学随机化实现机器人控制的模拟到真实转移。” ICRA，2018。

[4] Nataniel Ruiz 等人。“学习模拟。” ICLR 2019

[5] OpenAI。“学习灵巧的手内操作。” arXiv:1808.00177 (2018).

[6] OpenAI 博客。“学习灵巧” 2018 年 7 月 30 日。

[7] Quan Vuong 等人。“如何选择模拟到真实强化学习策略的域随机化参数？” arXiv:1903.11774 (2019).

[8] Ekin D. Cubuk 等人。“AutoAugment：从数据中学习增强策略。” arXiv:1805.09501 (2018).

[9] Wenhao Yu 等人。“策略优化的策略转移。” ICLR 2019

[10] Yevgen Chebotar 等人。“关闭模拟到真实的循环：通过真实世界经验调整模拟随机化。” Arxiv: 1810.05687 (2019).

[11] Stephen James 等人。“通过模拟到模拟实现模拟到真实：通过随机到规范适应网络实现数据高效机器人抓取” CVPR 2019。

[12] Bhairav Mehta 等人。“主动域随机化” arXiv:1904.04762

[13] Sergey Zakharov 等人。“DeceptionNet：网络驱动的域随机化。” arXiv:1904.02750 (2019).

[14] Amlan Kar 等人。“Meta-Sim：学习生成合成数据集。” arXiv:1904.11621 (2019).

[15] Aayush Prakash 等人。“结构化域随机化：通过上下文感知合成数据弥合现实差距。” arXiv:1810.10093 (2018).

深度神经网络是否存在严重的过拟合问题？

原文：lilianweng.github.io/posts/2019-03-14-overfit/

2019-05-27 更新：添加了[章节关于彩票票据假设。]

如果你和我一样，以传统机器学习经验进入深度学习领域，你可能经常思考这个问题：由于典型的深度神经网络有如此多的参数，训练误差很容易完美，它肯定会受到严重的过拟合问题。它如何能够泛化到样本外的数据点呢？

为什么深度神经网络能够泛化的努力在某种程度上让我想起了这篇有趣的系统生物学论文 — “一个生物学家能修理收音机吗？”（Lazebnik, 2002）。如果一个生物学家打算像处理生物系统那样修理收音机，生活可能会很艰难。因为收音机系统的完整机制没有被揭示，戳一下小的局部功能可能会给出一些提示，但几乎不可能展示系统内所有的相互作用，更不用说整个工作流程了。无论你认为这与深度学习相关与否，这都是一篇非常有趣的阅读。

我想在这篇文章中讨论一些关于深度学习模型的泛化能力和复杂度测量的论文。希望它能为你的思考路径提供一些启示，帮助你理解为什么深度神经网络能够泛化。

压缩和模型选择的经典定理

假设我们有一个分类问题和一个数据集，我们可以开发许多模型来解决它，从拟合简单的线性回归到在磁盘空间中记忆整个数据集。哪一个更好？如果我们只关心训练数据的准确性（尤其是考虑到测试数据可能是未知的），记忆方法似乎是最好的 — 嗯，这听起来不对。

在这种情况下，有许多经典定理可以指导我们决定一个好模型应该具备什么类型的属性。

奥卡姆剃刀

奥卡姆剃刀是一个由 14 世纪的奥卡姆的威廉提出的问题解决的非正式原则：

“简单的解决方案比复杂的解决方案更有可能是正确的。”

当我们面对多个解释世界的潜在理论候选并且必须选择一个时，这个声明是非常强大的。对于一个问题，太多不必要的假设可能对一个问题来说似乎是合理的，但很难泛化到其他复杂情况，或者最终导致宇宙的基本原理。

想想看，人们花了数百年的时间才弄清楚白天天空为什么是蓝色，日落时为什么是红色，这是因为同样的原因（瑞利散射），尽管这两种现象看起来非常不同。人们一定提出了许多其他解释，但最终胜出的是统一而简单的版本。

最小描述长度原则

奥卡姆剃刀原则同样可以应用于机器学习模型。这种概念的形式化版本被称为最小描述长度（MDL）原则，用于比较给定观察数据的竞争模型/解释。

“理解即压缩。”

MDL 中的基本思想是将学习视为数据压缩。通过压缩数据，我们需要发现数据中的规律或模式，具有高潜力泛化到未见样本。信息瓶颈理论认为，首先训练深度神经网络以通过最小化泛化误差来表示数据，然后学习通过修剪噪声来压缩这种表示。

与此同时，MDL 认为模型描述是压缩交付的一部分，因此模型不能任意庞大。

MDL 原则的两部分版本表明：让$\mathcal{H}^{(1)}, \mathcal{H}^{(2)}, \dots$是可以解释数据集$\mathcal{D}$的模型列表。其中最佳假设应该是最小化以下总和的那个：

\[\mathcal{H}^\text{best} = \arg\min_\mathcal{H} [L(\mathcal{H}) + L(\mathcal{D}\vert\mathcal{H})] \]

$L(\mathcal{H})$是模型$\mathcal{H}$的描述长度（以比特为单位）。
$L(\mathcal{D}\vert\mathcal{H})$是使用$\mathcal{H}$对数据$\mathcal{D}$进行编码时的描述长度（以比特为单位）。

简单来说，最佳模型是包含编码数据和模型本身的最小模型。按照这个标准，我在本节开头提出的记忆方法无论在训练数据上能达到多高的准确性，听起来都很糟糕。

人们可能会认为奥卡姆剃刀是错误的，因为考虑到现实世界可能非常复杂，为什么我们要找到简单的模型？MDL 提出的一个有趣观点是将模型视为“语言”而不是基本的生成定理。我们希望找到良好的压缩策略来描述一小组样本中的规律性，它们不必是用于解释现象的“真实”生成模型。模型可能是错误的，但仍然有用（即，考虑任何贝叶斯先验）。

科尔莫哥洛夫复杂度

科尔莫哥洛夫复杂度依赖于现代计算机的概念来定义对象的算法（描述）复杂度：它是描述对象的最短二进制计算机程序的长度。根据 MDL，计算机本质上是数据解压缩的最一般形式。

科尔莫哥洛夫复杂度的形式定义如下：给定一个通用计算机$\mathcal{U}$和一个程序$p$，我们将计算机处理该程序的输出表示为$\mathcal{U}(p)$，将程序的描述长度表示为$L(p)$。那么对于一个字符串$s$，相对于通用计算机$\mathcal{U}$的科尔莫哥洛夫复杂度$K_\mathcal{U}$为：

\[K_\mathcal{U}(s) = \min_{p: \mathcal{U}(p)=s} L(p) \]

请注意，通用计算机是可以模仿任何其他计算机操作的计算机。所有现代计算机都是通用的，因为它们都可以归纳为图灵机。该定义是通用的，无论我们使用哪种计算机，因为另一个通用计算机总是可以被编程来克隆$\mathcal{U$的行为，而编码这个克隆程序只是一个常数。

科尔莫哥洛夫复杂度与香农信息论之间有许多联系，因为两者都与通用编码有关。一个惊人的事实是，随机变量的期望科尔莫哥洛夫复杂度大约等于其香农熵（参见报告的第 2.3 节）。关于这个主题的更多内容超出了此处的范围，但网上有许多有趣的阅读材料。自行查阅 😃

所罗门诺夫的推理理论

另一个对奥卡姆剃刀的数学形式化是所罗门诺夫的普适归纳推理理论（所罗门诺夫，1964）。该原则是偏爱与“产生训练数据的最短程序”相对应的模型，基于其科尔莫哥洛夫复杂度。

DL 模型的表达能力

深度神经网络与传统统计模型相比具有极其庞大的参数数量。如果我们使用 MDL 来衡量深度神经网络的复杂性，并将参数数量视为模型描述长度，那看起来会很糟糕。模型描述$L(\mathcal{H})$很容易失控。

然而，拥有大量参数对于神经网络获得高表达能力是必要的。由于其出色的能力捕捉任何灵活的数据表示，深度神经网络在许多应用中取得了巨大成功。

通用逼近定理

通用逼近定理表明，具有：1)线性输出层，2)至少包含有限数量神经元的隐藏层和 3)某些激活函数的前馈网络可以以任意精度逼近$\mathbb{R}^n$的紧致子集上的任何连续函数。该定理最初是针对 Sigmoid 激活函数证明的(Cybenko, 1989)。后来证明了通用逼近性质并不特定于激活函数的选择(Hornik, 1991)，而是多层前馈架构。

尽管具有单层的前馈网络足以表示任何函数，但宽度必须是指数级的大。通用逼近定理并不保证模型能够正确学习或泛化。通常，增加更多的层有助于减少浅层网络中所需的隐藏神经元数量。

要利用通用逼近定理，我们总是可以找到一个神经网络来表示目标函数，使得误差在任何期望的阈值下，但我们需要付出代价——网络可能会变得非常庞大。

证明：两层神经网络的有限样本表达能力

我们迄今为止讨论的通用逼近定理并未考虑有限样本集。Zhang, et al. (2017)提供了关于两层神经网络有限样本表达能力的简洁证明。

如果给定一个大小为$n$的样本在$d$维度上，神经网络$C$可以表示任何函数，如果：对于每个有限样本集$S \subseteq \mathbb{R}^d$，其中$\vert S \vert = n$，以及每个在该样本集上定义的函数：$f: S \mapsto \mathbb{R}$，我们可以找到一组权重配置使得$C(\boldsymbol{x}) = f(\boldsymbol{x}), \forall \boldsymbol{x} \in S$。

该论文提出了一个定理：

存在一个具有 ReLU 激活和$2n + d$权重的两层神经网络，可以在$d$维度的大小为$n$的样本上表示任何函数。

证明. 首先，我们想构建一个两层神经网络$C: \mathbb{R}^d \mapsto \mathbb{R$。输入是一个$d$维向量，$\boldsymbol{x} \in \mathbb{R}^d$。隐藏层有$h$个隐藏单元，与权重矩阵$\mathbf{W} \in \mathbb{R}^{d\times h}$，偏置向量$-\mathbf{b} \in \mathbb{R}^h$和 ReLU 激活函数相关联。第二层输出一个标量值，带有权重向量$\boldsymbol{v} \in \mathbb{R}^h$和零偏置。

网络$C$对于输入向量$\boldsymbol{x}$的输出可以表示如下：

\[C(\boldsymbol{x}) = \boldsymbol{v} \max\{ \boldsymbol{x}\mathbf{W} - \boldsymbol{b}, 0\}^\top = \sum_{i=1}^h v_i \max\{\boldsymbol{x}\boldsymbol{W}_{(:,i)} - b_i, 0\} \]

其中$\boldsymbol{W}_{(:,i)}$是$d \times h$矩阵中的第$i$列。

给定一个样本集$S = \{\boldsymbol{x}_1, \dots, \boldsymbol{x}_n\}$和目标值$\boldsymbol{y} = \{y_1, \dots, y_n \}$，我们希望找到适当的权重$\mathbf{W} \in \mathbb{R}^{d\times h}$，$\boldsymbol{b}, \boldsymbol{v} \in \mathbb{R}^h$，使得$C(\boldsymbol{x}_i) = y_i, \forall i=1,\dots,n$。

让我们将所有样本点合并为一个批次，作为一个输入矩阵$\mathbf{X} \in \mathbb{R}^{n \times d}$。如果设置$h=n$，$\mathbf{X}\mathbf{W} - \boldsymbol{b}$将是一个大小为$n \times n$的方阵。

\[\mathbf{M}_\text{ReLU} = \max\{\mathbf{X}\mathbf{W} - \boldsymbol{b}, 0 \} = \begin{bmatrix} \boldsymbol{x}_1\mathbf{W} - \boldsymbol{b} \\ \dots \\ \boldsymbol{x}_n\mathbf{W} - \boldsymbol{b} \\ \end{bmatrix} = [\boldsymbol{x}_i\boldsymbol{W}_{(:,j)} - b_j]_{i \times j} \]

我们可以简化$\mathbf{W}$，使所有列向量在所有列中相同：

\[ \mathbf{W}_{(:,j)} = \boldsymbol{w} \in \mathbb{R}^{d}, \forall j = 1, \dots, n $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d981eeed5b34de43fc4208e773c2dca2.png) 让$a_i = \boldsymbol{x}_i \boldsymbol{w}$，我们希望找到一个合适的$\boldsymbol{w}$和$\boldsymbol{b}$，使得$b_1 < a_1 < b_2 < a_2 < \dots < b_n < a_n$。这总是可以实现的，因为我们试图用$n$个约束解决$n+d$个未知变量，并且$\boldsymbol{x}_i$是独立的（即选择一个随机的$\boldsymbol{w}$，对$\boldsymbol{x}_i \boldsymbol{w}$进行排序，然后将$b_j$设置为中间值）。然后$\mathbf{M}_\text{ReLU}$变成一个下三角矩阵： $$ \mathbf{M}_\text{ReLU} = [a_i - b_j]_{i \times j} = \begin{bmatrix} a_1 - b_1 & 0 & 0 & \dots & 0 \\ \vdots & \ddots & & & \vdots \\ a_i - b_1 & \dots & a_i - b_i & \dots & 0\\ \vdots & & & \ddots & \vdots \\ a_n - b_1 & a_n - b_2 & \dots & \dots & a_n - b_n \\ \end{bmatrix} \]

由于$\det(\mathbf{M}_\text{ReLU}) \neq 0$，它是一个非奇异方阵，因此我们总是可以找到合适的$\boldsymbol{v}$来解决$\boldsymbol{v}\mathbf{M}_\text{ReLU}=\boldsymbol{y}$（换句话说，$\mathbf{M}_\text{ReLU}$的列空间是$\mathbb{R}^n$的全部，我们可以找到列向量的线性组合以获得任何$\boldsymbol{y}$）。

深度神经网络可以学习随机噪声

众所周知，双层神经网络是通用逼近器，看到它们能够完美地学习无结构的随机噪声并不奇怪，正如Zhang 等人（2017 年）所示。如果图像分类数据集的标签被随机洗牌，深度神经网络的高表达能力仍然可以使它们实现接近零的训练损失。这些结果不会因添加正则化项而改变。

图 1. 在 CIFAR10 上拟合模型，使用随机标签或随机像素：（a）学习曲线；（b-c）标签损坏比例是随机洗牌标签的百分比。（图片来源：Zhang 等人 2017）

深度学习模型是否过度拟合？

深度学习模型被过度参数化，并且通常可以在训练数据上获得完美的结果。在传统观点中，就像偏差-方差权衡一样，这可能是一场灾难，没有任何东西可能泛化到未见的测试数据。然而，通常情况下，这种“过拟合”（训练误差=0）的深度学习模型仍然在样本外的测试数据上表现良好。嗯...有趣，为什么呢？

深度学习的现代风险曲线

传统机器学习使用以下 U 形风险曲线来衡量偏差-方差权衡，并量化模型的泛化能力。如果有人问我如何判断模型是否过拟合，这将是我脑海中首先浮现的事情。

随着模型变得更大（增加更多参数），训练误差降低至接近零，但测试误差（泛化误差）一旦模型复杂度增加到“欠拟合”和“过拟合”之间的阈值，就开始增加。在某种程度上，这与奥卡姆剃刀是一致的。

图 2。U 形偏差-方差风险曲线。 (图片来源：(左) 论文 (右) 本文第 6 图)

遗憾的是，这并不适用于深度学习模型。Belkin et al. (2018)调和了传统的偏差-方差权衡，并为深度神经网络提出了一个新的双 U 形风险曲线。一旦网络参数的数量足够高，风险曲线就会进入另一个阶段。

图 3。深度神经网络的新双 U 形偏差-方差风险曲线。 (图片来源：原始论文)

该论文声称这可能是由于两个原因：

参数的数量并不是归纳偏差的良好度量，归纳偏差被定义为学习算法的一组假设，用于预测未知样本。在后文的章节中更多讨论深度学习模型的复杂性。
配备更大的模型，我们可能能够发现更大的函数类，并进一步找到具有较小范数且因此“更简单”的插值函数。

双 U 形风险曲线是根据实证观察得出的，如论文所示。然而，我在努力尝试重现结果时遇到了一些困难。虽然有一些迹象表明，但为了生成类似于定理中的漂亮平滑曲线，实验中的许多细节必须被注意到。

图 4。训练和评估错误的一个隐藏层 fc 网络，训练了不同数量的隐藏单元，从 MNIST 中采样了 4000 个数据点。 (图片来源：原始论文)

正则化不是泛化的关键

正则化是控制过拟合和提高模型泛化性能的常见方法。有趣的是，一些研究（Zhang 等人，2017）表明，显式正则化（即数据增强、权重衰减和丢弃）既不是必要的也不足以减少泛化误差。

以在 CIFAR10 上训练的 Inception 模型为例（见图 5），正则化技术有助于样本外泛化，但作用不大。没有单一的正则化似乎是关键的，独立于其他项。因此，正则化器不太可能是泛化的根本原因。

图 5。在 CIFAR10 上训练的 Inception 模型的准确性，采用不同组合的数据增强和权重衰减。（图片来源：原论文中的表 1 原始论文）

内在维度

参数数量与深度学习领域中模型过拟合无关，这表明参数计数不能指示深度神经网络的真实复杂性。

除了参数计数外，研究人员提出了许多量化这些模型复杂性的方法，例如模型的自由度数量（Gao＆Jojic，2016）或预测代码（Blier＆Ollivier，2018）。

我想讨论一种最近在这个问题上的方法，名为内在维度（Li 等人，2018）。内在维度直观易测量，同时仍揭示了不同规模模型的许多有趣属性。

考虑到具有大量参数的神经网络形成了一个高维参数空间，学习发生在这个高维目标景观上。参数空间流形的形状至关重要。例如，更平滑的流形有利于通过提供更具预测性的梯度和允许更大的学习速率来进行优化——这被认为是批量归一化成功稳定训练的原因（Santurkar 等人，2019）。

尽管参数空间很大，幸运的是我们不必太担心优化过程陷入局部最优解，因为已经显示目标景观中的局部最优点几乎总是位于鞍点而不是山谷中。换句话说，总是有一组包含路径的维度可以离开局部最优解并继续探索。

图 6。参数优化景观上各种类型的临界点的插图。（图片来源：这里）

内在维度测量背后的一个直觉是，由于参数空间具有如此高的维度，可能并不需要利用所有维度来有效学习。如果我们只在目标景观的一个切片上移动仍然可以学习到一个好的解决方案，那么由参数计数得出的结果模型复杂性可能比看起来要低。这本质上是内在维度试图评估的内容。

假设一个模型有$D$个维度，其参数表示为$\theta^{(D)}$。为了学习，会随机抽样一个较小的$d$维子空间，$\theta^{(d)}$，其中$d < D$。在一个优化更新期间，不是根据所有$D$个维度采取梯度步骤，而是仅使用较小的子空间$\theta^{(d)}$并重新映射以更新模型参数。

图 7。当$D=3$时，直接优化的参数向量示意图。（图片来源：原始论文）

梯度更新公式如下所示：

\[\theta^{(D)} = \theta_0^{(D)} + \mathbf{P} \theta^{(d)} \]

其中$\theta_0^{(D)}$是初始化值，$\mathbf{P}$是一个$D \times d$的投影矩阵，在训练之前随机抽样。$\theta_0^{(D)}$和$\mathbf{P}$在训练期间都是不可训练的，固定的。$\theta^{(d)}$初始化为全零。

通过搜索$d = 1, 2, \dots, D$的取值，当解决方案出现时对应的$d$被定义为内在维度。

结果表明，许多问题的内在维度远小于参数数量。例如，在 CIFAR10 图像分类中，一个具有 650k+参数的全连接网络仅具有 9k 的内在维度，而包含 62k 参数的卷积网络甚至具有更低的内在维度 2.9k。

图 8。实现 90%最佳性能的各种模型的测得内在维度$d$。（图片来源：原始论文）

内在维度的测量表明，深度学习模型比它们看起来要简单得多。

异构层鲁棒性

Zhang 等人（2019）研究了不同层参数的作用。论文提出的基本问题是：“所有层是否平等？”简短的答案是：不。模型对某些层的变化更敏感，而对其他层则不敏感。

该论文提出了两种操作类型，可以应用于第$\ell$层的参数，$\ell = 1, \dots, L$，在时间$t$，$\theta^{(\ell)}_t$，以测试它们对模型鲁棒性的影响：

重新初始化：将参数重置为初始值，$\theta^{(\ell)}_t \leftarrow \theta^{(\ell)}_0$。层$\ell$重新初始化后网络的性能被称为层$\ell$的重新初始化稳健性。
重新随机化：随机重新采样层的参数，$\theta^{(\ell)}_t \leftarrow \tilde{\theta}^{(\ell)} \sim \mathcal{P}^{(\ell)}$。相应的网络性能称为层$\ell$的重新随机化稳健性。

可以通过这两种操作将层分为两类：

稳健层：在重新初始化或重新随机化层后，网络没有或只有微不足道的性能下降。
关键层：其他情况。

在全连接和卷积网络上观察到类似的模式。重新随机化任何一层完全破坏了模型性能，因为预测立即降至随机猜测。更有趣和令人惊讶的是，当应用重新初始化时，只有第一层或前几层（最接近输入层的层）是关键的，而重新初始化更高层导致性能仅微不足道的下降。

图 9. (a) 在 MNIST 上训练的 fc 网络。每一行对应网络中的一层。第一列是每一层的重新随机化稳健性，其余列表示不同训练时间下的重新初始化稳健性。(b) 在 CIFAR 10 上训练的 VGG11 模型（卷积网络）。与(a)中类似的表示，但行和列被转置了。(图片来源：原始论文)

ResNet 能够在非相邻层之间使用快捷方式重新分配敏感层，而不仅仅是在底部。借助残差块架构，网络可以均匀地对重新随机化保持稳健。每个残差块的第一层仍然对重新初始化和重新随机化敏感。如果我们将每个残差块视为一个局部子网络，那么稳健性模式类似于上述的 fc 和卷积网络。

图 10. 在 CIFAR10 上训练的 ResNet-50 模型中层的重新随机化（第一行）和重新初始化（重置行）稳健性。(图片来源：原始论文)

基于深度神经网络中许多顶层在重新初始化后对模型性能并不关键的事实，该论文粗略地得出结论：

“使用随机梯度下降训练的过度容量深度网络由于自我限制关键层的数量而具有低复杂性。”

我们可以将重新初始化视为减少有效参数数量的一种方式，因此这一观察结果与内在维度所展示的一致。

中彩票假设

“中奖票”假设（Frankle & Carbin, 2019）是另一个引人入胜且鼓舞人心的发现，支持只有网络参数的一个子集对模型性能有影响，因此网络不会过拟合。 “中奖票”假设表明，随机初始化的密集前馈网络包含一个子网络池，其中只有一个子集是“中奖票”，当单独训练时可以实现最佳性能。

这个想法受到网络修剪技术的启发 —— 移除不必要的权重（即几乎可以忽略的微小权重），而不影响模型性能。尽管最终网络大小可以大幅减小，但从头开始成功训练这样一个被修剪的网络架构是困难的。这感觉就像为了成功训练神经网络，我们需要大量的参数，但一旦模型训练好了，我们并不需要那么多参数来保持准确性。为什么会这样呢？

“中奖票”假设进行了以下实验：

随机初始化一个具有初始化值 $\theta_0$ 的密集前馈网络；
对网络进行多次迭代训练，以获得参数配置 $\theta$ 的良好性能；
在 $\theta$ 上运行修剪，并创建一个掩码 $m$。
“中奖票”初始化配置为 $m \odot \theta_0$。

只训练具有步骤 1 中找到的初始值的小“中奖票”参数子集，模型能够实现与步骤 2 中相同水平的准确性。结果表明，最终解表示中不需要大的参数空间，但在训练中需要，因为它提供了许多更小子网络的初始化配置的大池。

“中奖票”假设为解释和剖析深度神经网络结果开辟了新的视角。许多有趣的后续工作正在进行中。

实验

在看到以上所有有趣的发现之后，复现它们应该是非常有趣的。有些结果比其他结果更容易复现。具体细节如下。我的代码可以在 github 上找到 lilianweng/generalization-experiment。

DL 模型的新风险曲线

这是最棘手的一个要复现。作者们给了我很多好建议，我非常感激。以下是他们实验中一些值得注意的设置：

没有像权重衰减、dropout 这样的正则化项。
在图 3 中，训练集包含 4k 个样本。只进行一次采样，并对所有模型固定。评估使用完整的 MNIST 测试集。
每个网络都经过长时间训练，以实现接近零的训练风险。学习率针对不同大小的模型进行了不同的调整。
为了使模型在欠参数化区域对初始化不那么敏感，他们的实验采用了“重复利用权重”方案：从训练较小的神经网络获得的参数被用作训练较大网络的初始化。

我没有训练或调整每个模型足够长的时间以获得完美的训练性能，但评估错误确实显示了在插值阈值周围的特殊转折，与训练错误不同。例如，对于 MNIST，阈值是训练样本数乘以类别数（10），即 40000。

x 轴是模型参数的数量：（28 * 28 + 1）* num. units + num. units * 10，取对数。

层并非一视同仁

这个实验很容易复现。查看我的实现这里。

在第一个实验中，我使用了每层有 256 个单元的三层全连接网络。第 0 层是输入层，第 3 层是输出层。该网络在 MNIST 上进行了 100 个 epochs 的训练。

在第二个实验中，我使用了每层有 128 个单元的四层全连接网络。其他设置与实验 1 相同。

内在维度测量

为了正确地将$d$维子空间映射到完整的参数空间，投影矩阵$\mathbf{P}$应具有正交列。因为乘积$\mathbf{P}\theta^{(d)}$是$\mathbf{P}$的列的和，乘以$d$维向量中相应的标量值，$\sum_{i=1}^d \theta^{(d)}_i \mathbf{P}^\top_{(:,i)}$，最好充分利用具有正交列的$\mathbf{P}$中的子空间。

我的实现采用了一种朴素的方法，通过从标准正态分布中抽取独立条目的大矩阵。在高维空间中，预期列是独立的，因此是正交的。当维度不太大时，这种方法有效。当探索大的$d$时，有一些方法可以创建稀疏投影矩阵，这正是内在维度论文建议的。

这里展示了两个网络的实验运行结果：（左）每层有 64 个单元的两层全连接网络和（右）隐藏单元为 128 个的单层全连接网络，在 MNIST 的 10%数据上进行训练。对于每个$d$，模型训练了 100 个 epochs。查看这里的代码和这里。

引用为:

@article{weng2019overfit,
  title   = "Are Deep Neural Networks Dramatically Overfitted?",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2019",
  url     = "https://lilianweng.github.io/posts/2019-03-14-overfit/"
}

参考文献

[1] 维基百科关于奥卡姆剃刀的页面。

[2] 奥卡姆剃刀在 Principia Cybernetica 网站上的页面。

[3] Peter Grunwald。“最小描述长度原理的教程介绍”。2004。

[4] Ian Goodfellow 等人。深度学习。2016。Sec 6.4.1。

[5] 张赤远等人。“理解深度学习需要重新思考泛化。” ICLR 2017。

[6] Shibani Santurkar 等人。“批量归一化如何帮助优化？” NIPS 2018。

[7] Mikhail Belkin 等人。“调和现代机器学习和偏差-方差权衡。” arXiv:1812.11118，2018。

[8] Chiyuan Zhang 等人。“所有层是否平等？” arXiv:1902.01996，2019。

[9] Chunyuan Li 等人。“测量客观景观的内在维度。” ICLR 2018。

[10] Jonathan Frankle 和 Michael Carbin。“彩票票据假设：寻找稀疏、可训练的神经网络。” ICLR 2019。

通用语言模型

lilianweng.github.io/posts/2019-01-31-lm/

2019-02-14 更新：添加[ULMFiT 和 GPT-2。]

2020-02-29 更新：添加[ALBERT。]

2020-10-25 更新：添加[RoBERTa。]

2020-12-13 更新：添加[T5。]

2020-12-30 更新：添加[GPT-3。]

2021-11-13 更新：添加[XLNet、BART 和 ELECTRA；同时更新 Summary 部分。]

图 0. 我猜它们是 Elmo 和 Bert？（图片来源：这里）

我们在 2018 年看到了 NLP 方面的惊人进展。像OpenAI GPT和BERT这样的大规模预训练语言模型使用通用模型架构在各种语言任务上取得了出色的表现。这个想法类似于 ImageNet 分类预训练如何帮助许多视觉任务（*）。甚至比视觉分类预训练更好，这种在 NLP 中简单而强大的方法不需要标记的预训练数据，使我们能够尝试增加训练规模，直至极限。

（）He 等人（2018）发现，对于图像分割任务，预训练可能并非必要。*

在我之前关于词嵌入的 NLP 文章中，介绍的嵌入不是特定上下文的 — 它们是基于词的并发性而不是顺序上下文学习的。因此，在两个句子中，“我在吃一个苹果”和“我有一个苹果手机”中，两个“苹果”词指的是非常不同的东西，但它们仍然共享相同的词嵌入向量。

尽管如此，早期在问题解决中采用词嵌入的方式是将它们用作现有任务特定模型的附加特征，而且改进是有限的。

在本文中，我们将讨论各种方法是如何提出的，使嵌入依赖于上下文，并使它们更容易、更便宜地应用于一般形式的下游任务。

CoVe

CoVe（McCann 等人，2017），简称上下文词向量，是由注意力 seq-to-seq 机器翻译模型中的编码器学习的一种词嵌入类型。与此处介绍的传统词嵌入不同，CoVe 词表示是整个输入句子的函数。

NMT Recap

这里的神经机器翻译(NMT)模型由标准的双层双向 LSTM 编码器和具有注意力机制的双层单向 LSTM 解码器组成。它在英德翻译任务上进行了预训练。编码器学习并优化英语单词的嵌入向量，以便将它们翻译成德语。基于这样的直觉，即编码器应该在将单词转换为另一种语言之前捕捉高级语义和句法含义，编码器输出用于为各种下游语言任务提供上下文化的单词嵌入。

图 1. CoVe 中使用的 NMT 基础模型。

源语言（英语）中的$n$个单词序列：$x = [x_1, \dots, x_n]$。
目标语言（德语）中的$m$个单词序列：$y = [y_1, \dots, y_m]$。
源单词的GloVe向量：$\text{GloVe}(x)$。
目标单词的随机初始化嵌入向量：$z = [z_1, \dots, z_m]$。
biLSTM 编码器输出一系列隐藏状态：$h = [h_1, \dots, h_n] = \text{biLSTM}(\text{GloVe}(x))$，$h_t = [\overrightarrow{h}_t; \overleftarrow{h}_t]$，其中前向 LSTM 计算$\overrightarrow{h}_t = \text{LSTM}(x_t, \overrightarrow{h}_{t-1})$，后向计算给出$\overleftarrow{h}_t = \text{LSTM}(x_t, \overleftarrow{h}_{t-1})$。
注意力解码器输出一个关于单词的分布：$p(y_t \mid H, y_1, \dots, y_{t-1})$，其中$H$是沿着时间维度的隐藏状态堆栈$\{h\}$：

\[\begin{aligned} \text{解码器隐藏状态：} s_t &= \text{LSTM}([z_{t-1}; \tilde{h}_{t-1}], s_{t-1}) \\ \text{注意力权重：} \alpha_t &= \text{softmax}(H(W_1 s_t + b_1)) \\ \text{调整后的上下文隐藏状态：} \tilde{h}_t &= \tanh(W_2[H^\top\alpha_t;s_t] + b_2) \\ \text{解码器输出：} p(y_t\mid H, y_1, \dots, y_{t-1}) &= \text{softmax}(W_\text{out} \tilde{h}_t + b_\text{out}) \end{aligned} \]

在下游任务中使用 CoVe

NMT 编码器的隐藏状态被定义为其他语言任务的上下文向量：

\[\text{CoVe}(x) = \text{biLSTM}(\text{GloVe}(x)) \]

该论文建议在问答和分类任务中使用 GloVe 和 CoVe 的串联。GloVe 从全局单词共现比例中学习，因此没有句子上下文，而 CoVe 是通过处理文本序列生成的，能够捕捉上下文信息。

\[v = [\text{GloVe}(x); \text{CoVe}(x)] \]

给定一个下游任务，我们首先生成输入单词的 GloVe + CoVe 向量的串联，然后将它们作为额外特征输入到任务特定模型中。

图 2. CoVe 嵌入是由为机器翻译任务训练的编码器生成的。编码器可以插入到任何下游任务特定模型中。（图片来源：原始论文）

总结：CoVe 的局限性是显而易见的：（1）预训练受监督翻译任务可用数据集的限制；（2）CoVe 对最终性能的贡献受任务特定模型架构的限制。

在接下来的章节中，我们将看到 ELMo 通过无监督预训练和 OpenAI GPT & BERT 进一步通过无监督预训练+使用生成模型架构来克服这两个问题。

ELMo

ELMo，即来自语言模型的嵌入（Peters, et al, 2018）通过以无监督方式预训练语言模型来学习上下文化的词表示。

双向语言模型

双向语言模型（biLM）是 ELMo 的基础。输入是一个长度为$n$的标记序列，$(x_1, \dots, x_n)$，语言模型学习预测给定历史的下一个标记的概率。

在前向传播中，历史包含目标标记之前的单词，

\[p(x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid x_1, \dots, x_{i-1}) \]

在反向传播中，历史包含目标标记之后的单词，

\[p(x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid x_{i+1}, \dots, x_n) \]

两个方向的预测由具有隐藏状态$\overrightarrow{\mathbf{h}}_{i,\ell}$和$\overleftarrow{\mathbf{h}}_{i,\ell}$的多层 LSTM 模型建模，用于输入标记$x_i$的层级$\ell=1,\dots,L$。最终层的隐藏状态$\mathbf{h}_{i,L} = [\overrightarrow{\mathbf{h}}_{i,L}; \overleftarrow{\mathbf{h}}_{i,L}]$用于在 softmax 归一化后输出标记的概率。它们共享嵌入层和 softmax 层，分别由参数$\Theta_e$和$\Theta_s$参数化。

图 3. ELMo 的双向 LSTM 基础模型。（图片来源：基于"神经网络、类型和函数式编程"中的图重新创建，作者 Christopher Olah。）

该模型经过训练，以最小化负对数似然（=最大化真实单词的对数似然）的方式进行双向训练：

\[\begin{aligned} \mathcal{L} = - \sum_{i=1}^n \Big( \log p(x_i \mid x_1, \dots, x_{i-1}; \Theta_e, \overrightarrow{\Theta}_\text{LSTM}, \Theta_s) + \\ \log p(x_i \mid x_{i+1}, \dots, x_n; \Theta_e, \overleftarrow{\Theta}_\text{LSTM}, \Theta_s) \Big) \end{aligned} \]

ELMo 表示

在一个$L$层的双向语言模型（biLM）之上，ELMo 通过学习任务特定的线性组合将所有层的隐藏状态堆叠在一起。对于标记$x_i$的隐藏状态表示包含$2L+1$个向量：

\[R_i = \{ \mathbf{h}_{i,\ell} \mid \ell = 0, \dots, L \} \]

其中 $\mathbf{h}_{0, \ell}$ 是嵌入层输出，$\mathbf{h}_{i, \ell} = [\overrightarrow{\mathbf{h}}_{i,\ell}; \overleftarrow{\mathbf{h}}_{i,\ell}]$。

线性组合中的权重 $\mathbf{s}^\text{task}$ 是为每个最终任务学习的，并通过 softmax 进行归一化。缩放因子 $\gamma^\text{task}$ 用于纠正 biLM 隐藏状态分布与任务特定表示分布之间的不对齐。

\[v_i = f(R_i; \Theta^\text{task}) = \gamma^\text{task} \sum_{\ell=0}^L s^\text{task}_i \mathbf{h}_{i,\ell} \]

为了评估隐藏状态在不同层中捕获的信息类型，ELMo 分别应用于语义密集和语法密集任务，使用 biLM 不同层中的表示：

语义任务：词义消歧（WSD） 任务强调在给定上下文的情况下单词的含义。顶层 biLM 在这个任务上比第一层更好。
语法任务：词性标注（POS）标注任务旨在推断一句话中单词的语法角色。使用 biLM 的第一层比顶层可以获得更高的准确性。

比较研究表明，句法信息在较低层更好地表示，而语义信息则由较高层捕获。因为不同层往往携带不同类型的信息，将它们堆叠在一起有助于。

在下游任务中使用 ELMo

类似于 CoVe 如何帮助不同的下游任务，ELMo 嵌入向量被包含在输入或任务特定模型的较低层。此外，对于一些任务（即 SNLI 和 SQuAD，但不包括 SRL），将它们添加到输出层也有帮助。

ELMo 带来的改进对于具有小型监督数据集的任务影响最大。使用 ELMo，我们也可以用更少的标记数据达到类似的性能。

总结：语言模型的预训练是无监督的，理论上预训练可以尽可能扩展，因为未标记的文本语料库丰富。然而，它仍然依赖于任务定制模型，因此改进仅是渐进的，而为每个任务寻找一个良好的模型架构仍然是非平凡的。

跨视图训练

在 ELMo 中，无监督预训练和任务特定学习发生在两个独立模型中的两个单独训练阶段。跨视图训练（简称 CVT；Clark et al., 2018）将它们合并为一个统一的半监督学习过程，其中 biLSTM 编码器的表示通过有标记数据的监督学习和无标记数据的无监督学习在辅助任务上得到改进。

模型架构

该模型由两层双向 LSTM 编码器和一个主要预测模块组成。在训练过程中，模型交替接收带标签和未标记的数据批次。

在带标签的示例上，所有模型参数都通过标准监督学习进行更新。损失是标准的交叉熵。
在未标记的示例上，主要预测模块仍然可以生成“软”目标，尽管我们无法准确知道它们有多准确。在一些辅助任务中，预测器只看到并处理输入的受限视图，例如只使用编码器隐藏状态表示中的一个方向。期望辅助任务输出与完整输入的主要预测目标匹配。

这样，编码器被迫将完整上下文的知识提炼成部分表示。在这个阶段，biLSTM 编码器被反向传播，但主要预测模块是固定的。损失在于最小化辅助和主要预测之间的距离。

图 4. 半监督语言模型跨视图训练的概述。（图片来源：原始论文）

多任务学习

当同时训练多个任务时，CVT 为额外任务添加了几个额外的主要预测模型。它们都共享相同的句子表示编码器。在监督训练期间，一旦随机选择一个任务，就会更新其对应预测器和表示编码器中的参数。通过未标记的数据样本，编码器通过最小化辅助输出和每个任务的主要预测之间的差异来跨所有任务联合优化。

多任务学习鼓励更好的表示泛化性，同时产生一个不错的副产品：来自未标记数据的所有任务标记示例。考虑到跨任务标签很有用但相当稀有，它们是宝贵的数据标签。

在下游任务中使用 CVT

理论上，主要预测模块可以采用任何形式，通用或特定于任务的设计。CVT 论文中提供的示例包括这两种情况。

在顺序标记任务（对每个标记进行分类）中，如 NER 或 POS 标记，预测器模块包含两个全连接层和一个 softmax 层，用于生成类标签的概率分布。对于每个标记$\mathbf{x}_i$，我们取两层中的相应隐藏状态，$\mathbf{h}_1^{(i)}$ 和 $\mathbf{h}_2^{(i)}$：

\[\begin{aligned} p_\theta(y_i \mid \mathbf{x}_i) &= \text{NN}(\mathbf{h}^{(i)}) \\ &= \text{NN}([\mathbf{h}_1^{(i)}; \mathbf{h}_2^{(i)}]) \\ &= \text{softmax} \big( \mathbf{W}\cdot\text{ReLU}(\mathbf{W'}\cdot[\mathbf{h}_1^{(i)}; \mathbf{h}_2^{(i)}]) + \mathbf{b} \big) \end{aligned} \]

辅助任务只接收第一层的前向或后向 LSTM 状态。因为它们只观察到部分上下文，要么在左侧要么在右侧，它们必须像语言模型一样学习，尝试根据上下文预测下一个标记。fwd和bwd辅助任务只采用一个方向。future和past任务在前向和后向方向上进一步进行一步。

\[ \begin{aligned} p_\theta^\text{fwd}(y_i \mid \mathbf{x}_i) &= \text{NN}^\text{fwd}(\overrightarrow{\mathbf{h}}^{(i)}) \\ p_\theta^\text{bwd}(y_i \mid \mathbf{x}_i) &= \text{NN}^\text{bwd}(\overleftarrow{\mathbf{h}}^{(i)}) \\ p_\theta^\text{future}(y_i \mid \mathbf{x}_i) &= \text{NN}^\text{future}(\overrightarrow{\mathbf{h}}^{(i-1)}) \\ p_\theta^\text{past}(y_i \mid \mathbf{x}_i) &= \text{NN}^\text{past}(\overleftarrow{\mathbf{h}}^{(i+1)}) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/a53253d738a76634f4155d83123fa9c2.png) 图 5。顺序标记任务依赖于四个辅助预测模型，它们的输入只涉及单向隐藏状态：前向、后向、未来和过去。（图片来源：[原论文](https://arxiv.org/abs/1809.08370)）注意，如果主要的预测模块使用了 dropout，在使用标记数据进行训练时，dropout 层会像平常一样工作，但在使用无标签数据进行训练时，不会应用于生成辅助任务的“软”目标。在机器翻译任务中，主要的预测模块被标准的单向 LSTM 解码器与注意力所取代。有两个辅助任务：（1）通过随机将一些值归零来在注意力权重向量上应用 dropout；（2）预测目标序列中的未来单词。辅助任务的主要预测是通过在输入序列上运行固定的主要解码器并使用[束搜索](https://en.wikipedia.org/wiki/Beam_search)产生的最佳预测目标序列来匹配的。 # ULMFiT 使用生成式预训练 LM + 任务特定微调的想法首次在 ULMFiT 中探索（[Howard & Ruder, 2018](https://arxiv.org/abs/1801.06146)），直接受到使用 ImageNet 预训练进行计算机视觉任务成功的启发。基础模型是[AWD-LSTM](https://arxiv.org/abs/1708.02182)。 ULMFiT 遵循三个步骤来在下游语言分类任务上实现良好的迁移学习结果： 1. *通用 LM 预训练*：在维基百科文本上。 1. *目标任务 LM 微调*：ULMFiT 提出了两种训练技术来稳定微调过程。见下文。 + **区分性微调**的动机是 LM 的不同层捕获不同类型的信息（见上面的讨论）。ULMFiT 建议使用不同的学习率$\{\eta¹, \dots, \eta^\ell, \dots, \eta^L\}$微调每一层，其中$\eta$是第一层的基础学习率，$\eta^\ell$是第$\ell$层的学习率，总共有$L$层。 + **倾斜三角形学习率（STLR）** 是指一种特殊的学习率调度，首先线性增加学习率，然后线性衰减。增加阶段很短，使模型能够快速收敛到适合任务的参数空间，而衰减期较长，可以更好地进行微调。 1. *目标任务分类器微调*：预训练的 LM 通过两个标准前馈层和最后的 softmax 归一化来预测目标标签分布。 + **连接池** 从隐藏状态的历史中提取最大池化和平均池化，并将它们与最终隐藏状态连接起来。 + **渐进解冻** 通过逐渐解冻模型层来避免灾难性遗忘，从最后一层开始逐渐解冻。首先解冻最后一层，并进行一轮微调。然后解冻下一层。重复此过程，直到所有层都被微调。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/32bdf1c8e90e836e9925564a53f7fe7b.png) 图 6. ULMFiT 的三个训练阶段。（图片来源：[原始论文](https://arxiv.org/abs/1801.06146)） # GPT 遵循 ELMo 的类似思想，OpenAI **GPT**，即**生成式预训练 Transformer**（[Radford 等，2018](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)），通过在巨大的自由文本语料库上进行训练，将无监督语言模型扩展到更大规模。尽管有相似之处，但 GPT 与 ELMo 有两个主要区别。 1. 模型架构不同：ELMo 使用独立训练的从左到右和从右到左的多层 LSTM 浅层连接，而 GPT 是多层 Transformer 解码器。 1. 在下游任务中使用上下文化嵌入不同：ELMo 将嵌入馈送到为特定任务定制的模型中作为附加特征，而 GPT 为所有最终任务微调相同的基础模型。 ## Transformer 解码器作为语言模型与[原始 Transformer](https://arxiv.org/abs/1706.03762)架构相比，[Transformer 解码器](https://arxiv.org/abs/1801.10198)模型丢弃了编码器部分，因此只有一个单独的输入句子，而不是两个独立的源序列和目标序列。该模型在输入序列的嵌入上应用多个 Transformer 块。每个块包含一个掩码的*多头自注意力*层和一个*逐点前馈*层。在 softmax 归一化后，最终输出产生目标标记的分布。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c56af6fb2bb49ce420474bb91bb09e19.png) 图 7. OpenAI GPT 中的 Transformer 解码器模型架构。损失是负对数似然，与 ELMo 相同，但没有反向计算。假设大小为$k$的上下文窗口位于目标词之前，损失将如下所示： $$ \mathcal{L}_\text{LM} = -\sum_{i} \log p(x_i\mid x_{i-k}, \dots, x_{i-1}) \]

字节对编码

字节对编码（BPE）用于编码输入序列。BPE 最初是在 1990 年代作为数据压缩算法提出的，后来被采用来解决机器翻译中的开放词汇问题，因为在翻译成新语言时很容易遇到罕见和未知的单词。受到罕见和未知单词通常可以分解为多个子词的直觉启发，BPE 通过迭代和贪婪地合并频繁的字符对找到最佳的单词分割。

监督微调

OpenAI GPT 提出的最重要的升级是摆脱特定任务模型，直接使用预训练的语言模型！

以分类为例。假设在标记的数据集中，每个输入有$n$个标记，$\mathbf{x} = (x_1, \dots, x_n)$，一个标签$y$。GPT 首先通过预训练的变压器解码器处理输入序列$\mathbf{x}$，最后一个标记$x_n$的最后一层输出为$\mathbf{h}_L^{(n)}$。然后，只需一个新的可训练权重矩阵$\mathbf{W}_y$，就可以预测类标签的分布。

$$ P(y\mid x_1, \dots, x_n) = \text{softmax}(\mathbf{h}_L^{(n)}\mathbf{W}_y) $$

损失函数是为了最小化真实标签的负对数似然。此外，将 LM 损失作为辅助损失添加是有益的，因为：

(1) 它有助于加速训练过程的收敛
(2) 预计将改善监督模型的泛化能力。

\[\begin{aligned} \mathcal{L}_\text{cls} &= \sum_{(\mathbf{x}, y) \in \mathcal{D}} \log P(y\mid x_1, \dots, x_n) = \sum_{(\mathbf{x}, y) \in \mathcal{D}} \log \text{softmax}(\mathbf{h}_L^{(n)}(\mathbf{x})\mathbf{W}_y) \\ \mathcal{L}_\text{LM} &= -\sum_{i} \log p(x_i\mid x_{i-k}, \dots, x_{i-1}) \\ \mathcal{L} &= \mathcal{L}_\text{cls} + \lambda \mathcal{L}_\text{LM} \end{aligned} \]

采用类似的设计，其他端任务不需要定制的模型结构（参见图 7）。如果任务输入包含多个句子，那么在每对句子之间添加一个特殊的分隔符标记（$）。这个分隔符标记的嵌入是我们需要学习的新参数，但应该非常小。

对于句子相似性任务，因为顺序不重要，两种顺序都包含在内。对于多项选择任务，上下文与每个答案候选项配对。

图 8. 对下游任务进行轻微修改的 GPT 变压器模型的训练对象。（图片来源：原始论文）

摘要：看到这样一个通用框架能够在当时（2018 年 6 月）击败大多数语言任务的 SOTA 是非常整洁和鼓舞人心的。在第一阶段，语言模型的生成式预训练可以吸收尽可能多的自由文本。然后在第二阶段，模型在具有少量标记数据集和最小一组新参数的特定任务上进行微调学习。

GPT 的一个局限性是其单向性 —— 该模型只被训练来预测未来的从左到右的上下文。

BERT

BERT，全称双向编码器表示来自变压器（Devlin, et al., 2019）是 GPT 的直接后裔：在自由文本上训练一个大型语言模型，然后在不使用定制网络架构的情况下对特定任务进行微调。

与 GPT 相比，BERT 最大的区别和改进在于使训练双向。该模型学会预测左侧和右侧的上下文。根据消融研究，论文声称：

“我们模型的双向性质是最重要的新贡献”

预训练任务

BERT 的模型架构是一个多层双向变压器编码器。

图 9. 变压器编码器模型架构回顾。（图片来源：变压器论文）

为了鼓励双向预测和句子级理解，BERT 训练了两个任务，而不是基本的语言任务（即根据上下文预测下一个标记）。

*任务 1：掩码语言模型（MLM）

来自Wikipedia：“闭式测试（也称为闭式删除测试）是一种练习、测试或评估，由一部分语言组成，其中某些项目、单词或符号被删除（闭式文本），参与者被要求替换缺失的语言项目。…该练习最早由 W.L.泰勒在 1953 年描述。”

通过训练“掩码语言模型”任务，可以毫不奇怪地认为，学习单词周围而不仅仅是单词后面的上下文的表示能够更好地捕捉其含义，无论是在句法上还是语义上。BERT 通过这种方式鼓励模型：

随机掩码每个序列中的 15%的标记。因为如果我们只用特殊占位符[MASK]替换掩码标记，那么在微调过程中永远不会遇到这个特殊标记。因此，BERT 采用了几种启发式技巧：
- (a) 以 80%的概率，用[MASK]替换选定的单词；
- (b) 以 10%的概率，随机替换为一个单词；
- (c) 以 10%的概率，保持不变。
该模型只预测缺失的单词，但它没有信息表明哪些单词已被替换或应该被预测。输出大小仅为输入大小的 15%。

任务 2：下一个句子预测

受到许多下游任务涉及句子之间关系理解的事实的启发（即，QA、NLI），BERT 在训练中增加了另一个辅助任务，即训练一个用于告知一个句子是否是另一个句子的下一个句子的 二元分类器：

样本句对 (A, B) 使得：
- (a) 50% 的时间，B 跟随 A；
- (b) 50% 的时间，B 不跟随 A。
该模型处理两个句子并输出一个二进制标签，指示 B 是否是 A 的下一个句子。

上述两个辅助任务的训练数据可以轻松地从任何单语语料库中生成。因此，训练规模是不受限制的。训练损失是平均掩码语言模型似然和平均下一个句子预测似然的总和。

图 10. BERT、OpenAI GPT 和 ELMo 模型架构的比较。 (图片来源：原始论文)

输入嵌入

输入嵌入是三个部分的总和：

WordPiece 分词嵌入：WordPiece 模型最初是为日语或韩语分词问题提出的。它们可以将英语单词进一步分割为更小的子词单元，以便更有效地处理罕见或未知单词。如果感兴趣，请阅读链接的论文以了解拆分单词的最佳方式。
段落嵌入：如果输入包含两个句子，则它们分别具有句子 A 嵌入和句子 B 嵌入，并且它们由特殊字符 [SEP] 分隔；如果输入只包含一个句子，则仅使用句子 A 嵌入。
位置嵌入：位置嵌入是学习而不是硬编码的。

图 11. BERT 输入表示。 (图片来源：原始论文)

请注意，第一个标记始终被强制为 [CLS] —— 一个稍后将用于下游任务中预测的占位符。

使用 BERT 在下游任务中

BERT 微调只需要添加一些新参数，就像 OpenAI GPT 一样。

对于分类任务，我们通过取特殊的第一个标记 [CLS] 的最终隐藏状态 $\mathbf{h}^\text{[CLS]}_L$，并将其与一个小的权重矩阵相乘，$\text{softmax}(\mathbf{h}^\text{[CLS]}_L \mathbf{W}_\text{cls})$ 来得到预测。

对于像 SQuAD 这样的 QA 任务，我们需要预测给定问题的给定段落中的文本跨度。BERT 预测每个标记的两个概率分布，即文本跨度的开始和结束。只有两个新的小矩阵，$\mathbf{W}_\text{s}$和$\mathbf{W}_\text{e}$，在微调期间新学习，$\text{softmax}(\mathbf{h}^\text{(i)}_L \mathbf{W}_\text{s})$和$\text{softmax}(\mathbf{h}^\text{(i)}_L \mathbf{W}_\text{e})$定义了两个概率分布。

总体上，用于最终任务微调的附加部分非常少——只有一个或两个权重矩阵将 Transform 隐藏状态转换为可解释的格式。查看其他情况的实现细节，请参考论文。

图 12. 修改后的 BERT 模型在下游任务中的训练对象。（图片来源：原论文）

一张总结表比较了 OpenAI GPT 和 BERT 的微调之间的差异。

	OpenAI GPT	BERT		特殊字符	`[SEP]`和`[CLS]`仅在微调阶段引入。	`[SEP]`和`[CLS]`以及句子 A/B 嵌入在预训练阶段学习。		训练过程	100 万步，批量大小 32k 个单词。	100 万步，批量大小 128k 个单词。		微调	所有微调任务的学习率为 5e-5。	使用任务特定的学习率进行微调。

ALBERT

ALBERT（Lan 等人，2019），简称A Lite BERT，是 BERT 模型的轻量级版本。与类似配置的 BERT 模型相比，ALBERT 模型的训练速度可以提高 1.7 倍，参数数量减少 18 倍。ALBERT 包含三个改变：前两个有助于减少参数和内存消耗，从而加快训练速度，而第三个提出了一个更具挑战性的训练任务，以取代下一个句子预测（NSP）目标。

因子化嵌入参数化

在 BERT 中，WordPiece 标记化嵌入大小$E$被配置为与隐藏状态大小$H$相同。也就是说，如果我们想增加模型大小（更大的$H$），我们需要学习更大的标记化嵌入，这是昂贵的，因为它取决于词汇量（$V$）。

从概念上讲，由于标记化嵌入预计学习与上下文无关的表示，而隐藏状态是与上下文相关的，因此将隐藏层的大小与词汇表嵌入的大小分开是有道理的。使用因子化嵌入参数化，大小为$V \times H$的大词汇表嵌入矩阵被分解为大小为$V \times E$和$E \times H$的两个小矩阵。给定$H \gt E$甚至$H \gg E$，因子化可以显著减少参数。

跨层参数共享

跨层参数共享可以通过多种方式实现：(a) 仅共享前向传播部分；(b) 仅共享注意力参数；或者(c) 共享所有参数。这种技术大大减少了参数数量，而且并不会对性能造成太大损害。

句子顺序预测（SOP）

有趣的是，BERT 的下一句预测（NSP）任务结果太容易了。相反，ALBERT 采用了句子顺序预测（SOP）自监督损失，

正样本：同一文档中的两个连续片段。
负样本：与上述相同，但是段落顺序被交换。

对于 NSP 任务，如果模型能够检测到 A 和 B 来自不同上下文时的主题，那么模型可以做出合理的预测。相比之下，SOP 更难，因为它要求模型完全理解段落之间的连贯性和顺序。

GPT-2

OpenAI的GPT-2语言模型是 GPT 的直接继承者。GPT-2 有 15 亿参数，比原始 GPT 多 10 倍，它在零-shot 转移设置下在 8 个测试语言建模数据集中的 7 个上取得了 SOTA 结果，而且没有进行任何特定任务的微调。预训练数据集包含通过从Reddit爬取合格的外链收集的 800 万个网页。OpenAI GPT-2 在小数据集和用于衡量长期依赖性的数据集上的大幅改进特别明显。

零-shot 转移

GPT-2 的预训练任务仅仅是语言建模。所有下游语言任务都被构建为预测条件概率，没有进行任何特定任务的微调。

使用 LM 进行文本生成很简单。
机器翻译任务，例如从英语到中文，是通过将语言模型与“英语句子 = 中文句子”和“目标英语句子 =”配对来诱导的。
- 例如，用于预测的条件概率可能如下所示：P(? | I like green apples. = 我喜欢绿苹果。 A cat meows at him. = 一只猫对他喵。It is raining cats and dogs. =")
QA 任务的格式与在上下文中的问题和答案的翻译类似。
摘要任务是通过在上下文中的文章后添加TL;DR:来诱导的。

BPE 对字节序列进行编码

与原始 GPT 一样，GPT-2 使用 BPE 但在UTF-8字节序列上。每个字节可以用 8 位表示 256 个不同的值，而 UTF-8 可以使用最多 4 个字节表示一个字符，支持总共$2^{31}$个字符。因此，使用字节序列表示，我们只需要一个大小为 256 的词汇表，不需要担心预处理、标记化等问题。尽管有这些好处，当前的字节级语言模型仍然与 SOTA 单词级语言模型存在着不可忽视的性能差距。

BPE 以贪婪的方式合并频繁共现的字节对。为了防止生成常见单词的多个版本（例如dog., dog!和dog?对于单词dog），GPT-2 阻止 BPE 跨类别合并字符（因此dog不会与标点符号如.、!和?合并）。这些技巧有助于提高最终字节分割的质量。

使用字节序列表示，GPT-2 能够为任何 Unicode 字符串分配概率，而不受任何预处理步骤的影响。

模型修改

与 GPT 相比，除了拥有更多的变压器层和参数外，GPT-2 仅包含少量架构修改：

层归一化被移动到每个子块的输入端，类似于类型为“building block”的残差单元（与原始类型“bottleneck”不同，它在权重层之前应用了批量归一化）。
在最终的自注意力块之后添加了额外的层归一化。
一个修改后的初始化函数是根据模型深度构建的。
残差层的权重最初按照$1/ \sqrt{N}$的因子进行缩放，其中 N 是残差层的数量。
使用更大的词汇量和上下文大小。

RoBERTa

RoBERTa（Robustly optimized BERT approach 的缩写；Liu, et al. 2019）指的是一种新的训练 BERT 以获得更好结果的方法，因为他们发现原始的 BERT 模型训练不足。该方法包括以下学习内容：

使用更大的批量大小进行更长时间的训练。
移除下一句预测（NSP）任务。
在训练数据格式中使用更长的序列。研究发现，将单独的句子作为输入会损害下游性能。相反，我们应该使用连续采样的多个句子来形成更长的段落。
动态更改掩码模式。原始的 BERT 在数据预处理阶段只应用一次掩码，导致在训练周期中掩码保持静态。RoBERTa 在 40 个周期中以 10 种不同的方式应用掩码。

RoBERTa 还添加了一个新的数据集CommonCrawl News，并进一步证实，预训练使用更多数据有助于提高在下游任务上的性能。它是使用 BPE on byte sequences 进行训练的，与 GPT-2 相同。他们还发现，超参数的选择对模型性能有很大影响。

T5

语言模型T5简称“文本到文本转换变压器”(Raffel 等人，2020)。编码器-解码器实现遵循原始 Transformer架构：tokens → embedding → encoder → decoder → output。T5 采用了“自然语言十项全能”框架(McCann 等人，2018)，其中许多常见的 NLP 任务被转化为在上下文中进行问答。T5 使用简短的任务前缀来区分任务意图，并分别在每个单独的任务上微调模型。文本到文本框架使得在多样化任务集上使用相同模型进行更容易的迁移学习评估。

图 13. T5 任务评估图。文本到文本框架将每个任务转化为通用形式：输入文本以预测某些目标文本。（图片来源：Raffel 等人，2020)

该模型是在 2019 年 4 月从 Web 语料库中提取并应用各种过滤器进行训练的。该模型通过“适配器层”（添加额外的层进行训练）或“逐步解冻”（参见 ULMFiT）分别为每个下游任务进行微调。这两种微调方法仅更新部分参数，同时保持大部分模型参数不变。T5-11B 在许多 NLP 任务上取得了 SOTA 结果。

正如作者在论文中提到的“…我们的目标不是提出新方法，而是提供一个全面的视角，了解该领域的现状”，T5 长篇论文详细描述了许多训练设置和评估过程，对于那些有兴趣从零开始训练 LM 的人来说是一篇不错的文章。

GPT-3

GPT-3（Brown et al., 2020）与 GPT-2 具有相同的架构，但包含 175B 参数，比 GPT-2（1.5B）大 10 倍。此外，GPT-3 使用交替的密集和局部带状稀疏注意力模式，与sparse transformer中的相同。为了使这样一个庞大的模型跨多个 GPU 进行适配，GPT-3 在宽度和深度维度上进行了分区训练。训练数据是 Common Crawl 的一个经过筛选的版本，混合了其他几个高质量的策划数据集。为了避免下游任务可能出现在训练数据中的污染，作者试图从训练数据中删除与所有研究的基准数据集的所有重叠。不幸的是，由于一个错误，过滤过程并不完美。

图 14. GPT-3 的训练数据集。请注意，每个数据集在训练期间出现的次数与数据集大小不成比例。（表来源：Brown et al., 2020）

对于所有下游评估，GPT-3 在少样本设置下进行测试，没有进行基于梯度的微调。这里的少样本示例作为提示的一部分提供。GPT-3 在许多自然语言处理数据集上表现出色，与微调的 BERT 模型相媲美。

图 15. 随着模型大小和示例数量的增加，评估性能也在提高。（图片来源：Brown et al., 2020）

XLNet

自回归（AR）模型如 GPT 和自编码器（AE）模型如 BERT 是语言建模的两种最常见方式。然而，它们各自都有缺点：AR 没有学习双向上下文，这是下游任务如阅读理解所需的，而 AE 假设掩码位置在给定所有其他未掩码标记的情况下是独立的，这过于简化了长上下文依赖性。

XLNet（Yang et al. 2019）将 AE 方法推广到包含 AR 的优点。XLNet 提出了置换语言建模目标。对于一个文本序列，它会对一个因子化顺序 $\mathbf{z}$ 进行采样，并根据这个因子化顺序分解似然 $p_\theta(\mathbf{x})$，

\[\begin{aligned} \mathcal{L}_\text{XLNet} &= - \mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_T} \Big[ \sum_{t=1}^T \log p_\theta (X_{z_t} = x \mid \mathbf{x}_{\mathbf{z}_{</t}} \mid \mathbf{z}_{<t}) \Big] \end{aligned} \]

其中 $\mathcal{Z}_T$ 是长度为 $T$ 的所有可能排列的集合；$z_t$ 和 $\mathbf{z}_{<t}$ 分别表示排列 $\mathbf{z} \in \mathcal{Z}_T$ 的第 $t$ 个元素和前 $t-1$ 个元素。

注意，上下文的隐藏状态的朴素表示，$h_\theta (\mathbf{x}_{\mathbf{z}_{<t}})$ 中的红色，不依赖于模型尝试预测的位置，因为排列打破了默认顺序。因此，XLNet 将其重新参数化为目标位置的函数，$g_\theta (\mathbf{x}_{\mathbf{z}_{<t}}, z_t)$ 中的蓝色。

然而，对 $g_\theta (\mathbf{x}_{\mathbf{z}_{<t}}, z_t)$ 的两种不同要求导致了两流自注意力设计以适应：

当预测 $x_{z_t}$ 时，应该只编码位置 $z_t$ 而不是内容 $x_{z_t}$；否则就太简单了。这被包含在“查询表示” $g_{z_t} = g_\theta (\mathbf{x}_{\mathbf{z}_{<t}}, z_t)$ 中，不编码 $x_{z_t}$。
当预测 $x_j$，其中 $j > t$ 时，应该编码内容 $x_{z_t}$ 以提供完整的上下文。这就是“内容表示” $h_{z_t} = h_\theta(\mathbf{x}_{\leq t})$。

图 16. XLNet 中两流自注意力机制的示意图。（图片来源：Yang et al. 2019）

在概念上，两个表示流的更新如下，

\[ \begin{aligned} g_{z_t}^{(m)} &\gets \text{Attention}(Q = g^{(m-1)}_{z_t}, KV=\mathbf{h}^{(m-1)}_{\color{red}{\mathbf{z}_{ 鉴于排列语言建模的优化困难，XLNet 被设置为仅预测因子化顺序中的最后一块标记。 XLNet 的名称实际上来自于 [Transformer-XL](https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/#longer-attention-span-transformer-xl)。它结合了 Transformer-XL 的设计，通过重用先前段落的隐藏状态来扩展注意力跨度。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/a79a7223aef1053bb1991b0e5912ffa9.png) 图 17\. XLNet 在 GLUE 上与其他几种语言模型的模型性能比较，都是单任务，没有集成。（图片来源：[Yang et al. 2019](https://arxiv.org/abs/1906.08237)） # BART **BART**（[Lewis et al., 2019](https://arxiv.org/abs/1910.13461)）是一个去噪自编码器，用于从随机损坏的版本中恢复原始文本。它结合了**B**idirectional 和 **A**uto**R**egressive **T**ransformer：准确地说，同时训练类似 BERT 的双向编码器和类似 GPT 的自回归解码器。损失仅仅是最小化负对数似然。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/3366a233257fc3ad2b3ca2b0a394261c.png) 图 18\. BART 与 BERT 和 GPT 的示意图比较。（图片来源：[Lewis et al., 2019](https://arxiv.org/abs/1910.13461)）他们尝试了各种噪声转换，包括标记遮蔽、标记删除、文本填充（即随机抽样的文本段，可能包含多个标记，被一个`[MASK]`标记替换）、句子排列、文档旋转（即将文档旋转到以一个随机标记开头）。他们发现的最佳噪声方法是文本填充和句子混洗。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/13b2e600fbf7511dd2131c7c31662dea.png) 图 19。不同语言建模预训练目标的比较。（图片来源：[Lewis et al., 2019](https://arxiv.org/abs/1910.13461)）从他们的实验中学到的： + 预训练方法在下游任务中的性能差异显著。 + 标记遮蔽是至关重要的，因为仅应用句子排列或文档旋转时性能较差。 + 从左到右的预训练改善了生成。 + 双向编码器对 SQuAD 至关重要。 + 预训练目标并不是唯一重要的因素。架构改进，如相对位置嵌入或段级循环也很重要。 + 自回归语言模型在 ELI5 上表现最佳。 + BART 在表现上最为稳健。 # ELECTRA 当前大多数预训练大型语言模型需要大量计算资源，引发了对其成本和可访问性的担忧。**ELECTRA**（“Efficiently Learning an Encoder that Classifies Token Replacements Accurately”; [Clark et al. 2020](https://arxiv.org/abs/2003.10555)）旨在提高*预训练效率*，将语言建模框架定位为一个区分任务而非生成任务。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/4030428bda894cc7bb7ad335bb189190.png) 图 20。ELECTRA 模型架构示意图。（图片来源：[Clark et al. 2020](https://arxiv.org/abs/2003.10555)） ELECTRA 提出了一个新的预训练任务，称为“替换标记检测”（RTD）。让我们随机抽样$k$个位置进行标记。原始文本中每个选定的标记都将被一个小语言模型预测的合理替代品替换，这个模型被称为生成器$G$。鉴别器$D$预测每个标记是原始的还是替换的。 $$ \begin{aligned} \boldsymbol{m} &= [m_1, \dots, m_k] \text{ where } m_i \sim \text{unif}\{1, n\}\text{ for } i=1, \dots, k \\ \boldsymbol{x}^\text{masked} &= \text{REPLACE}(\boldsymbol{x}, \boldsymbol{m}, \texttt{[MASK]}) \\ \boldsymbol{x}^\text{corrupt} &= \text{REPLACE}(\boldsymbol{x}, \boldsymbol{m}, \tilde{\boldsymbol{x}}) \text{ where } \tilde{x}_t \sim p_G(x_i \mid \boldsymbol{x}^\text{masked}) \text{ for } i \in \boldsymbol{m} \\ \end{aligned} \]

生成器的损失与其他语言模型一样是负对数似然。鉴别器的损失是交叉熵。请注意，生成器并不是通过对抗训练来愚弄鉴别器，而只是为了优化 NLL，因为他们的实验显示了负面结果。

\[\begin{aligned} \mathcal{L}_\text{MLM}(\mathbf{x}, \theta_G) &= \mathbb{E}\Big(\sum_{i \in \boldsymbol{m}} -\log p_G (x_i \mid \boldsymbol{x}^\text{masked} )\Big) \\ \mathcal{L}_\text{Disc}(\mathbf{x}, \theta_D) &= \mathbb{E}\Big( - \mathbb{1}[x^\text{corrupt}_t = x_t] \log D(\boldsymbol{x}^\text{corrupt}, t) - \mathbb{1}[x^\text{corrupt}_t \neq x_t] \log (1 - \log D(\boldsymbol{x}^\text{corrupt}, t)) \Big) \end{aligned} \]

他们发现，只在生成器和鉴别器之间共享嵌入更有益，同时使用较小的生成器（鉴别器大小的 1/4 到 1/2），而不是共享所有权重（即两个模型必须是相同大小）。此外，生成器和鉴别器的联合训练比交替两阶段训练效果更好。

预训练后，生成器被丢弃，只有 ELECTRA 鉴别器进一步进行下游任务的微调。下表显示了 ELECTRA 在 GLUE 开发集上的表现。

图 21. ELECTRA 与 GLUE 开发集上其他语言模型的比较。（图片来源：Clark et al. 2020）

摘要

	基础模型	预训练任务。
CoVe	seq2seq NMT 模型	使用翻译数据集进行监督学习。
ELMo	两层双向 LSTM	下一个标记预测。
CVT	两层双向 LSTM	使用标记和未标记数据集进行半监督学习。
ULMFiT	AWD-LSTM	在 Wikitext-103 上进行自回归预训练。
GPT	Transformer 解码器	下一个标记预测。
BERT	Transformer 编码器	掩码语言模型 + 下一个句子预测
ALBERT	与 BERT 相同但轻量级	掩码语言模型 + 句子顺序预测。
GPT-2	Transformer 解码器	下一个标记预测。
RoBERTa	与 BERT 相同	掩码语言模型（动态掩码）。
T5	Transformer 编码器 + 解码器	在无监督和监督任务的多任务混合上进行预训练，每个任务都转换为文本到文本的格式。
GPT-3	Transformer 解码器	下一个标记预测。
XLNet	与 BERT 相同	排列语言建模。
BART	BERT 编码器 + GPT 解码器	从噪声版本重构文本。
ELECTRA	与 BERT 相同	替换标记检测。

指标：困惑度

困惑度通常用作内在评估指标，用于衡量语言模型在给定上下文条件下能够多好地捕捉真实词分布。

离散概率分布 $p$ 的困惑度定义为熵的幂运算：

\[2^{H(p)} = 2^{-\sum_x p(x) \log_2 p(x)} \]

给定一个具有 $N$ 个单词的句子，$s = (w_1, \dots, w_N)$，熵如下所示，简单地假设每个单词具有相同的频率，$\frac{1}{N}$：

\[H(s) = -\sum_{i=1}^N P(w_i) \log_2 p(w_i) = -\sum_{i=1}^N \frac{1}{N} \log_2 p(w_i) \]

该句子的困惑度变为：

\[\begin{aligned} 2^{H(s)} &= 2^{-\frac{1}{N} \sum_{i=1}^N \log_2 p(w_i)} = (2^{\sum_{i=1}^N \log_2 p(w_i)})^{-\frac{1}{N}} = (p(w_1) \dots p(w_N))^{-\frac{1}{N}} \end{aligned} \]

一个优秀的语言模型应该能够预测高概率的词。因此，困惑度越小越好。

常见任务和数据集

问答

SQuAD（斯坦福问答数据集）：一个阅读理解数据集，由一组维基百科文章上提出的问题组成，每个问题的答案都是一段文本。
RACE（来自考试的阅读理解）：一个大规模的阅读理解数据集，包含超过 28,000 个段落和近 100,000 个问题。该数据集收集自中国的英语考试，面向中学和高中学生。
查看更多问答数据集。

常识推理

Story Cloze Test：用于评估故事理解和生成的常识推理框架。该测试要求系统从两个选项中选择多句故事的正确结局。
SWAG（具有对抗生成的情境）：多项选择；包含 113k 个句子对完成示例，评估基于常识的推理。

自然语言推理（NLI）：也称为文本蕴涵，是一种逻辑推理的练习，用于判断一个句子是否可以从另一个句子中推断出来。

RTE（文本蕴涵资源池）：由文本蕴涵挑战发起的一组数据集。
SNLI（斯坦福自然语言推理）：由人工标记的 570k 个英语句子对集合，用于平衡分类的标签有蕴涵、矛盾和中立。
MNLI（多样化文体自然语言推理）：类似于 SNLI，但涵盖更多样化的文体和主题，包括转录的演讲、流行小说和政府报告。
QNLI（问题 NLI）：从 SQuAD 数据集转换而来，用于对（问题，句子）对进行二元分类任务。
SciTail：从多项选择科学考试和网络句子中创建的蕴涵数据集。

命名实体识别（NER）：标记文本中的词序列，这些词是事物的名称，如人名、公司名，或基因和蛋白质名称。

CoNLL 2003 NER task：包括路透社的新闻稿，集中在四种命名实体上：人物、地点、组织和其他实体的名称。
OntoNotes 5.0：该语料库包含英语、阿拉伯语和中文文本，标记有四种不同的实体类型（PER、LOC、ORG、MISC）。
Reuters Corpus：路透社新闻故事的大量收集。
精细化命名实体识别（FGN）

情感分析

SST（斯坦福情感树库）
IMDb：一个包含电影评论的大型数据集，带有二元情感分类标签。

语义角色标注（SRL）：模拟句子的谓语-论元结构，通常描述为回答“谁对谁做了什么”。

CoNLL-2004 & CoNLL-2005

句子相似度：也称为释义检测

MRPC（微软释义语料库）：它包含从网络新闻来源中提取的句子对，带有指示每对是否语义等价的注释。
QQP（Quora 问题对）STS 基准：语义文本相似性

句子可接受性：一个用于标注句子语法可接受性的任务。

CoLA（语言可接受性语料库）：一个二元单句分类任务。

文本分块：将文本分成句法相关的词块。

CoNLL-2000

词性标注（POS）：为每个标记标记词性，如名词、动词、形容词等。宾夕法尼亚树库的华尔街日报部分（Marcus 等，1993）。

机器翻译：参见标准自然语言处理页面。

WMT 2015 英语-捷克语数据（大型）
WMT 2014 英语-德语数据（中型）
IWSLT 2015 英语-越南语数据（小型）

指代消解：对指代同一底层实体的文本进行聚类。

CoNLL-2012

长距离依赖

LAMBADA（语言建模扩展以考虑话语方面）：从 BookCorpus 中提取的叙述段落的集合，任务是预测最后一个单词，这需要至少 50 个上下文标记才能成功预测。
儿童图书测试：由古腾堡计划中免费提供的书籍构建。任务是在 10 个候选词中预测缺失的单词。

多任务基准

GLUE 多任务基准：gluebenchmark.com
decaNLP 基准：decanlp.com

无监督预训练数据集

图书语料库: 该语料库包含“来自各种流派的 7000 多本独特未发表的书籍，包括冒险、奇幻和浪漫等。”
10 亿词语语言模型基准
英文维基百科: 约 2500M 字

Cited as:

@article{weng2019LM,
  title   = "Generalized Language Models",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2019",
  url     = "https://lilianweng.github.io/posts/2019-01-31-lm/"
}

Reference

[1] Bryan McCann 等人. “在翻译中学到的：上下文化的词向量。” NIPS. 2017 年.

[2] Kevin Clark 等人. “使用交叉视图训练的半监督序列建模。” EMNLP 2018.

[3] Matthew E. Peters 等人. “深度上下文化的词表示。” NAACL-HLT 2017.

[4] OpenAI Blog “通过无监督学习改进语言理解”, 2018 年 6 月 11 日.

[5] OpenAI Blog “更好的语言模型及其影响。” 2019 年 2 月 14 日.

[6] Jeremy Howard 和 Sebastian Ruder. “文本分类的通用语言模型微调。” ACL 2018.

[7] Alec Radford 等人. “通过生成式预训练改进语言理解”. OpenAI Blog, 2018 年 6 月 11 日.

[8] Jacob Devlin 等人. “BERT: 深度双向转换器的预训练用于语言理解。” arXiv:1810.04805 (2018).

[9] Mike Schuster 和 Kaisuke Nakajima. “日语和韩语语音搜索。” ICASSP. 2012.

[10] 谷歌的神经机器翻译系统：弥合人类和机器翻译之间的差距

[11] Ashish Vaswani 等人. “注意力就是你所需要的。” NIPS 2017 年.

[12] Peter J. Liu 等人. “通过总结长序列生成维基百科。” ICLR 2018 年.

[13] Sebastian Ruder. “2018 年 NLP 领域的 10 个激动人心的想法” 2018 年 12 月。

[14] Alec Radford 等人. “语言模型是无监督多任务学习者。”. 2019 年.

[15] Rico Sennrich 等人. “使用子词单元进行稀有词的神经机器翻译。” arXiv preprint arXiv:1508.07909. 2015 年.

[16] Zhenzhong Lan 等人. “ALBERT: 用于自监督学习语言表示的轻量级 BERT。” arXiv Preprint arXiv:1909.11942 (2019).

[17] Yinhan Liu 等人. “RoBERTa: 一种稳健优化的 BERT 预训练方法。” arXiv Preprint arXiv:1907.11692 (2019).

[18] Tom B Brown 等人 “语言模型是少样本学习器” NeuriPS 2020.

[19] Zhilin Yang 等人 “XLNet: 通用自回归预训练用于语言理解。” NeuriPS 2019.

[20] Mike Lewis 等人 “BART: 去噪序列到序列预训练用于自然语言生成、翻译和理解。” ACL 2020.

[21] Kevin Clark 等人 “ELECTRA: 将文本编码器预训练为判别器而不是生成器。” ICLR 2020.

[22] Colin Raffel 等人 “探索统一文本到文本变压器的迁移学习极限” JMLR 2020.

[«

深度神经网络是否严重过拟合？](https://lilianweng.github.io/posts/2019-03-14-overfit/) [»

目标检测第 4 部分：快速检测模型

原文：lilianweng.github.io/posts/2018-12-27-object-recognition-part-4/

在第 3 部分中，我们回顾了 R-CNN 系列中的模型。它们都是基于区域的目标检测算法。它们可以实现高准确性，但对于某些应用，如自动驾驶，可能太慢了。在第 4 部分中，我们只关注快速目标检测模型，包括 SSD、RetinaNet 和 YOLO 系列中的模型。

系列中所有文章的链接：[第 1 部分] [第 2 部分] [第 3 部分] [第 4 部分]。

两阶段与一阶段检测器

R-CNN 系列中的模型都是基于区域的。检测分为两个阶段：(1) 首先，模型通过选择性搜索或区域提议网络提出一组感兴趣的区域。提出的区域是稀疏的，因为潜在的边界框候选可能是无限的。(2) 然后分类器只处理区域候选。

另一种不同的方法跳过了区域提议阶段，直接在可能位置的密集采样上运行检测。这就是一阶段目标检测算法的工作原理。这种方法更快、更简单，但可能会稍微降低性能。

本文介绍的所有模型都是一阶段检测器。

YOLO：You Only Look Once

YOLO模型（“You Only Look Once”；Redmon et al., 2016）是构建快速实时目标检测器的首次尝试。由于 YOLO 不经历区域提议步骤，只对有限数量的边界框进行预测，因此能够快速进行推断。

工作流程

预训练一个 CNN 网络进行图像分类任务。
将图像分割成$S \times S$个单元格。如果一个物体的中心落入一个单元格中，那个单元格就“负责”检测该物体的存在。每个单元格预测(a) $B$个边界框的位置，(b) 置信度分数，以及(c) 在边界框中存在物体的条件下的物体类别概率。
- 边界框的坐标由一个包含 4 个值的元组定义，(中心 x 坐标，中心 y 坐标，宽度，高度) — $(x, y, w, h)$，其中$x$和$y$被设置为单元格位置的偏移量。此外，$x$、$y$、$w$和$h$都被图像的宽度和高度归一化，因此都在(0, 1]之间。
- 一个置信度分数表示单元格包含对象的可能性：Pr(包含对象) x IoU(预测, 真实)；其中Pr = 概率，IoU = 交并比。
- 如果单元格包含一个对象，则预测该对象属于每个类别$C_i, i=1, \dots, K$的概率：Pr(对象属于类别 C_i | 包含对象)。在这个阶段，模型只预测每个单元格一组类别概率，而不考虑边界框的数量$B$。
- 总共，一张图像包含$S \times S \times B$个边界框，每个边界框对应 4 个位置预测，1 个置信度分数，以及 K 个用于对象分类的条件概率。一张图像的总预测值为$S \times S \times (5B + K)$，这是模型最终卷积层的张量形状。
预训练 CNN 的最终层被修改为输出大小为$S \times S \times (5B + K)$的预测张量。

图 1. YOLO 模型的工作流程。（图片来源：原始论文）

网络架构

基础模型类似于GoogLeNet，其中 inception 模块被 1x1 和 3x3 卷积层替换。形状为$S \times S \times (5B + K)$的最终预测是通过对整个卷积特征图进行两个全连接层计算得到的。

图 2. YOLO 的网络架构。

损失函数

损失由两部分组成，定位损失用于边界框偏移预测，分类损失用于条件类别概率。这两部分都被计算为平方误差的总和。使用两个比例参数来控制我们希望增加边界框坐标预测的损失量（$\lambda_\text{coord}$）以及我们希望减少没有对象的边界框置信度预测的损失量（$\lambda_\text{noobj}$）。减少背景框贡献的损失很重要，因为大多数边界框不包含实例。在论文中，模型设置$\lambda_\text{coord} = 5$和$\lambda_\text{noobj} = 0.5$。

\[\begin{aligned} \mathcal{L}_\text{loc} &= \lambda_\text{coord} \sum_{i=0}^{S²} \sum_{j=0}^B \mathbb{1}_{ij}^\text{obj} [(x_i - \hat{x}_i)² + (y_i - \hat{y}_i)² + (\sqrt{w_i} - \sqrt{\hat{w}_i})² + (\sqrt{h_i} - \sqrt{\hat{h}_i})² ] \\ \mathcal{L}_\text{cls} &= \sum_{i=0}^{S²} \sum_{j=0}^B \big( \mathbb{1}_{ij}^\text{obj} + \lambda_\text{noobj} (1 - \mathbb{1}_{ij}^\text{obj})\big) (C_{ij} - \hat{C}_{ij})² + \sum_{i=0}^{S²} \sum_{c \in \mathcal{C}} \mathbb{1}_i^\text{obj} (p_i(c) - \hat{p}_i(c))²\\ \mathcal{L} &= \mathcal{L}_\text{loc} + \mathcal{L}_\text{cls} \end{aligned} \]

注意：在原始 YOLO 论文中，损失函数使用 $C_i$ 而不是 $C_{ij}$ 作为置信度分数。我根据自己的理解进行了更正，因为每个边界框应该有自己的置信度分数。如果您不同意，请告诉我。非常感谢。

where,

$\mathbb{1}_i^\text{obj}$：指示函数，表示单元格 i 是否包含对象。
$\mathbb{1}_{ij}^\text{obj}$：它指示单元格 i 的第 j 个边界框是否“负责”对象预测（见图 3）。
$C_{ij}$：单元格 i 的置信度分数，Pr(包含对象) * IoU(预测, 真实).
$\hat{C}_{ij}$：预测的置信度分数。
$\mathcal{C}$：所有类别的集合。
$p_i(c)$：单元格 i 是否包含类别 $c \in \mathcal{C}$ 的条件概率。
$\hat{p}_i(c)$：预测的条件类别概率。

图 3. 在一个位置，单元格 i 中，模型提出 B 个边界框候选项，与地面实况有最高重叠的那个是“负责”的预测器。

如果网格单元格中存在对象，则损失函数仅惩罚分类错误，$\mathbb{1}_i^\text{obj} = 1$。如果该预测器“负责”地面实况框，则它也只惩罚边界框坐标错误，$\mathbb{1}_{ij}^\text{obj} = 1$。

作为一种单阶段目标检测器，YOLO 非常快速，但由于有限数量的边界框候选项，它不擅长识别不规则形状的对象或一组小对象。

SSD：单次多框检测器

单次检测器（SSD；Liu 等人，2016）是第一次尝试使用卷积神经网络的金字塔特征层次结构来高效检测各种大小的对象。

图像金字塔

SSD 使用在 ImageNet 上预训练的 VGG-16 模型作为提取有用图像特征的基础模型。在 VGG16 之上，SSD 添加了几个尺寸递减的卷积特征层。它们可以被看作是不同尺度图像的金字塔表示。直观地说，较早级别的大细粒度特征图对捕捉小对象很好，而较小的粗粒度特征图可以很好地检测大对象。在 SSD 中，检测发生在每个金字塔层，针对各种大小的对象。

图 4. SSD 的模型架构。

工作流程

与 YOLO 不同，SSD 不会将图像分割成任意大小的网格，而是为特征图的每个位置预测预定义锚框的偏移量（在论文中称为“默认框”）。每个框都有固定的大小和位置，相对于其对应的单元格。所有锚框以卷积方式铺设整个特征图。

不同级别的特征图具有不同的感受野大小。不同级别上的锚框被重新缩放，以便一个特征图仅负责特定尺度的对象。例如，在图 5 中，狗只能在 4x4 特征图（较高级别）中被检测到，而猫只能被 8x8 特征图（较低级别）捕捉到。

图 5. SSD 框架。 (a) 训练数据包含每个对象的图像和地面真实框。 (b) 在细粒度特征图（8 x 8）中，不同纵横比的锚框对应于原始输入的较小区域。 (c) 在粗粒度特征图（4 x 4）中，锚框覆盖了原始输入的较大区域。 (图片来源: 原始论文)

锚框的宽度、高度和中心位置都被归一化为(0, 1)。在大小为$m \times n$的第$\ell$个特征层的位置$(i, j)$处，$i=1,\dots,n, j=1,\dots,m$，我们有一个与层级成比例的唯一线性尺度和 5 种不同的框纵横比（宽高比），以及一个特殊尺度（为什么需要这个？论文没有解释。也许只是一个启发式技巧），当纵横比为 1 时。这给我们每个特征单元总共 6 个锚框。

\[ \begin{aligned} \text{级别索引: } &\ell = 1, \dots, L \\ \text{框的尺度: } &s_\ell = s_\text{min} + \frac{s_\text{max} - s_\text{min}}{L - 1} (\ell - 1) \\ \text{纵横比: } &r \in \{1, 2, 3, 1/2, 1/3\}\\ \text{额外尺度: } & s'_\ell = \sqrt{s_\ell s_{\ell + 1}} \text{ 当 } r = 1 \text{，因此总共有 6 个框。}\\ \text{宽度: } &w_\ell^r = s_\ell \sqrt{r} \\ \text{高度: } &h_\ell^r = s_\ell / \sqrt{r} \\ \text{中心位置: } & (x^i_\ell, y^j_\ell) = (\frac{i+0.5}{m}, \frac{j+0.5}{n}) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c83971b9eef5c4b682572971417840f4.png) 图 6\. 锚框大小随着层索引$\ell$的增加而扩大的示例，其中$L=6, s\_\text{min} = 0.2, s\_\text{max} = 0.9$。仅展示了纵横比$r=1$的框。在每个位置，模型通过对每个$k$个锚框应用一个$3 \times 3 \times p$的卷积滤波器（其中$p$是特征图中的通道数）来输出 4 个偏移量和$c$个类别概率。因此，给定大小为$m \times n$的特征图，我们需要$kmn(c+4)$个预测滤波器。 ## 损失函数与 YOLO 相同，损失函数是定位损失和分类损失的总和。 $\mathcal{L} = \frac{1}{N}(\mathcal{L}_\text{cls} + \alpha \mathcal{L}_\text{loc})$ 其中$N$是匹配的边界框数量，$\alpha$在两个损失之间平衡权重，由交叉验证选择。 *定位损失*是预测边界框修正与真实值之间的[平滑 L1 损失](https://github.com/rbgirshick/py-faster-rcnn/files/764206/SmoothL1Loss.1.pdf)。坐标修正转换与[R-CNN](https://lilianweng.github.io/posts/2017-12-31-object-recognition-part-3/#r-cnn)在[边界框回归](https://lilianweng.github.io/posts/2017-12-31-object-recognition-part-3/#bounding-box-regression)中所做的相同。 $$ \begin{aligned} \mathcal{L}_\text{loc} &= \sum_{i,j} \sum_{m\in\{x, y, w, h\}} \mathbb{1}_{ij}^\text{match} L_1^\text{smooth}(d_m^i - t_m^j)²\\ L_1^\text{smooth}(x) &= \begin{cases} 0.5 x² & \text{if } \vert x \vert < 1\\ \vert x \vert - 0.5 & \text{otherwise} \end{cases} \\ t^j_x &= (g^j_x - p^i_x) / p^i_w \\ t^j_y &= (g^j_y - p^i_y) / p^i_h \\ t^j_w &= \log(g^j_w / p^i_w) \\ t^j_h &= \log(g^j_h / p^i_h) \end{aligned} \]

其中 $\mathbb{1}_{ij}^\text{match}$ 表示第 $i$ 个边界框的坐标 $(p^i_x, p^i_y, p^i_w, p^i_h)$ 是否与第 $j$ 个真实边界框的坐标 $(g^j_x, g^j_y, g^j_w, g^j_h)$ 匹配。$d^i_m, m\in\{x, y, w, h\}$ 是预测的修正项。查看这里了解转换如何工作。

分类损失是多类别的 softmax 损失（tensorflow 中的 softmax_cross_entropy_with_logits）：

\[\mathcal{L}_\text{cls} = -\sum_{i \in \text{pos}} \mathbb{1}_{ij}^k \log(\hat{c}_i^k) - \sum_{i \in \text{neg}} \log(\hat{c}_i⁰)\text{, where }\hat{c}_i^k = \text{softmax}(c_i^k) \]

其中 $\mathbb{1}_{ij}^k$ 表示第 $i$ 个边界框和第 $j$ 个真实边界框是否匹配类别 $k$ 的对象。$\text{pos}$ 是匹配的边界框集合（总共 $N$ 个项目），$\text{neg}$ 是负例集合。SSD 使用硬负样本挖掘来选择易被错误分类的负例，构建这个 $\text{neg}$ 集合：一旦所有锚框按照目标置信度得分排序，模型选择前几个候选项进行训练，使得 neg:pos 最多为 3:1。

YOLOv2 / YOLO9000

YOLOv2（Redmon & Farhadi, 2017）是 YOLO 的增强版本。YOLO9000 建立在 YOLOv2 的基础上，但是使用 COCO 检测数据集和 ImageNet 中前 9000 个类别的联合数据集进行训练。

YOLOv2 改进

为了使 YOLO 预测更准确和更快，应用了各种修改，包括：

1. BatchNorm 有帮助：在所有卷积层上添加批量归一化，显著提高收敛速度。

2. 图像分辨率很重要：使用高分辨率图像微调基础模型可以提高检测性能。

3. 卷积锚框检测：YOLOv2 不像使用全连接层在整个特征图上预测边界框位置，而是使用卷积层来预测锚框的位置，就像 faster R-CNN 中一样。空间位置和类别概率的预测是分离的。总体上，这种改变导致 mAP 略微下降，但召回率增加。

4. 锚框尺寸的 K 均值聚类：与使用手动选择大小的锚框的 faster R-CNN 不同，YOLOv2 在训练数据上运行 K 均值聚类，以找到锚框尺寸的良好先验。距离度量设计为依赖于 IoU 分数：

\[\text{dist}(x, c_i) = 1 - \text{IoU}(x, c_i), i=1,\dots,k \]

其中$x$是一个地面真实框候选，$c_i$是其中一个中心点。最佳中心点（锚框）数量$k$可以通过肘部法则选择。

由聚类生成的锚框在固定数量的锚框上提供更好的平均 IoU。

5. 直接位置预测：YOLOv2 以一种方式制定边界框预测，使其不会偏离中心位置太远。如果边界框位置预测可以将边界框放在图像的任何部分，就像在区域建议网络中一样，模型训练可能会变得不稳定。

给定大小为$(p_w, p_h)$的锚框在网格单元的左上角为$(c_x, c_y)$，模型预测偏移和比例$(t_x, t_y, t_w, t_h)$，相应的预测边界框$b$的中心为$(b_x, b_y)$，大小为$(b_w, b_h)$。置信度分数是另一个输出$t_o$的 sigmoid($\sigma$)。

\[ \begin{aligned} b_x &= \sigma(t_x) + c_x\\ b_y &= \sigma(t_y) + c_y\\ b_w &= p_w e^{t_w}\\ b_h &= p_h e^{t_h}\\ \text{Pr}(\text{object}) &\cdot \text{IoU}(b, \text{object}) = \sigma(t_o) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/91e23778f5ee93891da12b61a4a57b87.png) 图 7\. YOLOv2 边界框位置预测。（图片来源：[原论文](https://arxiv.org/abs/1612.08242)） **6\. 添加细粒度特征**：YOLOv2 添加了一个透传层，将*较早层*的细粒度特征传递到最后的输出层。这个透传层的机制类似于 ResNet 中的*恒等映射*，从先前的层提取高维特征。这导致性能提高了 1%。 **7\. 多尺度训练**：为了训练模型对不同尺寸的输入图像具有鲁棒性，每 10 批次会*随机抽样*一个*新尺寸*的输入维度。由于 YOLOv2 的卷积层将输入维度下采样 32 倍，新抽样的尺寸是 32 的倍数。 **8\. 轻量级基础模型**：为了使预测速度更快，YOLOv2 采用了一个轻量级的基础模型，DarkNet-19，它有 19 个卷积层和 5 个最大池化层。关键点是在 3x3 卷积层之间插入平均池化和 1x1 卷积滤波器。 ## YOLO9000：丰富的数据集训练因为在图像上绘制边界框进行目标检测比为分类标记图像要昂贵得多，所以该论文提出了一种将小目标检测数据集与大型 ImageNet 相结合的方法，以便模型可以接触到更多的对象类别。 YOLO9000 的名称来自 ImageNet 中前 9000 个类。在联合训练期间，如果输入图像来自分类数据集，则仅反向传播分类损失。检测数据集的标签要少得多且更通用，而且跨多个数据集的标签通常不是相互排斥的。例如，ImageNet 有一个标签“波斯猫”，而在 COCO 中，同一图像将被标记为“猫”。没有相互排斥性，对所有类别应用 softmax 就没有意义。为了有效地将 ImageNet 标签（1000 个类别，细粒度）与 COCO/PASCAL（<100 个类别，粗粒度）合并，YOLO9000 构建了一个具有参考[WordNet](https://wordnet.princeton.edu/)的分层树结构，以便通用标签更接近根部，而细粒度类别标签是叶子。这样，“猫”是“波斯猫”的父节点。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/3c13d804fb372ab68020163ff3ac5ca6.png) 图 8。WordTree 层次结构合并了来自 COCO 和 ImageNet 的标签。蓝色节点是 COCO 标签，红色节点是 ImageNet 标签。（图片来源：[原论文](https://arxiv.org/abs/1612.08242)）要预测类节点的概率，我们可以沿着从节点到根的路径进行： ```py Pr("persian cat" | contain a "physical object") = Pr("persian cat" | "cat") Pr("cat" | "animal") Pr("animal" | "physical object") Pr(contain a "physical object") # confidence score. ``` 注意`Pr（包含“物理对象”）`是置信度分数，在边界框检测管道中单独预测。条件概率预测的路径可以在任何步骤停止，取决于哪些标签可用。 # RetinaNet **RetinaNet**（[Lin 等人，2018](https://arxiv.org/abs/1708.02002)）是一种单阶段密集目标检测器。两个关键构建模块是*特征化图像金字塔*和使用*焦点损失*。 ## 焦点损失目标检测模型训练的一个问题是背景中没有对象而前景中包含感兴趣的对象之间存在极端不平衡。**焦点损失**旨在对难以分类的例子（即具有嘈杂纹理或部分对象的背景）分配更多权重，并对易例子（即明显为空的背景）进行降权。从普通的二元分类交叉熵损失开始， $$ \text{CE}(p, y) = -y\log p - (1-y)\log(1-p) \]

其中$y \in \{0, 1\}$是一个地面真实的二进制标签，表示边界框是否包含对象，$p \in [0, 1]$是对象性的预测概率（也称为置信度分数）。

为了方便表示，

\[\text{let } p_t = \begin{cases} p & \text{if } y = 1\\ 1-p & \text{otherwise} \end{cases}, \text{then } \text{CE}(p, y)=\text{CE}(p_t) = -\log p_t \]

易分类的示例，即$p_t \gg 0.5$，即$p$非常接近 0（当 y=0 时）或 1（当 y=1 时），可能会产生具有非平凡幅度的损失。焦点损失明确地向交叉熵的每一项添加一个权重因子$(1-p_t)^\gamma, \gamma \geq 0$，以便当$p_t$很大时权重很小，因此易例被降权。

\[ \text{FL}(p_t) = -(1-p_t)^\gamma \log p_t $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/98a50b58a985bc86b9cffbdcfb01e4bc.png) 图 9\. 焦点损失通过$(1-p\_t)^\gamma$因子更少地关注简单的示例。(图片来源：[原始论文](https://arxiv.org/abs/1708.02002)) 为了更好地控制权重函数的形状（见图 10），RetinaNet 使用焦点损失的$\alpha$平衡变体，其中$\alpha=0.25, \gamma=2$效果最好。 $$ \text{FL}(p_t) = -\alpha (1-p_t)^\gamma \log p_t $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/b490046e27975c8b2e9ac2325bea5b87.png) 图 10\. 焦点损失权重$\alpha (1-p\_t)^\gamma$作为$p\_t$的函数的绘图，给定不同的$\alpha$和$\gamma$值。 ## 特征化图像金字塔 **特征化图像金字塔**（[Lin 等人，2017](https://arxiv.org/abs/1612.03144)）是 RetinaNet 的骨干网络。遵循 SSD 中的图像金字塔相同方法，特征化图像金字塔为不同尺度的目标检测提供了基本的视觉组件。特征金字塔网络的关键思想在图 11 中展示。基本结构包含一系列*金字塔级别*，每个级别对应一个网络*阶段*。一个阶段包含多个相同大小的卷积层，阶段大小按 2 的倍数缩小。我们将第$i$个阶段的最后一层表示为$C_i$。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/bffb8c6833265029ccb29c1f154e247e.png) 图 11\. 特征化图像金字塔模块的示意图。（基于[FPN 论文](https://arxiv.org/abs/1612.03144)中的图 3 重新绘制）两个路径连接卷积层： + **自下而上路径** 是正常的前向计算。 + **自上而下路径** 沿相反方向进行，通过横向连接将粗糙但语义更强的特征图返回到较大尺寸的先前金字塔级别中。 + 首先，更高级别的特征被空间上采样至 2 倍大小。对于图像上采样，论文使用最近邻插值。虽然有许多[图像上采样算法](https://en.wikipedia.org/wiki/Image_scaling#Algorithms)，如使用[反卷积](https://www.tensorflow.org/api_docs/python/tf/layers/conv2d_transpose)，采用另一种图像缩放方法可能会或可能不会提高 RetinaNet 的性能。 + 较大的特征图经过 1x1 卷积层以减少通道维度。 + 最后，这两个特征图通过逐元素相加合并。横向连接仅发生在阶段的最后一层，表示为 $\{C_i\}$，该过程持续进行直到生成最细（最大）的合并特征图。在经过 3x3 卷积层后，每个合并地图 $\{P_i\}$ 进行预测。根据消融研究，图像金字塔设计组件的重要性排名如下：**1x1 横向连接** > 跨多个层检测对象 > 自顶向下丰富 > 金字塔表示（与仅检查最细层相比）。 ## 模型架构特征化金字塔是在 ResNet 架构的顶部构建的。回想一下，ResNet 有 5 个卷积块（= 网络阶段 / 金字塔级别）。第 $i$ 个金字塔级别的最后一层，$C_i$，的分辨率比原始输入维度低 $2^i$。 RetinaNet 利用特征金字塔级别 $P_3$ 到 $P_7$： + $P_3$ 到 $P_5$ 是从 $C_3$ 到 $C_5$ 对应的 ResNet 残差阶段计算得出的。它们通过自顶向下和自底向上的路径连接在一起。 + $P_6$ 是在 $C_5$ 顶部进行的 3×3 步长为 2 的卷积得到的。 + $P_7$ 在 $P_6$ 上应用 ReLU 和 3×3 步长为 2 的卷积。在 ResNet 上添加更高的金字塔级别可以提高检测大物体的性能。与 SSD 中一样，通过在每个合并特征图上进行预测，所有金字塔级别中都发生检测。因为预测共享相同的分类器和框回归器，它们都被形成为具有相同的通道维度 d=256。每个级别有 A=9 个锚框： + 基础尺寸对应于 $P_3$ 到 $P_7$ 上的 $32²$ 到 $512²$ 像素的区域。有三个尺寸比率，$\{2⁰, 2^{1/3}, 2^{2/3}\}$。 + 对于每个尺寸，有三个长宽比 {1/2, 1, 2}。与往常一样，对于每个锚框，模型在分类子网络中为 $K$ 个类别中的每一个输出类别概率，并在框回归子网络中回归从该锚框到最近的地面真实对象的偏移。分类子网络采用上面介绍的焦点损失。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/4003b7a9a0a1c5e27d6579ecea1ddf40.png) 图 12\. RetinaNet 模型架构在 ResNet 顶部使用了[FPN](https://arxiv.org/abs/1612.03144)骨干。（图片来源：[FPN](https://arxiv.org/abs/1612.03144) 论文） # YOLOv3 [YOLOv3](https://pjreddie.com/media/files/papers/YOLOv3.pdf) 是通过在 YOLOv2 上应用一系列设计技巧而创建的。这些变化受到目标检测领域最新进展的启发。以下是一些变化的列表： **1\. 置信度分数的逻辑回归**：YOLOv3 使用*逻辑回归*为每个边界框预测置信度分数，而 YOLO 和 YOLOv2 使用平方误差的和作为分类项（参见上面的损失函数）。偏移预测的线性回归会导致 mAP 的降低。 **2\. 不再使用 softmax 进行类别预测**：在预测类别置信度时，YOLOv3 为每个类别使用*多个独立的逻辑分类器*，而不是一个 softmax 层。这对于考虑到一个图像可能有多个标签且不是所有标签都保证是互斥的情况非常有帮助。 **3\. Darknet + ResNet 作为基础模型**：新的 Darknet-53 仍然依赖于连续的 3x3 和 1x1 卷积层，就像原始的 dark net 架构一样，但添加了残差块。 **4\. 多尺度预测**：受到图像金字塔的启发，YOLOv3 在基础特征提取模型之后添加了几个卷积层，并在这些卷积层中的三个不同尺度上进行预测。这样，它必须处理各种尺寸的许多边界框候选。 **5\. 跨层连接**：YOLOv3 还在两个预测层（除了输出层）和较早的细粒度特征图之间添加了跨层连接。模型首先上采样粗糙特征图，然后通过连接与之前的特征图合并。与细粒度信息的结合使其更擅长检测小物体。有趣的是，焦点损失对 YOLOv3 没有帮助，可能是由于使用了$\lambda_\text{noobj}$和$\lambda_\text{coord}$ —— 它们增加了边界框位置预测的损失，并减少了背景框置信度预测的损失。总体而言，YOLOv3 的性能比 SSD 更好更快，比 RetinaNet 差但快 3.8 倍。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/e30cfb033268041e1f11978a171a7485.png) 图 13\. 各种快速目标检测模型在速度和 mAP 性能上的比较。（图片来源：[焦点损失](https://arxiv.org/abs/1708.02002) 论文，附加标签来自[YOLOv3](https://pjreddie.com/media/files/papers/YOLOv3.pdf) 论文。） * * * 被引用为： ```py @article{weng2018detection4, title = "Object Detection Part 4: Fast Detection Models", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2018", url = "https://lilianweng.github.io/posts/2018-12-27-object-recognition-part-4/" } ``` # 参考文献 [1] Joseph Redmon 等人. [“You only look once: 统一的实时目标检测。”](https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf) CVPR 2016. [2] Joseph Redmon 和 Ali Farhadi. [“YOLO9000: 更好、更快、更强。”](http://openaccess.thecvf.com/content_cvpr_2017/papers/Redmon_YOLO9000_Better_Faster_CVPR_2017_paper.pdf) CVPR 2017. [3] Joseph Redmon, Ali Farhadi. [“YOLOv3: 一个渐进改进。”](https://pjreddie.com/media/files/papers/YOLOv3.pdf). [4] Wei Liu 等人. [“SSD: 单次多框检测器。”](https://arxiv.org/abs/1512.02325) ECCV 2016. [5] Tsung-Yi Lin 等人. [“用于目标检测的特征金字塔网络。”](https://arxiv.org/abs/1612.03144) CVPR 2017. [6] Tsung-Yi Lin 等人. [“密集目标检测的焦点损失。”](https://arxiv.org/abs/1708.02002) IEEE 模式分析与机器智能交易，2018 年。 [7] [“YOLO v3 有什么新功能？”](https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b) 作者 Ayoosh Kathuria 在“Towards Data Science”上，2018 年 4 月 23 日发布。 # 元学习：学会快速学习 > 原文：[`lilianweng.github.io/posts/2018-11-30-meta-learning/`](https://lilianweng.github.io/posts/2018-11-30-meta-learning/) [更新于 2019-10-01：感谢天豪，我们有这篇文章的[中文翻译](https://wei-tianhao.github.io/blog/2019/09/17/meta-learning.html)！] 一个良好的机器学习模型通常需要使用大量样本进行训练。相比之下，人类学习新概念和技能的速度更快，更有效。只见过几次猫和鸟的孩子可以很快区分它们。知道如何骑自行车的人很可能会快速学会如何骑摩托车，甚至几乎不需要演示。是否可能设计一个具有类似特性的机器学习模型——用少量训练示例快速学习新概念和技能？这基本上是**元学习**的目标所在。我们期望一个良好的元学习模型能够很好地适应或泛化到在训练时从未遇到过的新任务和新环境。适应过程，本质上是一个小型的学习会话，在测试时发生，但对新任务配置的暴露有限。最终，适应后的模型可以完成新任务。这就是为什么元学习也被称为[学会学习](https://www.cs.cmu.edu/~rsalakhu/papers/LakeEtAl2015Science.pdf)。任务可以是任何明确定义的机器学习问题族：监督学习，强化学习等。例如，这里有一些具体的元学习任务： + 一个在非猫图像上训练的分类器，在看过几张猫的图片后就能判断给定的图片是否包含猫。 + 一个游戏机器人能够迅速掌握一个新游戏。 + 一个小型机器人在测试期间在上坡表面上完成所需的任务，即使它只在平坦表面环境中接受过训练。 # 定义元学习问题在这篇文章中，我们关注的是每个期望的任务都是像图像分类这样的监督学习问题的情况。关于使用强化学习问题进行元学习的有很多有趣的文献（也称为“元强化学习”），但我们在这里不会涉及到。 ## 一个简单的观点一个良好的元学习模型应该在各种学习任务上进行训练，并针对任务分布进行优化，包括潜在的未见任务。每个任务都与一个包含特征向量和真实标签的数据集$\mathcal{D}$相关联。最佳模型参数为： $$ \theta^* = \arg\min_\theta \mathbb{E}_{\mathcal{D}\sim p(\mathcal{D})} [\mathcal{L}_\theta(\mathcal{D})] \]

它看起来非常类似于普通的学习任务，但一个数据集被视为一个数据样本。

少样本分类是监督学习领域中元学习的一个实例。数据集$\mathcal{D}$通常被分为两部分，一个用于学习的支持集$S$和一个用于训练或测试的预测集$B$，$\mathcal{D}=\langle S, B\rangle$。通常我们考虑K-shot N-class 分类任务：支持集包含每个 N 类别的 K 个带标签示例。

图 1. 一个 4-shot 2-class 图像分类的示例。（图片缩略图来自Pinterest）

训练方式与测试方式相同

数据集$\mathcal{D}$包含特征向量和标签对，$\mathcal{D} = \{(\mathbf{x}_i, y_i)\}$，每个标签属于已知标签集$\mathcal{L}^\text{label}$。假设我们的分类器$f_\theta$使用参数$\theta$输出给定特征向量$\mathbf{x}$的数据点属于类别$y$的概率，$P_\theta(y\vert\mathbf{x})$。

最优参数应该最大化跨多个训练批次$B \subset \mathcal{D}$的真实标签概率：

\[\begin{aligned} \theta^* &= {\arg\max}_{\theta} \mathbb{E}_{(\mathbf{x}, y)\in \mathcal{D}}[P_\theta(y \vert \mathbf{x})] &\\ \theta^* &= {\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{x}, y)\in B}P_\theta(y \vert \mathbf{x})] & \scriptstyle{\text{; 使用小批量进行训练。}} \end{aligned} \]

在少样本分类中，目标是在给定一个小支持集进行“快速学习”（想想“微调”是如何工作的）的情况下减少对具有未知标签数据样本的预测错误。为了使训练过程模拟推断过程中发生的情况，我们希望“伪造”数据集，其中包含一部分标签，以避免向模型暴露所有标签，并相应地修改优化过程以鼓励快速学习：

抽取标签的子集，$L\subset\mathcal{L}^\text{label}$。
从数据集$\mathcal{D}$中抽取一个支持集$S^L$和一个训练批次$B^L$。它们只包含属于抽样标签集$L$的带标签数据点，$y \in L, \forall (x, y) \in S^L, B^L$。
支持集是模型输入的一部分。
最终的优化使用小批量$B^L$来计算损失并通过反向传播更新模型参数，与我们在监督学习中使用的方式相同。

您可以将每对抽样数据集$(S^L, B^L)$视为一个数据点。模型被训练以便能够推广到其他数据集。除了监督学习目标外，红色符号被添加用于元学习。

\[\theta = \arg\max_\theta \color{red}{E_{L\subset\mathcal{L}}[} E_{\color{red}{S^L \subset\mathcal{D}, }B^L \subset\mathcal{D}} [\sum_{(x, y)\in B^L} P_\theta(x, y\color{red}{, S^L})] \color{red}{]} \]

这个想法在某种程度上类似于在图像分类（ImageNet）或语言建模（大文本语料库）中使用预训练模型，当只有有限的任务特定数据样本可用时。元学习将这个想法推进一步，而不是根据一个下游任务微调，它优化模型使其在许多甚至所有任务上表现良好。

学习者和元学习者

元学习的另一个流行观点将模型更新分解为两个阶段：

分类器$f_\theta$是“学习者”模型，用于执行给定任务；
与此同时，优化器$g_\phi$学习如何通过支持集$S$更新学习者模型的参数，$\theta' = g_\phi(\theta, S)$。

然后在最终优化步骤中，我们需要更新$\theta$和$\phi$以最大化：

\[\mathbb{E}_{L\subset\mathcal{L}}[ \mathbb{E}_{S^L \subset\mathcal{D}, B^L \subset\mathcal{D}} [\sum_{(\mathbf{x}, y)\in B^L} P_{g_\phi(\theta, S^L)}(y \vert \mathbf{x})]] \]

常见方法

元学习有三种常见方法：基于度量、基于模型和基于优化。Oriol Vinyals 在他在 2018 年 NIPS 元学习研讨会上的演讲中有一个很好的总结：

————-	————-	————-	————-
	基于模型	基于度量	基于优化
---	---	---	---
关键思想	RNN；记忆	度量学习	梯度下降
$P_\theta(y \vert \mathbf{x})$是如何建模的？	$f_\theta(\mathbf{x}, S)$	$\sum_{(\mathbf{x}_i, y_i) \in S} k_\theta(\mathbf{x}, \mathbf{x}_i)y_i$ (*)	$P_{g_\phi(\theta, S^L)}(y \vert \mathbf{x})$

(*) $k_\theta$是一个核函数，衡量$\mathbf{x}_i$和$\mathbf{x}$之间的相似性。

接下来我们将回顾每种方法中的经典模型。

基于度量

基于度量的元学习的核心思想类似于最近邻算法（即，k-NN分类器和k-means聚类）和核密度估计。对于一组已知标签$y$的预测概率是支持集样本标签的加权和。权重由核函数$k_\theta$生成，衡量两个数据样本之间的相似性。

\[P_\theta(y \vert \mathbf{x}, S) = \sum_{(\mathbf{x}_i, y_i) \in S} k_\theta(\mathbf{x}, \mathbf{x}_i)y_i \]

学习一个好的核对于基于度量的元学习模型的成功至关重要。度量学习与此意图高度一致，因为它旨在学习对象之间的度量或距离函数。一个好的度量概念是依赖于问题的。它应该代表输入在任务空间中的关系，并促进问题解决。

下面介绍的所有模型都明确学习输入数据的嵌入向量，并使用它们设计适当的核函数。

卷积暹罗神经网络

暹罗神经网络由两个孪生网络组成，它们的输出通过一个函数联合训练，学习输入数据样本对之间的关系。这两个孪生网络是相同的，共享相同的权重和网络参数。换句话说，两者都指向相同的嵌入网络，该网络学习有效的嵌入以揭示数据点对之间的关系。

Koch, Zemel & Salakhutdinov (2015) 提出了一种使用暹罗神经网络进行一次性图像分类的方法。首先，暹罗网络被训练用于验证任务，告诉两个输入图像是否属于同一类。它输出两个图像属于同一类的概率。然后，在测试时，暹罗网络处理测试图像与支持集中每个图像之间的所有图像对。最终预测是支持图像的类别，其概率最高。

图 2. 用于少样本图像分类的卷积暹罗神经网络架构。

首先，卷积暹罗网络通过一个包含几个卷积层的嵌入函数 $f_\theta$ 学习将两个图像编码为特征向量。
两个嵌入之间的 L1 距离是 $\vert f_\theta(\mathbf{x}_i) - f_\theta(\mathbf{x}_j) \vert$。
距离通过线性前馈层和 Sigmoid 转换为概率 $p$。这是两个图像是否来自同一类的概率。
直观上，损失是交叉熵，因为标签是二进制的。

\[\begin{aligned} p(\mathbf{x}_i, \mathbf{x}_j) &= \sigma(\mathbf{W}\vert f_\theta(\mathbf{x}_i) - f_\theta(\mathbf{x}_j) \vert) \\ \mathcal{L}(B) &= \sum_{(\mathbf{x}_i, \mathbf{x}_j, y_i, y_j)\in B} \mathbf{1}_{y_i=y_j}\log p(\mathbf{x}_i, \mathbf{x}_j) + (1-\mathbf{1}_{y_i=y_j})\log (1-p(\mathbf{x}_i, \mathbf{x}_j)) \end{aligned} \]

训练批次 $B$ 中的图像可以通过失真进行增强。当然，您可以用其他距离度量替换 L1 距离，如 L2、余弦等。只需确保它们是可微的，然后其他一切都一样。

给定一个支持集 $S$ 和一个测试图像 $\mathbf{x}$，最终预测的类别是：

\[\hat{c}_S(\mathbf{x}) = c(\arg\max_{\mathbf{x}_i \in S} P(\mathbf{x}, \mathbf{x}_i)) \]

其中 $c(\mathbf{x})$ 是图像 $\mathbf{x}$ 的类标签，$\hat{c}(.)$ 是预测标签。

假设学习到的嵌入可以推广为用于测量未知类别图像之间距离的有用工具。这与通过采用预训练模型进行迁移学习的假设相同；例如，通过 ImageNet 预训练的模型中学习的卷积特征预计将有助于其他图像任务。然而，当新任务与模型训练的原始任务偏离时，预训练模型的好处会减少。

匹配网络

匹配网络的任务（Vinyals 等人，2016）是为任何给定的（小型）支持集$S=\{x_i, y_i\}_{i=1}^k$学习一个分类器$c_S$（k-shot分类）。该分类器定义了在给定测试样本$\mathbf{x}$的情况下输出标签$y$的概率分布。与其他基于度量的模型类似，分类器的输出被定义为由注意力核$a(\mathbf{x}, \mathbf{x}_i)$加权的支持样本标签的总和 - 这应与$\mathbf{x}$和$\mathbf{x}_i$之间的相似性成比例。

图 3. 匹配网络的架构。（图片来源：原始论文）

\[c_S(\mathbf{x}) = P(y \vert \mathbf{x}, S) = \sum_{i=1}^k a(\mathbf{x}, \mathbf{x}_i) y_i \text{，其中} S=\{(\mathbf{x}_i, y_i)\}_{i=1}^k \]

注意力核取决于两个嵌入函数$f$和$g$，用于编码测试样本和支持集样本。两个数据点之间的注意力权重是它们嵌入向量之间的余弦相似性，通过 softmax 进行归一化：

\[a(\mathbf{x}, \mathbf{x}_i) = \frac{\exp(\text{cosine}(f(\mathbf{x}), g(\mathbf{x}_i))}{\sum_{j=1}^k\exp(\text{cosine}(f(\mathbf{x}), g(\mathbf{x}_j))} \]

简单嵌入

在简单版本中，嵌入函数是一个具有单个数据样本作为输入的神经网络。潜在地，我们可以设置$f=g$。

完整上下文嵌入

嵌入向量是构建良好分类器的关键输入。仅以单个数据点作为输入可能不足以有效地衡量整个特征空间。因此，匹配网络模型进一步提出通过除原始输入外还将整个支持集$S$作为输入来增强嵌入函数，以便根据与其他支持样本的关系调整学习到的嵌入。

$g_\theta(\mathbf{x}_i, S)$使用双向 LSTM 对$\mathbf{x}_i$在整个支持集$S$的上下文中进行编码。
$f_\theta(\mathbf{x}, S)$通过对支持集$S$进行读取注意力的 LSTM 对测试样本$\mathbf{x}$进行编码。
1. 首先，测试样本通过一个简单的神经网络（如 CNN）进行处理，提取基本特征$f'(\mathbf{x})$。
2. 然后，一个 LSTM 被训练，其中包括对支持集的读取注意力向量作为隐藏状态的一部分。
  
  \[\begin{aligned} \hat{\mathbf{h}}_t, \mathbf{c}_t &= \text{LSTM}(f'(\mathbf{x}), [\mathbf{h}_{t-1}, \mathbf{r}_{t-1}], \mathbf{c}_{t-1}) \\ \mathbf{h}_t &= \hat{\mathbf{h}}_t + f'(\mathbf{x}) \\ \mathbf{r}_{t-1} &= \sum_{i=1}^k a(\mathbf{h}_{t-1}, g(\mathbf{x}_i)) g(\mathbf{x}_i) \\ a(\mathbf{h}_{t-1}, g(\mathbf{x}_i)) &= \text{softmax}(\mathbf{h}_{t-1}^\top g(\mathbf{x}_i)) = \frac{\exp(\mathbf{h}_{t-1}^\top g(\mathbf{x}_i))}{\sum_{j=1}^k \exp(\mathbf{h}_{t-1}^\top g(\mathbf{x}_j))} \end{aligned} \]
3. 最终，如果我们进行 K 步“读取”，则$f(\mathbf{x}, S)=\mathbf{h}_K$。

这种嵌入方法被称为“全上下文嵌入（FCE）”。有趣的是，它确实有助于提高在一个困难任务（在迷你 ImageNet 上的少样本分类）上的性能，但在一个简单任务（Omniglot）上没有任何区别。

Matching Networks 中的训练过程旨在匹配测试时的推理，详细信息请参见之前的部分。值得一提的是，Matching Networks 论文完善了训练和测试条件应该匹配的想法。

\[\theta^* = \arg\max_\theta \mathbb{E}_{L\subset\mathcal{L}}[ \mathbb{E}_{S^L \subset\mathcal{D}, B^L \subset\mathcal{D}} [\sum_{(\mathbf{x}, y)\in B^L} P_\theta(y\vert\mathbf{x}, S^L)]] \]

关系网络

关系网络（RN）（Sung 等，2018）类似于孪生网络，但有一些区别：

在特征空间中，关系不是通过简单的 L1 距离来捕捉，而是由 CNN 分类器$g_\phi$来预测。一对输入$\mathbf{x}_i$和$\mathbf{x}_j$之间的关系分数为$r_{ij} = g_\phi([\mathbf{x}_i, \mathbf{x}_j])$，其中$[.,.]$表示连接。
目标函数是均方误差损失而不是交叉熵，因为概念上 RN 更注重预测关系分数，更像回归，而不是二元分类，$\mathcal{L}(B) = \sum_{(\mathbf{x}_i, \mathbf{x}_j, y_i, y_j)\in B} (r_{ij} - \mathbf{1}_{y_i=y_j})²$。

图 4. 一个 5 路 1 样本问题的关系网络架构，带有一个查询示例。（图片来源：原始论文）

（注意：DeepMind 提出了另一个关系网络用于关系推理。不要混淆。）

原型网络

原型网络（Snell, Swersky & Zemel, 2017）使用嵌入函数$f_\theta$将每个输入编码为$M$维特征向量。为每个类$c \in \mathcal{C}$定义一个原型特征向量，作为该类中嵌入支持数据样本的平均向量。

\[ \mathbf{v}_c = \frac{1}{|S_c|} \sum_{(\mathbf{x}_i, y_i) \in S_c} f_\theta(\mathbf{x}_i) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/ba956df8e7275c6cfed9e7bd5de0e0e7.png) 图 5。少样本和零样本情景中的原型网络。（图片来源：[原始论文](http://papers.nips.cc/paper/6996-prototypical-networks-for-few-shot-learning.pdf)）对于给定的测试输入$\mathbf{x}$，类别分布是测试数据嵌入和原型向量之间距离的逆 softmax。 $$ P(y=c\vert\mathbf{x})=\text{softmax}(-d_\varphi(f_\theta(\mathbf{x}), \mathbf{v}_c)) = \frac{\exp(-d_\varphi(f_\theta(\mathbf{x}), \mathbf{v}_c))}{\sum_{c' \in \mathcal{C}}\exp(-d_\varphi(f_\theta(\mathbf{x}), \mathbf{v}_{c'}))} \]

其中$d_\varphi$可以是任何距离函数，只要$\varphi$是可微的。在论文中，他们使用了平方欧氏距离。

损失函数是负对数似然：$\mathcal{L}(\theta) = -\log P_\theta(y=c\vert\mathbf{x})$。

基于模型

基于模型的元学习模型不对$P_\theta(y\vert\mathbf{x})$的形式做任何假设。相反，它依赖于专门设计用于快速学习的模型 —— 一个通过少量训练步骤快速更新参数的模型。这种快速参数更新可以通过其内部架构实现，或者由另一个元学习模型控制。

增强记忆神经网络

一类模型架构使用外部存储器来促进神经网络的学习过程，包括神经图灵机和记忆网络。通过显式存储缓冲区，网络更容易快速整合新信息，并且不会在未来遗忘。这样的模型被称为MANN，即“增强记忆神经网络”。请注意，仅具有内部记忆的递归神经网络，如普通 RNN 或 LSTM，并不是 MANN。

因为 MANN 预计能够快速编码新信息，因此在仅有少量样本后适应新任务，非常适合元学习。以神经图灵机（NTM）为基础模型，Santoro 等人（2016）在训练设置和记忆检索机制（或“寻址机制”，决定如何分配注意力权重给记忆向量）上提出了一系列修改。如果您对此事不熟悉，请先阅读我的另一篇文章中的 NTM 部分。

简要回顾一下，NTM 将控制器神经网络与外部存储器耦合。控制器通过软注意力学习读写记忆行，而记忆作为知识库。注意力权重由其寻址机制生成：基于内容+基于位置。

图 6. 神经图灵机（NTM）的架构。时间 t 的记忆$\mathbf{M}\_t$是一个大小为$N \times M$的矩阵，包含 N 个向量行，每个向量有 M 个维度。

用于元学习的 MANN

要将 MANN 用于元学习任务，我们需要以一种方式训练它，使得记忆能够快速编码和捕获新任务的信息，并且同时任何存储的表示都能够轻松稳定地访问。

Santoro 等人，2016描述的训练以一种有趣的方式进行，使得记忆被迫保存信息更长时间，直到适当的标签稍后出现。在每个训练周期中，真实标签$y_t$与一个步骤偏移$(\mathbf{x}_{t+1}, y_t)$一起呈现：这是前一个时间步 t 的输入的真实标签，但作为时间步 t+1 的一部分呈现。

图 7. 元学习中 MANN 的任务设置（图片来源：原始论文）。

这样，MANN 被激励去记忆新数据集的信息，因为记忆必须保存当前输入，直到稍后出现标签，然后检索旧信息以做出相应预测。

接下来让我们看看如何更新记忆以实现高效的信息检索和存储。

用于元学习的寻址机制

除了训练过程外，还利用了一种新的纯内容为基础的寻址机制，使模型更适合元学习。

» 如何从记忆中读取？

基于内容相似性构建的读取注意力。

首先，在时间步骤 t，控制器根据输入$\mathbf{x}$生成关键特征向量$\mathbf{k}_t$。类似于 NTM，读取加权向量$\mathbf{w}_t^r$由 N 个元素计算为关键向量与每个存储向量行之间的余弦相似性，通过 softmax 进行归一化。读取向量$\mathbf{r}_t$是通过这些权重加权的存储记录之和：

\[\mathbf{r}_i = \sum_{i=1}^N w_t^r(i)\mathbf{M}_t(i) \text{，其中 } w_t^r(i) = \text{softmax}(\frac{\mathbf{k}_t \cdot \mathbf{M}_t(i)}{\|\mathbf{k}_t\| \cdot \|\mathbf{M}_t(i)\|}) \]

其中$M_t$是时间 t 的内存矩阵，$M_t(i)$是该矩阵中的第 i 行。

» 如何写入内存？

将新接收的信息写入内存的寻址机制操作方式很像缓存替换策略。最近最少使用访问（LRUA）写入头设计为 MANN 在元学习场景中更好地工作。LRUA 写入头更倾向于将新内容写入最少使用的存储位置或最近使用的存储位置。

很少使用的位置：这样我们可以保留经常使用的信息（参见LFU）；
最近使用的位置：动机是一旦检索到一条信息，它可能在一段时间内不会再次被调用（参见MRU）。

有许多缓存替换算法，每个算法都可能在不同的用例中以更好的性能替换此设计。此外，学习内存使用模式和寻址策略而不是随意设置它可能是一个好主意。

LRUA 的偏好是以可微分的方式进行的：

时间 t 的使用权重$\mathbf{w}^u_t$是当前读取和写入向量的总和，另外还有上次使用权重的衰减，$\gamma \mathbf{w}^u_{t-1}$，其中$\gamma$是一个衰减因子。
写入向量是前一个读取权重（更倾向于“最近使用的位置”）和前一个最少使用的权重（更倾向于“很少使用的位置”）之间的插值。插值参数是一个超参数$\alpha$的 sigmoid。
最少使用的权重$\mathbf{w}^{lu}$根据使用权重$\mathbf{w}_t^u$进行缩放，其中如果任何维度小于向量中第 n 小的元素，则保持为 1，否则为 0。

\[\begin{aligned} \mathbf{w}_t^u &= \gamma \mathbf{w}_{t-1}^u + \mathbf{w}_t^r + \mathbf{w}_t^w \\ \mathbf{w}_t^r &= \text{softmax}(\text{cosine}(\mathbf{k}_t, \mathbf{M}_t(i))) \\ \mathbf{w}_t^w &= \sigma(\alpha)\mathbf{w}_{t-1}^r + (1-\sigma(\alpha))\mathbf{w}^{lu}_{t-1}\\ \mathbf{w}_t^{lu} &= \mathbf{1}_{w_t^u(i) \leq m(\mathbf{w}_t^u, n)} \text{，其中 }m(\mathbf{w}_t^u, n)\text{ 是向量 }\mathbf{w}_t^u\text{ 中第 }n\text{ 小的元素。} \end{aligned} \]

最后，在由$\mathbf{w}_t^{lu}$指示的最少使用的内存位置被设置为零后，每个内存行都会被更新：

\[\mathbf{M}_t(i) = \mathbf{M}_{t-1}(i) + w_t^w(i)\mathbf{k}_t, \forall i \]

元网络

元网络（Munkhdalai & Yu, 2017），简称MetaNet，是一个元学习模型，其架构和训练过程旨在快速泛化跨任务。

快速权重

MetaNet 的快速泛化依赖于“快速权重”。关于这个主题有一些论文，但我没有详细阅读所有这些论文，也没有找到一个非常具体的定义，只是对这个概念有一个模糊的认识。通常，神经网络中的权重是通过随机梯度下降在目标函数中更新的，这个过程被认为是缓慢的。学习的一种更快速的方式是利用一个神经网络来预测另一个神经网络的参数，生成的权重被称为快速权重。相比之下，普通基于 SGD 的权重被称为慢速权重。

在 MetaNet 中，损失梯度被用作元信息来填充学习快速权重的模型。慢速和快速权重被结合在神经网络中进行预测。

图 8. 在 MLP 中结合慢速和快速权重。$\bigoplus$是逐元素求和。（图片来源：原始论文）。

模型组件

免责声明：以下是我对论文中注释的不同之处。在我看来，这篇论文写得很差，但其中的想法仍然很有趣。因此，我用自己的语言呈现这个想法。

MetaNet 的关键组件包括：

由$\theta$参数化的嵌入函数$f_\theta$将原始输入编码为特征向量。类似于孪生神经网络，这些嵌入被训练为对于判断两个输入是否属于同一类别（验证任务）有用。
由权重$\phi$参数化的基础学习模型$g_\phi$完成实际学习任务。

如果我们到此为止，看起来就像关系网络。此外，MetaNet 明确地对两个函数的快速权重进行建模，然后将它们聚合回模型中（见图 8）。

因此，我们需要额外的两个函数分别输出$f$和$g$的快速权重。

$F_w$：由$w$参数化的 LSTM，用于学习嵌入函数$f$的快速权重$\theta^+$。它以$f$的嵌入损失的梯度作为输入，用于验证任务。
$G_v$：由$v$参数化的神经网络，从基学习器$g$的损失梯度中学习快速权重$\phi^+$。在 MetaNet 中，学习器的损失梯度被视为任务的元信息。

好的，现在让我们看看元网络是如何训练的。训练数据包含多对数据集：一个支持集$S=\{\mathbf{x}’_i, y’_i\}_{i=1}^K$和一个测试集$U=\{\mathbf{x}_i, y_i\}_{i=1}^L$。回想一下，我们有四个网络和四组模型参数要学习，$(\theta, \phi, w, v)$。

图 9. MetaNet 架构。

训练过程

在每个时间步$t$从支持集$S$中随机选择一对输入$(\mathbf{x}’_i, y’_i)$和$(\mathbf{x}’_j, y_j)$。令$\mathbf{x}_{(t,1)}=\mathbf{x}’_i$和$\mathbf{x}_{(t,2)}=\mathbf{x}’_j$。

对于$t = 1, \dots, K$：
- a. 计算表示学习的损失；即，验证任务的交叉熵：
  
  $\mathcal{L}^\text{emb}_t = \mathbf{1}_{y’_i=y’_j} \log P_t + (1 - \mathbf{1}_{y’_i=y’_j})\log(1 - P_t)\text{，其中 }P_t = \sigma(\mathbf{W}\vert f_\theta(\mathbf{x}_{(t,1)}) - f_\theta(\mathbf{x}_{(t,2)})\vert)$
计算任务级快速权重：$\theta^+ = F_w(\nabla_\theta \mathcal{L}^\text{emb}_1, \dots, \mathcal{L}^\text{emb}_T)$
接下来，遍历支持集$S$中的示例，并计算示例级快速权重。同时，使用学习到的表示更新内存。

对于$i=1, \dots, K$：
- a. 基学习器输出概率分布：$P(\hat{y}_i \vert \mathbf{x}_i) = g_\phi(\mathbf{x}_i)$，损失可以是交叉熵或均方误差：$\mathcal{L}^\text{task}_i = y’_i \log g_\phi(\mathbf{x}’_i) + (1- y’_i) \log (1 - g_\phi(\mathbf{x}’_i))$
- b. 提取任务的元信息（损失梯度）并计算示例级快速权重：$\phi_i^+ = G_v(\nabla_\phi\mathcal{L}^\text{task}_i)$
  - 然后将$\phi^+_i$存储到“值”内存$\mathbf{M}$的第$i$个位置。
- d. 使用慢权重和快速权重将支持样本编码为特定任务的输入表示：$r’_i = f_{\theta, \theta^+}(\mathbf{x}’_i)$
  - 然后将$r’_i$存储到“键”内存$\mathbf{R}$的第$i$个位置。
最后，是构建使用测试集$U=\{\mathbf{x}_i, y_i\}_{i=1}^L$的训练损失的时候了。

从$\mathcal{L}_\text{train}=0$开始：

对于$j=1, \dots, L$：
- a. 将测试样本编码为特定任务的输入表示：$r_j = f_{\theta, \theta^+}(\mathbf{x}_j)$
- b. 快速权重通过关注内存中支持集样本的表示$\mathbf{R}$来计算。注意函数由您选择。这里 MetaNet 使用余弦相似度：
  
  \[\begin{aligned} a_j &= \text{cosine}(\mathbf{R}, r_j) = [\frac{r'_1\cdot r_j}{\|r'_1\|\cdot\|r_j\|}, \dots, \frac{r'_N\cdot r_j}{\|r'_N\|\cdot\|r_j\|}]\\ \phi^+_j &= \text{softmax}(a_j)^\top \mathbf{M} \end{aligned} \]
- c. 更新训练损失：$\mathcal{L}\text{train} \leftarrow \mathcal{L}\text{train} + \mathcal{L}^\text{task}(g_{\phi, \phi^+}(\mathbf{x}_i), y_i) $
使用$\mathcal{L}_\text{train}$更新所有参数$(\theta, \phi, w, v)$。

基于优化的

深度学习模型通过梯度反向传播学习。然而，基于梯度的优化既不是为了应对少量训练样本，也不是为了在少量优化步骤内收敛。有没有一种方法可以调整优化算法，使模型能够很好地学习少量示例？这就是基于优化的元学习算法的目的。

LSTM 元学习者

优化算法可以被明确建模。Ravi & Larochelle (2017)这样做，并将其命名为“元学习者”，而处理任务的原始模型称为“学习者”。元学习者的目标是使用小支持集有效地更新学习者的参数，以便学习者可以快速适应新任务。

让我们将学习模型表示为由$\theta$参数化的$M_\theta$，将元学习者表示为由参数$\Theta$参数化的$R_\Theta$，损失函数为$\mathcal{L}$。

为什么选择 LSTM？

元学习者被建模为 LSTM，因为：

梯度下降更新和 LSTM 中细胞状态更新之间存在相似性。
知道梯度的历史有利于梯度更新；想想动量是如何工作的。

在时间步 t，学习者参数的更新与学习率$\alpha_t$为：

\[\theta_t = \theta_{t-1} - \alpha_t \nabla_{\theta_{t-1}}\mathcal{L}_t \]

如果我们设置遗忘门$f_t=1$，输入门$i_t = \alpha_t$，细胞状态$c_t = \theta_t$，新细胞状态$\tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t$，它与 LSTM 中的细胞状态更新具有相同的形式：

\[\begin{aligned} c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t\\ &= \theta_{t-1} - \alpha_t\nabla_{\theta_{t-1}}\mathcal{L}_t \end{aligned} \]

尽管固定$f_t=1$和$i_t=\alpha_t$可能不是最佳选择，但它们都可以是可学习的，并适应不同的数据集。

\[\begin{aligned} f_t &= \sigma(\mathbf{W}_f \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, f_{t-1}] + \mathbf{b}_f) & \scriptstyle{\text{; 忘记旧参数值的程度。}}\\ i_t &= \sigma(\mathbf{W}_i \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, i_{t-1}] + \mathbf{b}_i) & \scriptstyle{\text{; 对应于时间步骤 t 的学习率。}}\\ \tilde{\theta}_t &= -\nabla_{\theta_{t-1}}\mathcal{L}_t &\\ \theta_t &= f_t \odot \theta_{t-1} + i_t \odot \tilde{\theta}_t &\\ \end{aligned} \]

模型设置

图 10. 学习器 $M\_\theta$ 和元学习器 $R\_\Theta$ 的训练方式。 (图片来源：原论文)，带有更多注释。

训练过程模拟了测试过程中发生的情况，因为已经证明在匹配网络中是有益的。在每个训练周期中，我们首先从 $\hat{\mathcal{D}}_\text{meta-train}$ 中抽样一个数据集 $\mathcal{D} = (\mathcal{D}_\text{train}, \mathcal{D}_\text{test})$，然后从 $\mathcal{D}_\text{train}$ 中抽样小批量数据来更新 $\theta$，进行 $T$ 轮。学习器参数 $\theta_T$ 的最终状态用于在测试数据 $\mathcal{D}_\text{test}$ 上训练元学习器。

两个需要额外注意的实现细节：

如何在 LSTM 元学习器中压缩参数空间？由于元学习器正在建模另一个神经网络的参数，它将有数十万个要学习的变量。遵循这个想法跨坐标共享参数，
为了简化训练过程，元学习器假设损失函数 $\mathcal{L}_t$ 和梯度 $\nabla_{\theta_{t-1}} \mathcal{L}_t$ 是独立的。

MAML

MAML，即模型无关元学习（Finn, et al. 2017）是一种非常通用的优化算法，与通过梯度下降学习的任何模型兼容。

假设我们的模型是 $f_\theta$，具有参数 $\theta$。给定一个任务 $\tau_i$ 及其相关数据集 $(\mathcal{D}^{(i)}_\text{train}, \mathcal{D}^{(i)}_\text{test})$，我们可以通过一个或多个梯度下降步骤更新模型参数（以下示例仅包含一步）：

\[\theta'_i = \theta - \alpha \nabla_\theta\mathcal{L}^{(0)}_{\tau_i}(f_\theta) \]

其中 $\mathcal{L}^{(0)}$ 是使用 id 为 (0) 的小数据批次计算的损失。

图 11. MAML 的示意图。 (图片来源：原论文)

好吧，上面的公式只优化了一个任务。为了在各种任务中实现良好的泛化，我们希望找到最优的$\theta^*$，使得任务特定的微调更加高效。现在，我们用 id 为(1)的新数据批次来更新元目标。损失，表示为$\mathcal{L}^{(1)}$，取决于小批次(1)。$\mathcal{L}^{(0)}$和$\mathcal{L}^{(1)}$中的上标仅表示不同的数据批次，并且它们指的是相同任务的相同损失目标。

\[ \begin{aligned} \theta^* &= \arg\min_\theta \sum_{\tau_i \sim p(\tau)} \mathcal{L}_{\tau_i}^{(1)} (f_{\theta'_i}) = \arg\min_\theta \sum_{\tau_i \sim p(\tau)} \mathcal{L}_{\tau_i}^{(1)} (f_{\theta - \alpha\nabla_\theta \mathcal{L}_{\tau_i}^{(0)}(f_\theta)}) & \\ \theta &\leftarrow \theta - \beta \nabla_{\theta} \sum_{\tau_i \sim p(\tau)} \mathcal{L}_{\tau_i}^{(1)} (f_{\theta - \alpha\nabla_\theta \mathcal{L}_{\tau_i}^{(0)}(f_\theta)}) & \scriptstyle{\text{; 更新规则}} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/9965ddce74a4eb317217fb7266f72dcb.png) 图 12\. MAML 算法的一般形式。 (图片来源: [原始论文](https://arxiv.org/abs/1703.03400)) ### 一阶 MAML 上述元优化步骤依赖于二阶导数。为了使计算更加经济，修改版的 MAML 省略了二阶导数，导致了一个简化且更便宜的实现，被称为**一阶 MAML（FOMAML）**。考虑执行$k$个内部梯度步骤的情况，$k\geq1$。从初始模型参数$\theta_\text{meta}$开始： $$ \begin{aligned} \theta_0 &= \theta_\text{meta}\\ \theta_1 &= \theta_0 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_0)\\ \theta_2 &= \theta_1 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_1)\\ &\dots\\ \theta_k &= \theta_{k-1} - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_{k-1}) \end{aligned} \]

然后在外循环中，我们对更新元目标进行新数据批次的采样。

\[\begin{aligned} \theta_\text{meta} &\leftarrow \theta_\text{meta} - \beta g_\text{MAML} & \scriptstyle{\text{; 更新元目标}} \\[2mm] \text{其中 } g_\text{MAML} &= \nabla_{\theta} \mathcal{L}^{(1)}(\theta_k) &\\[2mm] &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot (\nabla_{\theta_{k-1}} \theta_k) \dots (\nabla_{\theta_0} \theta_1) \cdot (\nabla_{\theta} \theta_0) & \scriptstyle{\text{; 遵循链式法则}} \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \Big( \prod_{i=1}^k \nabla_{\theta_{i-1}} \theta_i \Big) \cdot I & \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k \nabla_{\theta_{i-1}} (\theta_{i-1} - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1})) & \\ &= \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k (I - \alpha\nabla_{\theta_{i-1}}(\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1}))) & \end{aligned} \]

MAML 梯度为：

\[g_\text{MAML} = \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \cdot \prod_{i=1}^k (I - \alpha \color{red}{\nabla_{\theta_{i-1}}(\nabla_\theta\mathcal{L}^{(0)}(\theta_{i-1}))}) \]

第一阶 MAML 忽略了红色部分的二阶导数。它简化如下，等同于最后一个内部梯度更新结果的导数。

\[g_\text{FOMAML} = \nabla_{\theta_k} \mathcal{L}^{(1)}(\theta_k) \]

Reptile

Reptile (Nichol, Achiam & Schulman, 2018) 是一个非常简单的元学习优化算法。在许多方面类似于 MAML，因为两者都依赖于通过梯度下降进行元优化，并且都是与模型无关的。

Reptile 通过重复以下步骤工作：

1. 采样一个任务，
1. 通过多次梯度下降步骤对其进行训练，
1. 然后将模型权重移向新参数。

查看下面的算法：$\text{SGD}(\mathcal{L}_{\tau_i}, \theta, k)$ 对损失$\mathcal{L}_{\tau_i}$进行 k 步随机梯度更新，从初始参数$\theta$开始，并返回最终参数向量。批处理版本在每次迭代中对多个任务进行采样，而不是一个。Reptile 梯度定义为$(\theta - W)/\alpha$，其中$\alpha$是 SGD 操作使用的步长。

图 13. Reptile 算法的批处理版本。 (图片来源：原论文)

乍一看，该算法看起来很像普通的 SGD。然而，由于任务特定的优化可能需要多于一步。当 k > 1 时，它最终会使$$\text{SGD}(\mathbb{E} \tau[\mathcal{L}], \theta, k)$$与$$\mathbb{E}\tau [\text{SGD}(\mathcal{L}, \theta, k)]$$分离。

优化假设

假设任务$\tau \sim p(\tau)$具有最佳网络配置流形$\mathcal{W}_{\tau}^*$。当$\theta$位于$\mathcal{W}_{\tau}^*$表面时，模型$f_\theta$为任务$\tau$实现最佳性能。为了找到一个对所有任务都有效的解决方案，我们希望找到一个接近所有任务的最佳流形的参数：

\[ \theta^* = \arg\min_\theta \mathbb{E}_{\tau \sim p(\tau)} [\frac{1}{2} \text{dist}(\theta, \mathcal{W}_\tau^*)²] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/3ba39d5201ce00e91e9c943759f7fea6.png) 图 14\. Reptile 算法交替更新参数，使其更接近不同任务的最佳流形。 (图片来源：[原论文](https://arxiv.org/abs/1803.02999)) 让我们使用 L2 距离作为$\text{dist}(.)$，点$\theta$与集合$\mathcal{W}_\tau^*$之间的距离等于$\theta$与最接近$\theta$的流形上的点$W_{\tau}^*(\theta)$之间的距离： $$ \text{dist}(\theta, \mathcal{W}_{\tau}^*) = \text{dist}(\theta, W_{\tau}^*(\theta)) \text{, where }W_{\tau}^*(\theta) = \arg\min_{W\in\mathcal{W}_{\tau}^*} \text{dist}(\theta, W) \]

欧几里得距离的梯度是：

\[\begin{aligned} \nabla_\theta[\frac{1}{2}\text{dist}(\theta, \mathcal{W}_{\tau_i}^*)²] &= \nabla_\theta[\frac{1}{2}\text{dist}(\theta, W_{\tau_i}^*(\theta))²] & \\ &= \nabla_\theta[\frac{1}{2}(\theta - W_{\tau_i}^*(\theta))²] & \\ &= \theta - W_{\tau_i}^*(\theta) & \scriptstyle{\text{; 请参阅注释。}} \end{aligned} \]

注：根据 Reptile 论文，“点Θ和集合 S 之间的平方欧几里得距离的梯度是向量 2(Θ − p)，其中 p 是 S 中距离Θ最近的点”。从技术上讲，S 中最接近的点也是Θ的一个函数，但我不确定为什么梯度不需要担心 p 的导数。（如果您有想法，请随时给我留言或发送电子邮件。）

因此，一个随机梯度步骤的更新规则是：

\[\theta = \theta - \alpha \nabla_\theta[\frac{1}{2} \text{dist}(\theta, \mathcal{W}_{\tau_i}^*)²] = \theta - \alpha(\theta - W_{\tau_i}^*(\theta)) = (1-\alpha)\theta + \alpha W_{\tau_i}^*(\theta) \]

最优任务流形$W_{\tau_i}^*(\theta)$上的最接近点无法精确计算，但 Reptile 使用$\text{SGD}(\mathcal{L}_\tau, \theta, k)$来近似计算。

Reptile vs FOMAML

为了展示 Reptile 和 MAML 之间更深层次的联系，让我们通过一个执行两个梯度步骤的示例来扩展更新公式，其中 k=2 在$\text{SGD}(.)$中。与上文定义的相同，$\mathcal{L}^{(0)}$和$\mathcal{L}^{(1)}$是使用不同小批量数据的损失。为了方便阅读，我们采用两个简化的注释：$g^{(i)}_j = \nabla_{\theta} \mathcal{L}^{(i)}(\theta_j)$和$H^{(i)}_j = \nabla²_{\theta} \mathcal{L}^{(i)}(\theta_j)$。

\[\begin{aligned} \theta_0 &= \theta_\text{meta}\\ \theta_1 &= \theta_0 - \alpha\nabla_\theta\mathcal{L}^{(0)}(\theta_0)= \theta_0 - \alpha g^{(0)}_0 \\ \theta_2 &= \theta_1 - \alpha\nabla_\theta\mathcal{L}^{(1)}(\theta_1) = \theta_0 - \alpha g^{(0)}_0 - \alpha g^{(1)}_1 \end{aligned} \]

根据前面的部分，FOMAML 的梯度是最后一个内部梯度更新的结果。因此，当 k=1 时：

\[\begin{aligned} g_\text{FOMAML} &= \nabla_{\theta_1} \mathcal{L}^{(1)}(\theta_1) = g^{(1)}_1 \\ g_\text{MAML} &= \nabla_{\theta_1} \mathcal{L}^{(1)}(\theta_1) \cdot (I - \alpha\nabla²_{\theta} \mathcal{L}^{(0)}(\theta_0)) = g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \end{aligned} \]

Reptile 梯度的定义为：

\[g_\text{Reptile} = (\theta_0 - \theta_2) / \alpha = g^{(0)}_0 + g^{(1)}_1 \]

到目前为止我们有：

图 15. 在一次元优化循环中的 Reptile 与 FOMAML 的比较。（图片来源：幻灯片关于 Reptile 的 Yoonho Lee。）

\[\begin{aligned} g_\text{FOMAML} &= g^{(1)}_1 \\ g_\text{MAML} &= g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \\ g_\text{Reptile} &= g^{(0)}_0 + g^{(1)}_1 \end{aligned} \]

接下来让我们尝试使用Taylor 展开进一步展开$g^{(1)}_1$。回想一下，可微分函数$f(x)$在某个数$a$处的 Taylor 展开是：

\[f(x) = f(a) + \frac{f'(a)}{1!}(x-a) + \frac{f''(a)}{2!}(x-a)² + \dots = \sum_{i=0}^\infty \frac{f^{(i)}(a)}{i!}(x-a)^i \]

我们可以将$\nabla_{\theta}\mathcal{L}^{(1)}(.)$视为一个函数，$\theta_0$视为一个值点。在值点$\theta_0$处，$g_1^{(1)}$的 Taylor 展开是：

\[\begin{aligned} g_1^{(1)} &= \nabla_{\theta}\mathcal{L}^{(1)}(\theta_1) \\ &= \nabla_{\theta}\mathcal{L}^{(1)}(\theta_0) + \nabla²_\theta\mathcal{L}^{(1)}(\theta_0)(\theta_1 - \theta_0) + \frac{1}{2}\nabla³_\theta\mathcal{L}^{(1)}(\theta_0)(\theta_1 - \theta_0)² + \dots & \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + \frac{\alpha²}{2}\nabla³_\theta\mathcal{L}^{(1)}(\theta_0) (g_0^{(0)})² + \dots & \scriptstyle{\text{; 因为}\theta_1-\theta_0=-\alpha g_0^{(0)}} \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²) \end{aligned} \]

将$g_1^{(1)}$的展开形式代入具有一步内部梯度更新的 MAML 梯度：

\[\begin{aligned} g_\text{FOMAML} &= g^{(1)}_1 = g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²)\\ g_\text{MAML} &= g^{(1)}_1 - \alpha H^{(0)}_0 g^{(1)}_1 \\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²) - \alpha H^{(0)}_0 (g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²))\\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + \alpha² \alpha H^{(0)}_0 H^{(1)}_0 g_0^{(0)} + O(\alpha²)\\ &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + O(\alpha²) \end{aligned} \]

Reptile 梯度变为：

\[\begin{aligned} g_\text{Reptile} &= g^{(0)}_0 + g^{(1)}_1 \\ &= g^{(0)}_0 + g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²) \end{aligned} \]

到目前为止，我们有三种梯度的公式：

\[\begin{aligned} g_\text{FOMAML} &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²)\\ g_\text{MAML} &= g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} - \alpha H^{(0)}_0 g_0^{(1)} + O(\alpha²)\\ g_\text{Reptile} &= g^{(0)}_0 + g_0^{(1)} - \alpha H^{(1)}_0 g_0^{(0)} + O(\alpha²) \end{aligned} \]

在训练过程中，我们经常对多个数据批次进行平均。在我们的示例中，小批次(0)和(1)是可互换的，因为两者都是随机抽取的。期望$\mathbb{E}_{\tau,0,1}$是针对任务$\tau$的两个数据批次(0)和(1)进行平均。

让，

$A = \mathbb{E}_{\tau,0,1} [g_0^{(0)}] = \mathbb{E}_{\tau,0,1} [g_0^{(1)}]$；这是任务损失的平均梯度。我们期望通过遵循$A$指向的方向来改善模型参数，以实现更好的任务性能。
$B = \mathbb{E}_{\tau,0,1} [H^{(1)}_0 g_0^{(0)}] = \frac{1}{2}\mathbb{E}_{\tau,0,1} [H^{(1)}_0 g_0^{(0)} + H^{(0)}_0 g_0^{(1)}] = \frac{1}{2}\mathbb{E}_{\tau,0,1} [\nabla_\theta(g^{(0)}_0 g_0^{(1)})]$；这是增加相同任务的两个不同小批次梯度内积的方向（梯度）。我们期望通过遵循$B$指示的方向来改进模型参数，从而实现对不同数据的更好泛化。

总之，MAML 和 Reptile 都旨在优化相同的目标，即更好的任务性能（由 A 指导）和更好的泛化能力（由 B 指导），当梯度更新由前三个主要项近似时。

\[\begin{aligned} \mathbb{E}_{\tau,1,2}[g_\text{FOMAML}] &= A - \alpha B + O(\alpha²)\\ \mathbb{E}_{\tau,1,2}[g_\text{MAML}] &= A - 2\alpha B + O(\alpha²)\\ \mathbb{E}_{\tau,1,2}[g_\text{Reptile}] &= 2A - \alpha B + O(\alpha²) \end{aligned} \]

对我来说，不清楚被忽略的项$O(\alpha²)$是否会对参数学习产生重大影响。但考虑到 FOMAML 能够获得与 MAML 完整版本类似的性能，可以说在梯度下降更新过程中更高阶导数可能并不关键。

引用为：

@article{weng2018metalearning,
  title   = "Meta-Learning: Learning to Learn Fast",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-11-30-meta-learning/"
}

参考文献

[1] Brenden M. Lake，Ruslan Salakhutdinov 和 Joshua B. Tenenbaum。“通过概率程序归纳进行人类级别概念学习。” Science 350.6266（2015）：1332-1338。

[2] Oriol Vinyals 关于“模型与优化元学习”的讲座

[3] Gregory Koch，Richard Zemel 和 Ruslan Salakhutdinov。“一次图像识别的连体神经网络。” ICML 深度学习研讨会。2015 年。

[4] Oriol Vinyals 等人。“一次学习的匹配网络。” NIPS. 2016。

[5] Flood Sung 等人。“比较学习：Few-shot Learning 的关系网络。” CVPR. 2018。

[6] Jake Snell，Kevin Swersky 和 Richard Zemel。“Few-shot Learning 的原型网络。” CVPR. 2018。

[7] Adam Santoro 等人。“具有记忆增强神经网络的元学习。” ICML. 2016。

[8] Alex Graves，Greg Wayne 和 Ivo Danihelka。“神经图灵机。” arXiv 预印本 arXiv:1410.5401（2014）。

[9] Tsendsuren Munkhdalai 和 Hong Yu。“元网络。” ICML. 2017。

[10] Sachin Ravi 和 Hugo Larochelle。“Few-Shot Learning 的优化模型。” ICLR. 2017。

[11] Chelsea Finn 在 BAIR 博客上的关于“学会学习”。

[12] Chelsea Finn, Pieter Abbeel, and Sergey Levine. “模型无关的元学习，用于深度网络的快速适应。” ICML 2017.

[13] Alex Nichol, Joshua Achiam, John Schulman. “关于一阶元学习算法。” arXiv 预印本 arXiv:1803.02999 (2018).

[14] Yoonho Lee 的关于 Reptile 的幻灯片。

基于流的深度生成模型

原文：lilianweng.github.io/posts/2018-10-13-flow-models/

到目前为止，我已经写了关于两种生成模型，GAN和VAE。它们都没有明确地学习真实数据的概率密度函数$p(\mathbf{x})$（其中$\mathbf{x} \in \mathcal{D}$）——因为这真的很困难！以具有潜在变量的生成模型为例，$p(\mathbf{x}) = \int p(\mathbf{x}\vert\mathbf{z})p(\mathbf{z})d\mathbf{z}$几乎无法计算，因为遍历所有可能的潜在编码$\mathbf{z}$是不可行的。

基于流的深度生成模型通过正规化流这一强大的统计工具征服了这个难题。对$p(\mathbf{x})$的良好估计使得能够高效地完成许多下游任务：采样未观察到但真实的新数据点（数据生成）、预测未来事件的稀有性（密度估计）、推断潜在变量、填补不完整的数据样本等。

生成模型的类型

这里是 GAN、VAE 和基于流的生成模型之间的区别的快速总结：

生成对抗网络：GAN 提供了一个聪明的解决方案，将数据生成这个无监督学习问题建模为一个监督学习问题。鉴别器模型学习区分真实数据和生成器模型生成的假样本。两个模型被训练，就像它们在进行极小极大游戏一样。
变分自动编码器：VAE 通过最大化证据下界（ELBO）隐式地优化数据的对数似然。
基于流的生成模型：一个基于流的生成模型是通过一系列可逆变换构建的。与其他两种不同，该模型明确地学习数据分布$p(\mathbf{x})$，因此损失函数简单地是负对数似然。

图 1。三类生成模型的比较。

线性代数基础回顾

在进入基于流的生成模型之前，我们应该了解两个关键概念：雅可比行列式和变量变换规则。相当基础，所以随意跳过。

雅可比矩阵和行列式

给定一个将$n$维输入向量$\mathbf{x}$映射到$m$维输出向量的函数，$\mathbf{f}: \mathbb{R}^n \mapsto \mathbb{R}^m$，这个函数的所有一阶偏导数的矩阵称为雅可比矩阵，$\mathbf{J}$，其中第 i 行第 j 列的一个条目是$\mathbf{J}_{ij} = \frac{\partial f_i}{\partial x_j}$。

\[\mathbf{J} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \dots & \frac{\partial f_1}{\partial x_n} \\[6pt] \vdots & \ddots & \vdots \\[6pt] \frac{\partial f_m}{\partial x_1} & \dots & \frac{\partial f_m}{\partial x_n} \\[6pt] \end{bmatrix} \]

行列式是作为方阵中所有元素的函数计算的一个实数。请注意，行列式仅适用于方阵。行列式的绝对值可以被视为“矩阵乘法如何扩展或收缩空间的度量”。

nxn 矩阵$M$的行列式是：

\[\det M = \det \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{n1} & a_{n2} & \dots & a_{nn} \\ \end{bmatrix} = \sum_{j_1 j_2 \dots j_n} (-1)^{\tau(j_1 j_2 \dots j_n)} a_{1j_1} a_{2j_2} \dots a_{nj_n} \]

在求和符号下的下标$j_1 j_2 \dots j_n$是集合{1, 2, …, n}的所有排列，因此总共有$n!$项；$\tau(.)$表示排列的符号。

方阵$M$的行列式检测它是否可逆：如果$\det(M)=0$，则$M$不可逆（具有线性相关行或列的奇异矩阵；或任何行或列全为 0）；否则，如果$\det(M)\neq 0$，$M$可逆。

乘积的行列式等于行列式的乘积：$\det(AB) = \det(A)\det(B)$。(证明)

变量变换定理

让我们具体在概率密度估计的背景下回顾变量变换定理，从单变量情况开始。

给定随机变量$z$及其已知概率密度函数$z \sim \pi(z)$，我们希望使用一一映射函数$x = f(z)$构造一个新的随机变量。函数$f$是可逆的，因此$z=f^{-1}(x)$。现在的问题是如何推断新变量的未知概率密度函数，$p(x)$？

\[\begin{aligned} & \int p(x)dx = \int \pi(z)dz = 1 \scriptstyle{\text{ ; 概率分布的定义。}}\\ & p(x) = \pi(z) \left\vert\frac{dz}{dx}\right\vert = \pi(f^{-1}(x)) \left\vert\frac{d f^{-1}}{dx}\right\vert = \pi(f^{-1}(x)) \vert (f^{-1})'(x) \vert \end{aligned} \]

根据定义，积分$\int \pi(z)dz$是无限数量的宽度为$\Delta z$的矩形的总和。这样一个矩形在位置$z$的高度是密度函数$\pi(z)$的值。当我们进行变量替换时，$z = f^{-1}(x)$导致$\frac{\Delta z}{\Delta x} = (f^{-1}(x))’$和$\Delta z = (f^{-1}(x))’ \Delta x$。这里$\vert(f^{-1}(x))’\vert$表示在两个不同变量$z$和$x$的坐标定义的矩形面积之间的比率。

多变量版本具有类似的格式：

\[\begin{aligned} \mathbf{z} &\sim \pi(\mathbf{z}), \mathbf{x} = f(\mathbf{z}), \mathbf{z} = f^{-1}(\mathbf{x}) \\ p(\mathbf{x}) &= \pi(\mathbf{z}) \left\vert \det \dfrac{d \mathbf{z}}{d \mathbf{x}} \right\vert = \pi(f^{-1}(\mathbf{x})) \left\vert \det \dfrac{d f^{-1}}{d \mathbf{x}} \right\vert \end{aligned} \]

其中 $\det \frac{\partial f}{\partial\mathbf{z}}$ 是函数 $f$ 的雅可比行列式。多元版本的完整证明超出了本文的范围；有兴趣的话可以向谷歌查询 😉

什么是正规化流？

能够进行良好的密度估计在许多机器学习问题中有直接应用，但这非常困难。例如，由于我们需要在深度学习模型中运行反向传播，嵌入的概率分布（即后验 $p(\mathbf{z}\vert\mathbf{x})$）预计要足够简单，以便轻松高效地计算导数。这就是为什么高斯分布经常在潜变量生成模型中使用，即使大多数真实世界分布比高斯分布复杂得多。

这里是一个更好、更强大的分布近似的正规化流（NF）模型。正规化流通过应用一系列可逆变换函数将简单分布转换为复杂分布。通过一系列变换，我们根据变量的变化反复替换变量为新变量，并最终获得最终目标变量的概率分布。

图 2. 演示了一个正规化流模型，逐步将简单分布 $p_0(\mathbf{z}_0)$ 转换为复杂分布 $p_K(\mathbf{z}_K)$。

如图 2 所定义，

\[\begin{aligned} \mathbf{z}_{i-1} &\sim p_{i-1}(\mathbf{z}_{i-1}) \\ \mathbf{z}_i &= f_i(\mathbf{z}_{i-1})\text{，因此 }\mathbf{z}_{i-1} = f_i^{-1}(\mathbf{z}_i) \\ p_i(\mathbf{z}_i) &= p_{i-1}(f_i^{-1}(\mathbf{z}_i)) \left\vert \det\dfrac{d f_i^{-1}}{d \mathbf{z}_i} \right\vert \end{aligned} \]

然后让我们将方程转换为关于 $\mathbf{z}_i$ 的函数，以便我们可以使用基本分布进行推断。

\[\begin{aligned} p_i(\mathbf{z}_i) &= p_{i-1}(f_i^{-1}(\mathbf{z}_i)) \left\vert \det\dfrac{d f_i^{-1}}{d \mathbf{z}_i} \right\vert \\ &= p_{i-1}(\mathbf{z}_{i-1}) \left\vert \det \color{red}{\Big(\dfrac{d f_i}{d\mathbf{z}_{i-1}}\Big)^{-1}} \right\vert & \scriptstyle{\text{；根据反函数定理。}} \\ &= p_{i-1}(\mathbf{z}_{i-1}) \color{red}{\left\vert \det \dfrac{d f_i}{d\mathbf{z}_{i-1}} \right\vert^{-1}} & \scriptstyle{\text{；根据可逆函数的雅可比矩阵性质。}} \\ \log p_i(\mathbf{z}_i) &= \log p_{i-1}(\mathbf{z}_{i-1}) - \log \left\vert \det \dfrac{d f_i}{d\mathbf{z}_{i-1}} \right\vert \end{aligned} \]

() 关于“反函数定理”*的一点说明：如果 $y=f(x)$ 和 $x=f^{-1}(y)$，我们有：

\[\dfrac{df^{-1}(y)}{dy} = \dfrac{dx}{dy} = (\dfrac{dy}{dx})^{-1} = (\dfrac{df(x)}{dx})^{-1} \]

(*) 关于 “可逆函数的雅可比行列式” 的注释：可逆矩阵的逆的行列式是原行列式的倒数：$\det(M^{-1}) = (\det(M))^{-1}$，因为 $\det(M)\det(M^{-1}) = \det(M \cdot M^{-1}) = \det(I) = 1$。

给定这样一系列概率密度函数，我们知道每对连续变量之间的关系。我们可以逐步展开输出 $\mathbf{x}$ 的方程，直到追溯到初始分布 $\mathbf{z}_0$。

\[\begin{aligned} \mathbf{x} = \mathbf{z}_K &= f_K \circ f_{K-1} \circ \dots \circ f_1 (\mathbf{z}_0) \\ \log p(\mathbf{x}) = \log \pi_K(\mathbf{z}_K) &= \log \pi_{K-1}(\mathbf{z}_{K-1}) - \log\left\vert\det\dfrac{d f_K}{d \mathbf{z}_{K-1}}\right\vert \\ &= \log \pi_{K-2}(\mathbf{z}_{K-2}) - \log\left\vert\det\dfrac{d f_{K-1}}{d\mathbf{z}_{K-2}}\right\vert - \log\left\vert\det\dfrac{d f_K}{d\mathbf{z}_{K-1}}\right\vert \\ &= \dots \\ &= \log \pi_0(\mathbf{z}_0) - \sum_{i=1}^K \log\left\vert\det\dfrac{d f_i}{d\mathbf{z}_{i-1}}\right\vert \end{aligned} \]

随机变量 $\mathbf{z}_i = f_i(\mathbf{z}_{i-1})$ 所经过的路径是流，由连续分布 $\pi_i$ 形成的完整链被称为 正规化流。根据方程中的计算，变换函数 $f_i$ 应满足两个属性：

容易反转。
其雅可比行列式易于计算。

具有正规化流的模型

有了正规化流在我们的工具箱中，输入数据 $\log p(\mathbf{x})$ 的精确对数似然变得可行。因此，基于流的生成模型的训练标准就是训练数据集 $\mathcal{D}$ 上的负对数似然（NLL）：

\[\mathcal{L}(\mathcal{D}) = - \frac{1}{\vert\mathcal{D}\vert}\sum_{\mathbf{x} \in \mathcal{D}} \log p(\mathbf{x}) \]

RealNVP

RealNVP（实值非体积保持；Dinh et al., 2017）模型通过堆叠一系列可逆双射变换函数来实现正规化流。在每个双射 $f: \mathbf{x} \mapsto \mathbf{y}$ 中，称为 仿射耦合层，输入维度被分成两部分：

前 $d$ 维保持不变；
第二部分，$d+1$ 到 $D$ 维，经历一个仿射变换（“缩放和平移”），缩放和平移参数都是第一个 $d$ 维的函数。

\[\begin{aligned} \mathbf{y}_{1:d} &= \mathbf{x}_{1:d} \\ \mathbf{y}_{d+1:D} &= \mathbf{x}_{d+1:D} \odot \exp({s(\mathbf{x}_{1:d})}) + t(\mathbf{x}_{1:d}) \end{aligned} \]

其中 $s(.)$ 和 $t(.)$ 是缩放和平移函数，都将 $\mathbb{R}^d \mapsto \mathbb{R}^{D-d}$。$\odot$ 运算是逐元素乘积。

现在让我们检查这个变换是否满足流变换的两个基本属性。

条件 1：“它很容易反转。”

是的，而且相当简单。

\[\begin{cases} \mathbf{y}_{1:d} &= \mathbf{x}_{1:d} \\ \mathbf{y}_{d+1:D} &= \mathbf{x}_{d+1:D} \odot \exp({s(\mathbf{x}_{1:d})}) + t(\mathbf{x}_{1:d}) \end{cases} \Leftrightarrow \begin{cases} \mathbf{x}_{1:d} &= \mathbf{y}_{1:d} \\ \mathbf{x}_{d+1:D} &= (\mathbf{y}_{d+1:D} - t(\mathbf{y}_{1:d})) \odot \exp(-s(\mathbf{y}_{1:d})) \end{cases} \]

条件 2：“它的雅可比行列式容易计算。”

是的。获得这个变换的雅可比矩阵和行列式并不困难。雅可比矩阵是一个下三角矩阵。

\[\mathbf{J} = \begin{bmatrix} \mathbb{I}_d & \mathbf{0}_{d\times(D-d)} \\[5pt] \frac{\partial \mathbf{y}_{d+1:D}}{\partial \mathbf{x}_{1:d}} & \text{diag}(\exp(s(\mathbf{x}_{1:d}))) \end{bmatrix} \]

因此行列式简单地是对角线上项的乘积。

\[\det(\mathbf{J}) = \prod_{j=1}^{D-d}\exp(s(\mathbf{x}_{1:d}))_j = \exp(\sum_{j=1}^{D-d} s(\mathbf{x}_{1:d})_j) \]

到目前为止，仿射耦合层看起来非常适合构建一个正规化流 😃

更好的是，由于（i）计算$f^{-1}$不需要计算$s$或$t$的逆，以及（ii）计算雅可比行列式不涉及计算$s$或$t$的雅可比矩阵，这些函数可以是任意复杂的；即$s$和$t$都可以由深度神经网络建模。

在一个仿射耦合层中，一些维度（通道）保持不变。为了确保所有输入都有机会被改变，模型在每一层中颠倒顺序，以便不同的组件保持不变。遵循这种交替模式，一个变换层中保持相同的单元集合总是在下一个中被修改。批量归一化被发现有助于训练具有非常深的耦合层堆栈的模型。

此外，RealNVP 可以在多尺度架构中工作，为大输入构建更高效的模型。多尺度架构对正规仿射层应用了几个“采样”操作，包括空间棋盘格模式掩蔽、挤压操作和通道掩蔽。阅读论文以获取有关多尺度架构的更多详细信息。

NICE

NICE（非线性独立成分估计；Dinh, et al. 2015）模型是 RealNVP 的前身。NICE 中的变换是不带比例项的仿射耦合层，称为加性耦合层。

\[\begin{cases} \mathbf{y}_{1:d} &= \mathbf{x}_{1:d} \\ \mathbf{y}_{d+1:D} &= \mathbf{x}_{d+1:D} + m(\mathbf{x}_{1:d}) \end{cases} \Leftrightarrow \begin{cases} \mathbf{x}_{1:d} &= \mathbf{y}_{1:d} \\ \mathbf{x}_{d+1:D} &= \mathbf{y}_{d+1:D} - m(\mathbf{y}_{1:d}) \end{cases} \]

Glow

Glow（Kingma and Dhariwal, 2018）模型扩展了之前的可逆生成模型 NICE 和 RealNVP，并通过将通道顺序上的反向排列操作替换为可逆的 1x1 卷积来简化架构。

图 3. Glow 模型中的一步流程。（图片来源：Kingma and Dhariwal, 2018）

Glow 中一步流程中有三个子步骤。

子步骤 1: 激活归一化（简称“actnorm”）

它使用每个通道的比例和偏置参数执行仿射变换，类似于批量归一化，但适用于小批量大小为 1。参数是可训练的，但初始化为使得 actnorm 后的第一个小批量数据均值为 0，标准差为 1。

子步骤 2: 可逆的 1x1 卷积

在 RealNVP 流的层之间，通道的顺序被颠倒，以便所有数据维度都有机会被改变。具有相同输入和输出通道数量的 1×1 卷积是通道顺序的任意排列的一般化。

假设我们有一个可逆的 $h \times w \times c$ 张量 $\mathbf{h}$ 的 1x1 卷积，使用大小为 $c \times c$ 的权重矩阵 $\mathbf{W}$。输出是一个 $h \times w \times c$ 的张量，标记为 $f = \texttt{conv2d}(\mathbf{h}; \mathbf{W})$。为了应用变量规则的变化，我们需要计算雅可比行列式 $\vert \det\partial f / \partial\mathbf{h}\vert$。

这里 1x1 卷积的输入和输出都可以看作是大小为 $h \times w$ 的矩阵。每个条目 $\mathbf{x}_{ij}$（$i=1,\dots,h, j=1,\dots,w$）在 $\mathbf{h}$ 中是一个具有 $c$ 个通道的向量，每个条目分别与权重矩阵 $\mathbf{W}$ 相乘，以获得输出矩阵中相应的条目 $\mathbf{y}_{ij}$。每个条目的导数是 $\partial \mathbf{x}_{ij} \mathbf{W} / \partial\mathbf{x}_{ij} = \mathbf{W}$，总共有 $h \times w$ 个这样的条目：

\[\log \left\vert\det \frac{\partial\texttt{conv2d}(\mathbf{h}; \mathbf{W})}{\partial\mathbf{h}}\right\vert = \log (\vert\det\mathbf{W}\vert^{h \cdot w}\vert) = h \cdot w \cdot \log \vert\det\mathbf{W}\vert \]

逆 1x1 卷积取决于逆矩阵 $\mathbf{W}^{-1}$。由于权重矩阵相对较小，矩阵行列式（tf.linalg.det）和求逆（tf.linalg.inv）的计算量仍然可控。

子步骤 3: 仿射耦合层

设计与 RealNVP 相同。

图 4. Glow 中一步流程中的三个子步骤。（图片来源：Kingma and Dhariwal, 2018）

具有自回归流的模型

自回归约束是一种对顺序数据建模的方式，$\mathbf{x} = [x_1, \dots, x_D]$：每个输出仅取决于过去观察到的数据，而不取决于未来的数据。换句话说，观察到$x_i$的概率取决于$x_1, \dots, x_{i-1}$，这些条件概率的乘积给出了观察到完整序列的概率：

\[p(\mathbf{x}) = \prod_{i=1}^{D} p(x_i\vert x_1, \dots, x_{i-1}) = \prod_{i=1}^{D} p(x_i\vert x_{1:i-1}) \]

如何建模条件密度取决于您的选择。它可以是一个均值和标准差作为$x_{1:i-1}$的函数计算的单变量高斯分布，或者是一个多层神经网络，其中$x_{1:i-1}$作为输入。

如果正规化流中的流变换被构建为一个自回归模型 —— 向量变量中的每个维度都是在前一个维度的条件下的 —— 这就是一个自回归流。

本节首先介绍几种经典的自回归模型（MADE，PixelRNN，WaveNet），然后我们深入研究自回归流模型（MAF 和 IAF）。

MADE

MADE（用于分布估计的掩码自编码器；Germain 等人，2015）是一种特别设计的架构，可以有效地强制自编码器中的自回归属性。当使用自编码器来预测条件概率时，MADE 通过乘以二进制掩码矩阵消除了来自某些隐藏单元的贡献，以便每个输入维度仅从给定顺序中的先前维度在单次传递中重建。

在一个多层全连接神经网络中，比如说，我们有$L$个隐藏层，带有权重矩阵$\mathbf{W}¹, \dots, \mathbf{W}^L$，以及一个带有权重矩阵$\mathbf{V}$的输出层。输出$\hat{\mathbf{x}}$的每个维度$\hat{x}_i = p(x_i\vert x_{1:i-1})$。

没有任何掩码，层间的计算如下所示：

\[ \begin{aligned} \mathbf{h}⁰ &= \mathbf{x} \\ \mathbf{h}^l &= \text{activation}^l(\mathbf{W}^l\mathbf{h}^{l-1} + \mathbf{b}^l) \\ \hat{\mathbf{x}} &= \sigma(\mathbf{V}\mathbf{h}^L + \mathbf{c}) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d4947ab1c1980b88e5bc095b615910b2.png) 图 5\. 展示了 MADE 在一个三层前馈神经网络中的工作原理。（图片来源：[Germain 等人，2015](https://arxiv.org/abs/1502.03509)）要将层之间的某些连接置零，我们可以简单地将每个权重矩阵与一个二进制掩码矩阵进行逐元素相乘。每个隐藏节点被分配一个介于$1$和$D-1$之间的随机“连接整数”；第$l$层中第$k$个单元的分配值用$m^l_k$表示。二进制掩码矩阵由比较两个层中两个节点的值来确定。 $$ \begin{aligned} \mathbf{h}^l &= \text{activation}^l((\mathbf{W}^l \color{red}{\odot \mathbf{M}^{\mathbf{W}^l}}) \mathbf{h}^{l-1} + \mathbf{b}^l) \\ \hat{\mathbf{x}} &= \sigma((\mathbf{V} \color{red}{\odot \mathbf{M}^{\mathbf{V}}}) \mathbf{h}^L + \mathbf{c}) \\ M^{\mathbf{W}^l}_{k', k} &= \mathbf{1}_{m^l_{k'} \geq m^{l-1}_k} = \begin{cases} 1, & \text{if } m^l_{k'} \geq m^{l-1}_k\\ 0, & \text{otherwise} \end{cases} \\ M^{\mathbf{V}}_{d, k} &= \mathbf{1}_{d \geq m^L_k} = \begin{cases} 1, & \text{if } d > m^L_k\\ 0, & \text{otherwise} \end{cases} \end{aligned} \]

当前层中的一个单元只能连接到前一层中相等或更小编号的其他单元，这种依赖关系很容易通过网络传播到输出层。一旦所有单元和层都分配了编号，输入维度的顺序就固定了，并且条件概率是根据此产生的。在图 5 中有一个很好的插图。为了确保所有隐藏单元通过某些路径连接到输入和输出层，$m^l_k$ 被抽样为大于或等于前一层中的最小连接整数，$\min_{k'} m_{k'}^{l-1}$。

MADE 训练可以通过以下方式进一步促进：

无序训练：对输入维度进行洗牌，使 MADE 能够模拟任意顺序；可以在运行时创建自回归模型的集合。
无连接性训练：为了避免模型被绑定到特定的连接模式约束，对每个训练小批次重新抽样 $m^l_k$。

PixelRNN

PixelRNN（Oord 等人，2016）是用于图像的深度生成模型。图像逐像素生成，每个新像素都是在之前看到的像素的条件下抽样的。

让我们考虑一个大小为 $n \times n$ 的图像，$\mathbf{x} = \{x_1, \dots, x_{n²}\}$，模型从左上角开始逐像素生成像素，从左到右，从上到下（见图 6）。

图 6。PixelRNN 中生成一个像素的上下文。（图片来源：Oord 等人，2016）

每个像素 $x_i$ 是从一个概率分布中抽样的，该分布是在过去的上下文条件下：在同一行时，它上方或左侧的像素。这种上下文的定义看起来相当任意，因为如何将视觉注意力放在图像上更加灵活。以某种神奇的方式，具有如此强烈假设的生成模型起作用。

一个可以捕捉整个上下文的实现是对角线双向 LSTM。首先，通过将输入特征图的每一行相对于前一行偏移一个位置来应用偏移操作，以便可以并行计算每一行。然后，LSTM 状态是根据当前像素和左侧像素计算的。

图 7. (a) 具有对角线 BiLSTM 的 PixelRNN。 (b) 将每行在特征图中向上一行偏移一个的偏移操作。 (图片来源：Oord et al, 2016)

\[\begin{aligned} \lbrack \mathbf{o}_i, \mathbf{f}_i, \mathbf{i}_i, \mathbf{g}_i \rbrack &= \sigma(\mathbf{K}^{ss} \circledast \mathbf{h}_{i-1} + \mathbf{K}^{is} \circledast \mathbf{x}_i) & \scriptstyle{\text{; }\sigma\scriptstyle{\text{ is tanh for g, but otherwise sigmoid; }}\circledast\scriptstyle{\text{ is convolution operation.}}} \\ \mathbf{c}_i &= \mathbf{f}_i \odot \mathbf{c}_{i-1} + \mathbf{i}_i \odot \mathbf{g}_i & \scriptstyle{\text{; }}\odot\scriptstyle{\text{ is elementwise product.}}\\ \mathbf{h}_i &= \mathbf{o}_i \odot \tanh(\mathbf{c}_i) \end{aligned} \]

其中$\circledast$表示卷积操作，$\odot$是逐元素乘法。输入到状态组件$\mathbf{K}^{is}$是一个 1x1 卷积，而状态到状态的递归组件是使用大小为 2x1 的列卷积$\mathbf{K}^{ss}$计算的。

对角线 BiLSTM 层能够处理无限上下文字段，但由于状态之间的顺序依赖关系，计算起来很昂贵。一种更快的实现方式是使用多个卷积层而不使用池化来定义一个有界上下文框。卷积核被掩盖，以便未来上下文不被看到，类似于 MADE。这个卷积版本被称为PixelCNN。

图 8. 具有掩码卷积的 PixelCNN，通过对掩码张量和卷积核进行元素乘积构造后应用。 (图片来源：http://slazebni.cs.illinois.edu/spring17/lec13_advanced.pdf)

WaveNet

WaveNet（Van Den Oord, et al. 2016）与 PixelCNN 非常相似，但应用于 1-D 音频信号。WaveNet 由一堆因果卷积组成，这是一种设计用于尊重顺序的卷积操作：某个时间戳的预测只能使用过去观察到的数据，不依赖于未来。在 PixelCNN 中，因果卷积是通过掩码卷积核实现的。WaveNet 中的因果卷积只是简单地将输出向未来的时间戳移动一定数量，以使输出与最后一个输入元素对齐。

卷积层的一个很大的缺点是有限的感受野大小。输出几乎不可能依赖于数百或数千个时间步之前的输入，这对于建模长序列可能是一个至关重要的要求。因此，WaveNet 采用了扩张卷积（动画），其中卷积核应用于输入的一个远离均匀分布的样本子集的更大感受野。

图 9. WaveNet 模型的可视化，包括（顶部）因果卷积层和（底部）扩张卷积层的堆叠。（图片来源：Van Den Oord, et al. 2016)

WaveNet 使用门控激活单元作为非线性层，因为发现它在建模 1-D 音频数据时明显优于 ReLU。残差连接应用在门控激活之后。

\[\mathbf{z} = \tanh(\mathbf{W}_{f,k}\circledast\mathbf{x})\odot\sigma(\mathbf{W}_{g,k}\circledast\mathbf{x}) \]

其中$\mathbf{W}_{f,k}$和$\mathbf{W}_{g,k}$是第$k$层的卷积滤波器和门控权重矩阵；两者都是可学习的。

掩码自回归流

掩码自回归流（MAF；Papamakarios et al., 2017）是一种正规化流，其中变换层构建为自回归神经网络。MAF 与稍后介绍的逆自回归流（IAF）非常相似。在下一节中更多讨论 MAF 和 IAF 之间的关系。

给定两个随机变量，$\mathbf{z} \sim \pi(\mathbf{z})$ 和 $\mathbf{x} \sim p(\mathbf{x})$，以及已知的概率密度函数$\pi(\mathbf{z})$，MAF 的目标是学习$p(\mathbf{x})$。MAF 在过去的维度$\mathbf{x}_{1:i-1}$的条件下生成每个$x_i$。

精确地，条件概率是$\mathbf{z}$的仿射变换，其中比例和偏移项是观察到的$\mathbf{x}$的函数。

数据生成，产生一个新的$\mathbf{x}$：

$x_i \sim p(x_i\vert\mathbf{x}_{1:i-1}) = z_i \odot \sigma_i(\mathbf{x}_{1:i-1}) + \mu_i(\mathbf{x}_{1:i-1})\text{，其中 }\mathbf{z} \sim \pi(\mathbf{z})$

给定已知的$\mathbf{x}$的密度估计：

$p(\mathbf{x}) = \prod_{i=1}^D p(x_i\vert\mathbf{x}_{1:i-1})$

生成过程是顺序的，因此设计上是缓慢的。而密度估计只需要一次通过网络，使用类似 MADE 的架构。变换函数易于反转，雅可比行列式也易于计算。

逆自回归流

类似于 MAF，逆自回归流（IAF；Kingma et al., 2016）也将目标变量的条件概率建模为一个自回归模型，但流程是反向的，从而实现了更高效的采样过程。

首先，让我们反转 MAF 中的仿射变换：

\[z_i = \frac{x_i - \mu_i(\mathbf{x}_{1:i-1})}{\sigma_i(\mathbf{x}_{1:i-1})} = -\frac{\mu_i(\mathbf{x}_{1:i-1})}{\sigma_i(\mathbf{x}_{1:i-1})} + x_i \odot \frac{1}{\sigma_i(\mathbf{x}_{1:i-1})} \]

如果让：

\[\begin{aligned} & \tilde{\mathbf{x}} = \mathbf{z}\text{, }\tilde{p}(.) = \pi(.)\text{, }\tilde{\mathbf{x}} \sim \tilde{p}(\tilde{\mathbf{x}}) \\ & \tilde{\mathbf{z}} = \mathbf{x} \text{, }\tilde{\pi}(.) = p(.)\text{, }\tilde{\mathbf{z}} \sim \tilde{\pi}(\tilde{\mathbf{z}})\\ & \tilde{\mu}_i(\tilde{\mathbf{z}}_{1:i-1}) = \tilde{\mu}_i(\mathbf{x}_{1:i-1}) = -\frac{\mu_i(\mathbf{x}_{1:i-1})}{\sigma_i(\mathbf{x}_{1:i-1})} \\ & \tilde{\sigma}(\tilde{\mathbf{z}}_{1:i-1}) = \tilde{\sigma}(\mathbf{x}_{1:i-1}) = \frac{1}{\sigma_i(\mathbf{x}_{1:i-1})} \end{aligned} \]

那么我们会有，

\[\tilde{x}_i \sim p(\tilde{x}_i\vert\tilde{\mathbf{z}}_{1:i}) = \tilde{z}_i \odot \tilde{\sigma}_i(\tilde{\mathbf{z}}_{1:i-1}) + \tilde{\mu}_i(\tilde{\mathbf{z}}_{1:i-1}) \text{, where }\tilde{\mathbf{z}} \sim \tilde{\pi}(\tilde{\mathbf{z}}) \]

IAF 旨在估计已知 $\tilde{\pi}(\tilde{\mathbf{z}})$ 的情况下 $\tilde{\mathbf{x}}$ 的概率密度函数。逆流也是自回归仿射变换，与 MAF 中相同，但比例和偏移项是已知分布 $\tilde{\pi}(\tilde{\mathbf{z}})$ 的观测变量的自回归函数。请参见图 10 中 MAF 和 IAF 的比较。

图 10. MAF 和 IAF 的比较。已知密度的变量为绿色，未知的为红色。

计算各个元素 $\tilde{x}_i$ 不相互依赖，因此很容易并行化（只需一次使用 MADE）。对于已知的 $\tilde{\mathbf{x}}$ 的密度估计并不高效，因为我们必须按顺序恢复 $\tilde{z}_i$ 的值，$\tilde{z}_i = (\tilde{x}_i - \tilde{\mu}_i(\tilde{\mathbf{z}}_{1:i-1})) / \tilde{\sigma}_i(\tilde{\mathbf{z}}_{1:i-1})$，总共需要 D 次。

	基础分布	目标分布	模型	数据生成	密度估计
MAF	$\mathbf{z}\sim\pi(\mathbf{z})$	$\mathbf{x}\sim p(\mathbf{x})$	$x_i = z_i \odot \sigma_i(\mathbf{x}_{1:i-1}) + \mu_i(\mathbf{x}_{1:i-1})$	顺序；缓慢	一次通过；快速
IAF	$\tilde{\mathbf{z}}\sim\tilde{\pi}(\tilde{\mathbf{z}})$	$\tilde{\mathbf{x}}\sim\tilde{p}(\tilde{\mathbf{x}})$	$\tilde{x}_i = \tilde{z}_i \odot \tilde{\sigma}_i(\tilde{\mathbf{z}}_{1:i-1}) + \tilde{\mu}_i(\tilde{\mathbf{z}}_{1:i-1})$	一次通过；快速	顺序；缓慢
———-	———-	———-	———-	———-	———-

变分自动编码器 + 流模型

在变分自动编码器中，如果我们想将后验分布$p(\mathbf{z}\vert\mathbf{x})$建模为一个更复杂的分布而不是简单的高斯分布。直观地，我们可以使用正规化流来转换基础高斯分布，以获得更好的密度逼近。然后编码器会预测一组尺度和偏移项$(\mu_i, \sigma_i)$，这些项都是输入$\mathbf{x}$的函数。如果感兴趣，可以阅读论文获取更多细节。

如果您在这篇文章中发现错误，请随时通过[lilian dot wengweng at gmail dot com]与我联系，我将非常乐意立即更正！

下一篇文章见:D

引用为：

@article{weng2018flow,
  title   = "Flow-based Deep Generative Models",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-10-13-flow-models/"
}

参考

[1] Danilo Jimenez Rezende 和 Shakir Mohamed。“使用正规化流进行变分推断。” ICML 2015。

[2] Eric Jang 的正规化流教程，第 1 部分：分布和行列式。

[3] Eric Jang 的正规化流教程，第 2 部分：现代正规化流。

[4] Adam Kosiorek 的正规化流。

[5] Laurent Dinh，Jascha Sohl-Dickstein 和 Samy Bengio。“使用 Real NVP 进行密度估计。” ICLR 2017。

[6] Laurent Dinh，David Krueger 和 Yoshua Bengio。“NICE：非线性独立成分估计。” ICLR 2015 研讨会论文集。

[7] Diederik P. Kingma 和 Prafulla Dhariwal。“Glow: 具有可逆 1x1 卷积的生成流。” arXiv:1807.03039 (2018)。

[8] Germain，Mathieu，Karol Gregor，Iain Murray 和 Hugo Larochelle。“Made：用于分布估计的掩码自动编码器。” ICML 2015。

[9] Aaron van den Oord，Nal Kalchbrenner 和 Koray Kavukcuoglu。“像素递归神经网络。” ICML 2016。

[10] Diederik P. Kingma 等人。“使用逆自回归流改进变分推断。” NIPS. 2016。

[11] George Papamakarios，Iain Murray 和 Theo Pavlakou。“用于密度估计的掩码自回归流。” NIPS 2017。

[12] Jianlin Su 和 Guang Wu。“f-VAEs：使用条件流改进 VAEs。” arXiv:1809.05861 (2018)。

[13] Van Den Oord, Aaron 等人。“WaveNet: 用于原始音频的生成模型。” SSW. 2016。

从自编码器到 Beta-VAE

原文：lilianweng.github.io/posts/2018-08-12-vae/

2019-07-18 更新：添加关于[VQ-VAE & VQ-VAE-2 的部分。]

2019-07-26 更新：添加关于[TD-VAE 的部分。]

自编码器被发明用于使用神经网络模型重构高维数据，中间有一个窄的瓶颈层（哎呀，这对于变分自编码器可能不正确，我们将在后续章节中详细研究）。一个很好的副产品是维度缩减：瓶颈层捕获了一个压缩的潜在编码。这样的低维表示可以用作各种应用中的嵌入向量（即搜索），帮助数据压缩，或揭示潜在的数据生成因素。

符号

符号	意义
$\mathcal{D}$	数据集，$\mathcal{D} = \{ \mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \dots, \mathbf{x}^{(n)} \}$，包含$n$个数据样本；$\vert\mathcal{D}\vert =n $。
$\mathbf{x}^{(i)}$	每个数据点是一个$d$维向量，$\mathbf{x}^{(i)} = [x^{(i)}_1, x^{(i)}_2, \dots, x^{(i)}_d]$。
$\mathbf{x}$	数据集中的一个数据样本，$\mathbf{x} \in \mathcal{D}$。
$\mathbf{x}’$	$\mathbf{x}$的重构版本。
$\tilde{\mathbf{x}}$	$\mathbf{x}$的损坏版本。
$\mathbf{z}$	在瓶颈层学习到的压缩编码。
$a_j^{(l)}$	第$l$隐藏层中第$j$个神经元的激活函数。
$g_{\phi}(.)$	由$\phi$参数化的编码函数。
$f_{\theta}(.)$	由$\theta$参数化的解码函数。
$q_{\phi}(\mathbf{z}\vert\mathbf{x})$	估计后验概率函数，也称为概率编码器。
$p_{\theta}(\mathbf{x}\vert\mathbf{z})$	给定潜在编码的真实数据样本生成的可能性，也称为概率解码器。

自编码器

自编码器是一个神经网络，旨在以无监督的方式学习一个恒等函数，以在重构原始输入的同时压缩数据，从而发现更高效和压缩的表示。这个想法起源于1980 年代，后来由Hinton & Salakhutdinov, 2006的开创性论文推广。

它由两个网络组成：

编码器网络：它将原始的高维输入转换为潜在的低维编码。输入大小大于输出大小。
解码器网络：解码器网络从编码中恢复数据，可能具有越来越大的输出层。

图 1。自编码器模型架构示意图。

编码器网络本质上实现了降维，就像我们使用主成分分析（PCA）或矩阵分解（MF）一样。此外，自动编码器明确优化了从代码到数据重构的过程。一个良好的中间表示不仅可以捕捉潜在变量，还有助于完整的解压缩过程。

模型包含由$\phi$参数化的编码器函数$g(.)$和由$\theta$参数化的解码器函数$f(.)$。在瓶颈层学习的输入$\mathbf{x}$的低维代码是$\mathbf{z} = g_\phi(\mathbf{x})$，重构的输入是$\mathbf{x}’ = f_\theta(g_\phi(\mathbf{x}))$。

参数$(\theta, \phi)$一起学习以输出一个重构的数据样本，与原始输入相同，$\mathbf{x} \approx f_\theta(g_\phi(\mathbf{x}))$，或者换句话说，学习一个恒等函数。有各种度量标准来量化两个向量之间的差异，例如当激活函数是 sigmoid 时的交叉熵，或者简单的均方误差损失：

\[L_\text{AE}(\theta, \phi) = \frac{1}{n}\sum_{i=1}^n (\mathbf{x}^{(i)} - f_\theta(g_\phi(\mathbf{x}^{(i)})))² \]

去噪自动编码器

由于自动编码器学习了恒等函数，当网络参数多于数据点数量时，我们面临“过拟合”的风险。

为了避免过拟合并提高鲁棒性，去噪自动编码器（Vincent 等人，2008）对基本自动编码器提出了修改。输入通过以随机方式向输入向量添加噪声或屏蔽一些值来部分损坏，$\tilde{\mathbf{x}} \sim \mathcal{M}_\mathcal{D}(\tilde{\mathbf{x}} \vert \mathbf{x})$。然后模型被训练以恢复原始输入（注意：不是损坏的输入）。

\[\begin{aligned} \tilde{\mathbf{x}}^{(i)} &\sim \mathcal{M}_\mathcal{D}(\tilde{\mathbf{x}}^{(i)} \vert \mathbf{x}^{(i)})\\ L_\text{DAE}(\theta, \phi) &= \frac{1}{n} \sum_{i=1}^n (\mathbf{x}^{(i)} - f_\theta(g_\phi(\tilde{\mathbf{x}}^{(i)})))² \end{aligned} \]

其中$\mathcal{M}_\mathcal{D}$定义了从真实数据样本到嘈杂或损坏数据样本的映射。

图 2。去噪自动编码器模型架构示意图。

这个设计的灵感来自于人类可以轻松识别一个物体或场景，即使视图部分被遮挡或损坏。为了“修复”部分破坏的输入，去噪自动编码器必须发现并捕捉输入维度之间的关系，以推断缺失的部分。

对于高维输入具有高冗余性的情况，如图像，模型很可能依赖于从许多输入维度的组合中收集的证据来恢复去噪版本，而不是过度拟合一个维度。这为学习稳健的潜在表示打下了良好的基础。

噪声由随机映射 $\mathcal{M}_\mathcal{D}(\tilde{\mathbf{x}} \vert \mathbf{x})$ 控制，不特定于特定类型的破坏过程（即掩蔽噪声、高斯噪声、椒盐噪声等）。自然地，破坏过程可以配备先验知识。

在原始 DAE 论文的实验中，噪声是这样应用的：随机选择固定比例的输入维度，并强制它们的值为 0。听起来很像 dropout，对吧？嗯，去噪自编码器是在 2012 年的 dropout 论文之前提出的，提前了 4 年（Hinton 等人，2012）😉

稀疏自编码器

稀疏自编码器对隐藏单元激活施加“稀疏”约束，以避免过拟合并提高鲁棒性。它迫使模型一次只有少量隐藏单元被激活，或者换句话说，一个隐藏神经元大部分时间应该是停用的。

请记住常见的激活函数包括 sigmoid、tanh、relu、leaky relu 等。当值接近 1 时神经元被激活，接近 0 时被停用。

假设第 $l$ 个隐藏层中有 $s_l$ 个神经元，该层中第 $j$ 个神经元的激活函数标记为 $a^{(l)}_j(.)$，$j=1, \dots, s_l$。该神经元的激活比例 $\hat{\rho}_j$ 预计是一个小数 $\rho$，称为稀疏参数；一个常见的配置是 $\rho = 0.05$。

\[\hat{\rho}_j^{(l)} = \frac{1}{n} \sum_{i=1}^n [a_j^{(l)}(\mathbf{x}^{(i)})] \approx \rho \]

通过将惩罚项添加到损失函数中来实现这一约束。KL 散度 $D_\text{KL}$ 用于衡量两个伯努利分布之间的差异，一个具有均值 $\rho$，另一个具有均值 $\hat{\rho}_j^{(l)}$。超参数 $\beta$ 控制我们希望对稀疏损失施加多强的惩罚。

\[ \begin{aligned} L_\text{SAE}(\theta) &= L(\theta) + \beta \sum_{l=1}^L \sum_{j=1}^{s_l} D_\text{KL}(\rho \| \hat{\rho}_j^{(l)}) \\ &= L(\theta) + \beta \sum_{l=1}^L \sum_{j=1}^{s_l} \rho\log\frac{\rho}{\hat{\rho}_j^{(l)}} + (1-\rho)\log\frac{1-\rho}{1-\hat{\rho}_j^{(l)}} \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/45b50efe9198dbf95325bd5aaf88e80f.png) 图 4\. 伯努利分布之间的 KL 散度，一个均值为 $\rho=0.25$，另一个均值为 $0 \leq \hat{\rho} \leq 1$。 **$k$-稀疏自编码器** 在$k$-稀疏自编码器（[Makhzani and Frey, 2013](https://arxiv.org/abs/1312.5663)）中，稀疏性是通过仅保留瓶颈层中前 k 个最高激活来实现的，使用线性激活函数。首先，我们通过编码器网络进行前馈运算以获得压缩编码：$\mathbf{z} = g(\mathbf{x})$。对编码向量$\mathbf{z}$中的值进行排序。仅保留最大的 k 个值，而其他神经元设为 0。这也可以在具有可调阈值的 ReLU 层中完成。现在我们有了一个稀疏编码：$\mathbf{z}’ = \text{Sparsify}(\mathbf{z})$。从稀疏编码计算输出和损失，$L = |\mathbf{x} - f(\mathbf{z}’) |_2²$。反向传播仅通过前 k 个激活的隐藏单元进行！ ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/94f1dbc940d432694638ccd177fbc65b.png) 图 5\. 来自 MNIST 学习的具有 1000 个隐藏单元的 k-稀疏自编码器的不同稀疏级别 k 的滤波器。（图片来源：[Makhzani and Frey, 2013](https://arxiv.org/abs/1312.5663)） # 压缩自编码器类似于稀疏自编码器，**压缩自编码器**（[Rifai, et al, 2011](http://www.icml-2011.org/papers/455_icmlpaper.pdf)）鼓励学习到的表示保持在一个压缩空间中，以获得更好的鲁棒性。它在损失函数中添加了一个项，以惩罚表示对输入过于敏感，从而提高对训练数据点周围小扰动的鲁棒性。敏感性由编码器激活的雅可比矩阵的 Frobenius 范数来衡量： $$ \|J_f(\mathbf{x})\|_F² = \sum_{ij} \Big( \frac{\partial h_j(\mathbf{x})}{\partial x_i} \Big)² \]

其中$h_j$是压缩编码$\mathbf{z} = f(x)$中的一个单元输出。

这个惩罚项是学习编码与输入维度的所有偏导数的平方和。作者声称，经验上发现这种惩罚能够塑造一个对应于低维非线性流形的表示，同时对流形正交方向更具不变性。

VAE：变分自编码器

变分自编码器（Kingma & Welling, 2014）的思想实际上与上述所有自编码器模型不太相似，而是深深植根于变分贝叶斯和图模型的方法。

我们不是将输入映射到一个固定向量，而是希望将其映射到一个分布。让我们将这个分布标记为$p_\theta$，由参数$\theta$参数化。数据输入$\mathbf{x}$和潜在编码向量$\mathbf{z}$之间的关系可以完全由以下公式定义：

先验分布 $p_\theta(\mathbf{z})$
似然函数 $p_\theta(\mathbf{x}\vert\mathbf{z})$
后验分布 $p_\theta(\mathbf{z}\vert\mathbf{x})$

假设我们知道这个分布的真实参数$\theta^{*}$。为了生成一个看起来像真实数据点$\mathbf{x}^{(i)}$的样本，我们按照以下步骤进行：

首先，从先验分布$p_{\theta^*}(\mathbf{z})$中抽样一个$\mathbf{z}^{(i)}$。
然后从条件分布$p_{\theta^*}(\mathbf{x} \vert \mathbf{z} = \mathbf{z}^{(i)})$生成一个值$\mathbf{x}^{(i)}$。

最优参数$\theta^{*}$是最大化生成真实数据样本概率的参数：

\[\theta^{*} = \arg\max_\theta \prod_{i=1}^n p_\theta(\mathbf{x}^{(i)}) \]

通常我们使用对数概率将右侧的乘积转换为求和：

\[\theta^{*} = \arg\max_\theta \sum_{i=1}^n \log p_\theta(\mathbf{x}^{(i)}) \]

现在让我们更新方程以更好地展示数据生成过程，以涉及编码向量：

\[p_\theta(\mathbf{x}^{(i)}) = \int p_\theta(\mathbf{x}^{(i)}\vert\mathbf{z}) p_\theta(\mathbf{z}) d\mathbf{z} \]

不幸的是，以这种方式计算$p_\theta(\mathbf{x}^{(i)})$并不容易，因为检查所有可能的$\mathbf{z}$值并将它们相加非常昂贵。为了缩小值空间以便加快搜索，我们希望引入一个新的近似函数来输出给定输入$\mathbf{x}$时可能的代码，$q_\phi(\mathbf{z}\vert\mathbf{x})$，由$\phi$参数化。

图 6。变分自动编码器中涉及的图形模型。实线表示生成分布$p\_\theta(.)$，虚线表示用于近似难以处理的后验$p\_\theta (\mathbf{z}\vert\mathbf{x})$的分布$q\_\phi (\mathbf{z}\vert\mathbf{x})$。

现在结构看起来很像一个自动编码器：

条件概率$p_\theta(\mathbf{x} \vert \mathbf{z})$定义了一个生成模型，类似于上面介绍的解码器$f_\theta(\mathbf{x} \vert \mathbf{z})$。$p_\theta(\mathbf{x} \vert \mathbf{z})$也被称为概率解码器。
近似函数$q_\phi(\mathbf{z} \vert \mathbf{x})$是概率编码器，扮演与上面的$g_\phi(\mathbf{z} \vert \mathbf{x})$类似的角色。

损失函数：ELBO

估计后验$q_\phi(\mathbf{z}\vert\mathbf{x})$应该非常接近真实后验$p_\theta(\mathbf{z}\vert\mathbf{x})$。我们可以使用Kullback-Leibler 散度来量化这两个分布之间的距离。KL 散度$D_\text{KL}(X|Y)$衡量了如果使用分布 Y 来表示 X 会丢失多少信息。

在我们的情况下，我们希望最小化$D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) | p_\theta(\mathbf{z}\vert\mathbf{x}) )$关于$\phi$的值。

但为什么使用$D_\text{KL}(q_\phi | p_\theta)$（反向 KL）而不是$D_\text{KL}(p_\theta | q_\phi)$（正向 KL）？Eric Jang 在他的文章中对贝叶斯变分方法进行了很好的解释。简要回顾一下：

图 7。正向和反向 KL 散度对如何匹配两个分布有不同的要求。（图片来源：blog.evjang.com/2016/08/variational-bayes.html)

正向 KL 散度：$D_\text{KL}(P|Q) = \mathbb{E}_{z\sim P(z)} \log\frac{P(z)}{Q(z)}$；我们必须确保在 P(z)>0 的地方 Q(z)>0。优化的变分分布$q(z)$必须覆盖整个$p(z)$。
反向 KL 散度：$D_\text{KL}(Q|P) = \mathbb{E}_{z\sim Q(z)} \log\frac{Q(z)}{P(z)}$；最小化反向 KL 散度会将$Q(z)$挤压在$P(z)$下方。

现在让我们展开这个方程：

\[\begin{aligned} & D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) ) & \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z} \vert \mathbf{x})} d\mathbf{z} & \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})p_\theta(\mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} d\mathbf{z} & \scriptstyle{\text{; 因为}p(z \vert x) = p(z, x) / p(x)} \\ &=\int q_\phi(\mathbf{z} \vert \mathbf{x}) \big( \log p_\theta(\mathbf{x}) + \log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} \big) d\mathbf{z} & \\ &=\log p_\theta(\mathbf{x}) + \int q_\phi(\mathbf{z} \vert \mathbf{x})\log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} d\mathbf{z} & \scriptstyle{\text{; 因为}\int q(z \vert x) dz = 1}\\ &=\log p_\theta(\mathbf{x}) + \int q_\phi(\mathbf{z} \vert \mathbf{x})\log\frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z}, \mathbf{x})} d\mathbf{z} & \scriptstyle{\text{; 因为}p(z, x) = p(x \vert z) p(z)} \\ &=\log p_\theta(\mathbf{x}) + \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z} \vert \mathbf{x})}[\log \frac{q_\phi(\mathbf{z} \vert \mathbf{x})}{p_\theta(\mathbf{z})} - \log p_\theta(\mathbf{x} \vert \mathbf{z})] &\\ &=\log p_\theta(\mathbf{x}) + D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z})) - \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}\vert\mathbf{x})}\log p_\theta(\mathbf{x}\vert\mathbf{z}) & \end{aligned} \]

所以我们有：

\[D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) ) =\log p_\theta(\mathbf{x}) + D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z})) - \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}\vert\mathbf{x})}\log p_\theta(\mathbf{x}\vert\mathbf{z}) \]

一旦重新排列方程的左右两侧，

\[\log p_\theta(\mathbf{x}) - D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) ) = \mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}\vert\mathbf{x})}\log p_\theta(\mathbf{x}\vert\mathbf{z}) - D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z})) \]

方程的左侧正是我们在学习真实分布时要最大化的内容：我们希望最大化生成真实数据的（对数）似然（即 $\log p_\theta(\mathbf{x})$），同时最小化真实和估计后验分布之间的差异（项 $D_\text{KL}$ 的作用类似于正则化器）。请注意，$p_\theta(\mathbf{x})$ 是关于 $q_\phi$ 固定的。

上述的否定定义了我们的损失函数：

\[\begin{aligned} L_\text{VAE}(\theta, \phi) &= -\log p_\theta(\mathbf{x}) + D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) )\\ &= - \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) + D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}) ) \\ \theta^{*}, \phi^{*} &= \arg\min_{\theta, \phi} L_\text{VAE} \end{aligned} \]

在变分贝叶斯方法中，这个损失函数被称为变分下限或证据下限。名称中的“下限”部分来自于 KL 散度始终为非负，因此 $-L_\text{VAE}$ 是 $\log p_\theta (\mathbf{x})$ 的下限。

\[-L_\text{VAE} = \log p_\theta(\mathbf{x}) - D_\text{KL}( q_\phi(\mathbf{z}\vert\mathbf{x}) \| p_\theta(\mathbf{z}\vert\mathbf{x}) ) \leq \log p_\theta(\mathbf{x}) \]

因此，通过最小化损失，我们正在最大化生成真实数据样本的概率的下限。

重新参数化技巧

损失函数中的期望项调用从 $\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})$ 生成样本。抽样是一个随机过程，因此我们无法反向传播梯度。为了使其可训练，引入了重新参数化技巧：通常可以将随机变量 $\mathbf{z}$ 表示为确定性变量 $\mathbf{z} = \mathcal{T}_\phi(\mathbf{x}, \boldsymbol{\epsilon})$，其中 $\boldsymbol{\epsilon}$ 是一个辅助独立随机变量，而由参数 $\phi$ 参数化的转换函数 $\mathcal{T}_\phi$ 将 $\boldsymbol{\epsilon}$ 转换为 $\mathbf{z}$。

例如，$q_\phi(\mathbf{z}\vert\mathbf{x})$ 的常见选择形式是具有对角协方差结构的多元高斯分布：

\[\begin{aligned} \mathbf{z} &\sim q_\phi(\mathbf{z}\vert\mathbf{x}^{(i)}) = \mathcal{N}(\mathbf{z}; \boldsymbol{\mu}^{(i)}, \boldsymbol{\sigma}^{2(i)}\boldsymbol{I}) & \\ \mathbf{z} &= \boldsymbol{\mu} + \boldsymbol{\sigma} \odot \boldsymbol{\epsilon} \text{，其中 } \boldsymbol{\epsilon} \sim \mathcal{N}(0, \boldsymbol{I}) & \scriptstyle{\text{；重新参数化技巧。}} \end{aligned} \]

其中 $\odot$ 表示逐元素乘积。

图 8. 说明了重参数化技巧如何使$\mathbf{z}$的采样过程可训练。（图片来源：Kingma 在 NIPS 2015 研讨会的幻灯片 12 中的演讲）

重参数化技巧也适用于其他类型的分布，不仅仅是高斯分布。在多变量高斯情况下，我们通过学习分布的均值和方差$\mu$和$\sigma$来使模型可训练，明确地使用重参数化技巧，而随机性仍然存在于随机变量$\boldsymbol{\epsilon} \sim \mathcal{N}(0, \boldsymbol{I})$中。

图 9. 变分自动编码器模型的多变量高斯假设说明。

Beta-VAE

如果推断出的潜在表示中的每个变量$\mathbf{z}$只对一个单一的生成因子敏感，并且相对于其他因子是不变的，我们将称这种表示为解耦或因子化。解耦表示经常带来的一个好处是良好的可解释性，并且容易推广到各种任务。

例如，一个训练于人脸照片的模型可能会在不同维度中捕捉到温和、肤色、发色、发长、情绪、是否戴眼镜等许多相对独立的因素。这样的解耦表示对于面部图像生成非常有益。

β-VAE（Higgins 等人，2017）是变分自动编码器的修改版本，特别强调发现解耦潜在因子。在 VAE 中遵循相同的激励，我们希望最大化生成真实数据的概率，同时保持真实和估计后验分布之间的距离小（比如，在一个小常数$\delta$下）：

\[\begin{aligned} &\max_{\phi, \theta} \mathbb{E}_{\mathbf{x}\sim\mathcal{D}}[\mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z})]\\ &\text{subject to } D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x})\|p_\theta(\mathbf{z})) < \delta \end{aligned} \]

我们可以将其重写为带有拉格朗日乘子$\beta$的拉格朗日形式，在KKT 条件下。只有一个不等式约束的上述优化问题等价于最大化以下方程$\mathcal{F}(\theta, \phi, \beta)$：

\[\begin{aligned} \mathcal{F}(\theta, \phi, \beta) &= \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) - \beta(D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x})\|p_\theta(\mathbf{z})) - \delta) & \\ & = \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) - \beta D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x})\|p_\theta(\mathbf{z})) + \beta \delta & \\ & \geq \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) - \beta D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x})\|p_\theta(\mathbf{z})) & \scriptstyle{\text{; 因为 }\beta,\delta\geq 0} \end{aligned} \]

$\beta$-VAE 的损失函数定义如下：

\[L_\text{BETA}(\phi, \beta) = - \mathbb{E}_{\mathbf{z} \sim q_\phi(\mathbf{z}\vert\mathbf{x})} \log p_\theta(\mathbf{x}\vert\mathbf{z}) + \beta D_\text{KL}(q_\phi(\mathbf{z}\vert\mathbf{x})\|p_\theta(\mathbf{z})) \]

拉格朗日乘子 $\beta$ 被视为一个超参数。

由于 $L_\text{BETA}(\phi, \beta)$ 的否定是拉格朗日 $\mathcal{F}(\theta, \phi, \beta)$ 的下界。最小化损失等价于最大化拉格朗日，因此适用于我们的初始优化问题。

当 $\beta=1$ 时，与 VAE 相同。当 $\beta > 1$ 时，对潜在瓶颈施加更强的约束，限制 $\mathbf{z}$ 的表示容量。对于一些条件独立的生成因素，保持它们解缠是最有效的表示。因此，更高的 $\beta$ 鼓励更有效的潜在编码，并进一步鼓励解缠。同时，更高的 $\beta$ 可能在重构质量和解缠程度之间产生权衡。

Burgess, et al. (2017) 深入讨论了 $\beta$-VAE 中的解缠绕，受到信息瓶颈理论的启发，并进一步提出了对 $\beta$-VAE 的修改，以更好地控制编码表示容量。

VQ-VAE 和 VQ-VAE-2

VQ-VAE（“矢量量化变分自动编码器”；van den Oord, et al. 2017）模型通过编码器学习离散潜变量，因为离散表示可能更适合语言、语音、推理等问题。

矢量量化（VQ）是一种将 $K$ 维向量映射到有限集合“码”向量的方法。这个过程非常类似于KNN算法。样本应映射到的最佳质心码向量是与之的欧几里德距离最小的向量。

让$\mathbf{e} \in \mathbb{R}^{K \times D}, i=1, \dots, K$成为 VQ-VAE 中的潜在嵌入空间（也称为“码书”），其中$K$是潜变量类别数，$D$是嵌入大小。单个嵌入向量为$\mathbf{e}_i \in \mathbb{R}^{D}, i=1, \dots, K$。

编码器输出$E(\mathbf{x}) = \mathbf{z}_e$经过最近邻查找匹配到$K$个嵌入向量中的一个，然后这个匹配的码向量成为解码器$D(.)$的输入：

\[\mathbf{z}_q(\mathbf{x}) = \text{Quantize}(E(\mathbf{x})) = \mathbf{e}_k \text{ where } k = \arg\min_i \|E(\mathbf{x}) - \mathbf{e}_i \|_2 \]

请注意，离散潜变量在不同应用中可以具有不同的形状；例如，语音为 1D，图像为 2D，视频为 3D。

图 10。VQ-VAE 的架构（图片来源：van den Oord 等人，2017）

由于 argmin()在离散空间上不可微分，来自解码器输入$\mathbf{z}_q$的梯度$\nabla_z L$被复制到编码器输出$\mathbf{z}_e$。除了重构损失外，VQ-VAE 还优化：

VQ 损失：嵌入空间与编码器输出之间的 L2 误差。
承诺损失：一种鼓励编码器输出保持接近嵌入空间并防止其从一个码向量频繁波动到另一个码向量的度量。

\[L = \underbrace{\|\mathbf{x} - D(\mathbf{e}_k)\|_2²}_{\textrm{重构损失}} + \underbrace{\|\text{sg}[E(\mathbf{x})] - \mathbf{e}_k\|_2²}_{\textrm{VQ 损失}} + \underbrace{\beta \|E(\mathbf{x}) - \text{sg}[\mathbf{e}_k]\|_2²}_{\textrm{承诺损失}} \]

其中$\text{sq}[.]$是stop_gradient运算符。

码书中的嵌入向量通过 EMA（指数移动平均）进行更新。给定一个码向量$\mathbf{e}_i$，假设我们有$n_i$个编码器输出向量$\{\mathbf{z}_{i,j}\}_{j=1}^{n_i}$，这些向量被量化为$\mathbf{e}_i$：

\[N_i^{(t)} = \gamma N_i^{(t-1)} + (1-\gamma)n_i^{(t)}\;\;\; \mathbf{m}_i^{(t)} = \gamma \mathbf{m}_i^{(t-1)} + (1-\gamma)\sum_{j=1}^{n_i^{(t)}}\mathbf{z}_{i,j}^{(t)}\;\;\; \mathbf{e}_i^{(t)} = \mathbf{m}_i^{(t)} / N_i^{(t)} \]

其中$(t)$表示时间中的批次序列。$N_i$和$\mathbf{m}_i$分别是累积向量计数和体积。

VQ-VAE-2（Ali Razavi 等人，2019）是一个两级分层 VQ-VAE，结合了自注意力自回归模型。

阶段 1 是训练分层 VQ-VAE：分层潜变量的设计旨在将局部模式（即纹理）与全局信息（即物体形状）分离开来。较大底层码书的训练也受到较小顶层码的条件约束，因此不必从头开始学习。
第 2 阶段是学习潜在离散码书上的先验，以便我们从中采样并生成图像。通过这种方式，解码器可以接收从训练中采样的输入向量。使用增强了多头自注意力层的强大自回归模型来捕获先验分布（例如PixelSNAIL；Chen 等人，2017）。

考虑到 VQ-VAE-2 依赖于在简单的分层设置中配置的离散潜在变量，其生成的图像质量非常惊人。

图 11。分层 VQ-VAE 和多阶段图像生成的架构。（图片来源：Ali Razavi 等人，2019）

图 12。VQ-VAE-2 算法。（图片来源：Ali Razavi 等人，2019）

TD-VAE

TD-VAE（“时间差分 VAE”；Gregor 等人，2019）适用于序列数据。它依赖于以下三个主要思想。

图 13。状态空间模型作为马尔可夫链模型。

1. 状态空间模型

在（潜在）状态空间模型中，一系列未观察到的隐藏状态 $\mathbf{z} = (z_1, \dots, z_T)$ 决定了观察状态 $\mathbf{x} = (x_1, \dots, x_T)$。图 13 中马尔可夫链模型中的每个时间步可以像图 6 中一样进行训练，其中不可计算的后验概率 $p(z \vert x)$ 被函数 $q(z \vert x)$ 近似。

2. 信念状态

智能体应该学会对所有过去的状态进行编码以推理未来，称为信念状态，$b_t = belief(x_1, \dots, x_t) = belief(b_{t-1}, x_t)$。基于此，给定过去的条件下未来状态的分布可以写为 $p(x_{t+1}, \dots, x_T \vert x_1, \dots, x_t) \approx p(x_{t+1}, \dots, x_T \vert b_t)$。在 TD-VAE 中，递归策略中的隐藏状态被用作智能体的信念状态。因此，我们有 $b_t = \text{RNN}(b_{t-1}, x_t)$。

3. 跳跃预测

此外，一个智能体应该根据迄今收集的所有信息来想象遥远的未来，表明其具有进行跳跃预测的能力，即预测未来几步的状态。

回顾我们从上述方差下界中学到的内容：

\[\begin{aligned} \log p(x) &\geq \log p(x) - D_\text{KL}(q(z|x)\|p(z|x)) \\ &= \mathbb{E}_{z\sim q} \log p(x|z) - D_\text{KL}(q(z|x)\|p(z)) \\ &= \mathbb{E}_{z \sim q} \log p(x|z) - \mathbb{E}_{z \sim q} \log \frac{q(z|x)}{p(z)} \\ &= \mathbb{E}_{z \sim q}[\log p(x|z) -\log q(z|x) + \log p(z)] \\ &= \mathbb{E}_{z \sim q}[\log p(x, z) -\log q(z|x)] \\ \log p(x) &\geq \mathbb{E}_{z \sim q}[\log p(x, z) -\log q(z|x)] \end{aligned} \]

现在让我们将状态 $x_t$ 的分布建模为一个概率函数，条件是所有过去状态 $x_{<t}$ 和当前时间步和一步回退的两个潜变量 $z_t$ 和 $z_{t-1}$：

\[ \log p(x_t|x_{ 继续扩展方程式： $$ \begin{aligned} & \log p(x_t|x_{ 注意两件事： + 根据马尔可夫假设，红色项可以被忽略。 + 蓝色项根据马尔可夫假设进行了扩展。 + 绿色项被扩展以包括向过去进行一步预测作为平滑分布。具体来说，有四种类型的分布需要学习： 1. $p_D(.)$ 是**解码器**分布： + $p(x_t \mid z_t)$ 是按照通用定义的编码器； + $p(x_t \mid z_t) \to p_D(x_t \mid z_t)$; 1. $p_T(.)$ 是**转移**分布： + $p(z_t \mid z_{t-1})$ 捕捉潜变量之间的顺序依赖关系； + $p(z_t \mid z_{t-1}) \to p_T(z_t \mid z_{t-1})$; 1. $p_B(.)$ 是**信念**分布： + $p(z_{t-1} \mid x_{<t})$ 和 $q(z_t \mid x_{\leq t})$ 都可以使用信念状态来预测潜变量； + $p(z_{t-1} \mid x_{<t}) \to p_B(z_{t-1} \mid b_{t-1})$; + $q(z_{t} \mid x_{\leq t}) \to p_B(z_t \mid b_t)$; 1. $p_S(.)$ 是**平滑**分布： + 回到过去的平滑项 $q(z_{t-1} \mid z_t, x_{\leq t})$ 可以重写为依赖于信念状态； + $q(z_{t-1} \mid z_t, x_{\leq t}) \to p_S(z_{t-1} \mid z_t, b_{t-1}, b_t)$; 为了融入跳跃预测的概念，顺序 ELBO 不仅需要在 $t, t+1$ 上工作，还需要在两个不同的时间戳 $t_1 < t_2$ 上工作。这是最终的 TD-VAE 目标函数以最大化： $$ J_{t_1, t_2} = \mathbb{E}[ \log p_D(x_{t_2}|z_{t_2}) + \log p_B(z_{t_1}|b_{t_1}) + \log p_T(z_{t_2}|z_{t_1}) - \log p_B(z_{t_2}|b_{t_2}) - \log p_S(z_{t_1}|z_{t_2}, b_{t_1}, b_{t_2})] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/9774b76a16c22bfb088fb2fb9004368e.png) 图 14。TD-VAE 架构的详细概述，非常出色。 (图片来源：[TD-VAE 论文](https://arxiv.org/abs/1806.03107)) * * * 引用为： ```py @article{weng2018VAE, title = "From Autoencoder to Beta-VAE", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2018", url = "https://lilianweng.github.io/posts/2018-08-12-vae/" } ``` # 参考文献 [1] Geoffrey E. Hinton, 和 Ruslan R. Salakhutdinov。[“使用神经网络降低数据的维度。”](https://pdfs.semanticscholar.org/c50d/ca78e97e335d362d6b991ae0e1448914e9a3.pdf) 科学 313.5786 (2006): 504-507. [2] Pascal Vincent, 等人。[“使用去噪自动编码器提取和组合稳健特征。”](http://www.cs.toronto.edu/~larocheh/publications/icml-2008-denoising-autoencoders.pdf) ICML, 2008. [3] Pascal Vincent, 等人。[“堆叠去噪自动编码器：通过局部去噪标准在深度网络中学习有用的表示。”](http://www.jmlr.org/papers/volume11/vincent10a/vincent10a.pdf) 机器学习研究杂志 11.Dec (2010): 3371-3408. [4] Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R. Salakhutdinov. “通过防止特征探测器的共适应性来改进神经网络。” arXiv 预印本 arXiv:1207.0580 (2012). [5] [稀疏自动编码器](https://web.stanford.edu/class/cs294a/sparseAutoencoder.pdf) 由 Andrew Ng。 [6] Alireza Makhzani, Brendan Frey (2013)。[“k-稀疏自动编码器”](https://arxiv.org/abs/1312.5663)。ICLR 2014。 [7] Salah Rifai 等人 [“收缩自动编码器：特征提取过程中的显式不变性。”](http://www.icml-2011.org/papers/455_icmlpaper.pdf) ICML, 2011。 [8] Diederik P. Kingma 和 Max Welling。[“自动编码变分贝叶斯。”](https://arxiv.org/abs/1312.6114) ICLR 2014。 [9] [教程 - 什么是变分自动编码器？](https://jaan.io/what-is-variational-autoencoder-vae-tutorial/) 在 jaan.io 上 [10] Youtube 教程：[变分自动编码器](https://www.youtube.com/watch?v=9zKuYvjFFS8) 由 Arxiv Insights [11] [“初学者指南：均场近似的变分方法”](https://blog.evjang.com/2016/08/variational-bayes.html) 由 Eric Jang。 [12] Carl Doersch。[“变分自动编码器教程。”](https://arxiv.org/abs/1606.05908) arXiv:1606.05908, 2016。 [13] Irina Higgins 等人 [“$\beta$-VAE：使用受限变分框架学习基本视觉概念。”](https://openreview.net/forum?id=Sy2fzU9gl) ICLR 2017。 [14] Christopher P. Burgess 等人 [“理解 beta-VAE 中的解缠。”](https://arxiv.org/abs/1804.03599) NIPS 2017。 [15] Aaron van den Oord 等人 [“神经离散表示学习”](https://arxiv.org/abs/1711.00937) NIPS 2017。 [16] Ali Razavi 等人 [“使用 VQ-VAE-2 生成多样化高保真图像”](https://arxiv.org/abs/1906.00446)。arXiv 预印本 arXiv:1906.00446 (2019)。 [17] Xi Chen 等人 [“PixelSNAIL：改进的自回归生成模型。”](https://arxiv.org/abs/1712.09763) arXiv 预印本 arXiv:1712.09763 (2017)。 [18] Karol Gregor 等人 [“时序差分变分自动编码器。”](https://arxiv.org/abs/1806.03107) ICLR 2019。 + [自动编码器](https://lilianweng.github.io/tags/autoencoder/) + [生成模型](https://lilianweng.github.io/tags/generative-model/) + [图像生成](https://lilianweng.github.io/tags/image-generation/) [« [基于流的深度生成模型](https://lilianweng.github.io/posts/2018-10-13-flow-models/) [» [注意力？注意力！](https://lilianweng.github.io/posts/2018-06-24-attention/)© 2024 [Lil'Log](https://lilianweng.github.io/) 由[Hugo](https://gohugo.io/) & [PaperMod](https://git.io/hugopapermod)提供[](#top "返回顶部（Alt + G)") # 注意力？注意力！ > 原文：[`lilianweng.github.io/posts/2018-06-24-attention/`](https://lilianweng.github.io/posts/2018-06-24-attention/) 更新于 2018-10-28：添加了[指针网络和[链接](https://github.com/lilianweng/transformer-tensorflow)到我的 Transformer 实现。] [更新于 2018-11-06：添加了一个[链接](https://github.com/lilianweng/transformer-tensorflow)到 Transformer 模型的实现。] 更新于 2018-11-18：添加了[神经图灵机。] [更新于 2019-07-18：在介绍[show-attention-tell](https://arxiv.org/abs/1502.03044)论文时，更正了使用术语“自注意力”的错误；将其移到自注意力部分。] [更新于 2020-04-07：有关改进的 Transformer 模型的后续帖子在[这里](https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/)。] 注意力在某种程度上受到我们如何在图像的不同区域或在一句话中相关单词之间进行视觉关注的启发。以图 1 中的柴犬图片为例。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/1ea85e2e230e5948f973409b3b701e7c.png) 图 1。一只穿着男士服装的柴犬。原始照片的来源归功于 Instagram [@mensweardog](https://www.instagram.com/mensweardog/?hl=en)。人类视觉注意力使我们能够专注于“高分辨率”区域（即看着黄色框中尖耳朵）同时以“低分辨率”感知周围图像（即雪地背景和服装是什么？），然后相应地调整焦点或进行推断。给定图像的一个小区域，其余像素提供线索，指导应该显示什么。我们期望在黄色框中看到尖耳朵，因为我们已经看到了狗的鼻子，右边的另一只尖耳朵，以及柴犬神秘的眼睛（红框中的东西）。然而，底部的毛衣和毯子对于这些狗狗特征来说并不那么有帮助。同样地，我们可以解释一句话或接近上下文中单词之间的关系。当我们看到“吃”时，我们期望很快遇到一个食物词。颜色词描述食物，但可能与“吃”直接相关性不那么大。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/aef85ca18e79b348ebf5db5f66efc70f.png) 图 2。一个单词在同一句子中与其他单词的关注不同。简而言之，深度学习中的注意力可以广义地解释为一个重要性权重向量：为了预测或推断一个元素，例如图像中的一个像素或句子中的一个单词，我们使用注意力向量估计它与其他元素的相关性有多强（或者正如您可能在许多论文中读到的那样“*关注*”），并将它们的值按注意力向量加权求和作为目标的近似。 # Seq2Seq 模型有什么问题？ **seq2seq**模型诞生于语言建模领域（[Sutskever 等人，2014](https://arxiv.org/abs/1409.3215)）。广义上讲，它旨在将一个输入序列（源）转换为一个新的序列（目标），而且两个序列的长度可以是任意的。转换任务的示例包括文本或音频之间的多语言机器翻译，问答对话生成，甚至将句子解析成语法树。 seq2seq 模型通常具有编码器-解码器架构，由以下组成： + **编码器**处理输入序列并将信息压缩成一个长度固定的上下文向量（也称为句子嵌入或“思想”向量）。这种表示预期是对*整个*源序列含义的很好总结。 + **解码器**使用上下文向量初始化以发出转换后的输出。早期的工作仅使用编码器网络的最后状态作为解码器的初始状态。编码器和解码器都是循环神经网络，即使用[LSTM 或 GRU](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)单元。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/eb1e0411440e2a00be8bcfb6c9436aaf.png) 图 3\. 编码器-解码器模型，将句子“她正在吃一个绿色的苹果”翻译成中文。编码器和解码器的可视化在时间上展开。这种固定长度上下文向量设计的一个关键而明显的缺点是无法记住长句子。通常在处理完整个输入后，它会忘记第一部分。注意力机制诞生于[Bahdanau 等人，2015](https://arxiv.org/pdf/1409.0473.pdf)以解决这个问题。 # 诞生于翻译领域注意力机制诞生于神经机器翻译（[NMT](https://arxiv.org/pdf/1409.0473.pdf)）中，以帮助记忆长句子。注意力的秘密在于不是仅仅基于编码器的最后隐藏状态构建一个单一的上下文向量，而是在上下文向量和整个源输入之间创建快捷方式。这些快捷连接的权重对每个输出元素都是可定制的。虽然上下文向量可以访问整个输入序列，但我们不需要担心遗忘。源和目标之间的对齐由上下文向量学习和控制。基本上，上下文向量包含三个信息： + 编码器隐藏状态； + 解码器隐藏状态； + 源和目标之间的对齐。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/07cb5dba07e1f92813a195f18723da81.png) 图 4\. [Bahdanau 等人，2015](https://arxiv.org/pdf/1409.0473.pdf)中带有加性注意力机制的编码器-解码器模型。 ## 定义现在让我们以科学的方式定义 NMT 中引入的注意力机制。假设我们有长度为$n$的源序列$\mathbf{x}$，并尝试输出长度为$m$的目标序列$\mathbf{y}$： $$ \begin{aligned} \mathbf{x} &= [x_1, x_2, \dots, x_n] \\ \mathbf{y} &= [y_1, y_2, \dots, y_m] \end{aligned} \]

（粗体变量表示它们是向量；本文中的其他内容也是如此。）

编码器是一个双向 RNN（或您选择的其他循环网络设置），具有前向隐藏状态$\overrightarrow{\boldsymbol{h}}_i$和后向隐藏状态$\overleftarrow{\boldsymbol{h}}_i$。简单地将两者连接起来表示编码器状态。其动机是在一个词的注释中包含前面和后面的单词。

\[\boldsymbol{h}_i = [\overrightarrow{\boldsymbol{h}}_i^\top; \overleftarrow{\boldsymbol{h}}_i^\top]^\top, i=1,\dots,n \]

解码器网络具有隐藏状态$\boldsymbol{s}_t=f(\boldsymbol{s}_{t-1}, y_{t-1}, \mathbf{c}_t)$，用于位置 t 处的输出单词，$t=1,\dots,m$，其中上下文向量$\mathbf{c}_t$是输入序列的隐藏状态的加权和，由对齐分数加权：

\[\begin{aligned} \mathbf{c}_t &= \sum_{i=1}^n \alpha_{t,i} \boldsymbol{h}_i & \small{\text{; 输出}y_t\text{的上下文向量}}\\ \alpha_{t,i} &= \text{align}(y_t, x_i) & \small{\text{; 两个单词}y_t\text{和}x_i\text{对齐得有多好。}}\\ &= \frac{\exp(\text{score}(\boldsymbol{s}_{t-1}, \boldsymbol{h}_i))}{\sum_{i'=1}^n \exp(\text{score}(\boldsymbol{s}_{t-1}, \boldsymbol{h}_{i'}))} & \small{\text{; 一些预定义对齐分数的 softmax。}}. \end{aligned} \]

对齐模型为输入位置 i 和输出位置 t 处的一对（$y_t, x_i$）分配一个分数$\alpha_{t,i}$，根据它们匹配得有多好。$\{\alpha_{t, i}\}$的集合是定义每个输出应考虑多少源隐藏状态的权重。在 Bahdanau 的论文中，对齐分数$\alpha$由一个具有单隐藏层的前馈网络参数化，并且该网络与模型的其他部分一起进行训练。因此，得分函数的形式如下，假设 tanh 被用作非线性激活函数：

\[\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \mathbf{v}_a^\top \tanh(\mathbf{W}_a[\boldsymbol{s}_t; \boldsymbol{h}_i]) \]

这里$\mathbf{v}_a$和$\mathbf{W}_a$都是在对齐模型中要学习的权重矩阵。

对齐分数矩阵是一个很好的副产品，可以明确显示源语言和目标语言之间的相关性。

图 5. "L'accord sur l'Espace économique européen a été signé en août 1992"（法语）及其英文翻译"The agreement on the European Economic Area was signed in August 1992"的对齐矩阵（图片来源：Bahdanau 等人，2015 年中的图 3）

查看这篇由 Tensorflow 团队提供的不错的教程，了解更多实现说明。

一系列注意力机制

在注意力的帮助下，源序列和目标序列之间的依赖关系不再受中间距离的限制！鉴于注意力在机器翻译中的巨大改进，它很快被扩展到计算机视觉领域（Xu et al. 2015），人们开始探索各种其他形式的注意力机制（Luong, et al., 2015; Britz et al., 2017; Vaswani, et al., 2017）。

总结

下面是几种流行的注意力机制及相应的对齐评分函数的总结表：

名称	对齐评分函数	引用
基于内容的注意力	$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \text{cosine}[\boldsymbol{s}_t, \boldsymbol{h}_i]$	Graves2014
加性(*)	$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \mathbf{v}_a^\top \tanh(\mathbf{W}_a[\boldsymbol{s}_{t-1}; \boldsymbol{h}_i])$	Bahdanau2015
基于位置	$\alpha_{t,i} = \text{softmax}(\mathbf{W}_a \boldsymbol{s}_t)$ 注意：这简化了 softmax 对齐，只依赖于目标位置。	Luong2015
一般	$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \boldsymbol{s}_t^\top\mathbf{W}_a\boldsymbol{h}_i$ 其中 $\mathbf{W}_a$ 是注意力层中的可训练权重矩阵。	Luong2015
点积	$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \boldsymbol{s}_t^\top\boldsymbol{h}_i$	Luong2015
缩放点积(^)	$\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \frac{\boldsymbol{s}_t^\top\boldsymbol{h}_i}{\sqrt{n}}$ 注意：与点积注意力非常相似，只是多了一个缩放因子；其中 n 是源隐藏状态的维度。	Vaswani2017

(*) 在 Luong 等人的 2015 年论文中被称为“concat”，在 Vaswani 等人的 2017 年论文中被称为“加性注意力”。

(^) 它添加了一个缩放因子 $1/\sqrt{n}$，这是出于当输入较大时的考虑，softmax 函数可能具有极小的梯度，难以进行有效学习。

这里是注意力机制的更广泛类别的总结：

名称	定义	引用
自注意力(&)	关联同一输入序列的不同位置。理论上，自注意力可以采用上述任何评分函数，只是将目标序列替换为相同的输入序列。	Cheng2016
全局/软	关注整个输入状态空间。	Xu2015
本地/硬	关注输入状态空间的一部分；即输入图像的一个补丁。	Xu2015; Luong2015

(&) 也被称为“内部注意力”在 Cheng 等人，2016 和其他一些论文中。

自注意力

自注意力，也称为内部注意力，是一种注意力机制，涉及单个序列的不同位置，以计算相同序列的表示。已经证明在机器阅读、抽象摘要或图像描述生成中非常有用。

长短期记忆网络论文使用自注意力进行机器阅读。在下面的示例中，自注意力机制使我们能够学习当前单词与句子先前部分之间的相关性。

图 6. 当前单词为红色，蓝色阴影的大小表示激活水平。（图片来源：Cheng 等人，2016）

软注意力 vs 硬注意力

在show, attend and tell论文中，注意力机制被应用于图像以生成标题。图像首先由 CNN 编码以提取特征。然后，LSTM 解码器消耗卷积特征逐个生成描述性单词，其中权重通过注意力学习。注意权重的可视化清楚地展示了模型关注图像的哪些区域，以便输出特定单词。

图 7. "一个女人在公园里扔飞盘。"（图片来源：Xu 等人，2015的图 6(b)）

本文首次提出了“软” vs “硬” 注意力的区别，基于注意力是否可以访问整个图像或仅一个补丁：

软注意力：对齐权重是学习的，并“软地”放置在源图像的所有补丁上；本质上与Bahdanau 等人，2015中的注意力相同类型。
- 优点: 模型平滑且可微分。
- 缺点: 当源输入较大时，计算成本高。
硬注意力：一次只选择图像的一个补丁进行关注。
- 优点: 推理时计算量较少。
- 缺点: 模型是不可微分的，需要更复杂的技术，如方差减少或强化学习来训练。(Luong 等人，2015)

全局 vs 本地注意力

Luong 等人，2015提出了“全局”和“局部”注意力机制。全局注意力类似于软注意力，而局部注意力是硬注意力和软注意力之间的有趣融合，是对硬注意力的改进，使其可微分：模型首先预测当前目标词的单个对齐位置，然后使用围绕源位置的窗口来计算上下文向量。

图 8. 全局与局部注意力（图片来源：Luong 等人，2015 中的图 2 和图 3）

神经图灵机

阿兰·图灵在1936 年提出了一种计算的极简模型。它由一个无限长的带和一个与带交互的头组成。带上有无数个单元格，每个单元格填有符号：0、1 或空白（“ ”）。操作头可以读取符号，编辑符号，并在带上左右移动。理论上，图灵机可以模拟任何计算机算法，无论该过程有多复杂或昂贵。无限的存储器使得图灵机在数学上具有无限的可能性。然而，在现实的现代计算机中，无限的存储器是不可行的，因此我们只将图灵机视为计算的数学模型。

图 9. 图灵机的外观：带+处理带的头。（图片来源：aturingmachine.com/）

神经图灵机（NTM，Graves，Wayne＆Danihelka，2014）是一种将神经网络与外部存储器耦合的模型架构。存储器模拟图灵机带，神经网络控制操作头以从带上读取或写入。然而，NTM 中的存储器是有限的，因此它可能更像是“神经冯·诺伊曼机”。

NTM 包含两个主要组件，一个控制器神经网络和一个存储器库。控制器：负责在存储器上执行操作。它可以是任何类型的神经网络，前馈或循环。存储器：存储处理过的信息。它是一个大小为$N \times M$的矩阵，包含 N 个向量行，每个向量有$M$个维度。

在一个更新迭代中，控制器处理输入并相应地与存储器库交互以生成输出。交互由一组并行的读和写头处理。读和写操作都通过软地关注所有存储器地址来“模糊”。

图 10. 神经图灵机架构。

阅读与写作

在时间$t$从内存中读取时，大小为$N$的注意力向量$\mathbf{w}_t$控制分配给不同内存位置（矩阵行）的注意力量。读取向量$\mathbf{r}_t$是按注意力强度加权求和：

\[\mathbf{r}_t = \sum_{i=1}^N w_t(i)\mathbf{M}_t(i)\text{，其中 }\sum_{i=1}^N w_t(i)=1，\forall i: 0 \leq w_t(i) \leq 1 \]

其中$w_t(i)$是$\mathbf{w}_t$中的第$i$个元素，$\mathbf{M}_t(i)$是内存中的第$i$行向量。

在时间$t$写入内存时，受 LSTM 中的输入和遗忘门的启发，写头首先根据擦除向量$\mathbf{e}_t$擦除一些旧内容，然后通过添加向量$\mathbf{a}_t$添加新信息。

\[\begin{aligned} \tilde{\mathbf{M}}_t(i) &= \mathbf{M}_{t-1}(i) [\mathbf{1} - w_t(i)\mathbf{e}_t] &\scriptstyle{\text{；擦除}}\\ \mathbf{M}_t(i) &= \tilde{\mathbf{M}}_t(i) + w_t(i) \mathbf{a}_t &\scriptstyle{\text{；添加}} \end{aligned} \]

注意机制

在神经图灵机中，如何生成注意力分布$\mathbf{w}_t$取决于寻址机制：NTM 使用基于内容和基于位置的寻址的混合。

基于内容的寻址

基于内容的寻址根据控制器从输入和内存行中提取的关键向量$\mathbf{k}_t$之间的相似性创建注意力向量。基于内容的注意力分数通过余弦相似性计算，然后通过 softmax 进行归一化。此外，NTM 添加了一个强度乘数$\beta_t$来放大或减弱分布的焦点。

\[w_t^c(i) = \text{softmax}(\beta_t \cdot \text{cosine}[\mathbf{k}_t, \mathbf{M}_t(i)]) = \frac{\exp(\beta_t \frac{\mathbf{k}_t \cdot \mathbf{M}_t(i)}{\|\mathbf{k}_t\| \cdot \|\mathbf{M}_t(i)\|})}{\sum_{j=1}^N \exp(\beta_t \frac{\mathbf{k}_t \cdot \mathbf{M}_t(j)}{\|\mathbf{k}_t\| \cdot \|\mathbf{M}_t(j)\|})} \]

插值

然后，插值门标量$g_t$用于将新生成的基于内容的注意力向量与上一个时间步的注意力权重混合：

\[\mathbf{w}_t^g = g_t \mathbf{w}_t^c + (1 - g_t) \mathbf{w}_{t-1} \]

基于位置的寻址

基于位置的寻址将不同位置的注意力向量加权求和，权重由允许的整数偏移的加权分布确定。这相当于具有位置偏移函数$\mathbf{s}_t(.)$的 1 维卷积。有多种定义此分布的方法。参见图 11 以获取灵感。

图 11. 表示偏移加权分布$\mathbf{s}\_t$的两种方法。

最后，注意力分布通过一个锐化标量$\gamma_t \geq 1$增强。

\[\begin{aligned} \tilde{w}_t(i) &= \sum_{j=1}^N w_t^g(j) s_t(i-j) & \scriptstyle{\text{; 循环卷积}}\\ w_t(i) &= \frac{\tilde{w}_t(i)^{\gamma_t}}{\sum_{j=1}^N \tilde{w}_t(j)^{\gamma_t}} & \scriptstyle{\text{; 锐化}} \end{aligned} \]

在时间步 t 生成注意力向量 $\mathbf{w}_t$ 的完整过程如图 12 所示。控制器产生的所有参数对于每个头部都是唯一的。如果并行存在多个读写头，控制器将输出多组参数。

图 12. 神经图灵机中的寻址机制流程图。 (图片来源: Graves, Wayne & Danihelka, 2014)

指针网络

在排序或旅行商等问题中，输入和输出都是序列数据。不幸的是，它们不能轻松地通过经典的 seq-2-seq 或 NMT 模型解决，因为输出元素的离散类别事先未确定，而是取决于可变的输入大小。指针网络 (Ptr-Net; Vinyals, et al. 2015) 被提出来解决这类问题：当输出元素对应于输入序列中的位置时。指针网络不会像图 8 中那样使用注意力将编码器的隐藏单元混合到上下文向量中，而是在每个解码器步骤中对输入元素应用注意力以选择一个作为输出。

图 13. 指针网络模型的架构。 (图片来源: Vinyals, et al. 2015)

Ptr-Net 在给定输入向量序列 $\boldsymbol{x} = (x_1, \dots, x_n)$ 和 $1 \leq c_i \leq n$ 的情况下输出一个整数索引序列 $\boldsymbol{c} = (c_1, \dots, c_m)$。该模型仍然采用编码器-解码器框架。编码器和解码器的隐藏状态分别表示为 $(\boldsymbol{h}_1, \dots, \boldsymbol{h}_n)$ 和 $(\boldsymbol{s}_1, \dots, \boldsymbol{s}_m)$。注意，$\mathbf{s}_i$ 是解码器中细胞激活后的输出门。Ptr-Net 在状态之间应用加性注意力，然后通过 softmax 进行归一化以建模输出的条件概率：

\[\begin{aligned} y_i &= p(c_i \vert c_1, \dots, c_{i-1}, \boldsymbol{x}) \\ &= \text{softmax}(\text{score}(\boldsymbol{s}_t; \boldsymbol{h}_i)) = \text{softmax}(\mathbf{v}_a^\top \tanh(\mathbf{W}_a[\boldsymbol{s}_t; \boldsymbol{h}_i])) \end{aligned} \]

注意机制被简化了，因为 Ptr-Net 不会使用注意权重将编码器状态混合到输出中。这样，输出只会响应位置而不是输入内容。

Transformer

“注意力就是一切”（Vaswani 等，2017），毫无疑问，是 2017 年最具影响力和有趣的论文之一。它提出了许多改进软注意力的方法，并使得在没有循环网络单元的情况下进行 seq2seq 建模成为可能。所提出的“transformer”模型完全基于自注意力机制构建，而不使用序列对齐的循环架构。

秘密配方体现在其模型架构中。

键、值和查询

transformer 中的主要组件是多头自注意力机制单元。transformer 将输入的编码表示视为一组维度为$n$（输入序列长度）的键-值对$(\mathbf{K}, \mathbf{V})$；在 NMT 的背景下，键和值都是编码器隐藏状态。在解码器中，先前的输出被压缩成一个维度为$m$的查询（$\mathbf{Q}$），并通过映射这个查询和键值对集合来产生下一个输出。

transformer 采用了缩放点积注意力：输出是值的加权和，其中分配给每个值的权重由查询与所有键的点积确定：

\[\text{注意力}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}})\mathbf{V} \]

多头自注意力

图 14. 多头缩放点积注意力机制。（图片来源：Vaswani 等，2017中的图 2）

多头机制不仅仅计算一次注意力，而是并行多次运行缩放点积注意力。独立的注意力输出简单地连接并线性转换为期望的维度。我猜想这样做的动机是因为集成总是有帮助的？😉 根据论文，“多头注意力允许模型同时关注不同位置的不同表示子空间的信息。使用单个注意力头，平均会抑制这一点。”

\[\begin{aligned} \text{多头}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) &= [\text{头}_1; \dots; \text{头}_h]\mathbf{W}^O \\ \text{其中头}_i &= \text{注意力}(\mathbf{Q}\mathbf{W}^Q_i, \mathbf{K}\mathbf{W}^K_i, \mathbf{V}\mathbf{W}^V_i) \end{aligned} \]

其中$\mathbf{W}^Q_i$、$\mathbf{W}^K_i$、$\mathbf{W}^V_i$和$\mathbf{W}^O$是要学习的参数矩阵。

编码器

图 15. transformer 的编码器。（图片来源：Vaswani 等，2017）

编码器生成基于注意力的表示，能够从潜在无限大的上下文中定位特定信息片段。

一堆 N=6 个相同的层。
每一层都有一个多头自注意力层和一个简单的位置逐点全连接前馈网络。
每个子层都采用了残差连接和一个层归一化。所有子层的输出数据维度都是 $d_\text{model} = 512$。

解码器

图 16. transformer 的解码器。（图片来源：Vaswani, et al., 2017）

解码器能够从编码表示中检索。

一堆叠的 N = 6 个相同层
每一层都有两个子层的多头注意力机制和一个子层的全连接前馈网络。
与编码器类似，每个子层都采用残差连接和层归一化。
第一个多头注意力子层被修改以防止位置关注后续位置，因为在预测当前位置时我们不希望查看目标序列的未来。

完整架构

最后这里是 transformer 架构的完整视图：

源序列和目标序列都首先经过嵌入层，以产生相同维度的数据 $d_\text{model} =512$。
为了保留位置信息，应用了基于正弦波的位置编码，并与嵌入输出相加。
最终解码器输出中添加了 softmax 和线性层。

图 17. transformer 的完整模型架构。（图片来源：Vaswani, et al., 2017中的图 1 和图 2。）

尝试实现 transformer 模型是一次有趣的经历，这是我的实现：lilianweng/transformer-tensorflow。如果你感兴趣，阅读代码中的注释。

SNAIL

Transformer 没有循环或卷积结构，即使在嵌入向量中添加了位置编码，顺序仅被弱化地纳入。对于像强化学习这样对位置依赖性敏感的问题，这可能是一个大问题。

简单神经注意力元学习者（SNAIL）（Mishra et al., 2017）部分地被开发出来解决 transformer 模型中的定位问题，通过将 transformer 中的自注意机制与时间卷积结合起来。已经证明在监督学习和强化学习任务中表现良好。

图 18. SNAIL 模型架构（图片来源：Mishra et al., 2017）

SNAIL 诞生于元学习领域，这是另一个值得单独发帖的重要主题。但简单来说，元学习模型期望能够推广到类似分布中的新颖、未见任务。如果感兴趣，阅读这篇很好的介绍。

自注意力生成对抗网络

自注意力生成对抗网络（SAGAN；Zhang et al., 2018）将自注意力层添加到GAN中，使生成器和鉴别器能够更好地建模空间区域之间的关系。

经典的DCGAN（深度卷积生成对抗网络）将鉴别器和生成器都表示为多层卷积网络。然而，网络的表示能力受到滤波器大小的限制，因为一个像素的特征仅限于一个小的局部区域。为了连接远离的区域，特征必须通过卷积操作的层逐渐稀疏化，而依赖关系不能保证被维持。

在视觉背景下的（软）自注意力被设计为明确学习一个像素与所有其他位置之间的关系，甚至远离的区域，它可以轻松捕捉全局依赖关系。因此，配备自注意力的 GAN 预计能够更好地处理细节，万岁！

图 19. 卷积操作和自注意力可以访问非常不同大小的区域。

SAGAN 采用非局部神经网络来应用注意力计算。卷积图像特征映射$\mathbf{x}$被分成三个副本，对应于变压器中的 key, value, and query 的概念：

键：$f(\mathbf{x}) = \mathbf{W}_f \mathbf{x}$
查询：$g(\mathbf{x}) = \mathbf{W}_g \mathbf{x}$
值：$h(\mathbf{x}) = \mathbf{W}_h \mathbf{x}$

然后我们应用点积注意力来输出自注意力特征映射：

\[ \begin{aligned} \alpha_{i,j} &= \text{softmax}(f(\mathbf{x}_i)^\top g(\mathbf{x}_j)) \\ \mathbf{o}_j &= \mathbf{W}_v \Big( \sum_{i=1}^N \alpha_{i,j} h(\mathbf{x}_i) \Big) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/a300be7adb808f8d3a22989d7bc2860f.png) 图 20. SAGAN 中的自注意力机制。（图片来源：[Zhang et al., 2018](https://arxiv.org/abs/1805.08318)中的图 2）请注意，$\alpha_{i,j}$是注意力图中的一个条目，指示模型在合成第$j$位置时应该关注第$i$位置的程度。$\mathbf{W}_f$、$\mathbf{W}_g$和$\mathbf{W}_h$都是 1x1 卷积滤波器。如果你觉得 1x1 卷积听起来像一个奇怪的概念（即，它不就是用一个数字乘以整个特征图吗？），请观看 Andrew Ng 的这个简短的[教程](https://www.coursera.org/lecture/convolutional-neural-networks/networks-in-networks-and-1x1-convolutions-ZTb8x)。输出$\mathbf{o}_j$是最终输出$\mathbf{o}= (\mathbf{o}_1, \mathbf{o}_2, \dots, \mathbf{o}_j, \dots, \mathbf{o}_N)$的列向量。此外，注意力层的输出乘以一个比例参数，并添加回原始输入特征图： $$ \mathbf{y} = \mathbf{x}_i + \gamma \mathbf{o}_i \]

在训练过程中，当缩放参数$\gamma$逐渐增加时，网络首先配置为依赖于局部区域的线索，然后逐渐学会给远离的区域分配更多的权重。

图 21. 由 SAGAN 生成的不同类别的 128×128 示例图像。（图片来源：Zhang 等人，2018中的部分图 6）

引用为：

@article{weng2018attention,
  title   = "Attention? Attention!",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-06-24-attention/"
}

参考文献

[1] “深度学习和自然语言处理中的注意力和记忆。” - 2016 年 1 月 3 日，作者：Denny Britz

[2] “神经机器翻译（seq2seq）教程”

[3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. “通过联合学习对齐和翻译的神经机器翻译。” ICLR 2015.

[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. “展示、关注和讲述：具有视觉注意力的神经图像标题生成。” ICML，2015。

[5] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. “序列到序列学习与神经网络。” NIPS 2014.

[6] Thang Luong, Hieu Pham, Christopher D. Manning. “基于注意力的神经机器翻译的有效方法。” EMNLP 2015.

[7] Denny Britz, Anna Goldie, Thang Luong, and Quoc Le. “神经机器翻译架构的大规模探索。” ACL 2017.

[8] Ashish Vaswani 等人。“注意力就是一切。” NIPS 2017。

[9] Jianpeng Cheng, Li Dong, and Mirella Lapata. “用于机器阅读的长短期记忆网络。” EMNLP 2016。

[10] Xiaolong Wang 等人。“非局部神经网络。” CVPR 2018

[11] Han Zhang, Ian Goodfellow, Dimitris Metaxas 和 Augustus Odena。“自注意力生成对抗网络。” arXiv 预印本 arXiv:1805.08318 (2018).

[12] Nikhil Mishra, Mostafa Rohaninejad, Xi Chen 和 Pieter Abbeel。“一个简单的神经注意力元学习器。” ICLR 2018.

[13] “WaveNet：原始音频的生成模型” - 2016 年 9 月 8 日，DeepMind。

[14] Oriol Vinyals, Meire Fortunato 和 Navdeep Jaitly。“指针网络。” NIPS 2015.

[15] Alex Graves, Greg Wayne 和 Ivo Danihelka。“神经图灵机。” arXiv 预印本 arXiv:1410.5401 (2014).

使用 Tensorflow + OpenAI Gym 实现深度强化学习模型

原文：lilianweng.github.io/posts/2018-05-05-drl-implementation/

完整的实现可在lilianweng/deep-reinforcement-learning-gym中找到

在之前的两篇文章中，我介绍了许多深度强化学习模型的算法。现在是时候动手实践如何在实践中实现这些模型了。这个实现将在 Tensorflow 和 OpenAI gym环境中构建。本教程中代码的完整版本可在[lilian/deep-reinforcement-learning-gym]中找到。

环境设置

确保您已安装Homebrew：

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

我建议为您的开发启动一个虚拟环境。当您有多个项目具有冲突的要求时，这样做会让生活变得更加轻松；例如，一个在 Python 2.7 中工作，而另一个只与 Python 3.5+兼容。

# Install python virtualenv brew install pyenv-virtualenv # Create a virtual environment of any name you like with Python 3.6.4 support pyenv virtualenv 3.6.4 workspace # Activate the virtualenv named "workspace" pyenv activate workspace

[] 对于以下每个新安装，请确保您在虚拟环境中。*

根据说明安装 OpenAI gym。要进行最小安装，请运行：

git clone https://github.com/openai/gym.git cd gym pip install -e .

如果您对玩 Atari 游戏或其他高级软件包感兴趣，请继续安装一些系统软件包。

brew install cmake boost boost-python sdl2 swig wget

对于 Atari，转到 gym 目录并使用 pip 进行安装。如果您在 ALE（arcade learning environment）安装中遇到问题，这篇文章非常有帮助。

pip install -e '.[atari]'

最后克隆“playground”代码并安装所需的软件包。

git clone git@github.com:lilianweng/deep-reinforcement-learning-gym.git cd deep-reinforcement-learning-gym pip install -e .  # install the "playground" project. pip install -r requirements.txt  # install required packages.

健身房环境

OpenAI Gym工具包提供了一组物理仿真环境、游戏和机器人模拟器，我们可以使用它们并为其设计强化学习代理。可以通过gym.make("{环境名称}"来初始化一个环境对象：

import gym env = gym.make("MsPacman-v0")

环境的动作和观察的格式分别由env.action_space和env.observation_space定义。

gym spaces的类型：

gym.spaces.Discrete(n): 从 0 到 n-1 的离散值。
gym.spaces.Box: 数值向量的多维数组，每个维度的上下界由Box.low和Box.high定义。

我们通过两个主要的 API 调用与环境进行交互：

ob = env.reset()

将环境重置为原始设置。
返回初始观察。

ob_next, reward, done, info = env.step(action)

在环境中应用一个与env.action_space兼容的动作。
返回新的观察 ob_next（env.observation_space）、奖励（float）、done 标志（bool）和其他元信息（dict）。如果 done=True，则该回合已完成，我们应该重置环境以重新开始。更多信息请阅读这里。

Naive Q-Learning

Q 学习（Watkins & Dayan, 1992）学习动作值（“Q 值”）并根据贝尔曼方程进行更新。关键点是在估计下一个动作时，它不遵循当前策略，而是独立采用最佳的 Q 值（红色部分）。

\[Q(s, a) \leftarrow (1 - \alpha) Q(s, a) + \alpha (r + \gamma \color{red}{\max_{a' \in \mathcal{A}} Q(s', a')}) \]

在一个简单的实现中，所有 (s, a) 对的 Q 值可以简单地在字典中跟踪。尚未涉及复杂的机器学习模型。

from collections import defaultdict Q = defaultdict(float) gamma = 0.99  # Discounting factor alpha = 0.5  # soft update param   env = gym.make("CartPole-v0") actions = range(env.action_space)   def update_Q(s, r, a, s_next, done):  max_q_next = max([Q[s_next, a] for a in actions]) # Do not include the next state's value if currently at the terminal state. Q[s, a] += alpha * (r + gamma * max_q_next * (1.0 - done) - Q[s, a])

大多数 gym 环境具有多维连续观察空间（gym.spaces.Box）。为了确保我们的 Q 字典不会因尝试记住无限数量的键而爆炸，我们应用一个包装器来离散化观察。包装器的概念非常强大，我们可以用它来定制环境的观察、动作、步骤函数等。无论应用了多少个包装器，env.unwrapped始终会返回内部原始环境对象。

import gym   class DiscretizedObservationWrapper(gym.ObservationWrapper):  """This wrapper converts a Box observation into a single integer. """ def __init__(self, env, n_bins=10, low=None, high=None): super().__init__(env) assert isinstance(env.observation_space, Box)   low = self.observation_space.low if low is None else low high = self.observation_space.high if high is None else high   self.n_bins = n_bins self.val_bins = [np.linspace(l, h, n_bins + 1) for l, h in zip(low.flatten(), high.flatten())] self.observation_space = Discrete(n_bins ** low.flatten().shape[0])   def _convert_to_one_number(self, digits): return sum([d * ((self.n_bins + 1) ** i) for i, d in enumerate(digits)])   def observation(self, observation): digits = [np.digitize([x], bins)[0] for x, bins in zip(observation.flatten(), self.val_bins)] return self._convert_to_one_number(digits)     env = DiscretizedObservationWrapper(  env, n_bins=8, low=[-2.4, -2.0, -0.42, -3.5], high=[2.4, 2.0, 0.42, 3.5] )

让我们将与 gym 环境的交互插入，并在生成新转换时每次更新 Q 函数。在选择动作时，我们使用 ε-贪心来强制探索。

import gym import numpy as np n_steps = 100000 epsilon = 0.1  # 10% chances to apply a random action   def act(ob):  if np.random.random() < epsilon: # action_space.sample() is a convenient function to get a random action # that is compatible with this given action space. return env.action_space.sample()   # Pick the action with highest q value. qvals = {a: q[state, a] for a in actions} max_q = max(qvals.values()) # In case multiple actions have the same maximum q value. actions_with_max_q = [a for a, q in qvals.items() if q == max_q] return np.random.choice(actions_with_max_q)   ob = env.reset() rewards = [] reward = 0.0   for step in range(n_steps):  a = act(ob) ob_next, r, done, _ = env.step(a) update_Q(ob, r, a, ob_next, done) reward += r if done: rewards.append(reward) reward = 0.0 ob = env.reset() else: ob = ob_next

通常我们从一个较高的 epsilon 开始，并在训练过程中逐渐减小它，这被称为“epsilon 退火”。QLearningPolicy的完整代码可以在这里找到。

深度 Q 网络

深度 Q 网络是一项开创性的工作，使得 Q 学习的训练更加稳定和更加高效，当 Q 值用非线性函数逼近时。经验回放和一个单独更新的目标网络是两个关键要素。

主要损失函数如下所示，

\[\begin{aligned} & Y(s, a, r, s') = r + \gamma \max_{a'} Q_{\theta^{-}}(s', a') \\ & \mathcal{L}(\theta) = \mathbb{E}_{(s, a, r, s') \sim U(D)} \Big[ \big( Y(s, a, r, s') - Q_\theta(s, a) \big)² \Big] \end{aligned} \]

Q 网络可以是多层密集神经网络、卷积网络或循环网络，具体取决于问题。在 DQN 策略的完整实现中，它由model_type参数确定，其中之一为（“dense”，“conv”，“lstm”）。

在以下示例中，我正在使用一个 2 层密集连接的神经网络来学习小车摆动问题的 Q 值。

import gym env = gym.make('CartPole-v1') # The observation space is `Box(4,)`, a 4-element vector. observation_size = env.observation_space.shape[0]

我们有一个用于创建下面网络的辅助函数：

import tensorflow as tf def dense_nn(inputs, layers_sizes, scope_name):  """Creates a densely connected multi-layer neural network. inputs: the input tensor layers_sizes (list<int>): defines the number of units in each layer. The output layer has the size layers_sizes[-1]. """ with tf.variable_scope(scope_name): for i, size in enumerate(layers_sizes): inputs = tf.layers.dense( inputs, size, # Add relu activation only for internal layers. activation=tf.nn.relu if i < len(layers_sizes) - 1 else None, kernel_initializer=tf.contrib.layers.xavier_initializer(), name=scope_name + '_l' + str(i) ) return inputs

Q 网络和目标网络通过一批转换（状态、动作、奖励、下一个状态、完成标志）进行更新。输入张量为：

batch_size = 32  # A tunable hyperparameter.   states = tf.placeholder(tf.float32, shape=(batch_size, observation_size), name='state') states_next = tf.placeholder(tf.float32, shape=(batch_size, observation_size), name='state_next') actions = tf.placeholder(tf.int32, shape=(batch_size,), name='action') rewards = tf.placeholder(tf.float32, shape=(batch_size,), name='reward') done_flags = tf.placeholder(tf.float32, shape=(batch_size,), name='done')

我们有两个相同结构的网络。两者具有相同的网络架构，状态观察作为输入，所有动作的 Q 值作为输出。

q = dense(states, [32, 32, 2], name='Q_primary') q_target = dense(states_next, [32, 32, 2], name='Q_target')

目标网络“Q_target”以states_next张量作为输入，因为我们使用其预测来选择贝尔曼方程中的最佳下一个状态。

# The prediction by the primary Q network for the actual actions. action_one_hot = tf.one_hot(actions, act_size, 1.0, 0.0, name='action_one_hot') pred = tf.reduce_sum(q * action_one_hot, reduction_indices=-1, name='q_acted')   # The optimization target defined by the Bellman equation and the target network. max_q_next_by_target = tf.reduce_max(q_target, axis=-1) y = rewards + (1. - done_flags) * gamma * max_q_next_by_target   # The loss measures the mean squared error between prediction and target. loss = tf.reduce_mean(tf.square(pred - tf.stop_gradient(y)), name="loss_mse_train") optimizer = tf.train.AdamOptimizer(0.001).minimize(loss, name="adam_optim")

注意在目标 y 上使用tf.stop_gradient()，因为目标网络在损失最小化梯度更新期间应保持固定。

目标网络通过每C步复制主 Q 网络参数进行更新（“硬更新”）或向主网络进行 Polyak 平均（“软更新”）。

# Get all the variables in the Q primary network. q_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope="Q_primary") # Get all the variables in the Q target network. q_target_vars = tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope="Q_target") assert len(q_vars) == len(q_target_vars)   def update_target_q_net_hard():  # Hard update sess.run([v_t.assign(v) for v_t, v in zip(q_target_vars, q_vars)])   def update_target_q_net_soft(tau=0.05):  # Soft update: polyak averaging. sess.run([v_t.assign(v_t * (1. - tau) + v * tau) for v_t, v in zip(q_target_vars, q_vars)])

双 Q 学习

如果我们查看 Q 值目标的标准形式，$Y(s, a) = r + \gamma \max_{a’ \in \mathcal{A}} Q_\theta (s’, a’)$，很容易注意到我们使用$Q_\theta$来选择在状态 s’时的最佳下一个动作，然后应用相同$Q_\theta$预测的动作值。这种两步强化过程可能导致对（已经）过度估计的值进行进一步估计，进而导致训练不稳定。双 Q 学习提出的解决方案（Hasselt, 2010）是通过使用两个 Q 网络$Q_1$和$Q_2$来解耦动作选择和动作值估计：当$Q_1$正在更新时，$Q_2$决定最佳的下一个动作，反之亦然。

\[Y_1(s, a, r, s') = r + \gamma Q_1 (s', \arg\max_{a' \in \mathcal{A}}Q_2(s', a'))\\ Y_2(s, a, r, s') = r + \gamma Q_2 (s', \arg\max_{a' \in \mathcal{A}}Q_1(s', a')) \]

要将双 Q 学习合并到 DQN 中，最小的修改（Hasselt, Guez, & Silver, 2016）是使用主 Q 网络选择动作，而动作值由目标网络估计：

\[Y(s, a, r, s') = r + \gamma Q_{\theta^{-}}(s', \arg\max_{a' \in \mathcal{A}} Q_\theta(s', a')) \]

在代码中，我们添加一个新的张量用于获取主 Q 网络选择的动作作为输入，以及一个张量操作用于选择此动作。

actions_next = tf.placeholder(tf.int32, shape=(None,), name='action_next') actions_selected_by_q = tf.argmax(q, axis=-1, name='action_selected')

在损失函数中，预测目标 y 变为：

actions_next_flatten = actions_next + tf.range(0, batch_size) * q_target.shape[1] max_q_next_target = tf.gather(tf.reshape(q_target, [-1]), actions_next_flatten) y = rewards + (1. - done_flags) * gamma * max_q_next_by_target

这里我使用tf.gather()来选择感兴趣的动作值。

（图片来源：tf.gather()文档）

在剧集推出期间，我们通过将下一个状态的数据输入到actions_selected_by_q操作中来计算actions_next。

# batch_data is a dict with keys, ‘s', ‘a', ‘r', ‘s_next' and ‘done', containing a batch of transitions. actions_next = sess.run(actions_selected_by_q, {states: batch_data['s_next']})

对抗 Q 网络

对抗 Q 网络（Wang 等，2016）配备了增强的网络架构：输出层分为两个头，一个用于预测状态值 V，另一个用于优势A。然后重新构建 Q 值，$Q(s, a) = V(s) + A(s, a)$。

\[\begin{aligned} A(s, a) &= Q(s, a) - V(s)\\ V(s) &= \sum_a Q(s, a) \pi(a \vert s) = \sum_a (V(s) + A(s, a)) \pi(a \vert s) = V(s) + \sum_a A(s, a)\pi(a \vert s)\\ \text{因此，}& \sum_a A(s, a)\pi(a \vert s) = 0 \end{aligned} \]

为了确保估计的优势值总和为零，$\sum_a A(s, a)\pi(a \vert s) = 0$，我们从预测中减去均值。

\[Q(s, a) = V(s) + (A(s, a) - \frac{1}{|\mathcal{A}|} \sum_a A(s, a)) \]

代码更改很简单：

q_hidden = dense_nn(states, [32], name='Q_primary_hidden') adv = dense_nn(q_hidden, [32, env.action_space.n], name='Q_primary_adv') v = dense_nn(q_hidden, [32, 1], name='Q_primary_v')   # Average dueling q = v + (adv - tf.reduce_mean(adv, reduction_indices=1, keepdims=True))

（图片来源：Wang 等，2016）

查看代码以获取完整流程。

蒙特卡洛策略梯度

我在我的上一篇文章中回顾了一些流行的策略梯度方法。蒙特卡洛策略梯度，也称为REINFORCE，是一种经典的在线方法，它明确地学习策略模型。它使用从完整在线轨迹估计的回报，并使用策略梯度更新策略参数。

返回值是在推出期间计算的，然后作为输入馈送到 Tensorflow 图中。

# Inputs states = tf.placeholder(tf.float32, shape=(None, obs_size), name='state') actions = tf.placeholder(tf.int32, shape=(None,), name='action') returns = tf.placeholder(tf.float32, shape=(None,), name='return')

构建策略网络。我们通过最小化损失函数$\mathcal{L} = - (G_t - V(s)) \log \pi(a \vert s)$来更新策略参数。tf.nn.sparse_softmax_cross_entropy_with_logits()要求输入原始 logits，而不是 softmax 后的概率，这就是为什么我们在策略网络顶部没有 softmax 层。

# Policy network pi = dense_nn(states, [32, 32, env.action_space.n], name='pi_network') sampled_actions = tf.squeeze(tf.multinomial(pi, 1))  # For sampling actions according to probabilities.   with tf.variable_scope('pi_optimize'):  loss_pi = tf.reduce_mean( returns * tf.nn.sparse_softmax_cross_entropy_with_logits( logits=pi, labels=actions), name='loss_pi') optim_pi = tf.train.AdamOptimizer(0.001).minimize(loss_pi, name='adam_optim_pi')

在剧集推出期间，返回值计算如下：

# env = gym.make(...) # gamma = 0.99 # sess = tf.Session(...)   def act(ob):  return sess.run(sampled_actions, {states: [ob]})   for _ in range(n_episodes):  ob = env.reset() done = False   obs = [] actions = [] rewards = [] returns = []   while not done: a = act(ob) new_ob, r, done, info = env.step(a)   obs.append(ob) actions.append(a) rewards.append(r) ob = new_ob   # Estimate returns backwards. return_so_far = 0.0 for r in rewards[::-1]: return_so_far = gamma * return_so_far + r returns.append(return_so_far)   returns = returns[::-1]   # Update the policy network with the data from one episode. sess.run([optim_pi], feed_dict={ states: np.array(obs), actions: np.array(actions), returns: np.array(returns), })

REINFORCE 的完整实现在这里。

演员-评论家

演员-评论家算法同时学习两个模型，一个用于学习最佳策略，另一个用于估计状态值。

初始化演员网络，$\pi(a \vert s)$ 和评论家，$V(s)$
收集新的转换（s, a, r, s’）：对当前状态 s 采样动作 $a \sim \pi(a \vert s)$，获得奖励 r 和下一个状态 s'。
在回合推出期间计算 TD 目标，$G_t = r + \gamma V(s’)$ 和 TD 误差，$\delta_t = r + \gamma V(s’) - V(s)$。
通过最小化评论家损失更新评论家网络：$L_c = (V(s) - G_t)$。
通过最小化演员损失更新演员网络：$L_a = - \delta_t \log \pi(a \vert s)$。
设定 s’ = s 并重复步骤 2.-5.

总体而言，实现看起来与 REINFORCE 非常相似，只是多了一个评论家网络。完整的实现在这里。

# Inputs states = tf.placeholder(tf.float32, shape=(None, observation_size), name='state') actions = tf.placeholder(tf.int32, shape=(None,), name='action') td_targets = tf.placeholder(tf.float32, shape=(None,), name='td_target')   # Actor: action probabilities actor = dense_nn(states, [32, 32, env.action_space.n], name='actor')   # Critic: action value (Q-value) critic = dense_nn(states, [32, 32, 1], name='critic')   action_ohe = tf.one_hot(actions, act_size, 1.0, 0.0, name='action_one_hot') pred_value = tf.reduce_sum(critic * action_ohe, reduction_indices=-1, name='q_acted') td_errors = td_targets - tf.reshape(pred_value, [-1])   with tf.variable_scope('critic_train'):  loss_c = tf.reduce_mean(tf.square(td_errors)) optim_c = tf.train.AdamOptimizer(0.01).minimize(loss_c)   with tf.variable_scope('actor_train'):  loss_a = tf.reduce_mean( tf.stop_gradient(td_errors) * tf.nn.sparse_softmax_cross_entropy_with_logits( logits=actor, labels=actions), name='loss_actor') optim_a = tf.train.AdamOptimizer(0.01).minimize(loss_a)   train_ops = [optim_c, optim_a]

Tensorboard 图表总是很有帮助：

参考文献

[1] Tensorflow API 文档

[2] Christopher JCH Watkins 和 Peter Dayan。“Q 学习。” 机器学习 8.3-4（1992）：279-292。

[3] Hado Van Hasselt，Arthur Guez 和 David Silver。“双 Q 学习的深度强化学习。” AAAI. Vol. 16. 2016.

[4] Hado van Hasselt。“双 Q 学习。” NIPS，23:2613–2621，2010.

[5] Ziyu Wang 等人。深度强化学习的对抗网络架构。 ICML. 2016.

策略梯度算法

原文：lilianweng.github.io/posts/2018-04-08-policy-gradient/

更新于 2018-06-30：添加了两种新的策略梯度方法，[SAC 和 D4PG。]

更新于 2018-09-30：添加了一种新的策略梯度方法，[TD3。]

更新于 2019-02-09：添加了[SAC 自动调整温度。]

[更新于 2019-06-26：感谢 Chanseok，我们有一篇韩文版本的这篇文章。]

更新于 2019-09-12：添加了一种新的策略梯度方法[SVPG。]

更新于 2019-12-22：添加了一种新的策略梯度方法[IMPALA。]

更新于 2020-10-15：添加了一种新的策略梯度方法[PPG 和一些关于 PPO 的新讨论。]

[更新于 2021-09-19：感谢 Wenhao & 爱吃猫的鱼，我们有这篇文章的中文 1 & 中文 2版本。]

什么是策略梯度

策略梯度是解决强化学习问题的一种方法。如果您还没有了解强化学习领域，请先阅读本文中关于问题定义和关键概念的部分“深入了解强化学习 » 关键概念”。

符号

这里是一个符号列表，帮助您轻松阅读文章中的方程式。

符号	含义
$s \in \mathcal{S}$	状态。
$a \in \mathcal{A}$	动作。
$r \in \mathcal{R}$	奖励。
$S_t, A_t, R_t$	一个轨迹在时间步$t$的状态、动作和奖励。我有时也会使用$s_t, a_t, r_t$。
$\gamma$	折现因子；对未来奖励的不确定性进行惩罚；$0<\gamma \leq 1$。
$G_t$	返回值；或者折现未来奖励；$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$。
$P(s’, r \vert s, a)$	从当前状态$s$经过动作$a$和奖励$r$到达下一个状态$s’$的转移概率。
$\pi(a \vert s)$	随机策略（代理行为策略）；$\pi_\theta(.)$是一个由$\theta$参数化的策略。
$\mu(s)$	确定性策略；我们也可以将其标记为$\pi(s)$，但使用不同的字母可以更好地区分，以便我们可以轻松区分策略是随机的还是确定性的，而无需进一步解释。$\pi$或$\mu$是强化学习算法的学习目标。
$V(s)$	状态值函数衡量状态$s$的期望回报；$V_w(.)$是一个由$w$参数化的值函数。
$V^\pi(s)$	当我们遵循策略$\pi$时状态$s$的值；$V^\pi (s) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s]$。
$Q(s, a)$	行动值函数类似于 $V(s)$，但评估的是状态和动作对 $(s, a)$ 的预期回报；$Q_w(.)$ 是由 $w$ 参数化的行动值函数。
$Q^\pi(s, a)$	类似于 $V^\pi(.)$，当我们遵循策略 $\pi$ 时，（状态，动作）对的值；$Q^\pi(s, a) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s, A_t = a]$。
$A(s, a)$	优势函数，$A(s, a) = Q(s, a) - V(s)$；可以将其视为以状态值为基准的 Q 值的另一版本，具有更低的方差。

策略梯度

强化学习的目标是为代理找到一种获取最优奖励的行为策略。策略梯度方法旨在直接对策略进行建模和优化。策略通常用关于 $\theta$ 的参数化函数来建模，$\pi_\theta(a \vert s)$。奖励（目标）函数的值取决于这个策略，然后可以应用各种算法来优化 $\theta$ 以获得最佳奖励。

奖励函数定义如下：

\[J(\theta) = \sum_{s \in \mathcal{S}} d^\pi(s) V^\pi(s) = \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a) \]

其中 $d^\pi(s)$ 是 $\pi_\theta$ 的马尔可夫链的稳态分布（在 $\pi$ 下的策略状态分布）。为简单起见，当策略出现在其他函数的下标中时，策略 $\pi_\theta$ 的参数 $\theta$ 将被省略；例如，如果完整书写，则 $d^{\pi}$ 和 $Q^\pi$ 应该是 $d^{\pi_\theta}$ 和 $Q^{\pi_\theta}$。

想象一下，你可以永远沿着马尔可夫链的状态旅行，随着时间的推移，你最终停留在某个状态的概率保持不变 —— 这就是 $\pi_\theta$ 的稳态概率。$d^\pi(s) = \lim_{t \to \infty} P(s_t = s \vert s_0, \pi_\theta)$ 是从 $s_0$ 开始，按照策略 $\pi_\theta$ 进行 t 步后，$s_t=s$ 的概率。实际上，马尔可夫链的稳态分布的存在是 PageRank 算法有效的主要原因之一。如果想要了解更多，请查看这里。

自然而然地期望基于策略的方法在连续空间中更有用。因为有无限数量的动作和（或）状态需要估计值，因此在连续空间中价值为基础的方法在计算上过于昂贵。例如，在广义策略迭代中，策略改进步骤 $\arg\max_{a \in \mathcal{A}} Q^\pi(s, a)$ 需要对动作空间进行全面扫描，受到维度诅咒的困扰。

使用梯度上升，我们可以将$\theta$沿着梯度$\nabla_\theta J(\theta)$建议的方向移动，以找到产生最高回报的$\pi_\theta$的最佳$\theta$。

策略梯度定理

计算梯度$\nabla_\theta J(\theta)$很棘手，因为它取决于动作选择（直接由$\pi_\theta$确定）和遵循目标选择行为的状态稳态分布（间接由$\pi_\theta$确定）。鉴于环境通常是未知的，很难估计通过策略更新对状态分布的影响。

幸运的是，策略梯度定理来拯救世界了！哇哦！它提供了一个很好的改写目标函数的导数，不涉及状态分布的导数$d^\pi(.)$，并且大大简化了梯度计算$\nabla_\theta J(\theta)$。

\[\begin{aligned} \nabla_\theta J(\theta) &= \nabla_\theta \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \\ &\propto \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) \end{aligned} \]

策略梯度定理的证明

这一部分非常密集，因为现在是我们通过证明（Sutton & Barto, 2017; Sec. 13.1）来弄清楚为什么策略梯度定理是正确的时候了。

我们首先从状态值函数的导数开始：

\[\begin{aligned} & \nabla_\theta V^\pi(s) \\ =& \nabla_\theta \Big(\sum_{a \in \mathcal{A}} \pi_\theta(a \vert s)Q^\pi(s, a) \Big) & \\ =& \sum_{a \in \mathcal{A}} \Big( \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\nabla_\theta Q^\pi(s, a)} \Big) & \scriptstyle{\text{; 导数乘积法则。}} \\ =& \sum_{a \in \mathcal{A}} \Big( \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\nabla_\theta \sum_{s', r} P(s',r \vert s,a)(r + V^\pi(s'))} \Big) & \scriptstyle{\text{; 将} Q^\pi \text{扩展为未来状态值。}} \\ =& \sum_{a \in \mathcal{A}} \Big( \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\sum_{s', r} P(s',r \vert s,a) \nabla_\theta V^\pi(s')} \Big) & \scriptstyle{P(s',r \vert s,a) \text{或} r \text{不是}\theta\text{的函数}}\\ =& \sum_{a \in \mathcal{A}} \Big( \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) + \pi_\theta(a \vert s) \color{red}{\sum_{s'} P(s' \vert s,a) \nabla_\theta V^\pi(s')} \Big) & \scriptstyle{\text{; 因为} P(s' \vert s, a) = \sum_r P(s', r \vert s, a)} \end{aligned} \]

现在我们有：

\[\color{red}{\nabla_\theta V^\pi(s)} = \sum_{a \in \mathcal{A}} \Big( \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) + \pi_\theta(a \vert s) \sum_{s'} P(s' \vert s,a) \color{red}{\nabla_\theta V^\pi(s')} \Big) \]

这个方程有一个很好的递归形式（看红色部分！），未来状态值函数$V^\pi(s’)$可以通过遵循相同方程重复展开。

让我们考虑以下访问序列，并将从状态 s 到状态 x 的概率标记为$\pi_\theta$策略下经过 k 步的$\rho^\pi(s \to x, k)$。

\[s \xrightarrow[]{a \sim \pi_\theta(.\vert s)} s' \xrightarrow[]{a \sim \pi_\theta(.\vert s')} s'' \xrightarrow[]{a \sim \pi_\theta(.\vert s'')} \dots \]

当 k = 0 时：$\rho^\pi(s \to s, k=0) = 1$。
当 k = 1 时，我们遍历所有可能的动作，并将过渡概率相加到目标状态：$\rho^\pi(s \to s’, k=1) = \sum_a \pi_\theta(a \vert s) P(s’ \vert s, a)$。
想象一下，目标是在遵循策略$\pi_\theta$的情况下，在 k+1 步后从状态 s 到 x。我们可以先在 k 步后从 s 移动到一个中间点 s'（任何状态都可以是中间点，$s' \in \mathcal{S}$），然后在最后一步到达最终状态 x。通过这种方式，我们能够递归更新访问概率：$\rho^\pi(s \to x, k+1) = \sum_{s'} \rho^\pi(s \to s', k) \rho^\pi(s’ \to x, 1)$。

然后我们回到展开$\nabla_\theta V^\pi(s)$的递归表示！让$\phi(s) = \sum_{a \in \mathcal{A}} \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a)$来简化数学问题。如果我们不断延伸$\nabla_\theta V^\pi(.)$，很容易发现我们可以在这个展开过程中从起始状态 s 过渡到任何状态，并通过累加所有访问概率，我们得到$\nabla_\theta V^\pi(s)$！

\[\begin{aligned} & \color{red}{\nabla_\theta V^\pi(s)} \\ =& \phi(s) + \sum_a \pi_\theta(a \vert s) \sum_{s'} P(s' \vert s,a) \color{red}{\nabla_\theta V^\pi(s')} \\ =& \phi(s) + \sum_{s'} \sum_a \pi_\theta(a \vert s) P(s' \vert s,a) \color{red}{\nabla_\theta V^\pi(s')} \\ =& \phi(s) + \sum_{s'} \rho^\pi(s \to s', 1) \color{red}{\nabla_\theta V^\pi(s')} \\ =& \phi(s) + \sum_{s'} \rho^\pi(s \to s', 1) \color{red}{\nabla_\theta V^\pi(s')} \\ =& \phi(s) + \sum_{s'} \rho^\pi(s \to s', 1) \color{red}{[ \phi(s') + \sum_{s''} \rho^\pi(s' \to s'', 1) \nabla_\theta V^\pi(s'')]} \\ =& \phi(s) + \sum_{s'} \rho^\pi(s \to s', 1) \phi(s') + \sum_{s''} \rho^\pi(s \to s'', 2)\color{red}{\nabla_\theta V^\pi(s'')} \scriptstyle{\text{ ; 将}s'\text{视为}s \to s''\text{的中间点}\\ =& \phi(s) + \sum_{s'} \rho^\pi(s \to s', 1) \phi(s') + \sum_{s''} \rho^\pi(s \to s'', 2)\phi(s'') + \sum_{s'''} \rho^\pi(s \to s''', 3)\color{red}{\nabla_\theta V^\pi(s''')} \\ =& \dots \scriptstyle{\text{; 反复展开}\nabla_\theta V^\pi(.)\text{的部分}} \\ =& \sum_{x\in\mathcal{S}}\sum_{k=0}^\infty \rho^\pi(s \to x, k) \phi(x) \end{aligned} \]

上面的良好重写使我们能够排除 Q 值函数的导数，$\nabla_\theta Q^\pi(s, a)$。将其代入目标函数$J(\theta)$，我们得到以下结果：

\[\begin{aligned} \nabla_\theta J(\theta) &= \nabla_\theta V^\pi(s_0) & \scriptstyle{\text{；从一个随机状态 } s_0 \text{ 开始}} \\ &= \sum_{s}\color{blue}{\sum_{k=0}^\infty \rho^\pi(s_0 \to s, k)} \phi(s) &\scriptstyle{\text{；让 }\color{blue}{\eta(s) = \sum_{k=0}^\infty \rho^\pi(s_0 \to s, k)} } \\ &= \sum_{s}\eta(s) \phi(s) & \\ &= \Big( {\sum_s \eta(s)} \Big)\sum_{s}\frac{\eta(s)}{\sum_s \eta(s)} \phi(s) & \scriptstyle{\text{；将 }\eta(s) \text{ 规范化为概率分布。}}\\ &\propto \sum_s \frac{\eta(s)}{\sum_s \eta(s)} \phi(s) & \scriptstyle{\sum_s \eta(s) \text{ 是一个常数}} \\ &= \sum_s d^\pi(s) \sum_a \nabla_\theta \pi_\theta(a \vert s)Q^\pi(s, a) & \scriptstyle{d^\pi(s) = \frac{\eta(s)}{\sum_s \eta(s)}\text{ 是稳态分布。}} \end{aligned} \]

在情节性案例中，比例常数（$\sum_s \eta(s)$）是一个情节的平均长度；在连续性案例中，它是 1（Sutton & Barto, 2017; Sec. 13.2）。梯度可以进一步写为：

\[\begin{aligned} \nabla_\theta J(\theta) &\propto \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) &\\ &= \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a) \frac{\nabla_\theta \pi_\theta(a \vert s)}{\pi_\theta(a \vert s)} &\\ &= \mathbb{E}_\pi [Q^\pi(s, a) \nabla_\theta \ln \pi_\theta(a \vert s)] & \scriptstyle{\text{；因为 } (\ln x)' = 1/x} \end{aligned} \]

当状态和动作分布都遵循策略 $\pi_\theta$ 时，$\mathbb{E}_\pi$ 指的是 $\mathbb{E}_{s \sim d_\pi, a \sim \pi_\theta}$（在策略上）。

策略梯度定理为各种策略梯度算法奠定了理论基础。这种基本策略梯度更新没有偏差，但方差很高。许多后续算法被提出来降低方差，同时保持偏差不变。

\[\nabla_\theta J(\theta) = \mathbb{E}_\pi [Q^\pi(s, a) \nabla_\theta \ln \pi_\theta(a \vert s)] \]

这里有一个关于从 GAE（general advantage estimation）论文（Schulman et al., 2016）借鉴的策略梯度方法的一般形式的精彩总结，这篇文章对 GAE 中的几个组成部分进行了深入讨论，强烈推荐阅读。

图 1. 策略梯度方法的一般形式。（图片来源：Schulman et al., 2016）

策略梯度算法

近年来提出了大量的策略梯度算法，我无法逐一列举。我将介绍一些我偶然了解和阅读过的算法。

REINFORCE

REINFORCE（蒙特卡洛政策梯度）依赖于使用剧集样本的蒙特卡洛方法估计的回报来更新政策参数 $\theta$。REINFORCE 之所以有效是因为样本梯度的期望等于实际梯度：

\[\begin{aligned} \nabla_\theta J(\theta) &= \mathbb{E}_\pi [Q^\pi(s, a) \nabla_\theta \ln \pi_\theta(a \vert s)] & \\ &= \mathbb{E}_\pi [G_t \nabla_\theta \ln \pi_\theta(A_t \vert S_t)] & \scriptstyle{\text{; 因为 } Q^\pi(S_t, A_t) = \mathbb{E}_\pi[G_t \vert S_t, A_t]} \end{aligned} \]

因此，我们能够从真实样本轨迹中测量 $G_t$ 并用它来更新我们的政策梯度。它依赖于完整的轨迹，这就是为什么它是一种蒙特卡洛方法。

过程非常简单：

随机初始化策略参数 $\theta`。
在策略 $\pi_\theta$ 上生成一个轨迹：$S_1, A_1, R_2, S_2, A_2, \dots, S_T$。
对于 t=1, 2, … , T:
1. 估计回报 $G_t$;
2. 更新策略参数：$\theta \leftarrow \theta + \alpha \gamma^t G_t \nabla_\theta \ln \pi_\theta(A_t \vert S_t)$

REINFORCE 的一个广泛使用的变体是从回报 $G_t$ 中减去一个基线值，以减少梯度估计的方差同时保持偏差不变（记住，我们总是在可能的情况下要这样做）。例如，一个常见的基线是从动作值中减去状态值，如果应用，我们将在梯度上升更新中使用优势 $A(s, a) = Q(s, a) - V(s)$。这篇文章很好地解释了为什么基线可以减少方差，除了一组政策梯度基础知识。

演员-评论家

政策梯度中的两个主要组成部分是政策模型和价值函数。学习价值函数除了学习政策外是有很多意义的，因为了解价值函数可以辅助政策更新，例如通过减少香草政策梯度中的梯度方差，这正是演员-评论家方法所做的。

演员-评论家方法由两个模型组成，这两个模型可以选择性地共享参数：

评论家更新价值函数参数 w，根据算法的不同，它可以是动作值 $Q_w(a \vert s)$ 或状态值 $V_w(s)$。
演员根据评论家建议的方向更新策略参数 $\theta$ 为 $\pi_\theta(a \vert s)$。

让我们看看它是如何在一个简单的动作值演员-评论家算法中运作的。

随机初始化 $s, \theta, w$; 采样 $a \sim \pi_\theta(a \vert s)$.
对于 $t = 1 \dots T$:
1. 采样奖励 $r_t \sim R(s, a)$ 和下一个状态 $s’ \sim P(s’ \vert s, a)$;
2. 然后采样下一个动作 $a’ \sim \pi_\theta(a’ \vert s’)$;
3. 更新策略参数：$\theta \leftarrow \theta + \alpha_\theta Q_w(s, a) \nabla_\theta \ln \pi_\theta(a \vert s)$;
4. 计算时间 t 的动作值的校正（TD 误差）：
  
  $\delta_t = r_t + \gamma Q_w(s’, a’) - Q_w(s, a)$
  
  并将其用于更新动作值函数的参数：
  
  $w \leftarrow w + \alpha_w \delta_t \nabla_w Q_w(s, a)$
5. 更新 $a \leftarrow a’$ 和 $s \leftarrow s’$。

两个学习率，$\alpha_\theta$ 和 $\alpha_w$，分别预定义用于策略和值函数参数更新。

离策略策略梯度

REINFORCE 和演员-评论方法的基本版本都是在策略上的：训练样本是根据目标策略收集的 —— 我们试图优化的完全相同的策略。然而，离策略方法带来了几个额外的优势：

离策略方法不需要完整的轨迹，并且可以重复使用任何过去的经验（“经验重放”）以提高样本效率。
样本收集遵循与目标策略不同的行为策略，带来更好的探索。

现在让我们看看如何计算离策略策略梯度。用于收集样本的行为策略是一个已知策略（像一个超参数一样预定义），标记为$\beta(a \vert s)$。目标函数将奖励在由该行为策略定义的状态分布上求和：

\[J(\theta) = \sum_{s \in \mathcal{S}} d^\beta(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) = \mathbb{E}_{s \sim d^\beta} \big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \big] \]

其中 $d^\beta(s)$ 是行为策略 $\beta$ 的稳态分布；请记住 $d^\beta(s) = \lim_{t \to \infty} P(S_t = s \vert S_0, \beta)$；而 $Q^\pi$ 是针对目标策略 $\pi$ 估计的动作值函数（不是行为策略！）。

鉴于训练观察是由 $a \sim \beta(a \vert s)$ 抽样的，我们可以将梯度重写为：

\[\begin{aligned} \nabla_\theta J(\theta) &= \nabla_\theta \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \pi_\theta(a \vert s) \Big] & \\ &= \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} \big( Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) + \color{red}{\pi_\theta(a \vert s) \nabla_\theta Q^\pi(s, a)} \big) \Big] & \scriptstyle{\text{; 求导乘积法则。}}\\ &\stackrel{(i)}{\approx} \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \vert s) \Big] & \scriptstyle{\text{; 忽略红色部分：} \color{red}{\pi_\theta(a \vert s) \nabla_\theta Q^\pi(s, a)}}. \\ &= \mathbb{E}_{s \sim d^\beta} \Big[ \sum_{a \in \mathcal{A}} \beta(a \vert s) \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} Q^\pi(s, a) \frac{\nabla_\theta \pi_\theta(a \vert s)}{\pi_\theta(a \vert s)} \Big] & \\ &= \mathbb{E}_\beta \Big[\frac{\color{blue}{\pi_\theta(a \vert s)}}{\color{blue}{\beta(a \vert s)}} Q^\pi(s, a) \nabla_\theta \ln \pi_\theta(a \vert s) \Big] & \scriptstyle{\text{; 蓝色部分是重要性权重。}} \end{aligned} \]

其中$\frac{\pi_\theta(a \vert s)}{\beta(a \vert s)}$是重要性权重。因为$Q^\pi$是目标策略的函数，因此也是策略参数$\theta$的函数，我们应该根据乘积法则对$\nabla_\theta Q^\pi(s, a)$进行求导。然而，在现实中计算$\nabla_\theta Q^\pi(s, a)$非常困难。幸运的是，如果我们使用一个忽略了 Q 梯度的近似梯度，我们仍然可以保证策略改进，并最终实现真正的局部最小值。这在证明中得到了证实这里（Degris, White & Sutton, 2012）。

总之，在离策略设置中应用策略梯度时，我们可以通过加权和进行简单调整，权重是目标策略与行为策略的比值，$\frac{\pi_\theta(a \vert s)}{\beta(a \vert s)}$。

A3C

[论文|代码]

异步优势演员-评论家（Mnih 等人，2016），简称A3C，是一种经典的策略梯度方法，特别关注并行训练。

在 A3C 中，评论家学习价值函数，而多个演员并行训练，并不时与全局参数同步。因此，A3C 被设计为适用于并行训练。

让我们以状态值函数为例。状态值的损失函数是最小化均方误差，$J_v(w) = (G_t - V_w(s))²$，可以应用梯度下降找到最优的 w。这个状态值函数被用作策略梯度更新中的基准。

这是算法概述：

我们有全局参数 $\theta$ 和 $w$；类似的线程特定参数 $\theta’$ 和 $w’$。
初始化时间步 $t = 1$
当 $T \leq T_\text{MAX}$ 时：
1. 重置梯度：$\mathrm{d}\theta = 0$ 和 $\mathrm{d}w = 0$。
2. 将线程特定参数与全局参数同步：$\theta’ = \theta$ 和 $w’ = w$。
3. $t_\text{start}$ = t 并采样一个起始状态 $s_t$。
4. 当 ($s_t$ != 终止状态) 且 $t - t_\text{start} \leq t_\text{max}$ 时：
  1. 选择动作 $A_t \sim \pi_{\theta’}(A_t \vert S_t)$ 并接收新奖励 $R_t$ 和新状态 $s_{t+1}$。
  2. 更新 $t = t + 1$ 和 $T = T + 1$
5. 初始化保存回报估计的变量$$ R = \begin{cases} 0 & \text{如果 } s_t \text{ 是终止状态} \ V_{w'}(s_t) & \text{否则} \end{cases} $$6. 对于 $i = t-1, \dots, t\_\text{start}$： 1. $R \leftarrow \gamma R + R\_i$；这里的 R 是 $G\_i$ 的 MC 测量。 2. 累积关于 $\theta'$ 的梯度：$d\theta \leftarrow d\theta + \nabla\_{\theta'} \log \pi\_{\theta'}(a\_i \vert s\_i)(R - V\_{w'}(s\_i))$；
累积关于 $w'$ 的梯度：$dw \leftarrow dw + 2 (R - V\_{w'}(s\_i)) \nabla\_{w'} (R - V\_{w'}(s\_i))$。
1. 异步更新 $\theta$ 使用 $\mathrm{d}\theta$，$w$ 使用 $\mathrm{d}w$。

A3C 实现了多代理训练中的并行性。梯度累积步骤（6.2）可以被视为基于小批量随机梯度更新的并行化改进：$w$ 或 $\theta$ 的值在每个训练线程中独立地稍微调整。

A2C

[论文|代码]

A2C 是 A3C 的同步、确定性版本；这就是为什么它被命名为“A2C”，第一个“A”（“异步”）被移除。在 A3C 中，每个代理独立与全局参数交流，因此有时线程特定代理可能会使用不同版本的策略，因此聚合更新可能不是最优的。为了解决不一致性，A2C 中的协调员会等待所有并行执行者完成工作，然后在下一次迭代中，所有并行执行者从相同的策略开始。同步的梯度更新使训练更加连贯，可能使收敛速度更快。

已经显示 A2C 能够更有效地利用 GPU，并且在使用大批量大小时能够达到与 A3C 相同或更好的性能。

图 2. A3C 与 A2C 的架构对比。

DPG

[论文|代码]

在上述描述的方法中，策略函数 $\pi(. \vert s)$ 总是被建模为在当前状态下给定动作 $\mathcal{A}$ 的概率分布，因此它是随机的。确定性策略梯度（DPG） 相反将策略建模为确定性决策：$a = \mu(s)$。这可能看起来很奇怪 — 当输出单个动作时，你如何计算动作概率的梯度呢？让我们一步一步来看。

刷新一下一些符号以便讨论：

$\rho_0(s)$：初始状态分布
$\rho^\mu(s \to s’, k)$：从状态 s 开始，经过策略 $\mu$ 移动 k 步后到达状态 s’ 的访问概率密度。
$\rho^\mu(s’)$：折扣状态分布，定义为 $\rho^\mu(s’) = \int_\mathcal{S} \sum_{k=1}^\infty \gamma^{k-1} \rho_0(s) \rho^\mu(s \to s’, k) ds$。

要优化的目标函数列如下：

\[J(\theta) = \int_\mathcal{S} \rho^\mu(s) Q(s, \mu_\theta(s)) ds \]

确定性策略梯度定理：现在是计算梯度的时候了！根据链式法则，我们首先对 Q 关于动作 a 求梯度，然后对确定性策略函数 $\mu$ 关于 $\theta$ 求梯度：

\[\begin{aligned} \nabla_\theta J(\theta) &= \int_\mathcal{S} \rho^\mu(s) \nabla_a Q^\mu(s, a) \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)} ds \\ &= \mathbb{E}_{s \sim \rho^\mu} [\nabla_a Q^\mu(s, a) \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)}] \end{aligned} \]

我们可以将确定性策略视为随机策略的特殊情况，当概率分布仅包含一个极端非零值的动作时。实际上，在 DPG 论文中，作者已经表明，如果将随机策略 $\pi_{\mu_\theta, \sigma}$ 重新参数化为确定性策略 $\mu_\theta$ 和变化变量 $\sigma$，当 $\sigma=0$ 时，随机策略最终等效于确定性情况。与确定性策略相比，我们期望随机策略需要更多样本，因为它整合了整个状态和动作空间的数据。

确定性策略梯度定理可以嵌入常见的策略梯度框架中。

让我们考虑一个基于策略的演员-评论家算法的示例来展示该过程。在每次策略的演员-评论家迭代中，两个动作被确定性地采取 $a = \mu_\theta(s)$，并且对策略参数的SARSA更新依赖于我们刚刚计算的新梯度：

\[\begin{aligned} \delta_t &= R_t + \gamma Q_w(s_{t+1}, a_{t+1}) - Q_w(s_t, a_t) & \small{\text{; SARSA 中的 TD 误差}}\\ w_{t+1} &= w_t + \alpha_w \delta_t \nabla_w Q_w(s_t, a_t) & \\ \theta_{t+1} &= \theta_t + \alpha_\theta \color{red}{\nabla_a Q_w(s_t, a_t) \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)}} & \small{\text{; 确定性策略梯度定理}} \end{aligned} \]

然而，除非环境中有足够的噪音，由于策略的确定性，很难保证足够的探索。我们可以将噪音添加到策略中（具有讽刺意味的是，这使其变得非确定性！）或者通过遵循不同的随机行为策略进行离策略学习来收集样本。

换句话说，在离策略方法中，训练轨迹由随机策略 $\beta(a \vert s)$ 生成，因此状态分布遵循相应的折扣状态密度 $\rho^\beta$：

\[\begin{aligned} J_\beta(\theta) &= \int_\mathcal{S} \rho^\beta Q^\mu(s, \mu_\theta(s)) ds \\ \nabla_\theta J_\beta(\theta) &= \mathbb{E}_{s \sim \rho^\beta} [\nabla_a Q^\mu(s, a) \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)} ] \end{aligned} \]

请注意，由于策略是确定性的，我们只需要 $Q^\mu(s, \mu_\theta(s))$ 而不是 $\sum_a \pi(a \vert s) Q^\pi(s, a)$ 作为给定状态 s 的估计奖励。在具有随机策略的离策略方法中，通常使用重要性采样来纠正行为和目标策略之间的不匹配，就像我们在上文中描述的那样。然而，由于确定性策略梯度消除了对动作的积分，我们可以避免重要性采样。

DDPG

[论文|代码]

DDPG（Lillicrap 等人，2015），简称Deep Deterministic Policy Gradient，是一种无模型的离策略 actor-critic 算法，将 DPG 与DQN结合起来。回想一下，DQN（Deep Q-Network）通过经验重放和冻结目标网络稳定了 Q 函数的学习。原始的 DQN 在离散空间中工作，而 DDPG 通过 actor-critic 框架将其扩展到连续空间，同时学习确定性策略。

为了更好地进行探索，通过添加噪音 $\mathcal{N}$ 构建了一个探索策略 $\mu’$：

\[\mu'(s) = \mu_\theta(s) + \mathcal{N} \]

另外，DDPG 对 actor 和 critic 的参数进行软更新（“保守策略迭代”），其中 $\tau \ll 1$：$\theta’ \leftarrow \tau \theta + (1 - \tau) \theta’。这样，目标网络的值被限制为缓慢变化，与 DQN 设计不同，DQN 中目标网络在一段时间内保持冻结。

论文中一个特别有用的细节是如何规范低维特征的不同物理单位。例如，设计一个模型来学习以机器人的位置和速度作为输入的策略；这些物理统计数据本质上是不同的，即使是相同类型的统计数据在多个机器人之间也可能有很大差异。批归一化被应用来通过在一个小批量样本中规范化每个维度来修复这个问题。

图 3. DDPG 算法（图片来源：Lillicrap 等人，2015）

D4PG

[论文|代码（搜索“github d4pg”就会看到一些。)]

分布式分布式 DDPG（D4PG）对 DDPG 进行了一系列改进，使其以分布方式运行。

(1) 分布式评论家：评论家将期望的 Q 值估计为一个由$w$参数化的分布$Z_w$的随机变量，因此$Q_w(s, a) = \mathbb{E} Z_w(x, a)$。学习分布参数的损失是最小化两个分布之间的距离的某种度量 — 分布式 TD 误差：$L(w) = \mathbb{E}[d(\mathcal{T}_{\mu_\theta}, Z_{w’}(s, a), Z_w(s, a)]$，其中$\mathcal{T}_{\mu_\theta}$是 Bellman 算子。

确定性策略梯度更新如下：

\[\begin{aligned} \nabla_\theta J(\theta) &\approx \mathbb{E}_{\rho^\mu} [\nabla_a Q_w(s, a) \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)}] & \scriptstyle{\text{; DPG 中的梯度更新}} \\ &= \mathbb{E}_{\rho^\mu} [\mathbb{E}[\nabla_a Z_w(s, a)] \nabla_\theta \mu_\theta(s) \rvert_{a=\mu_\theta(s)}] & \scriptstyle{\text{; Q 值分布的期望。}} \end{aligned} \]

(2) $N$步回报：在计算 TD 误差时，D4PG 计算$N$步 TD 目标，而不是一步，以纳入更多未来步骤的奖励。因此，新的 TD 目标是：

\[r(s_0, a_0) + \mathbb{E}[\sum_{n=1}^{N-1} r(s_n, a_n) + \gamma^N Q(s_N, \mu_\theta(s_N)) \vert s_0, a_0 ] \]

(3) 多分布式并行执行者：D4PG 利用$K$个独立执行者并行收集经验，并将数据输入相同的重播缓冲区。

(4) 优先经验重播（PER）：最后一项修改是从大小为$R$的重播缓冲区中以非均匀概率$p_i$进行抽样。这样，样本$i$被选中的概率为$(Rp_i)^{-1}$，因此重要性权重为$(Rp_i)^{-1}$。

图 4. D4PG 算法（图片来源：Barth-Maron 等人，2018）；请注意，在原始论文中，变量字母的选择与帖子中略有不同；即我使用$\mu(.)$来表示确定性策略，而不是$\pi(.)$。

MADDPG

[论文|代码]

多智能体 DDPG (MADDPG)（Lowe 等人，2017）将 DDPG 扩展到一个环境中，多个代理协调完成任务，只有局部信息。从一个代理的角度来看，环境是非静态的，因为其他代理的策略很快就会升级并保持未知。 MADDPG 是一个演员-评论家模型，专门重新设计用于处理这种不断变化的环境和代理之间的交互。

问题可以在多智能体版本的 MDP 中形式化，也称为 马尔可夫博弈。 MADDPG 被提出用于部分可观察的马尔可夫博弈。假设总共有 N 个代理，具有一组状态 $\mathcal{S}$。每个代理拥有一组可能的动作，$\mathcal{A}_1, \dots, \mathcal{A}_N$，以及一组观察，$\mathcal{O}_1, \dots, \mathcal{O}_N$。状态转移函数涉及所有状态、动作和观察空间 $\mathcal{T}: \mathcal{S} \times \mathcal{A}_1 \times \dots \mathcal{A}_N \mapsto \mathcal{S}$。每个代理的随机策略只涉及自己的状态和动作：$\pi_{\theta_i}: \mathcal{O}_i \times \mathcal{A}_i \mapsto [0, 1]$，给定自己的观察，动作的概率分布，或确定性策略：$\mu_{\theta_i}: \mathcal{O}_i \mapsto \mathcal{A}_i$。

让 $\vec{o} = {o_1, \dots, o_N}$，$\vec{\mu} = {\mu_1, \dots, \mu_N}$，策略由 $\vec{\theta} = {\theta_1, \dots, \theta_N}$ 参数化。

MADDPG 中的评论家学习一个集中的动作值函数 $Q^\vec{\mu}_i(\vec{o}, a_1, \dots, a_N)$，其中 $a_1 \in \mathcal{A}_1, \dots, a_N \in \mathcal{A}_N$ 是所有代理的动作。每个 $Q^\vec{\mu}_i$ 都是独立学习的，因此多个代理可以具有任意的奖励结构，包括在竞争环境中的冲突奖励。同时，多个演员，每个代理一个，正在探索并独立升级策略参数 $\theta_i$。

演员更新：

\[\nabla_{\theta_i} J(\theta_i) = \mathbb{E}_{\vec{o}, a \sim \mathcal{D}} [\nabla_{a_i} Q^{\vec{\mu}}_i (\vec{o}, a_1, \dots, a_N) \nabla_{\theta_i} \mu_{\theta_i}(o_i) \rvert_{a_i=\mu_{\theta_i}(o_i)} ] \]

其中 $\mathcal{D}$ 是用于经验重放的内存缓冲区，包含多个剧集样本 $(\vec{o}, a_1, \dots, a_N, r_1, \dots, r_N, \vec{o}’)$ — 给定当前观察 $\vec{o}$，代理执行动作 $a_1, \dots, a_N$ 并获得奖励 $r_1, \dots, r_N$，导致新观察 $\vec{o}’$。

评论家更新：

\[\begin{aligned} \mathcal{L}(\theta_i) &= \mathbb{E}_{\vec{o}, a_1, \dots, a_N, r_1, \dots, r_N, \vec{o}'}[ (Q^{\vec{\mu}}_i(\vec{o}, a_1, \dots, a_N) - y)² ] & \\ \text{其中 } y &= r_i + \gamma Q^{\vec{\mu}'}_i (\vec{o}', a'_1, \dots, a'_N) \rvert_{a'_j = \mu'_{\theta_j}} & \scriptstyle{\text{; TD 目标！}} \end{aligned} \]

其中$\vec{\mu}’$是具有延迟软更新参数的目标策略。

如果在评论家更新期间策略$\vec{\mu}$是未知的，我们可以要求每个代理学习和演变其它代理的近似策略。使用近似策略，MADDPG 仍然可以高效学习，尽管推断的策略可能不准确。

为了减少环境中竞争或合作代理之间互动引起的高方差，MADDPG 提出了一个额外的元素 - 策略集合：

为一个代理训练 K 个策略;
为剧集展开选择一个随机策略;
采用这 K 个策略的集合进行梯度更新。

总之，MADDPG 在 DDPG 的基础上增加了三个额外的要素，使其适应多智能体环境：

中心化评论家 + 分散化演员;
演员可以使用其他代理的估计策略进行学习;
策略集合对于减少方差是有益的。

图 5. MADDPG 的架构设计。（图片来源：Lowe 等，2017）

TRPO

[论文|代码]

为了提高训练稳定性，我们应该避免在一步中过度改变策略的参数更新。信任区域策略优化（TRPO）（Schulman 等，2015）通过在每次迭代中对策略更新的大小强制执行KL 散度约束来实现这一想法。

考虑当我们进行离线策略强化学习时，用于在展开工作者上收集轨迹的策略$\beta$与用于优化的策略$\pi$不同。离线模型中的目标函数衡量了状态访问分布和动作的总优势，而训练数据分布与真实策略状态分布之间的不匹配由重要性采样估计器来补偿：

\[\begin{aligned} J(\theta) &= \sum_{s \in \mathcal{S}} \rho^{\pi_{\theta_\text{old}}} \sum_{a \in \mathcal{A}} \big( \pi_\theta(a \vert s) \hat{A}_{\theta_\text{old}}(s, a) \big) & \\ &= \sum_{s \in \mathcal{S}} \rho^{\pi_{\theta_\text{old}}} \sum_{a \in \mathcal{A}} \big( \beta(a \vert s) \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big) & \scriptstyle{\text{; 重要性采样}} \\ &= \mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}, a \sim \beta} \big[ \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big] & \end{aligned} \]

其中 $\theta_\text{old}$ 是更新之前的策略参数，因此我们已知；$\rho^{\pi_{\theta_\text{old}}}$ 的定义与上文相同；$\beta(a \vert s)$ 是用于收集轨迹的行为策略。请注意，我们使用估计的优势 $\hat{A}(.)$ 而不是真实的优势函数 $A(.)$，因为真实奖励通常是未知的。

在策略训练时，理论上用于收集数据的策略与我们要优化的策略相同。然而，当回滚工作程序和优化器异步并行运行时，行为策略可能会过时。TRPO 考虑到这种微妙的差异：它将行为策略标记为 $\pi_{\theta_\text{old}}(a \vert s)$，因此目标函数变为：

\[J(\theta) = \mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}} \big[ \frac{\pi_\theta(a \vert s)}{\pi_{\theta_\text{old}}(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big] \]

TRPO 旨在最大化目标函数 $J(\theta)$，同时受到信任区域约束的约束，该约束强制旧策略和新策略之间的距离（由KL 散度测量）足够小，即在参数 δ 内：

\[\mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}} [D_\text{KL}(\pi_{\theta_\text{old}}(.\vert s) \| \pi_\theta(.\vert s)] \leq \delta \]

这样，当满足这个硬约束时，旧策略和新策略之间不会发散太多。尽管如此，TRPO 仍然可以保证在策略迭代上的单调改进（很棒，对吧？）。如果感兴趣，请阅读论文中的证明 😃

PPO

[论文|代码]

鉴于 TRPO 相对复杂，而我们仍希望实现类似的约束，近端策略优化（PPO）通过使用剪切的替代目标简化了它，同时保持类似的性能。

首先，让我们将旧策略和新策略之间的概率比率表示为：

\[r(\theta) = \frac{\pi_\theta(a \vert s)}{\pi_{\theta_\text{old}}(a \vert s)} \]

然后，TRPO 的目标函数（在策略上）变为：

\[J^\text{TRPO} (\theta) = \mathbb{E} [ r(\theta) \hat{A}_{\theta_\text{old}}(s, a) ] \]

如果没有对 $\theta_\text{old}$ 和 $\theta$ 之间的距离施加限制，最大化 $J^\text{TRPO} (\theta)$ 将导致极大的参数更新和大的策略比率，从而导致不稳定性。PPO 通过强制 $r(\theta)$ 保持在 1 周围的一个小区间内，即精确地 $[1-\epsilon, 1+\epsilon]$，来施加约束，其中 $\epsilon$ 是一个超参数。

\[J^\text{CLIP} (\theta) = \mathbb{E} [ \min( r(\theta) \hat{A}_{\theta_\text{old}}(s, a), \text{clip}(r(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_{\theta_\text{old}}(s, a))] \]

函数$\text{clip}(r(\theta), 1 - \epsilon, 1 + \epsilon)$将比率剪切为不超过$1+\epsilon$且不少于$1-\epsilon$。PPO 的目标函数取原始值和剪切版本之间的最小值，因此我们失去了为了更好的奖励而将策略更新增加到极端的动机。

在应用 PPO 于共享参数的网络架构中，用于策略（演员）和价值（评论家）函数的，除了截断奖励外，目标函数还增加了一个关于价值估计的误差项（红色公式）和一个熵项（蓝色公式），以鼓励充分的探索。

\[J^\text{CLIP'} (\theta) = \mathbb{E} [ J^\text{CLIP} (\theta) - \color{red}{c_1 (V_\theta(s) - V_\text{target})²} + \color{blue}{c_2 H(s, \pi_\theta(.))} ] \]

其中$c_1$和$c_2$都是两个超参数常数。

PPO 已经在一组基准任务上进行了测试，并证明以更简单的方式产生了令人印象深刻的结果。

在Hsu 等人，2020 年的一篇后续论文中，重新审视了 PPO 中的两个常见设计选择，即（1）用于策略正则化的截断概率比和（2）通过连续高斯或离散 softmax 分布参数化策略动作空间。他们首先确定了 PPO 中的三种失败模式，并提出了这两种设计的替代方案。

失败模式包括：

在连续动作空间上，当奖励在有界支持之外消失时，标准 PPO 是不稳定的。
在具有稀疏高奖励的离散动作空间中，标准 PPO 经常会陷入次优动作。
当初始化时存在接近初始化的局部最优动作时，策略对初始化非常敏感。

将动作空间离散化或使用 Beta 分布有助于避免与高斯策略相关的失败模式 1 和 3。使用 KL 正则化（与 TRPO 中的动机相同）作为替代的替代模型有助于解决失败模式 1 和 2。

PPG

[论文|代码]

在策略和价值网络之间共享参数有利有弊。它允许策略和价值函数彼此共享学习到的特征，但可能导致竞争目标之间的冲突，并要求同时训练两个网络使用相同的数据。阶段性策略梯度（PPG；Cobbe 等人，2020 年）修改了传统的在线策略梯度算法，准确地说是 PPO，为策略和价值函数分别设置了训练阶段。在两个交替阶段中：

策略阶段：通过优化 PPO 的目标 $L^\text{CLIP} (\theta)$来更新策略网络；
辅助阶段：优化辅助目标与行为克隆损失一起。在论文中，价值函数误差是唯一的辅助目标，但它可以非常通用，并包括任何其他额外的辅助损失。

\[\begin{aligned} L^\text{joint} &= L^\text{aux} + \beta_\text{clone} \cdot \mathbb{E}_t[\text{KL}[\pi_{\theta_\text{old}}(\cdot\mid s_t), \pi_\theta(\cdot\mid s_t)]] \\ L^\text{aux} &= L^\text{value} = \mathbb{E}_t \big[\frac{1}{2}\big( V_w(s_t) - \hat{V}_t^\text{targ} \big)²\big] \end{aligned} \]

其中$\beta_\text{clone}$是一个超参数，用于控制我们希望策略在优化辅助目标时不要与其原始行为相差太远。

图 6。PPG 的算法。（图片来源：Cobbe, et al 2020）

其中

$N_\pi$是策略阶段中策略更新迭代次数。请注意，策略阶段对每个单独的辅助阶段执行多次更新迭代。
$E_\pi$和$E_V$控制策略和价值函数的样本重用（即在回放缓冲区中执行的训练时期数量）；请注意，这发生在策略阶段内，因此$E_V$影响真实价值函数的学习而不是辅助价值函数。
$E_\text{aux}$定义了辅助阶段中的样本重用。在 PPG 中，价值函数优化可以容忍更高水平的样本重用；例如，在论文的实验中，$E_\text{aux} = 6$，而$E_\pi = E_V = 1$。

PPG 相对于 PPO 在样本效率上有显著改进。

图 7。PPG 与 PPO 在Procgen基准测试上的平均标准化性能。（图片来源：Cobbe, et al 2020)

ACER

[论文|代码]

ACER，全称带经验回放的演员-评论家（Wang, et al., 2017），是一种带有经验回放的离线演员-评论家模型，极大地提高了样本效率并减少了数据相关性。A3C 为 ACER 奠定了基础，但它是在线的；ACER 是 A3C 的离线对应物。使 A3C 离线的主要障碍是如何控制离线估计器的稳定性。ACER 提出了三种设计来克服这一障碍：

使用回溯 Q 值估计；
使用偏差校正截断重要性权重；
应用高效的 TRPO。

回溯 Q 值估计

Retrace是一种基于离线回报的 Q 值估计算法，对于任何目标和行为策略对$(\pi, \beta)$都有很好的收敛保证，同时具有良好的数据效率。

回想一下 TD 学习用于预测的工作原理：

计算 TD 误差：$\delta_t = R_t + \gamma \mathbb{E}_{a \sim \pi} Q(S_{t+1}, a) - Q(S_t, A_t)$；术语 $r_t + \gamma \mathbb{E}{a \sim \pi} Q(s, a) $ 被称为“TD 目标”。期望值 $\mathbb{E}_{a \sim \pi}$ 被用来因为对于未来步骤，我们能做出的最好估计是如果我们遵循当前策略 $\pi$ 时的回报。
通过纠正错误来更新值以朝着目标前进：$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \delta_t$。换句话说，Q 的增量更新与 TD 误差成正比：$\Delta Q(S_t, A_t) = \alpha \delta_t$。

当回滚不符合策略时，我们需要在 Q 更新上应用重要性采样：

\[\Delta Q^\text{imp}(S_t, A_t) = \gamma^t \prod_{1 \leq \tau \leq t} \frac{\pi(A_\tau \vert S_\tau)}{\beta(A_\tau \vert S_\tau)} \delta_t \]

当我们开始想象重要性权重的乘积时，它看起来非常可怕，可能会导致超高的方差甚至爆炸。Retrace Q 值估计方法修改 $\Delta Q$，使重要性权重被截断不超过一个常数 $c$：

\[\Delta Q^\text{ret}(S_t, A_t) = \gamma^t \prod_{1 \leq \tau \leq t} \min(c, \frac{\pi(A_\tau \vert S_\tau)}{\beta(A_\tau \vert S_\tau)}) \delta_t \]

ACER 使用 $Q^\text{ret}$ 作为目标来训练批评家，通过最小化 L2 误差项：$(Q^\text{ret}(s, a) - Q(s, a))²$。

重要性权重截断

为了减少策略梯度 $\hat{g}$ 的高方差，ACER 通过一个常数 c 截断重要性权重，再加上一个修正项。标签 $\hat{g}_t^\text{acer}$ 是时间 t 的 ACER 策略梯度。

\[\begin{aligned} \hat{g}_t^\text{acer} = & \omega_t \big( Q^\text{ret}(S_t, A_t) - V_{\theta_v}(S_t) \big) \nabla_\theta \ln \pi_\theta(A_t \vert S_t) & \scriptstyle{\text{；令 }\omega_t=\frac{\pi(A_t \vert S_t)}{\beta(A_t \vert S_t)}} \\ = & \color{blue}{\min(c, \omega_t) \big( Q^\text{ret}(S_t, A_t) - V_w(S_t) \big) \nabla_\theta \ln \pi_\theta(A_t \vert S_t)} \\ & + \color{red}{\mathbb{E}_{a \sim \pi} \big[ \max(0, \frac{\omega_t(a) - c}{\omega_t(a)}) \big( Q_w(S_t, a) - V_w(S_t) \big) \nabla_\theta \ln \pi_\theta(a \vert S_t) \big]} & \scriptstyle{\text{；令 }\omega_t (a) =\frac{\pi(a \vert S_t)}{\beta(a \vert S_t)}} \end{aligned} \]

其中 $Q_w(.)$ 和 $V_w(.)$ 是由批评家预测的值函数，参数为 w。第一项（蓝色）包含剪切的重要权重。剪切有助于减少方差，除了减去状态值函数 $V_w(.)$ 作为基准。第二项（红色）进行修正以实现无偏估计。

高效的 TRPO

此外，ACER 采用了 TRPO 的思想，但进行了一些小的调整以使其在计算上更加高效：ACER 不是在一次更新之前和之后测量策略之间的 KL 散度，而是维护过去策略的平均值，并强制更新后的策略不偏离这个平均值太远。

ACER 论文非常密集，包含许多方程式。希望在有关 TD 学习、Q 学习、重要性采样和 TRPO 的先前知识的基础上，您会发现跟随论文会稍微容易些 😃

ACTKR

[论文|代码]

ACKTR（使用 Kronecker 分解信任区域的演员-评论家） (Yuhuai Wu 等人，2017) 提出使用 Kronecker 分解近似曲率（K-FAC) 来对评论家和演员进行梯度更新。 K-FAC 对自然梯度的计算进行了改进，这与我们的标准梯度有很大不同。这里有一个很好的、直观的自然梯度解释。一个句子的总结可能是：

“我们首先考虑所有参数组合，使得新网络与旧网络的 KL 散度恒定。这个恒定值可以看作是步长或学习率。在所有可能的组合中，我们选择最小化损失函数的组合。”

我在这里列出 ACTKR 主要是为了完整性起见，但我不会深入细节，因为这涉及许多关于自然梯度和优化方法的理论知识。如果感兴趣，请在阅读 ACKTR 论文之前查阅这些论文/帖子：

Amari. 自然梯度在学习中的高效性. 1998
Kakade. 自然策略梯度. 2002
自然梯度下降的直观解释
维基：Kronecker 乘积
Martens & Grosse. 使用 Kronecker 分解近似曲率优化神经网络。 2015.

这里是 K-FAC 论文的高层摘要：

“这种近似是通过两个阶段构建的。首先，Fisher 的行和列被分成组，每个组对应于给定层中的所有权重，这导致矩阵的块划分。然后，这些块被近似为更小矩阵之间的 Kronecker 乘积，我们表明这等效于对网络梯度的统计做出某些近似假设。

在第二阶段，这个矩阵进一步近似为具有逆矩阵的块对角线或块三对角线形式。我们通过仔细研究逆协方差、树结构图模型和线性回归之间的关系来证明这种近似。值得注意的是，这种证明并不适用于 Fisher 本身，我们的实验证实，虽然逆 Fisher 确实具有这种结构（近似），但 Fisher 本身并不具备这种结构。

SAC

[论文|代码]

软演员评论家（SAC）（Haarnoja 等人 2018）将策略的熵度量整合到奖励中以鼓励探索：我们期望学习一个尽可能随机行动但仍能成功完成任务的策略。这是遵循最大熵强化学习框架的离线演员评论家模型。一个先前的工作是软 Q 学习。

SAC 中的三个关键组成部分：

一个带有独立策略和值函数网络的演员-评论家架构；
一种离线策略的制定，可以有效地重复使用先前收集的数据；
最大化熵以实现稳定性和探索性。

该策略被训练的目标是同时最大化预期回报和熵：

\[J(\theta) = \sum_{t=1}^T \mathbb{E}_{(s_t, a_t) \sim \rho_{\pi_\theta}} [r(s_t, a_t) + \alpha \mathcal{H}(\pi_\theta(.\vert s_t))] \]

其中 $\mathcal{H}(.)$ 是熵度量，$\alpha$ 控制熵项的重要性，被称为温度参数。最大化熵导致策略可以（1）更多地探索和（2）捕捉多种接近最优策略的模式（即，如果存在多个看似同样优秀的选项，策略应该分配相等的概率来选择每个）。

具体来说，SAC 的目标是学习三个函数：

具有参数 $\theta$ 的策略，$\pi_\theta$。
由 $w$ 参数化的软 Q 值函数，$Q_w$。
由 $\psi$ 参数化的软状态值函数，$V_\psi$；理论上我们可以通过知道 $Q$ 和 $\pi$ 推断 $V$，但在实践中，这有助于稳定训练。

软 Q 值和软状态值的定义如下：

\[\begin{aligned} Q(s_t, a_t) &= r(s_t, a_t) + \gamma \mathbb{E}_{s_{t+1} \sim \rho_{\pi}(s)} [V(s_{t+1})] & \text{；根据贝尔曼方程。}\\ \text{其中 }V(s_t) &= \mathbb{E}_{a_t \sim \pi} [Q(s_t, a_t) - \alpha \log \pi(a_t \vert s_t)] & \text{；软状态值函数。} \end{aligned} $$$$ \text{因此，} Q(s_t, a_t) = r(s_t, a_t) + \gamma \mathbb{E}_{(s_{t+1}, a_{t+1}) \sim \rho_{\pi}} [Q(s_{t+1}, a_{t+1}) - \alpha \log \pi(a_{t+1} \vert s_{t+1})] \]

$\rho_\pi(s)$ 和 $\rho_\pi(s, a)$ 分别表示由策略 $\pi(a \vert s)$ 引起的状态和状态-动作边缘分布；请参阅 DPG 部分中类似的定义。

软状态值函数的训练旨在最小化均方误差：

\[\begin{aligned} J_V(\psi) &= \mathbb{E}_{s_t \sim \mathcal{D}} [\frac{1}{2} \big(V_\psi(s_t) - \mathbb{E}[Q_w(s_t, a_t) - \log \pi_\theta(a_t \vert s_t)] \big)²] \\ \text{梯度为：}\nabla_\psi J_V(\psi) &= \nabla_\psi V_\psi(s_t)\big( V_\psi(s_t) - Q_w(s_t, a_t) + \log \pi_\theta (a_t \vert s_t) \big) \end{aligned} \]

其中 $\mathcal{D}$ 是重放缓冲区。

软 Q 函数的训练旨在最小化软 Bellman 残差：

\[\begin{aligned} J_Q(w) &= \mathbb{E}_{(s_t, a_t) \sim \mathcal{D}} [\frac{1}{2}\big( Q_w(s_t, a_t) - (r(s_t, a_t) + \gamma \mathbb{E}_{s_{t+1} \sim \rho_\pi(s)}[V_{\bar{\psi}}(s_{t+1})]) \big)²] \\ \text{梯度为：} \nabla_w J_Q(w) &= \nabla_w Q_w(s_t, a_t) \big( Q_w(s_t, a_t) - r(s_t, a_t) - \gamma V_{\bar{\psi}}(s_{t+1})\big) \end{aligned} \]

其中 $\bar{\psi}$ 是目标值函数，是指数移动平均（或仅以“硬”方式定期更新），就像在DQN中处理目标 Q 网络的参数以稳定训练一样。

SAC 更新策略以最小化KL-散度：

\[\begin{aligned} \pi_\text{new} &= \arg\min_{\pi' \in \Pi} D_\text{KL} \Big( \pi'(.\vert s_t) \| \frac{\exp(Q^{\pi_\text{old}}(s_t, .))}{Z^{\pi_\text{old}}(s_t)} \Big) \\[6pt] &= \arg\min_{\pi' \in \Pi} D_\text{KL} \big( \pi'(.\vert s_t) \| \exp(Q^{\pi_\text{old}}(s_t, .) - \log Z^{\pi_\text{old}}(s_t)) \big) \\[6pt] \text{更新目标：} J_\pi(\theta) &= \nabla_\theta D_\text{KL} \big( \pi_\theta(. \vert s_t) \| \exp(Q_w(s_t, .) - \log Z_w(s_t)) \big) \\[6pt] &= \mathbb{E}_{a_t\sim\pi} \Big[ - \log \big( \frac{\exp(Q_w(s_t, a_t) - \log Z_w(s_t))}{\pi_\theta(a_t \vert s_t)} \big) \Big] \\[6pt] &= \mathbb{E}_{a_t\sim\pi} [ \log \pi_\theta(a_t \vert s_t) - Q_w(s_t, a_t) + \log Z_w(s_t) ] \end{aligned} \]

其中 $\Pi$ 是我们可以将策略建模为以保持可处理性的潜在策略集；例如，$\Pi$ 可以是高斯混合分布族，建模昂贵但高度表达且仍可处理。$Z^{\pi_\text{old}}(s_t)$ 是用于归一化分布的分区函数。通常是难以处理的，但不会对梯度产生影响。如何最小化 $J_\pi(\theta)$ 取决于我们对 $\Pi$ 的选择。

此更新确保 $Q^{\pi_\text{new}}(s_t, a_t) \geq Q^{\pi_\text{old}}(s_t, a_t)$，请查看原始论文附录 B.2 中关于此引理的证明。

一旦我们为软动作-状态值、软状态值和策略网络定义了目标函数和梯度，软演员-评论算法就很简单：

图 8。软演员-评论算法。 (图片来源：原始论文)

具有自动调整温度的 SAC

[论文|代码]

SAC 对于温度参数是脆弱的。不幸的是，调整温度很困难，因为熵在任务之间和训练过程中难以预测地变化，随着策略变得更好。对 SAC 的改进制定了一个受约束的优化问题：在最大化预期回报的同时，策略应满足最小熵约束：

\[\max_{\pi_0, \dots, \pi_T} \mathbb{E} \Big[ \sum_{t=0}^T r(s_t, a_t)\Big] \text{s.t. } \forall t\text{, } \mathcal{H}(\pi_t) \geq \mathcal{H}_0 \]

其中$\mathcal{H}_0$是预定义的最小策略熵阈值。

预期回报$\mathbb{E} \Big[ \sum_{t=0}^T r(s_t, a_t)\Big]$可以分解为所有时间步的奖励之和。因为时间 t 时的策略$\pi_t$对早期时间步的策略$\pi_{t-1}$没有影响，我们可以向后在时间上不同步骤最大化回报 - 这本质上是DP。

\[\underbrace{\max_{\pi_0} \Big( \mathbb{E}[r(s_0, a_0)]+ \underbrace{\max_{\pi_1} \Big(\mathbb{E}[...] + \underbrace{\max_{\pi_T} \mathbb{E}[r(s_T, a_T)]}_\text{第一次最大化} \Big)}_\text{倒数第二次最大化} \Big)}_\text{最后一次最大化} \]

其中我们考虑$\gamma=1$。

所以我们从最后一个时间步$T$开始优化：

\[\text{最大化 } \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) ] \text{ s.t. } \mathcal{H}(\pi_T) - \mathcal{H}_0 \geq 0 \]

首先，让我们定义以下函数：

\[\begin{aligned} h(\pi_T) &= \mathcal{H}(\pi_T) - \mathcal{H}_0 = \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [-\log \pi_T(a_T\vert s_T)] - \mathcal{H}_0\\ f(\pi_T) &= \begin{cases} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) ], & \text{如果 }h(\pi_T) \geq 0 \\ -\infty, & \text{否则} \end{cases} \end{aligned} \]

优化变为：

\[\text{最大化 } f(\pi_T) \text{ s.t. } h(\pi_T) \geq 0 \]

要解决带有不等式约束的最大化优化问题，我们可以构建一个带有拉格朗日乘子（也称为“对偶变量”）$\alpha_T$的拉格朗日表达式：

\[L(\pi_T, \alpha_T) = f(\pi_T) + \alpha_T h(\pi_T) \]

考虑当我们尝试相对于$\alpha_T$最小化$L(\pi_T, \alpha_T)$时的情况 - 给定特定值$\pi_T$，

如果约束得到满足，$h(\pi_T) \geq 0$，最好我们可以设置$\alpha_T=0$，因为我们无法控制$f(\pi_T)$的值。因此，$L(\pi_T, 0) = f(\pi_T)$。
如果约束条件无效，$h(\pi_T) < 0$，我们可以通过令$\alpha_T \to \infty$使$L(\pi_T, \alpha_T) \to -\infty$。因此，$L(\pi_T, \infty) = -\infty = f(\pi_T)$。

无论哪种情况，我们都可以得到以下方程，

\[f(\pi_T) = \min_{\alpha_T \geq 0} L(\pi_T, \alpha_T) \]

同时，我们希望最大化$f(\pi_T)$，

\[\max_{\pi_T} f(\pi_T) = \min_{\alpha_T \geq 0} \max_{\pi_T} L(\pi_T, \alpha_T) \]

因此，为了最大化$f(\pi_T)$，对偶问题列如下。请注意，为了确保$\max_{\pi_T} f(\pi_T)$被正确最大化且不会变为$-\infty$，必须满足约束条件。

\[\begin{aligned} \max_{\pi_T} \mathbb{E}[ r(s_T, a_T) ] &= \max_{\pi_T} f(\pi_T) \\ &= \min_{\alpha_T \geq 0} \max_{\pi_T} L(\pi_T, \alpha_T) \\ &= \min_{\alpha_T \geq 0} \max_{\pi_T} f(\pi_T) + \alpha_T h(\pi_T) \\ &= \min_{\alpha_T \geq 0} \max_{\pi_T} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) ] + \alpha_T ( \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [-\log \pi_T(a_T\vert s_T)] - \mathcal{H}_0) \\ &= \min_{\alpha_T \geq 0} \max_{\pi_T} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) - \alpha_T \log \pi_T(a_T\vert s_T)] - \alpha_T \mathcal{H}_0 \\ &= \min_{\alpha_T \geq 0} \max_{\pi_T} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) + \alpha_T \mathcal{H}(\pi_T) - \alpha_T \mathcal{H}_0 ] \end{aligned} \]

我们可以迭代计算最优的$\pi_T$和$\alpha_T$。首先给定当前的$\alpha_T$，得到最大化$L(\pi_T^{*}, \alpha_T)$的最佳策略$\pi_T^{*}$。然后插入$\pi_T^{*}$并计算最小化$L(\pi_T^{*}, \alpha_T)$的$\alpha_T^{*}$。假设我们有一个用于策略的神经网络和一个用于温度参数的网络，迭代更新过程更符合我们在训练过程中更新网络参数的方式。

\[\begin{aligned} \pi^{*}_T &= \arg\max_{\pi_T} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi}} [ r(s_T, a_T) + \alpha_T \mathcal{H}(\pi_T) - \alpha_T \mathcal{H}_0 ] \\ \color{blue}{\alpha^{*}_T} &\color{blue}{=} \color{blue}{\arg\min_{\alpha_T \geq 0} \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi^{*}}} [\alpha_T \mathcal{H}(\pi^{*}_T) - \alpha_T \mathcal{H}_0 ]} \end{aligned} $$$$ \text{因此，}\max_{\pi_T} \mathbb{E} [ r(s_T, a_T) ] = \mathbb{E}_{(s_T, a_T) \sim \rho_{\pi^{*}}} [ r(s_T, a_T) + \alpha^{*}_T \mathcal{H}(\pi^{*}_T) - \alpha^{*}_T \mathcal{H}_0 ] \]

现在让我们回到软 Q 值函数：

\[\begin{aligned} Q_{T-1}(s_{T-1}, a_{T-1}) &= r(s_{T-1}, a_{T-1}) + \mathbb{E} [Q(s_T, a_T) - \alpha_T \log \pi(a_T \vert s_T)] \\ &= r(s_{T-1}, a_{T-1}) + \mathbb{E} [r(s_T, a_T)] + \alpha_T \mathcal{H}(\pi_T) \\ Q_{T-1}^{*}(s_{T-1}, a_{T-1}) &= r(s_{T-1}, a_{T-1}) + \max_{\pi_T} \mathbb{E} [r(s_T, a_T)] + \alpha_T \mathcal{H}(\pi^{*}_T) & \text{; plug in the optimal }\pi_T^{*} \end{aligned} \]

因此，当我们进一步回到时间步$T-1$时，预期回报如下：

\[\begin{aligned} &\max_{\pi_{T-1}}\Big(\mathbb{E}[r(s_{T-1}, a_{T-1})] + \max_{\pi_T} \mathbb{E}[r(s_T, a_T] \Big) \\ &= \max_{\pi_{T-1}} \Big( Q^{*}_{T-1}(s_{T-1}, a_{T-1}) - \alpha^{*}_T \mathcal{H}(\pi^{*}_T) \Big) & \text{; 应满足条件 } \mathcal{H}(\pi_{T-1}) - \mathcal{H}_0 \geq 0 \\ &= \min_{\alpha_{T-1} \geq 0} \max_{\pi_{T-1}} \Big( Q^{*}_{T-1}(s_{T-1}, a_{T-1}) - \alpha^{*}_T \mathcal{H}(\pi^{*}_T) + \alpha_{T-1} \big( \mathcal{H}(\pi_{T-1}) - \mathcal{H}_0 \big) \Big) & \text{; 拉格朗日对偶问题。} \\ &= \min_{\alpha_{T-1} \geq 0} \max_{\pi_{T-1}} \Big( Q^{*}_{T-1}(s_{T-1}, a_{T-1}) + \alpha_{T-1} \mathcal{H}(\pi_{T-1}) - \alpha_{T-1}\mathcal{H}_0 \Big) - \alpha^{*}_T \mathcal{H}(\pi^{*}_T) \end{aligned} \]

与前一步骤类似，

\[\begin{aligned} \pi^{*}_{T-1} &= \arg\max_{\pi_{T-1}} \mathbb{E}_{(s_{T-1}, a_{T-1}) \sim \rho_\pi} [Q^{*}_{T-1}(s_{T-1}, a_{T-1}) + \alpha_{T-1} \mathcal{H}(\pi_{T-1}) - \alpha_{T-1} \mathcal{H}_0 ] \\ \color{green}{\alpha^{*}_{T-1}} &\color{green}{=} \color{green}{\arg\min_{\alpha_{T-1} \geq 0} \mathbb{E}_{(s_{T-1}, a_{T-1}) \sim \rho_{\pi^{*}}} [ \alpha_{T-1} \mathcal{H}(\pi^{*}_{T-1}) - \alpha_{T-1}\mathcal{H}_0 ]} \end{aligned} \]

绿色中更新$\alpha_{T-1}$的方程与上面蓝色中更新$\alpha_{T-1}$的方程具有相同的格式。通过重复这个过程，我们可以通过最小化相同的目标函数在每一步学习最优温度参数：

\[J(\alpha) = \mathbb{E}_{a_t \sim \pi_t} [-\alpha \log \pi_t(a_t \mid s_t) - \alpha \mathcal{H}_0] \]

最终算法与 SAC 相同，唯一不同之处在于明确学习$\alpha$以满足目标$J(\alpha)$（见图 7）：

图 9. 具有自动调整温度的软演员-评论家算法。（图片来源：原始论文）

TD3

[论文|代码]

Q 学习算法通常被认为存在值函数的过度估计问题。这种过度估计会在训练迭代中传播，并对策略产生负面影响。这一特性直接促使了双 Q 学习和双 DQN的提出：通过使用两个值网络，将动作选择和 Q 值更新解耦。

双延迟深度确定性（简称TD3；Fujimoto 等人，2018）在 DDPG 上应用了一些技巧，以防止值函数的过度估计：

(1) 剪切双 Q 学习：在双 Q 学习中，动作选择和 Q 值估计分别由两个网络完成。在 DDPG 设置中，给定两个确定性演员$(\mu_{\theta_1}, \mu_{\theta_2})$和两个对应的评论家$(Q_{w_1}, Q_{w_2})$，双 Q 学习的贝尔曼目标如下：

\[\begin{aligned} y_1 &= r + \gamma Q_{w_2}(s', \mu_{\theta_1}(s'))\\ y_2 &= r + \gamma Q_{w_1}(s', \mu_{\theta_2}(s')) \end{aligned} \]

然而，由于策略变化缓慢，这两个网络可能太相似以至于无法做出独立决策。剪切双 Q 学习使用两者中的最小估计，以偏向难以通过训练传播的低估偏差：

\[\begin{aligned} y_1 &= r + \gamma \min_{i=1,2}Q_{w_i}(s', \mu_{\theta_1}(s'))\\ y_2 &= r + \gamma \min_{i=1,2} Q_{w_i}(s', \mu_{\theta_2}(s')) \end{aligned} \]

(2) 延迟更新目标和策略网络：在演员-评论家模型中，策略和值的更新是深度耦合的：当策略较差时，值估计通过过度估计而发散，如果值估计本身不准确，策略也会变差。

为了减少方差，TD3 以比 Q 函数更低的频率更新策略。策略网络保持不变，直到经过几次更新后值误差足够小。这个想法类似于DQN中定期更新的目标网络保持稳定的目标。

(3) 目标策略平滑：考虑到确定性策略可能会过度拟合值函数中的窄峰，TD3 引入了对值函数的平滑正则化策略：向所选动作添加一小部分剪切的随机噪声，并在小批量上进行平均。

\[\begin{aligned} y &= r + \gamma Q_w (s', \mu_{\theta}(s') + \epsilon) & \\ \epsilon &\sim \text{clip}(\mathcal{N}(0, \sigma), -c, +c) & \scriptstyle{\text{ ; 剪切的随机噪声。}} \end{aligned} \]

这种方法模仿了SARSA更新的思想，并强调相似的动作应该具有相似的值。

这是最终的算法：

图 10. TD3 算法。 (图片来源: Fujimoto et al., 2018)

SVPG

[论文|代码 for SVPG]

Stein 变分策略梯度（SVPG；Liu et al, 2017）应用Stein变分梯度下降（SVGD；Liu and Wang, 2016）算法来更新策略参数$\theta$。

在最大熵策略优化设置中，$\theta$被视为随机变量$\theta \sim q(\theta)$，模型应该学习这个分布$q(\theta)$。假设我们知道关于$q$可能的先验$q_0$，我们希望通过优化以下目标函数来引导学习过程，使$\theta$不要离$q_0$太远：

\[\hat{J}(\theta) = \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0) \]

其中 $\mathbb{E}_{\theta \sim q} [R(\theta)]$ 是当 $\theta \sim q(\theta)$ 时的期望奖励，$D_\text{KL}$ 是 KL 散度。

如果我们没有任何先验信息，可以将 $q_0$ 设置为均匀分布，并将 $q_0(\theta)$ 设置为一个常数。然后上述目标函数变为 SAC，其中熵项鼓励探索：

\[\begin{aligned} \hat{J}(\theta) &= \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0) \\ &= \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha \mathbb{E}_{\theta \sim q} [\log q(\theta) - \log q_0(\theta)] \\ &= \mathbb{E}_{\theta \sim q} [J(\theta)] + \alpha H(q(\theta)) \end{aligned} \]

让我们对 $\hat{J}(\theta) = \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q|q_0)$ 关于 $q$ 求导：

\[\begin{aligned} \nabla_q \hat{J}(\theta) &= \nabla_q \big( \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0) \big) \\ &= \nabla_q \int_\theta \big( q(\theta) J(\theta) - \alpha q(\theta)\log q(\theta) + \alpha q(\theta) \log q_0(\theta) \big) \\ &= \int_\theta \big( J(\theta) - \alpha \log q(\theta) -\alpha + \alpha \log q_0(\theta) \big) \\ &= 0 \end{aligned} \]

最优分布是：

\[\log q^{*}(\theta) = \frac{1}{\alpha} J(\theta) + \log q_0(\theta) - 1 \text{ 因此 } \underbrace{ q^{*}(\theta) }_\textrm{"后验"} \propto \underbrace{\exp ( J(\theta) / \alpha )}_\textrm{"似然"} \underbrace{q_0(\theta)}_\textrm{先验} \]

温度 $\alpha$ 决定了开发和探索之间的权衡。当 $\alpha \rightarrow 0$ 时，$\theta$ 只根据预期回报 $J(\theta)$ 进行更新。当 $\alpha \rightarrow \infty$ 时，$\theta$ 总是遵循先验信念。

当使用 SVGD 方法估计目标后验分布 $q(\theta)$ 时，它依赖于一组粒子 $\{\theta_i\}_{i=1}^n$（独立训练的策略代理），每个粒子都会更新：

\[\theta_i \gets \theta_i + \epsilon \phi^{*}(\theta_i) \text{ 其中 } \phi^{*} = \max_{\phi \in \mathcal{H}} \{ - \nabla_\epsilon D_\text{KL} (q'_{[\theta + \epsilon \phi(\theta)]} \| q) \text{ s.t. } \|\phi\|_{\mathcal{H}} \leq 1\} \]

其中 $\epsilon$ 是学习率，$\phi^{*}$ 是 $\theta$-形状值向量的 RKHS（再生核希尔伯特空间）$\mathcal{H}$ 的单位球，最大程度地减少粒子与目标分布之间的 KL 散度。 $q’(.)$ 是 $\theta + \epsilon \phi(\theta)$ 的分布。

比较不同基于梯度的更新方法：

方法	更新空间
普通梯度	参数空间上的 $\Delta \theta$
自然梯度	在搜索分布空间上的 $\Delta \theta$
SVGD	在核函数空间上的 $\Delta \theta$（已编辑）

$\phi^{*}$ 的一个估计具有以下形式。一个正定核 $k(\vartheta, \theta)$，即高斯径向基函数，衡量粒子之间的相似性。

\[\begin{aligned} \phi^{*}(\theta_i) &= \mathbb{E}_{\vartheta \sim q'} [\nabla_\vartheta \log q(\vartheta) k(\vartheta, \theta_i) + \nabla_\vartheta k(\vartheta, \theta_i)]\\ &= \frac{1}{n} \sum_{j=1}^n [\color{red}{\nabla_{\theta_j} \log q(\theta_j) k(\theta_j, \theta_i)} + \color{green}{\nabla_{\theta_j} k(\theta_j, \theta_i)}] & \scriptstyle{\text{；用当前粒子值近似 }q'} \end{aligned} \]

红色的第一项鼓励 $\theta_i$ 朝着 $q$ 的高概率区域学习，这些区域在相似粒子之间共享。 => 与其他粒子相似
绿色的第二项将粒子推开，从而使策略多样化。 => 与其他粒子不同

通常温度 $\alpha$ 遵循一个退火方案，以便训练过程在开始时进行更多的探索，但在后期进行更多的利用。

IMPALA

[论文|代码]

为了将强化学习训练扩展到实现非常高的吞吐量，IMPALA（“重要性加权演员-学习者架构”）框架在基本的演员-评论家设置之上解耦了行为和学习，并通过V-trace离线校正从所有经验轨迹中学习。

多个演员并行生成经验，而学习者使用所有生成的经验优化策略和价值函数参数。演员定期使用学习者的最新策略更新其参数。由于行为和学习是解耦的，我们可以添加更多的演员机器以生成更多的轨迹。由于训练策略和行为策略并不完全同步，它们之间存在差距，因此我们需要离线校正。

让价值函数 $V_\theta$ 由 $\theta$ 参数化，策略 $\pi_\phi$ 由 $\phi$ 参数化。我们也知道重放缓冲区中的轨迹是由稍旧的策略 $\mu$ 收集的。

在训练时间 $t$，给定 $(s_t, a_t, s_{t+1}, r_t)$，通过当前值和 V-trace 值目标之间的 L2 损失来学习价值函数参数 $\theta$。$n$ 步 V-trace 目标定义为：

\[\begin{aligned} v_t &= V_\theta(s_t) + \sum_{i=t}^{t+n-1} \gamma^{i-t} \big(\prod_{j=t}^{i-1} c_j\big) \color{red}{\delta_i V} \\ &= V_\theta(s_t) + \sum_{i=t}^{t+n-1} \gamma^{i-t} \big(\prod_{j=t}^{i-1} c_j\big) \color{red}{\rho_i (r_i + \gamma V_\theta(s_{i+1}) - V_\theta(s_i))} \end{aligned} \]

其中红色部分 $\delta_i V$ 是 $V$ 的时间差。$\rho_i = \min\big(\bar{\rho}, \frac{\pi(a_i \vert s_i)}{\mu(a_i \vert s_i)}\big)$ 和 $c_j = \min\big(\bar{c}, \frac{\pi(a_j \vert s_j)}{\mu(a_j \vert s_j)}\big)$ 是截断的重要性采样（IS）权重。$c_t, \dots, c_{i-1}$ 的乘积衡量了时间 $i$ 观察到的时间差 $\delta_i V$ 对先前时间 $t$ 的值函数更新的影响。在 on-policy 情况下，我们有 $\rho_i=1$ 和 $c_j=1$（假设 $\bar{c} \geq 1$），因此 V-trace 目标变为 on-policy $n$-step Bellman 目标。

$\bar{\rho}$ 和 $\bar{c}$ 是两个截断常数，其中 $\bar{\rho} \geq \bar{c}$。$\bar{\rho}$ 影响我们收敛到的值函数的固定点，$\bar{c}$ 影响收敛的速度。当 $\bar{\rho} =\infty$（未截断）时，我们收敛到目标策略的值函数 $V^\pi$；当 $\bar{\rho}$ 接近 0 时，我们评估行为策略的值函数 $V^\mu$；当介于两者之间时，我们评估介于 $\pi$ 和 $\mu$ 之间的策略。

因此，值函数参数在以下方向上进行更新：

\[\Delta\theta = (v_t - V_\theta(s_t))\nabla_\theta V_\theta(s_t) \]

策略参数 $\phi$ 通过策略梯度进行更新，

\[\begin{aligned} \Delta \phi &= \rho_t \nabla_\phi \log \pi_\phi(a_t \vert s_t) \big(r_t + \gamma v_{t+1} - V_\theta(s_t)\big) + \nabla_\phi H(\pi_\phi)\\ &= \rho_t \nabla_\phi \log \pi_\phi(a_t \vert s_t) \big(r_t + \gamma v_{t+1} - V_\theta(s_t)\big) - \nabla_\phi \sum_a \pi_\phi(a\vert s_t)\log \pi_\phi(a\vert s_t) \end{aligned} \]

其中 $r_t + \gamma v_{t+1}$ 是估计的 Q 值，从中减去了状态相关的基线 $V_\theta(s_t)$。$H(\pi_\phi)$ 是一个熵奖励，以鼓励探索。

在实验中，IMPALA 用于训练一个代理在多个任务上。涉及两种不同的模型架构，一个浅层模型（左）和一个深度残差模型（右）。

快速总结

阅读完上述所有算法后，我列出了一些似乎在它们之间共同的构建块或原则：

尝试减少方差并保持偏差不变以稳定学习。
Off-policy 让我们更好地探索并更有效地使用数据样本。
经验回放（从回放内存缓冲区中采样的训练数据）；
目标网络定期冻结或更新速度比主动学习的策略网络慢；
批量归一化；
熵正则化奖励；
评论家和演员可以共享网络的较低层参数和用于策略和值函数的两个输出头。
可以使用确定性策略而不是随机策略进行学习。
对策略更新之间的发散施加约束。
新的优化方法（如 K-FAC）。
策略的熵最大化有助于鼓励探索。
不要高估价值函数的价值。
三思是否策略和价值网络应该共享参数。
待定更多。

引用为：

@article{weng2018PG,
  title   = "Policy Gradient Algorithms",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-04-08-policy-gradient/"
}

参考文献

[1] jeremykun.com 马尔可夫链蒙特卡洛，不带废话

[2] Richard S. Sutton 和 Andrew G. Barto。强化学习：介绍第二版。2017 年。

[3] John Schulman 等人。“使用广义优势估计进行高维连续控制。” ICLR 2016。

[4] Thomas Degris，Martha White 和 Richard S. Sutton。“离线演员评论家。” ICML 2012。

[5] timvieira.github.io 重要性采样

[6] Mnih，Volodymyr 等人。“深度强化学习的异步方法。” ICML。2016 年。

[7] David Silver 等人。“确定性策略梯度算法。” ICML。2014 年。

[8] Timothy P. Lillicrap 等人。“深度强化学习的连续控制。” arXiv 预印本 arXiv:1509.02971（2015 年）。

[9] Ryan Lowe 等人。“混合合作竞争环境的多智能体演员-评论家。” NIPS。2017 年。

[10] John Schulman 等人。“信任区域策略优化。” ICML。2015 年。

[11] Ziyu Wang 等人。“具有经验重播的样本高效演员-评论家。” ICLR 2017。

[12] Rémi Munos，Tom Stepleton，Anna Harutyunyan 和 Marc Bellemare。“安全高效的离线策略强化学习” NIPS。2016 年。

[13] Yuhuai Wu 等人。“使用 Kronecker 因子化逼近的可扩展信任区域方法进行深度强化学习。” NIPS。2017 年。

[14] kvfrans.com 自然梯度下降的直观解释

[15] Sham Kakade。“自然策略梯度。” NIPS。2002 年。

[16] “深入探讨强化学习：策略梯度基础。” - Seita’s Place，2017 年 3 月。

[17] “关于广义优势估计论文的笔记。” - Seita’s Place，2017 年 4 月。

[18] Gabriel Barth-Maron 等人。“分布式分布式确定性策略梯度。” ICLR 2018 海报。

[19] 图马斯·哈尔诺亚，奥里克·周，皮特·阿贝尔和谢尔盖·莱文。“软演员-评论：离线最大熵深度强化学习与随机演员。” arXiv 预印本 arXiv:1801.01290 (2018)。

[20] 斯科特·藤本，赫克·范·胡夫和戴夫·梅格尔。“解决演员-评论方法中的函数逼近误差。” arXiv 预印本 arXiv:1802.09477 (2018)。

[21] 图马斯·哈尔诺亚等人。“软演员-评论算法及应用。” arXiv 预印本 arXiv:1812.05905 (2018)。

[22] 大卫·诺尔斯。“哑巴的拉格朗日对偶” 2010 年 11 月 13 日。

[23] 杨柳等人。“斯坦变分策略梯度。” arXiv 预印本 arXiv:1704.02399 (2017)。

[24] 刘强和王迪林。“斯坦变分梯度下降：一种通用的贝叶斯推断算法。” NIPS。2016 年。

[25] 拉斯·埃斯佩霍特等人。“IMPALA：具有重要性加权演员-学习者架构的可扩展分布式深度强化学习” arXiv 预印本 1802.01561 (2018)。

[26] 卡尔·科比等人。“阶段性策略梯度。” arXiv 预印本 arXiv:2009.04416 (2020)。

[27] 許青芸等人。“重新审视近端策略优化中的设计选择。” arXiv 预印本 arXiv:2009.10897 (2020)。

一个（长篇）深入了解强化学习

原文：lilianweng.github.io/posts/2018-02-19-rl-overview/

更新于 2020-09-03：更新了[SARSA 和 Q-learning 的算法，使差异更加明显。

[更新于 2021-09-19：感谢爱吃猫的鱼，我们在中文上有这篇文章]。

人工智能（AI）领域发生了一些令人兴奋的新闻。AlphaGo 在围棋比赛中击败了最优秀的职业人类选手。很快，扩展算法 AlphaGo Zero 在没有人类知识的监督学习下以 100-0 击败了 AlphaGo。顶级职业游戏玩家在 OpenAI 开发的 DOTA2 1v1 比赛中输给了机器人。在了解这些之后，很难不对这些算法背后的魔力感到好奇 — 强化学习（RL）。我写这篇文章是为了简要介绍这个领域。我们将首先介绍几个基本概念，然后深入探讨解决 RL 问题的经典方法。希望这篇文章能成为新手的一个良好起点，为未来研究前沿铺平道路。

什么是强化学习？

假设我们有一个在未知环境中的代理，这个代理可以通过与环境互动获得一些奖励。代理应该采取行动以最大化累积奖励。在现实中，情景可能是一个机器人玩游戏以获得高分，或者一个机器人试图用物理物品完成物理任务；不仅限于这些。

图 1. 代理与环境互动，试图采取聪明的行动以最大化累积奖励。

强化学习（RL）的目标是从实验性试验和相对简单的反馈中学习代理的良好策略。通过最佳策略，代理能够积极适应环境以最大化未来的奖励。

关键概念

现在让我们正式定义强化学习中的一组关键概念。

代理在一个环境中行动。环境对某些行动的反应是由一个模型定义的，我们可能知道也可能不知道。代理可以停留在环境的许多状态（$s \in \mathcal{S}$）中的一个，并选择采取许多动作（$a \in \mathcal{A}$）以从一个状态转换到另一个状态。代理将到达哪个状态由状态之间的转移概率（$P$）决定。一旦采取行动，环境会提供一个奖励（$r \in \mathcal{R}$）作为反馈。

模型定义了奖励函数和转移概率。我们可能知道也可能不知道模型是如何工作的，这区分了两种情况：

了解模型：使用完美信息进行规划；进行基于模型的强化学习。当我们完全了解环境时，我们可以通过动态规划（DP）找到最优解。你还记得你的算法 101 课程中的“最长递增子序列”或“旅行推销员问题”吗？哈哈。尽管这不是本文的重点。
不了解模型：在学习过程中缺乏信息；进行无模型强化学习或尝试明确学习模型作为算法的一部分。以下大部分内容适用于模型未知的情况。

代理的策略$\pi(s)$提供了在某个状态下采取最优动作的指导，目标是最大化总奖励。每个状态都与一个值函数$V(s)$相关联，预测我们通过执行相应策略在该状态中能够获得的未来奖励的期望量。换句话说，值函数量化了一个状态有多好。在强化学习中，我们试图学习策略和值函数。

图 2。基于我们是否想对价值、策略或环境进行建模的强化学习方法总结。（图片来源：摘自 David Silver 的强化学习课程第 1 讲。）

代理和环境之间的交互涉及时间$t=1, 2, \dots, T$中的一系列动作和观察到的奖励。在这个过程中，代理积累关于环境的知识，学习最优策略，并决定下一步应该采取哪个动作，以有效地学习最佳策略。让我们将时间步骤 t 处的状态、动作和奖励标记为$S_t$、$A_t$和$R_t$。因此，交互序列完全由一个剧集（也称为“试验”或“轨迹”）描述，并且序列在终端状态$S_T$处结束：

\[S_1, A_1, R_2, S_2, A_2, \dots, S_T \]

当深入研究不同类别的强化学习算法时，你会经常遇到的术语：

基于模型：依赖于环境的模型；模型可以是已知的，也可以是算法明确学习的。
无模型：在学习过程中不依赖于模型。
在策略：使用目标策略的确定性结果或样本来训练算法。
离策略：训练基于由不同行为策略产生的转换或剧集分布，而不是由目标策略产生的。

模型：转换和奖励

模型是环境的描述符。有了模型，我们可以学习或推断环境将如何与代理交互并向其提供反馈。模型有两个主要部分，转换概率函数$P$和奖励函数$R$。

假设当我们处于状态 s 时，我们决定采取动作 a 到达下一个状态 s’并获得奖励 r。这被称为一个转移步骤，用元组(s, a, s’, r)表示。

过渡函数 P 记录了在采取动作 a 并获得奖励 r 后从状态 s 过渡到 s’的概率。我们使用$\mathbb{P}$作为“概率”的符号。

\[P(s', r \vert s, a) = \mathbb{P} [S_{t+1} = s', R_{t+1} = r \vert S_t = s, A_t = a] \]

因此，状态转移函数可以定义为$P(s’, r \vert s, a)$的函数：

\[P_{ss'}^a = P(s' \vert s, a) = \mathbb{P} [S_{t+1} = s' \vert S_t = s, A_t = a] = \sum_{r \in \mathcal{R}} P(s', r \vert s, a) \]

奖励函数 R 预测由一个动作触发的下一个奖励：

\[R(s, a) = \mathbb{E} [R_{t+1} \vert S_t = s, A_t = a] = \sum_{r\in\mathcal{R}} r \sum_{s' \in \mathcal{S}} P(s', r \vert s, a) \]

策略

策略，作为代理的行为函数$\pi$，告诉我们在状态 s 中应该采取哪个动作。它是从状态 s 到动作 a 的映射，可以是确定性的或随机的：

确定性的：$\pi(s) = a$。
随机的：$\pi(a \vert s) = \mathbb{P}_\pi [A=a \vert S=s]$。

值函数

值函数通过对未来奖励的预测来衡量状态的优劣或状态或动作的奖励性。未来奖励，也称为回报，是向前总和的折现奖励。让我们从时间 t 开始计算回报$G_t$：

\[G_t = R_{t+1} + \gamma R_{t+2} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

折现因子$\gamma \in [0, 1]$惩罚未来的奖励，因为：

未来奖励可能具有更高的不确定性；即股票市场。
未来奖励不提供即时的好处；即作为人类，我们可能更喜欢今天玩乐，而不是 5 年后 😉.
折现提供了数学上的便利；即，我们不需要永远跟踪未来步骤来计算回报。
我们不需要担心状态转移图中的无限循环。

状态值是在时间 t 处于该状态 s 时的预期回报，$S_t = s$：

\[V_{\pi}(s) = \mathbb{E}_{\pi}[G_t \vert S_t = s] \]

同样，我们将状态-动作对的动作值（“Q 值”；Q 代表“质量”我相信？）定义为：

\[Q_{\pi}(s, a) = \mathbb{E}_{\pi}[G_t \vert S_t = s, A_t = a] \]

另外，由于我们遵循目标策略$\pi$，我们可以利用可能动作的概率分布和 Q 值来恢复状态值：

\[V_{\pi}(s) = \sum_{a \in \mathcal{A}} Q_{\pi}(s, a) \pi(a \vert s) \]

动作值和状态值之间的差异是动作优势函数（“A 值”）：

\[A_{\pi}(s, a) = Q_{\pi}(s, a) - V_{\pi}(s) \]

最优值和策略

最优值函数产生最大回报：

\[V_{*}(s) = \max_{\pi} V_{\pi}(s), Q_{*}(s, a) = \max_{\pi} Q_{\pi}(s, a) \]

最优策略实现最优值函数：

\[\pi_{*} = \arg\max_{\pi} V_{\pi}(s), \pi_{*} = \arg\max_{\pi} Q_{\pi}(s, a) \]

当然，我们有 $V_{\pi_{*}}(s)=V_{*}(s)$ 和 $Q_{\pi_{*}}(s, a) = Q_{*}(s, a)$。

马尔可夫决策过程

更正式地说，几乎所有的强化学习问题都可以被定义为马尔可夫决策过程（MDPs）。MDP 中的所有状态都具有“马尔可夫”属性，指的是未来只取决于当前状态，而不是历史：

\[\mathbb{P}[ S_{t+1} \vert S_t ] = \mathbb{P} [S_{t+1} \vert S_1, \dots, S_t] \]

或者换句话说，未来和过去在当前状态的条件下是条件独立的，因为当前状态包含了我们决定未来所需的所有统计信息。

图 3. 马尔可夫决策过程中的智能体-环境交互。（图片来源：Sec. 3.1 Sutton & Barto (2017).）

马尔可夫决策过程由五个元素组成 $\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$，其中符号与前面部分的关键概念具有相同的含义，与强化学习问题设置相吻合：

$\mathcal{S}$ - 一组状态;
$\mathcal{A}$ - 一组动作;
$P$ - 转移概率函数;
$R$ - 奖励函数;
$\gamma$ - 未来奖励的折现因子。在未知环境中，我们对$P$和$R$没有完美的了解。

图 4. 一个马尔可夫决策过程的有趣示例：典型的工作日。（图片来源：randomant.net/reinforcement-learning-concepts）

贝尔曼方程

贝尔曼方程指的是一组方程，将值函数分解为即时奖励加上折现未来值。

\[\begin{aligned} V(s) &= \mathbb{E}[G_t \vert S_t = s] \\ &= \mathbb{E} [R_{t+1} + \gamma R_{t+2} + \gamma² R_{t+3} + \dots \vert S_t = s] \\ &= \mathbb{E} [R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots) \vert S_t = s] \\ &= \mathbb{E} [R_{t+1} + \gamma G_{t+1} \vert S_t = s] \\ &= \mathbb{E} [R_{t+1} + \gamma V(S_{t+1}) \vert S_t = s] \end{aligned} \]

对于 Q 值也是类似的，

\[\begin{aligned} Q(s, a) &= \mathbb{E} [R_{t+1} + \gamma V(S_{t+1}) \mid S_t = s, A_t = a] \\ &= \mathbb{E} [R_{t+1} + \gamma \mathbb{E}_{a\sim\pi} Q(S_{t+1}, a) \mid S_t = s, A_t = a] \end{aligned} \]

贝尔曼期望方程

递归更新过程可以进一步分解为建立在状态值和动作值函数上的方程。随着我们在未来的动作步骤中继续，我们通过遵循策略$\pi$交替扩展 V 和 Q。

图 5. 贝尔曼期望方程如何更新状态值和动作值函数的示意图。

\[\begin{aligned} V_{\pi}(s) &= \sum_{a \in \mathcal{A}} \pi(a \vert s) Q_{\pi}(s, a) \\ Q_{\pi}(s, a) &= R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a V_{\pi} (s') \\ V_{\pi}(s) &= \sum_{a \in \mathcal{A}} \pi(a \vert s) \big( R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a V_{\pi} (s') \big) \\ Q_{\pi}(s, a) &= R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a \sum_{a' \in \mathcal{A}} \pi(a' \vert s') Q_{\pi} (s', a') \end{aligned} \]

贝尔曼最优方程

如果我们只对最优值感兴趣，而不是按照策略计算期望值，我们可以直接在替代更新中跳转到最大回报，而不使用策略。回顾：最优值$V_*$和$Q_*$是我们可以获得的最佳回报，定义如下链接。

\[\begin{aligned} V_*(s) &= \max_{a \in \mathcal{A}} Q_*(s,a)\\ Q_*(s, a) &= R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a V_*(s') \\ V_*(s) &= \max_{a \in \mathcal{A}} \big( R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a V_*(s') \big) \\ Q_*(s, a) &= R(s, a) + \gamma \sum_{s' \in \mathcal{S}} P_{ss'}^a \max_{a' \in \mathcal{A}} Q_*(s', a') \end{aligned} \]

毫不奇怪，它们看起来与贝尔曼期望方程非常相似。

如果我们对环境的完全信息，这就变成了一个规划问题，可以通过 DP 来解决。不幸的是，在大多数情况下，我们不知道$P_{ss’}^a$或$R(s, a)$，因此我们无法通过直接应用贝尔曼方程来解决 MDP，但它为许多 RL 算法奠定了理论基础。

常见方法

现在是时候深入了解解决 RL 问题的主要方法和经典算法了。在未来的帖子中，我计划进一步探讨每种方法。

动态规划

当模型完全已知时，根据贝尔曼方程，我们可以使用动态规划（DP）来迭代地评估值函数并改进策略。

策略评估

策略评估是为给定策略$\pi$计算状态值$V_\pi$：

\[V_{t+1}(s) = \mathbb{E}_\pi [r + \gamma V_t(s') | S_t = s] = \sum_a \pi(a \vert s) \sum_{s', r} P(s', r \vert s, a) (r + \gamma V_t(s')) \]

策略改进

基于值函数，策略改进通过贪婪地行动生成一个更好的策略$\pi’ \geq \pi$。

\[Q_\pi(s, a) = \mathbb{E} [R_{t+1} + \gamma V_\pi(S_{t+1}) \vert S_t=s, A_t=a] = \sum_{s', r} P(s', r \vert s, a) (r + \gamma V_\pi(s')) \]

策略迭代

广义策略迭代（GPI）算法指的是在结合策略评估和改进时改进策略的迭代过程。

\[\pi_0 \xrightarrow[]{\text{evaluation}} V_{\pi_0} \xrightarrow[]{\text{improve}} \pi_1 \xrightarrow[]{\text{evaluation}} V_{\pi_1} \xrightarrow[]{\text{improve}} \pi_2 \xrightarrow[]{\text{evaluation}} \dots \xrightarrow[]{\text{improve}} \pi_* \xrightarrow[]{\text{evaluation}} V_* \]

在 GPI 中，值函数被重复逼近以接近当前策略的真实值，同时策略被重复改进以接近最优性。这种策略迭代过程有效且总是收敛于最优性，但为什么会这样呢？

假设我们有一个策略 $\pi$，然后通过贪婪地采取行动生成一个改进版本 $\pi'$，$\pi'(s) = \arg\max_{a \in \mathcal{A}} Q_\pi(s, a)$。这个改进的 $\pi'$ 的价值是有保证的更好，因为：

\[\begin{aligned} Q_\pi(s, \pi'(s)) &= Q_\pi(s, \arg\max_{a \in \mathcal{A}} Q_\pi(s, a)) \\ &= \max_{a \in \mathcal{A}} Q_\pi(s, a) \geq Q_\pi(s, \pi(s)) = V_\pi(s) \end{aligned} \]

蒙特卡洛方法

首先，让我们回顾一下 $V(s) = \mathbb{E}[ G_t \vert S_t=s]$。蒙特卡洛（MC）方法使用一个简单的思想：它从原始经验的情节中学习，而不对环境动态进行建模，并将观察到的平均回报作为期望回报的逼近。为了计算经验回报 $G_t$，MC 方法需要从完整的情节 $S_1, A_1, R_2, \dots, S_T$ 中学习以计算 $G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$，并且所有情节最终都必须终止。

状态 s 的经验平均回报为：

\[V(s) = \frac{\sum_{t=1}^T \mathbb{1}[S_t = s] G_t}{\sum_{t=1}^T \mathbb{1}[S_t = s]} \]

其中 $\mathbb{1}[S_t = s]$ 是一个二元指示函数。我们可以每次计算状态 s 的访问次数，因此在一个情节中可能存在对一个状态的多次访问（“每次访问”），或者只在一个情节中首次遇到状态时计数（“首次访问”）。这种逼近方式可以通过计算（s, a）对来轻松扩展到动作值函数。

\[Q(s, a) = \frac{\sum_{t=1}^T \mathbb{1}[S_t = s, A_t = a] G_t}{\sum_{t=1}^T \mathbb{1}[S_t = s, A_t = a]} \]

通过 MC 学习最优策略，我们通过遵循类似于 GPI 的思想进行迭代。

根据当前值函数贪婪地改进策略：$\pi(s) = \arg\max_{a \in \mathcal{A}} Q(s, a)$。
使用新策略 $\pi$ 生成一个新的情节（即使用像ε-greedy这样的算法帮助我们在开发和探索之间取得平衡）。
使用新情节估计 Q：$q_\pi(s, a) = \frac{\sum_{t=1}^T \big( \mathbb{1}[S_t = s, A_t = a] \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1} \big)}{\sum_{t=1}^T \mathbb{1}[S_t = s, A_t = a]}$

时间差分学习

与蒙特卡洛方法类似，时间差分（TD）学习是无模型的，并且从经验情节中学习。然而，TD 学习可以从不完整的情节中学习，因此我们不需要追踪情节直至终止。TD 学习如此重要，以至于 Sutton & Barto（2017）在他们的强化学习书中将其描述为“强化学习中一个中心且新颖的想法”。

自举

TD 学习方法更新目标是根据现有估计而不是仅依赖于实际奖励和完整回报，这种方法被称为自举。

价值估计

TD 学习的关键思想是将值函数$V(S_t)$更新为估计的回报$R_{t+1} + \gamma V(S_{t+1})$（称为“TD 目标”）。我们希望在多大程度上更新值函数由学习率超参数α控制：

\[\begin{aligned} V(S_t) &\leftarrow (1- \alpha) V(S_t) + \alpha G_t \\ V(S_t) &\leftarrow V(S_t) + \alpha (G_t - V(S_t)) \\ V(S_t) &\leftarrow V(S_t) + \alpha (R_{t+1} + \gamma V(S_{t+1}) - V(S_t)) \end{aligned} \]

类似地，对于动作值估计：

\[Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)) \]

接下来，让我们深入探讨如何在 TD 学习中学习最优策略（也称为“TD 控制”）。准备好，你将在本节中看到许多经典算法的著名名称。

SARSA：基于策略的 TD 控制

“SARSA”指的是通过遵循一系列$\dots, S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1}, \dots$来更新 Q 值的过程。这个想法遵循 GPI 的相同路线。在一个回合内，它的工作方式如下：

初始化$t=0$。
从$S_0$开始并选择动作$A_0 = \arg\max_{a \in \mathcal{A}} Q(S_0, a)$，通常应用$\epsilon$-贪心策略。
在时间$t$，应用动作$A_t$后，我们观察奖励$R_{t+1}$并进入下一个状态$S_{t+1}$。
接着以与第 2 步相同的方式选择下一个动作：$A_{t+1} = \arg\max_{a \in \mathcal{A}} Q(S_{t+1}, a)$。
更新 Q 值函数：$ Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)) $。
设定$t = t+1$并重复从第 3 步开始。

在 SARSA 的每一步中，我们需要根据当前策略选择下一个动作。

Q 学习：离策略 TD 控制

Q 学习的发展（Watkins & Dayan, 1992）是强化学习早期的重大突破。在一个回合内，它的工作方式如下：

初始化$t=0$。
从$S_0$开始。
在时间步$t$，我们根据 Q 值选择动作，$A_t = \arg\max_{a \in \mathcal{A}} Q(S_t, a)$，通常应用$\epsilon$-贪心策略。
在应用动作$A_t$后，我们观察奖励$R_{t+1}$并进入下一个状态$S_{t+1}$。
更新 Q 值函数：$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha (R_{t+1} + \gamma \max_{a \in \mathcal{A}} Q(S_{t+1}, a) - Q(S_t, A_t))$。
$t = t+1$并重复从第 3 步开始。

与 SARSA 的关键区别在于，Q 学习不遵循当前策略选择第二个动作$A_{t+1}$。它估计$Q^*$超出最佳 Q 值，但导致这个最大 Q 的动作（表示为$a^*$）并不重要，在下一步中 Q 学习可能不会遵循$a^*$。

图 6. Q 学习和 SARSA 的备份图。（图片来源：基于 Sutton＆Barto（2017）第 6.5 节中的图 6.5 重新绘制）

深度 Q 网络

理论上，我们可以在 Q 学习中为所有状态-动作对记忆$Q_*(.)$，就像在一个巨大的表中一样。然而，当状态和动作空间很大时，这很快变得计算上不可行。因此，人们使用函数（即机器学习模型）来近似 Q 值，这被称为函数逼近。例如，如果我们使用一个带有参数$\theta$的函数来计算 Q 值，我们可以将 Q 值函数标记为$Q(s, a; \theta)$。

不幸的是，当与非线性 Q 值函数逼近和自举（见问题＃2）结合时，Q 学习可能会遭受不稳定性和发散。

深度 Q 网络（“DQN”；Mnih 等人，2015 年）旨在通过两种创新机制大大改进和稳定 Q 学习的训练过程：

经验重放：所有的情节步骤$e_t = (S_t, A_t, R_t, S_{t+1})$都存储在一个重放记忆$D_t = \{ e_1, \dots, e_t \}$中。$D_t$包含许多情节的经验元组。在 Q 学习更新期间，从重放记忆中随机抽取样本，因此一个样本可能被多次使用。经验重放提高了数据效率，消除了观察序列中的相关性，并平滑了数据分布的变化。
定期更新目标值：Q 被优化为仅定期更新的目标值。Q 网络被克隆并保持冻结，作为每 C 步（C 是一个超参数）的优化目标。这种修改使训练更加稳定，因为它克服了短期振荡。

损失函数如下所示：

\[\mathcal{L}(\theta) = \mathbb{E}_{(s, a, r, s') \sim U(D)} \Big[ \big( r + \gamma \max_{a'} Q(s', a'; \theta^{-}) - Q(s, a; \theta) \big)² \Big] \]

其中$U(D)$是重放记忆 D 上的均匀分布；$\theta^{-}$是冻结目标 Q 网络的参数。

此外，将错误项剪切至[-1, 1]之间也被发现是有帮助的。（我总是对参数剪切有复杂的感觉，因为许多研究表明它在经验上有效，但这使得数学变得不那么美观。😕）

图 7. 具有经验重放和偶尔冻结优化目标的 DQN 算法。预处理的序列是在 Atari 游戏的输入图像上运行的一些进程的输出。不要太担心它；只需将它们视为输入特征向量。（图片来源：Mnih 等人，2015 年）

有许多 DQN 的扩展来改进原始设计，例如具有 dueling 架构的 DQN（Wang 等人，2016 年），它使用共享网络参数估计状态值函数 V(s)和优势函数 A(s, a)。

结合 TD 和 MC 学习

在 TD 学习中关于值估计的前一部分中，当计算 TD 目标时我们只追踪行动链下的一步。可以轻松地将其扩展到多步以估计回报。

让我们将跟随 n 步的估计回报标记为$G_t^{(n)}, n=1, \dots, \infty$，那么：

$n$	$G_t$	注释
$n=1$	$G_t^{(1)} = R_{t+1} + \gamma V(S_{t+1})$	TD 学习
$n=2$	$G_t^{(2)} = R_{t+1} + \gamma R_{t+2} + \gamma² V(S_{t+2})$
…
$n=n$	$ G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+n}) $
…
$n=\infty$	$G_t^{(\infty)} = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T + \gamma^{T-t} V(S_T) $	MC 估计

广义的 n 步 TD 学习仍然具有相同的形式来更新值函数：

\[ V(S_t) \leftarrow V(S_t) + \alpha (G_t^{(n)} - V(S_t)) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/eb2d7c2fa9b237e9bf828a0f308a9465.png) 在 TD 学习中，我们可以自由选择任何$n$。现在问题变成了什么是最佳的$n$？哪个$G_t^{(n)}$给出了最佳的回报近似？一个常见但聪明的解决方案是应用所有可能的 n 步 TD 目标的加权和，而不是选择单个最佳的 n。权重随着 n 按照λ的因子衰减，$\lambda^{n-1}$；直觉类似于为什么在计算回报时我们希望折现未来奖励：我们看得越远，我们就越不确定。为了使所有权重（n → ∞）总和为 1，我们将每个权重乘以(1-λ)，因为： $$ \begin{aligned} \text{let } S &= 1 + \lambda + \lambda² + \dots \\ S &= 1 + \lambda(1 + \lambda + \lambda² + \dots) \\ S &= 1 + \lambda S \\ S &= 1 / (1-\lambda) \end{aligned} \]

这个由许多 n 步回报加权求和得到的λ回报称为λ回报 $G_t^{\lambda} = (1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} G_t^{(n)}$。采用λ回报进行值更新的 TD 学习被标记为TD(λ)。我们上面介绍的原始版本等同于TD(0)。

图 8。蒙特卡洛、时序差分学习和动态规划用于状态值函数备份图的比较。（图片来源：David Silver 的强化学习课程第 4 讲：“无模型预测”）

策略梯度

我们介绍的所有方法的目标都是学习状态/动作值函数，然后相应地选择动作。而策略梯度方法则直接学习策略，使用参数化函数关于 $\theta$，$\pi(a \vert s; \theta)$。让我们将奖励函数（损失函数的相反）定义为 期望回报，并训练算法以最大化奖励函数。我的下一篇文章描述了为什么策略梯度定理有效（证明）并介绍了一些策略梯度算法。

在离散空间中：

\[\mathcal{J}(\theta) = V_{\pi_\theta}(S_1) = \mathbb{E}_{\pi_\theta}[V_1] \]

其中 $S_1$ 是初始起始状态。

或者在连续空间中：

\[\mathcal{J}(\theta) = \sum_{s \in \mathcal{S}} d_{\pi_\theta}(s) V_{\pi_\theta}(s) = \sum_{s \in \mathcal{S}} \Big( d_{\pi_\theta}(s) \sum_{a \in \mathcal{A}} \pi(a \vert s, \theta) Q_\pi(s, a) \Big) \]

其中 $d_{\pi_\theta}(s)$ 是 $\pi_\theta$ 的马尔可夫链的稳态分布。如果您对“稳态分布”的定义不熟悉，请查看这个参考资料。

使用 梯度上升 我们可以找到产生最高回报的最佳 θ。可以预期基于策略的方法在连续空间中更有用，因为在连续空间中有无限数量的动作和/或状态需要估计值，因此基于值的方法在计算上要昂贵得多。

策略梯度定理

通过在第 k 维度中微调 θ 一小部分 ε，可以通过 数值方法 计算梯度。即使 $J(\theta)$ 不可微（很好！），但不出所料地非常慢。

\[\frac{\partial \mathcal{J}(\theta)}{\partial \theta_k} \approx \frac{\mathcal{J}(\theta + \epsilon u_k) - \mathcal{J}(\theta)}{\epsilon} \]

或者 分析地，

\[\mathcal{J}(\theta) = \mathbb{E}_{\pi_\theta} [r] = \sum_{s \in \mathcal{S}} d_{\pi_\theta}(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) R(s, a) \]

实际上，我们有很好的理论支持（用 $d(.)$ 替换为 $d_\pi(.)$）：

\[\mathcal{J}(\theta) = \sum_{s \in \mathcal{S}} d_{\pi_\theta}(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) Q_\pi(s, a) \propto \sum_{s \in \mathcal{S}} d(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) Q_\pi(s, a) \]

请查看 Sutton & Barto (2017)中的第 13.1 节，了解为什么会这样。

然后，

\[\begin{aligned} \mathcal{J}(\theta) &= \sum_{s \in \mathcal{S}} d(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) Q_\pi(s, a) \\ \nabla \mathcal{J}(\theta) &= \sum_{s \in \mathcal{S}} d(s) \sum_{a \in \mathcal{A}} \nabla \pi(a \vert s; \theta) Q_\pi(s, a) \\ &= \sum_{s \in \mathcal{S}} d(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) \frac{\nabla \pi(a \vert s; \theta)}{\pi(a \vert s; \theta)} Q_\pi(s, a) \\ & = \sum_{s \in \mathcal{S}} d(s) \sum_{a \in \mathcal{A}} \pi(a \vert s; \theta) \nabla \ln \pi(a \vert s; \theta) Q_\pi(s, a) \\ & = \mathbb{E}_{\pi_\theta} [\nabla \ln \pi(a \vert s; \theta) Q_\pi(s, a)] \end{aligned} \]

这个结果被称为“策略梯度定理”，为各种策略梯度算法奠定了理论基础：

\[\nabla \mathcal{J}(\theta) = \mathbb{E}_{\pi_\theta} [\nabla \ln \pi(a \vert s, \theta) Q_\pi(s, a)] \]

强化

强化，也称为蒙特卡洛策略梯度，依赖于 $Q_\pi(s, a)$，通过使用回合样本的 MC 方法估计回报，来更新策略参数 $\theta$。

强化的一个常用变体是从回报 $G_t$ 中减去一个基线值，以减少梯度估计的方差，同时保持偏差不变。例如，一个常见的基线是状态值，如果应用，我们将在梯度上升更新中使用 $A(s, a) = Q(s, a) - V(s)$。

随机初始化 θ
生成一个回合 $S_1, A_1, R_2, S_2, A_2, \dots, S_T$
对于 t=1, 2, … , T：
1. 估计从时间步 t 开始的回报 G_t。
2. $\theta \leftarrow \theta + \alpha \gamma^t G_t \nabla \ln \pi(A_t \vert S_t, \theta)$。

演员-评论家

如果值函数除了策略外也被学习，我们将得到演员-评论家算法。

评论家：更新值函数参数 w，根据算法的不同，可能是动作值 $Q(a \vert s; w)$ 或状态值 $V(s; w)$。
演员：根据评论家建议的方向更新策略参数 θ，$\pi(a \vert s; \theta)$。

让我们看看它是如何在一个动作值演员-评论家算法中起作用的。

随机初始化 s, θ, w；采样 $a \sim \pi(a \vert s; \theta)$。
对于 t = 1… T：
1. 采样奖励 $r_t \sim R(s, a)$ 和下一个状态 $s’ \sim P(s’ \vert s, a)$。
2. 然后采样下一个动作 $a’ \sim \pi(s’, a’; \theta)$。
3. 更新策略参数：$\theta \leftarrow \theta + \alpha_\theta Q(s, a; w) \nabla_\theta \ln \pi(a \vert s; \theta)$。
4. 计算时间步 t 的动作值的修正：
  
  $G_{t:t+1} = r_t + \gamma Q(s’, a’; w) - Q(s, a; w)$
  
  并用它来更新值函数参数：
  
  $w \leftarrow w + \alpha_w G_{t:t+1} \nabla_w Q(s, a; w) $。
5. 更新 $a \leftarrow a’$ 和 $s \leftarrow s’$。

$\alpha_\theta$ 和 $\alpha_w$ 是用于更新策略和值函数参数的两个学习率。

A3C

异步优势演员-评论家（Mnih 等人，2016），简称 A3C，是一种经典的策略梯度方法，特别关注并行训练。

在 A3C 中，评论家学习状态值函数$V(s; w)$，而多个执行者并行训练，并不时与全局参数同步。因此，A3C 默认适用于并行训练，即在具有多核 CPU 的一台机器上。

状态值的损失函数是最小化均方误差，$\mathcal{J}_v (w) = (G_t - V(s; w))²$，我们使用梯度下降找到最优的 w。这个状态值函数被用作策略梯度更新中的基准。

这里是算法概述：

我们有全局参数θ和 w；类似的线程特定参数θ’和 w’。
初始化时间步 t = 1
当 T <= T_MAX 时：
1. 重置梯度：dθ = 0，dw = 0。
2. 将线程特定参数与全局参数同步：θ’ = θ，w’ = w。
3. $t_\text{start}$ = t 并获取$s_t$。
4. 当（$s_t \neq \text{TERMINAL}$）且（$t - t_\text{start} <= t_\text{max}$）时：
  1. 选择动作$a_t \sim \pi(a_t \vert s_t; \theta’)$并接收新的奖励$r_t$和新状态$s_{t+1}$。
  2. 更新 t = t + 1 和 T = T + 1。
5. 初始化保存回报估计的变量$$R = \begin{cases} 0 & \text{if } s_t \text{ is TERMINAL} \ V(s_t; w’) & \text{otherwise} \end{cases}$$。
6. 对于$i = t-1, \dots, t_\text{start}$：
  1. $R \leftarrow r_i + \gamma R$；这里 R 是$G_i$的 MC 度量。
  2. 累积关于θ’的梯度：$d\theta \leftarrow d\theta + \nabla_{\theta’} \log \pi(a_i \vert s_i; \theta’)(R - V(s_i; w’))$；
    
    累积关于 w’的梯度：$dw \leftarrow dw + \nabla_{w’} (R - V(s_i; w’))²$。
7. 同步更新θ使用 dθ，w 使用 dw。

A3C 实现了多个代理训练中的并行性。梯度累积步骤（6.2）可以被视为基于小批量的随机梯度更新的改进：w 或θ的值在每个训练线程的独立方向上稍微修正。

进化策略

进化策略（ES）是一种模型无关的优化方法。它通过模仿达尔文的物种进化理论中的自然选择来学习最优解。应用 ES 的两个前提条件：（1）我们的解决方案可以自由与环境互动，看看它们是否能解决问题；（2）我们能够计算每个解决方案的适应度分数。我们不必了解环境配置来解决问题。

假设我们从一群随机解决方案开始。它们都能够与环境互动，只有具有高适应度分数的候选者才能存活（在有限资源的竞争中，只有最适者才能生存）。然后通过重新组合高适应度幸存者的设置（基因突变）创建新一代。这个过程重复进行，直到新解决方案足够好。

与我们上面介绍的流行的基于 MDP 的方法非常不同，ES 旨在学习策略参数$\theta$而无需值近似。假设参数$\theta$上的分布是均值为$\mu$，固定协方差$\sigma²I$的各向同性多元高斯分布。计算$F(\theta)$的梯度：

\[\begin{aligned} & \nabla_\theta \mathbb{E}_{\theta \sim N(\mu, \sigma²)} F(\theta) \\ =& \nabla_\theta \int_\theta F(\theta) \Pr(\theta) && \text{Pr(.)是高斯密度函数。} \\ =& \int_\theta F(\theta) \Pr(\theta) \frac{\nabla_\theta \Pr(\theta)}{\Pr(\theta)} \\ =& \int_\theta F(\theta) \Pr(\theta) \nabla_\theta \log \Pr(\theta) \\ =& \mathbb{E}_{\theta \sim N(\mu, \sigma²)} [F(\theta) \nabla_\theta \log \Pr(\theta)] && \text{类似于我们进行策略梯度更新的方式。} \\ =& \mathbb{E}_{\theta \sim N(\mu, \sigma²)} \Big[ F(\theta) \nabla_\theta \log \Big( \frac{1}{\sqrt{2\pi\sigma²}} e^{-\frac{(\theta - \mu)²}{2 \sigma² }} \Big) \Big] \\ =& \mathbb{E}_{\theta \sim N(\mu, \sigma²)} \Big[ F(\theta) \nabla_\theta \Big( -\log \sqrt{2\pi\sigma²} - \frac{(\theta - \mu)²}{2 \sigma²} \Big) \Big] \\ =& \mathbb{E}_{\theta \sim N(\mu, \sigma²)} \Big[ F(\theta) \frac{\theta - \mu}{\sigma²} \Big] \end{aligned} \]

我们可以用一个“均值”参数$\theta$（与上面的$\theta$不同；这个$\theta$是进一步突变的基因），$\epsilon \sim N(0, I)$，因此$\theta + \epsilon \sigma \sim N(\theta, \sigma²)$。$\epsilon$控制应添加多少高斯噪声以创建突变：

\[ \nabla_\theta \mathbb{E}_{\epsilon \sim N(0, I)} F(\theta + \sigma \epsilon) = \frac{1}{\sigma} \mathbb{E}_{\epsilon \sim N(0, I)} [F(\theta + \sigma \epsilon) \epsilon] $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/5f9ce9e6a32c8362b0b11c9ebf5870df.png) 图 9。一个简单的基于并行进化策略的 RL 算法。并行工作者共享随机种子，以便他们可以用极小的通信带宽重建高斯噪声。（图片来源：Salimans 等人，2017 年。） ES 作为一个黑盒优化算法，是解决 RL 问题的另一种方法（*在我的原始写作中，我使用了“一个不错的替代方案”这个短语；[Seita](https://danieltakeshi.github.io/)指引我到这个[讨论](https://www.reddit.com/r/MachineLearning/comments/6gke6a/d_requesting_openai_to_justify_the_grandiose/dir9wde/)，因此我更新了我的措辞。*）。它具有一些良好的特性（Salimans 等人，2017 年），使其快速且易于训练： + ES 不需要值函数近似； + ES 不执行梯度反向传播； + ES 对延迟或长期奖励不变； + ES 高度可并行化，数据通信量很小。 # 已知问题 ## 探索-利用困境探索与利用之间的困境问题已在我之前的[文章](https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/#exploitation-vs-exploration)中讨论过。当强化学习问题面对未知环境时，这个问题尤其关键，以找到一个好的解决方案：没有足够的探索，我们无法充分了解环境；没有足够的利用，我们无法完成奖励优化任务。不同的强化学习算法以不同的方式在探索和利用之间取得平衡。在 MC 方法中，Q-learning 或许多离线策略算法中，探索通常通过[ε-greedy](https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/#%CE%B5-greedy-algorithm)算法实现；在 ES 中，探索通过策略参数扰动来捕捉。在开发新的强化学习算法时，请考虑这一点。 ## 致命三连问题我们确实寻求涉及自举的 TD 方法的效率和灵活性。然而，当离线策略、非线性函数逼近和自举结合在一个强化学习算法中时，训练可能会不稳定且难以收敛。这个问题被称为**致命三连**（Sutton & Barto, 2017）。许多使用深度学习模型的架构被提出来解决这个问题，包括使用经验重放和偶尔冻结目标网络来稳定训练的 DQN。 # 案例研究：AlphaGo Zero 围棋游戏[Go](https://en.wikipedia.org/wiki/Go_(game))在人工智能领域几十年来一直是一个极其困难的问题，直到最近几年。AlphaGo 和 AlphaGo Zero 是 DeepMind 团队开发的两个程序。两者都涉及深度卷积神经网络（[CNN](https://lilianweng.github.io/posts/2017-12-15-object-recognition-part-2/#cnn-for-image-classification)）和蒙特卡洛树搜索（MCTS），并且都已被证实达到了职业人类围棋选手的水平。与依赖于专家人类棋步的监督学习的 AlphaGo 不同，AlphaGo Zero 仅使用强化学习和自我对弈，没有超出基本规则的人类知识。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/2089e35ae2e3d4ccaa055d4f1b6285be.png) 图 10. 围棋棋盘。两名玩家在一个 19 x 19 线的棋盘的空交叉点上交替放置黑白棋子。一组棋子必须至少有一个开放点（一个交叉点，称为“气”)，才能留在棋盘上，并且必须有至少两个或更多封闭的气（称为“眼”）才能保持“活着”。没有棋子可以重复之前的位置。通过以上所有强化学习的知识，让我们看看 AlphaGo Zero 是如何工作的。主要组件是一个深度[CNN](https://lilianweng.github.io/posts/2017-12-15-object-recognition-part-2/#cnn-for-image-classification)，用于游戏棋盘配置（准确地说，是一个带有批量归一化和 ReLU 的[ResNet](https://lilianweng.github.io/posts/2017-12-15-object-recognition-part-2/#resnet-he-et-al-2015)）。该网络输出两个值： $$ (p, v) = f_\theta(s) \]

$s$: 游戏棋盘配置，19 x 19 x 17 叠加特征平面；每个位置有 17 个特征，当前玩家的 8 个过去配置（包括当前配置）+ 对手的 8 个过去配置+ 1 个指示颜色的特征（1=黑色，0=白色）。我们需要专门编码颜色，因为网络是自己与自己对弈，当前玩家和对手的颜色在步骤之间切换。
$p$: 在 19² + 1 个候选项中选择移动的概率（棋盘上的 19² 个位置，另外还有过关选项）。
$v$: 给定当前设置的获胜概率。

在自我对弈过程中，MCTS 进一步改进了动作概率分布 $\pi \sim p(.)$，然后动作 $a_t$ 是从这个改进的策略中抽样得到的。奖励 $z_t$ 是一个二进制值，指示当前玩家最终是否赢得了比赛。每一步都生成一个情节元组 $(s_t, \pi_t, z_t)$，并将其保存到重放记忆中。由于篇幅限制，本文跳过了有关 MCTS 的详细信息；如果您感兴趣，请阅读原始论文。

图 11. AlphaGo Zero 通过自我对弈进行训练，而 MCTS 在每一步进一步改进输出策略。（图片来源：Silver 等人，2017 年的图 1a）。

该网络通过重放记忆中的样本进行训练，以最小化损失：

\[\mathcal{L} = (z - v)² - \pi^\top \log p + c \| \theta \|² \]

其中 $c$ 是一个超参数，控制 L2 惩罚的强度，以避免过拟合。

AlphaGo Zero 通过删除监督学习并将分开的策略和价值网络合并为一个简化了 AlphaGo。结果表明，AlphaGo Zero 在更短的训练时间内取得了大幅提高的性能！我强烈建议一边阅读这两篇论文一边比较差异，非常有趣。

我知道这是一篇长文，但希望是值得的。如果您注意到本文中的错误，请随时通过[lilian dot wengweng at gmail dot com]与我联系。 下一篇文章见！ 😃

引用为：

@article{weng2018bandit,
  title   = "A (Long) Peek into Reinforcement Learning",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-02-19-rl-overview/"
}

参考文献

[1] Yuxi Li. 深度强化学习：概述。 arXiv 预印本 arXiv:1701.07274. 2017。

[2] Richard S. Sutton 和 Andrew G. Barto 的强化学习：介绍；第二版。2017 年。

[3] Volodymyr Mnih 等人的深度强化学习的异步方法。 ICML。2016 年。

[4] Tim Salimans 等人的进化策略作为强化学习的可扩展替代方案。 arXiv 预印本 arXiv:1703.03864 (2017)。

[5] David Silver 等人的无需人类知识掌握围棋游戏。 Nature 550.7676 (2017): 354。

[6] David Silver 等人的通过深度神经网络和树搜索掌握围棋游戏。 Nature 529.7587 (2016): 484-489。

[7] Volodymyr Mnih 等人的通过深度强化学习实现人类水平控制。 Nature 518.7540 (2015): 529。

[8] Ziyu Wang 等人的用于深度强化学习的对抗网络架构。 ICML。2016 年。

[9] David Silver 在 YouTube 上的强化学习讲座。

[10] OpenAI 博客：进化策略作为强化学习的可扩展替代方案

[11] Frank Sehnke 等人的探索参数策略梯度。 Neural Networks 23.4 (2010): 551-559。

[12] Csaba Szepesvári 的强化学习算法。第一版。合成人工智能和机器学习的讲座 4.1 (2010): 1-103。

如果您注意到此帖子中的错误，请随时通过[lilian dot wengweng at gmail dot com]与我联系，我将非常乐意立即更正！

多臂赌丨博问题及其解决方案

原文：lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/

该算法在lilianweng/multi-armed-bandit中实现。

开发与勘探

探索与开发困境存在于我们生活的许多方面。比如，你最喜欢的餐厅就在附近。如果你每天去那里，你会对你会得到什么很有信心，但会错过发现更好选择的机会。如果你一直尝试新的地方，很可能你会不时地吃到不好吃的食物。同样，在线广告商努力在已知最具吸引力的广告和可能更成功的新广告之间取得平衡。

图 1. 探索与开发困境的现实生活例子：去哪里吃饭？（图片来源：加州大学伯克利分校人工智能课程幻灯片，第 11 讲。）

如果我们已经了解了环境的所有信息，甚至只需模拟蛮力，就能找到最佳策略，更不用说许多其他聪明的方法了。困境来自于不完整的信息：我们需要收集足够的信息以做出最佳的整体决策，同时控制风险。通过开发，我们利用我们所知道的最佳选项。通过勘探，我们冒一些风险来收集有关未知选项的信息。最佳的长期策略可能涉及短期的牺牲。例如，一个勘探试验可能完全失败，但它警告我们不要在将来经常采取那种行动。

什么是多臂赌丨博？

多臂赌丨博问题是一个经典问题，很好地展示了勘探与开发之间的困境。想象一下，你在赌场面对多台老虎丨机，每台机器都配置有一个未知的概率，表示你在一次游戏中获得奖励的可能性有多大。问题是：如何制定最佳策略以获得最高的长期回报？

在本文中，我们将仅讨论具有无限次试验的设置。对有限次试验的限制引入了一种新类型的勘探问题。例如，如果试验次数小于老虎丨机的数量，我们甚至无法尝试每台机器以估计奖励概率(!)，因此我们必须在有限的知识和资源（即时间）集合方面表现聪明。

图 2. 展示了伯努利多臂赌丨博的工作原理。玩家对奖励概率未知。

一个天真的方法可能是你继续与一个老虎丨机玩很多轮，以便最终根据大数定律估计“真实”奖励概率。然而，这是相当浪费的，肯定不能保证最佳的长期奖励。

定义

现在让我们给它一个科学的定义。

一个伯努利多臂老虎丨机可以描述为 $\langle \mathcal{A}, \mathcal{R} \rangle$ 的元组，其中：

我们有 $K$ 台机器，具有奖励概率 $\{ \theta_1, \dots, \theta_K \}$。
在每个时间步骤 t，我们在一台老虎丨机上采取一个动作 a 并获得一个奖励 r。
$\mathcal{A}$ 是一组动作，每个动作对应与一个老虎丨机的交互。动作 a 的值是预期奖励，$Q(a) = \mathbb{E} [r \vert a] = \theta$。如果时间步骤 t 的动作 $a_t$ 在第 i 台机器上，那么 $Q(a_t) = \theta_i$。
$\mathcal{R}$ 是一个奖励函数。在伯努利老虎丨机的情况下，我们以随机的方式观察到奖励 r。在时间步骤 t，$r_t = \mathcal{R}(a_t)$ 可能以概率 $Q(a_t)$ 返回奖励 1，否则返回 0。

这是马尔可夫决策过程的简化版本，因为没有状态 $\mathcal{S}$。

目标是最大化累积奖励 $\sum_{t=1}^T r_t$。如果我们知道具有最佳奖励的最佳动作，那么目标就是最小化通过不选择最佳动作而产生的潜在后悔或损失。

最佳奖励概率 $\theta^{*}$ 的最佳动作 $a^{*}$ 是：

\[\theta^{*}=Q(a^{*})=\max_{a \in \mathcal{A}} Q(a) = \max_{1 \leq i \leq K} \theta_i \]

我们的损失函数是到时间步骤 T 为止由于未选择最佳动作可能导致的总后悔：

\[\mathcal{L}_T = \mathbb{E} \Big[ \sum_{t=1}^T \big( \theta^{*} - Q(a_t) \big) \Big] \]

老虎丨机策略

根据我们进行探索的方式，有几种解决多臂老虎丨机问题的方法。

无探索：最天真的方法和一个糟糕的方法。
随机探索
智能地探索，偏好于不确定性

ε-Greedy 算法

ε-贪心算法大部分时间选择最佳动作，但偶尔进行随机探索。根据过去的经验，通过平均观察到目标动作 a 相关的奖励来估计动作值（直到当前时间步骤 t）：

\[\hat{Q}_t(a) = \frac{1}{N_t(a)} \sum_{\tau=1}^t r_\tau \mathbb{1}[a_\tau = a] \]

其中 $\mathbb{1}$ 是一个二元指示函数，$N_t(a)$ 是到目前为止选择动作 a 的次数，$N_t(a) = \sum_{\tau=1}^t \mathbb{1}[a_\tau = a]$。

根据ε-贪婪算法，以小概率$\epsilon$我们会采取随机动作，但否则（大部分时间，概率为 1-$\epsilon$）我们选择到目前为止学到的最佳动作：$\hat{a}^{*}_t = \arg\max_{a \in \mathcal{A}} \hat{Q}_t(a)$。

查看我的玩具实现这里。

上限置信度

随机探索给了我们一个机会尝试我们不太了解的选项。然而，由于随机性，我们可能最终会探索到一个我们过去确认过的不好的动作（倒霉！）。为了避免这种低效的探索，一种方法是随着时间减少参数ε，另一种方法是对高不确定性的选项持乐观态度，因此更倾向于那些我们尚未对其价值进行自信估计的动作。换句话说，我们更倾向于探索具有最优值潜力的动作。

上限置信度（UCB）算法通过奖励值的上限置信度$\hat{U}_t(a)$来衡量这种潜力，以便真实值在高概率下低于边界$Q(a) \leq \hat{Q}_t(a) + \hat{U}_t(a)$。上限$\hat{U}_t(a)$是$N_t(a)$的函数；更多的试验次数$N_t(a)$应该给我们一个更小的边界$\hat{U}_t(a)$。

在 UCB 算法中，我们总是选择最贪婪的动作来最大化上限置信度：

\[a^{UCB}_t = argmax_{a \in \mathcal{A}} \hat{Q}_t(a) + \hat{U}_t(a) \]

现在，问题是如何估计上限置信度。

Hoeffding’s Inequality

如果我们不想对分布的外观做任何先验知识，我们可以从“Hoeffding’s Inequality”获得帮助——这是适用于任何有界分布的定理。

让$X_1, \dots, X_t$为独立同分布的随机变量，它们都被区间[0, 1]所限制。样本均值为$\overline{X}_t = \frac{1}{t}\sum_{\tau=1}^t X_\tau$。那么对于 u > 0，我们有：

\[\mathbb{P} [ \mathbb{E}[X] > \overline{X}_t + u] \leq e^{-2tu²} \]

给定一个目标动作 a，让我们考虑：

$r_t(a)$作为随机变量，
$Q(a)$作为真实均值，
$\hat{Q}_t(a)$作为样本均值，
以及$u$作为上限置信度，$u = U_t(a)$

然后我们有，

\[\mathbb{P} [ Q(a) > \hat{Q}_t(a) + U_t(a)] \leq e^{-2t{U_t(a)}²} \]

我们想选择一个边界，以便在很大概率下真实均值低于样本均值+上限置信度。因此$e^{-2t U_t(a)²}$应该是一个小概率。假设我们对一个微小阈值 p 感到满意：

\[e^{-2t U_t(a)²} = p \text{ 因此，} U_t(a) = \sqrt{\frac{-\log p}{2 N_t(a)}} \]

UCB1

一个启发式方法是随着时间减少阈值 p，因为我们希望随着观察到更多奖励而做出更有信心的边界估计。设定$p=t^{-4}$我们得到UCB1算法：

\[U_t(a) = \sqrt{\frac{2 \log t}{N_t(a)}} \text{ and } a^{UCB1}_t = \arg\max_{a \in \mathcal{A}} Q(a) + \sqrt{\frac{2 \log t}{N_t(a)}} \]

贝叶斯 UCB

在 UCB 或 UCB1 算法中，我们不假设奖励分布的任何先验，因此我们必须依赖 Hoeffding 不等式进行非常一般化的估计。如果我们能事先了解分布，我们将能够做出更好的边界估计。

例如，如果我们期望每台老虎丨机的平均奖励是如图 2 中的高斯分布，我们可以通过将 $\hat{U}_t(a)$ 设置为两倍标准差来设置上限为 95% 置信区间。

图 3. 当期望奖励呈高斯分布时。$\sigma(a\_i)$ 是标准差，$c\sigma(a\_i)$ 是上限置信界。常数 $c$ 是可调超参数。（图片来源：UCL 强化学习课程第 9 讲幻灯片）

查看我对UCB1和Bayesian UCB的玩具实现，其中 θ 采用 Beta 先验。

汤普森采样

汤普森采样有一个简单的想法，但对解决多臂老虎丨机问题非常有效。

图 4. 哎呀，我猜这不是那个汤普森吧？（感谢Ben Taborsky；他有一个完整的定理，说明了汤普森在思考该把球传给谁时是如何发明的。是的，我偷了他的笑话。）

在每个时间步，我们希望根据 a 是最优的概率选择动作：

\[\begin{aligned} \pi(a \; \vert \; h_t) &= \mathbb{P} [ Q(a) > Q(a'), \forall a' \neq a \; \vert \; h_t] \\ &= \mathbb{E}_{\mathcal{R} \vert h_t} [ \mathbb{1}(a = \arg\max_{a \in \mathcal{A}} Q(a)) ] \end{aligned} \]

其中 $\pi(a ; \vert ; h_t)$ 是在给定历史 $h_t$ 的情况下采取行动 a 的概率。

对于伯努利老虎丨机，自然地假设 $Q(a)$ 服从Beta分布，因为 $Q(a)$ 本质上是伯努利分布中的成功概率 θ。$\text{Beta}(\alpha, \beta)$ 的值在区间 [0, 1] 内；α 和 β 分别对应于我们成功或失败获得奖励时的计数。

首先，让我们根据某些先验知识或信念为每个动作初始化 Beta 参数 α 和 β。例如，

α = 1，β = 1；我们期望奖励概率为 50%，但我们并不是很有信心。
α = 1000，β = 9000；我们坚信奖励概率为 10%。

在每个时间点 t，我们从先验分布$\text{Beta}(\alpha_i, \beta_i)$中为每个动作采样预期奖励$\tilde{Q}(a)$。在样本中选择最佳动作：$a^{TS}_t = \arg\max_{a \in \mathcal{A}} \tilde{Q}(a)$。观察到真实奖励后，我们可以相应地更新 Beta 分布，这本质上是利用已知先验和获得的样本数据的似然进行贝叶斯推断来计算后验。

\[\begin{aligned} \alpha_i & \leftarrow \alpha_i + r_t \mathbb{1}[a^{TS}_t = a_i] \\ \beta_i & \leftarrow \beta_i + (1-r_t) \mathbb{1}[a^{TS}_t = a_i] \end{aligned} \]

汤普森抽样实现了概率匹配的概念。因为其奖励估计$\tilde{Q}$是从后验分布中采样的，每个这些概率等同于在观察历史条件下相应动作是最优的概率。

然而，对于许多实际和复杂的问题，使用贝叶斯推断估计观察到的真实奖励的后验分布可能在计算上是棘手的。如果我们能够使用吉布斯采样、拉普拉斯近似和自助法等方法来近似后验分布，汤普森抽样仍然可以奏效。如果您想更多了解汤普森抽样，这个tutorial提供了全面的评论；强烈推荐阅读。

案例研究

我在lilianweng/multi-armed-bandit中实现了上述算法。可以使用一组随机或预定义的奖励概率构建一个BernoulliBandit对象。这些老虎丨机算法被实现为Solver的子类，以 Bandit 对象作为目标问题。累积遗憾在时间上被跟踪。

图 4. 对解决具有奖励概率{0.0, 0.1, 0.2, ..., 0.9}的 K = 10 个老虎丨机的小实验结果。每个解算器运行 10000 步。

（左）时间步长与累积遗憾的图。（中）真实奖励概率与估计概率的图。（右）在 10000 步运行中每个动作被选择的比例。

总结

我们需要探索，因为信息是宝贵的。在探索策略方面，我们可以完全不进行探索，专注于短期回报。或者我们偶尔随机探索。甚至更进一步，我们探索并且挑剔要探索哪些选项——因为具有更高不确定性的动作更受青睐，因为它们可以提供更高的信息增益。

引用为：

@article{weng2018bandit,
  title   = "The Multi-Armed Bandit Problem and Its Solutions",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2018",
  url     = "https://lilianweng.github.io/posts/2018-01-23-multi-armed-bandit/"
}

参考文献

[1] CS229 附加讲座笔记: Hoeffding’s 不等式.

[2] David Silver 的强化学习课程 - 第 9 讲: 探索与利用

[3] Olivier Chapelle 和 Lihong Li. “Thompson Sampling 的实证评估.” NIPS. 2011.

[4] Russo, Daniel, 等人. “Thompson Sampling 教程.” arXiv:1707.02038 (2017).

Object Detection for Dummies Part 3: R-CNN Family

原文：lilianweng.github.io/posts/2017-12-31-object-recognition-part-3/

[更新于 2018-12-20：在这里移除 YOLO。第 4 部分将涵盖多种快速目标检测算法，包括 YOLO。]

更新于 2018-12-27：为 R-CNN 添加[bbox 回归和技巧部分。]

在“Object Detection for Dummies”系列中，我们从图像处理的基本概念开始，比如梯度向量和 HOG，在第 1 部分。然后我们介绍了经典的用于分类的卷积神经网络架构设计和用于目标识别的先驱模型，Overfeat 和 DPM，在第 2 部分。在这个系列的第三篇文章中，我们将回顾 R-CNN（“基于区域的 CNN”）系列中的一组模型。

系列中所有文章的链接：[第 1 部分] [第 2 部分] [第 3 部分] [第 4 部分]。

这里是本文涵盖的论文列表 😉

模型	目标	资源
R-CNN	目标识别	[paper][code]
Fast R-CNN	目标识别	[paper][code]
Faster R-CNN	目标识别	[paper][code]
Mask R-CNN	图像分割	[paper][code]

R-CNN

R-CNN（Girshick 等人，2014）简称“基于区域的卷积神经网络”。其主要思想由两个步骤组成。首先，使用selective search，它识别出可管理的边界框对象区域候选项（“感兴趣区域”或“RoI”）。然后，它独立地从每个区域提取 CNN 特征进行分类。

图 1. R-CNN 的架构。（图片来源：Girshick 等人，2014）

模型工作流程

R-CNN 的工作原理可以总结如下：

预训练一个 CNN 网络用于图像分类任务；例如，在ImageNet数据集上训练的 VGG 或 ResNet。分类任务涉及 N 个类别。

注意：您可以在 Caffe 模型 Zoo 中找到一个预训练的 AlexNet。我不认为您可以在 Tensorflow 中找到它，但是 Tensorflow-slim 模型 library 提供了预训练的 ResNet、VGG 等模型。

通过选择性搜索提出独立于类别的感兴趣区域（每个图像约 2k 个候选区域）。这些区域可能包含目标对象，它们的大小不同。
区域候选区域被扭曲以满足 CNN 所需的固定大小。
继续在扭曲的提议区域上对 CNN 进行 K + 1 类的微调；额外的一个类指的是背景（没有感兴趣的对象）。在微调阶段，我们应该使用更小的学习率，并且小批量过采样正例，因为大多数提议的区域只是背景。
给定每个图像区域，CNN 通过一次前向传播生成一个特征向量。然后，这个特征向量被一个为每个类别独立训练的二元 SVM所使用。

正样本是具有 IoU（交并比）重叠阈值 >= 0.3 的提出区域，负样本是无关的其他区域。
为了减少本地化错误，使用 CNN 特征训练回归模型来校正预测的检测窗口在边界框校正偏移上的错误。

边界框回归

给定一个预测的边界框坐标 $\mathbf{p} = (p_x, p_y, p_w, p_h)$（中心坐标、宽度、高度）及其对应的真实框坐标 $\mathbf{g} = (g_x, g_y, g_w, g_h)$，回归器被配置为学习两个中心之间的尺度不变变换和宽度和高度之间的对数尺度变换。所有的变换函数以 $\mathbf{p}$ 为输入。

\[ \begin{aligned} \hat{g}_x &= p_w d_x(\mathbf{p}) + p_x \\ \hat{g}_y &= p_h d_y(\mathbf{p}) + p_y \\ \hat{g}_w &= p_w \exp({d_w(\mathbf{p})}) \\ \hat{g}_h &= p_h \exp({d_h(\mathbf{p})}) \end{aligned} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/f6f2f6a721863b9b53fa1270684b7014.png) 图 2\. 预测和真实边界框之间的变换示意图。应用这种转换的明显好处是，所有边界框校正函数 $d_i(\mathbf{p})$（其中 $i \in \{ x, y, w, h \}$）可以取任何值在 [-∞, +∞] 之间。它们学习的目标是： $$ \begin{aligned} t_x &= (g_x - p_x) / p_w \\ t_y &= (g_y - p_y) / p_h \\ t_w &= \log(g_w/p_w) \\ t_h &= \log(g_h/p_h) \end{aligned} \]

一个标准的回归模型可以通过最小化带有正则化的 SSE 损失来解决问题：

\[\mathcal{L}_\text{reg} = \sum_{i \in \{x, y, w, h\}} (t_i - d_i(\mathbf{p}))² + \lambda \|\mathbf{w}\|² \]

正则化项在这里至关重要，RCNN 论文通过交叉验证选择了最佳λ。值得注意的是，并非所有预测的边界框都有相应的真实边界框。例如，如果没有重叠，运行 bbox 回归就没有意义。在这里，只有与至少 0.6 IoU 的附近真实边界框相匹配的预测边界框才会被保留用于训练 bbox 回归模型。

常见技巧

在 RCNN 和其他检测模型中通常使用几种技巧。

非极大值抑制

模型可能能够为同一对象找到多个边界框。非极大值抑制有助于避免重复检测同一实例。在我们为同一对象类别获得一组匹配的边界框之后：按置信度分数对所有边界框进行排序。丢弃置信度较低的边界框。当还有剩余边界框时，重复以下步骤：贪婪地选择得分最高的边界框。跳过与先前选择的边界框具有高 IoU（即> 0.5）的剩余边界框。

图 3. 图像中检测到汽车的多个边界框。经过非极大值抑制后，只有最佳结果保留，其余被忽略，因为它们与选定的边界框有很大的重叠。（图片来源：DPM paper）

难负例挖掘

我们将没有对象的边界框视为负例。并非所有负例都同样难以识别。例如，如果它只包含纯空白背景，则很可能是“易负例”；但如果边界框包含奇怪的嘈杂纹理或部分对象，则可能难以识别，这些是“难负例”。

难负例很容易被错误分类。我们可以在训练循环中明确找到这些误分类的假阳性样本，并将它们包含在训练数据中，以改进分类器。

速度瓶颈

通过查看 R-CNN 学习步骤，您可以轻松发现训练 R-CNN 模型是昂贵且缓慢的，因为以下步骤涉及大量工作：

运行选择性搜索为每个图像提出 2000 个区域候选项；
为每个图像区域生成 CNN 特征向量（N 个图像 * 2000）。
整个过程涉及三个模型分别进行，没有太多共享计算：用于图像分类和特征提取的卷积神经网络；用于识别目标对象的顶部 SVM 分类器；以及用于收紧区域边界框的回归模型。

快速 R-CNN

为了加快 R-CNN 的速度，Girshick（2015）通过将三个独立模型统一到一个联合训练框架中并增加共享计算结果来改进训练过程，命名为Fast R-CNN。该模型不再独立提取每个区域提议的 CNN 特征向量，而是将它们聚合到整个图像的一个 CNN 前向传递中，区域提议共享这个特征矩阵。然后，相同的特征矩阵被分支出来用于学习对象分类器和边界框回归器。总之，共享计算加速了 R-CNN。

图 4. Fast R-CNN 的架构。（图片来源：Girshick, 2015）

RoI 池化

这是一种最大池化，将图像的投影区域中的特征转换为一个小的固定窗口，H x W。输入区域被划分为 H x W 网格，大约每个大小为 h/H x w/W 的子窗口。然后在每个网格中应用最大池化。

图 5. RoI 池化（图片来源：斯坦福 CS231n 幻灯片）

模型工作流程

Fast R-CNN 的工作原理总结如下；许多步骤与 R-CNN 中相同：

首先，在图像分类任务上对卷积神经网络进行预训练。
通过选择性搜索提出区域（每个图像约 2k 个候选区域）。
修改预训练的 CNN：
- 用 RoI 池化层替换预训练 CNN 的最后一个最大池化层。RoI 池化层输出区域提议的固定长度特征向量。共享 CNN 计算是有意义的，因为同一图像的许多区域提议高度重叠。
- 用全连接层和 K + 1 类别的 softmax 替换最后一个全连接层和最后一个 softmax 层（K 类别）。
最终模型分为两个输出层：
- 一个 K + 1 类别的 softmax 估计器（与 R-CNN 中相同，+1 是“背景”类别），为每个 RoI 输出一个离散概率分布。
- 一个边界框回归模型，为每个 K 类别预测相对于原始 RoI 的偏移量。

损失函数

该模型针对结合两个任务（分类 + 定位）的损失进行优化：

| 符号 | 解释 | | $u$ | 真实类别标签，$ u \in 0, 1, \dots, K$；按照惯例，全面背景类别为 $u = 0$。 | | $p$ | K + 1 类别的离散概率分布（每个 RoI）：$p = (p_0, \dots, p_K)$，通过全连接层的 K + 1 输出进行 softmax 计算。 | | $v$ | 真实边界框 $ v = (v_x, v_y, v_w, v_h) $。 | | $t^u$ | 预测的边界框修正，$t^u = (t^u_x, t^u_y, t^u_w, t^u_h)$。参见上文。 | {:.info}

损失函数将分类成本和边界框预测成本相加：$\mathcal{L} = \mathcal{L}_\text{cls} + \mathcal{L}_\text{box}$。对于“背景”RoI，$\mathcal{L}_\text{box}$会被指示函数$\mathbb{1} [u \geq 1]$忽略，定义如下：

\[\mathbb{1} [u >= 1] = \begin{cases} 1 & \text{if } u \geq 1\\ 0 & \text{otherwise} \end{cases} \]

整体损失函数为：

\[\begin{align*} \mathcal{L}(p, u, t^u, v) &= \mathcal{L}_\text{cls} (p, u) + \mathbb{1} [u \geq 1] \mathcal{L}_\text{box}(t^u, v) \\ \mathcal{L}_\text{cls}(p, u) &= -\log p_u \\ \mathcal{L}_\text{box}(t^u, v) &= \sum_{i \in \{x, y, w, h\}} L_1^\text{smooth} (t^u_i - v_i) \end{align*} \]

边界框损失$\mathcal{L}_{box}$应该使用鲁棒损失函数来衡量$t^u_i$和$v_i$之间的差异。这里采用了smooth L1 loss，据称对异常值不太敏感。

\[ L_1^\text{smooth}(x) = \begin{cases} 0.5 x² & \text{if } \vert x \vert < 1\\ \vert x \vert - 0.5 & \text{otherwise} \end{cases} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/7d11a7ae31f6d1d8de930fec203f427b.png) 图 6。平滑 L1 损失的绘图，$y = L\_1^\text{smooth}(x)$。（图片来源：[link](https://github.com/rbgirshick/py-faster-rcnn/files/764206/SmoothL1Loss.1.pdf)） ## 速度瓶颈 Fast R-CNN 在训练和测试时间上都快得多。然而，改进并不是很显著，因为区域建议是由另一个模型单独生成的，这是非常昂贵的。 # Faster R-CNN 一个直观的加速解决方案是将区域建议算法集成到 CNN 模型中。**Faster R-CNN**（[Ren et al., 2016](https://arxiv.org/pdf/1506.01497.pdf)）正是这样做的：构建一个由 RPN（区域建议网络）和 fast R-CNN 组成的单一统一模型，共享卷积特征层。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/1f1d9fab72eb50db18ab81ddffc21984.png) 图 7。Faster R-CNN 模型示意图。（图片来源：[Ren et al., 2016](https://arxiv.org/pdf/1506.01497.pdf)） ## 模型工作流程 1. 在图像分类任务上预训练 CNN 网络。 1. 对区域建议任务端到端微调 RPN（区域建议网络），该任务由预训练图像分类器初始化。正样本的 IoU（交并比）> 0.7，而负样本的 IoU < 0.3。 + 在整个图像的卷积特征图上滑动一个小的 n x n 空间窗口。 + 在每个滑动窗口的中心，我们同时预测多个不同尺度和比例的区域。一个锚点是（滑动窗口中心，尺度，比例）的组合。例如，3 个尺度 + 3 个比例 => 每个滑动位置有 k=9 个锚点。 1. 使用当前 RPN 生成的建议训练 Fast R-CNN 目标检测模型 1. 然后使用 Fast R-CNN 网络初始化 RPN 训练。保持共享的卷积层，只微调 RPN 特定的层。在这个阶段，RPN 和检测网络共享卷积层！ 1. 最后微调 Fast R-CNN 的唯一层 1. 如果需要，步骤 4-5 可以重复训练 RPN 和 Fast R-CNN。 ## 损失函数 Faster R-CNN 针对多任务损失函数进行了优化，类似于 Fast R-CNN。 | **符号** | **解释** | | $p_i$ | 预测锚点 i 是对象的概率。 | | $p^*_i$ | 锚点 i 是否为对象的基本真值标签（二元）。 | | $t_i$ | 预测的四个参数化坐标。 | | $t^*_i$ | 基本真值坐标。 | | $N_\text{cls}$ | 规范化项，设为论文中的小批量大小（~256）。 | | $N_\text{box}$ | 规范化项，设为锚点位置数量（~2400）。 | | $\lambda$ | 平衡参数，设为论文中的 ~10（使得 $\mathcal{L}_\text{cls}$ 和 $\mathcal{L}_\text{box}$ 项大致等权）。 | {:.info} 多任务损失函数结合了分类和边界框回归的损失： $$ \begin{align*} \mathcal{L} &= \mathcal{L}_\text{cls} + \mathcal{L}_\text{box} \\ \mathcal{L}(\{p_i\}, \{t_i\}) &= \frac{1}{N_\text{cls}} \sum_i \mathcal{L}_\text{cls} (p_i, p^*_i) + \frac{\lambda}{N_\text{box}} \sum_i p^*_i \cdot L_1^\text{smooth}(t_i - t^*_i) \\ \end{align*} \]

其中 $\mathcal{L}_\text{cls}$ 是两类之间的对数损失函数，我们可以通过将多类分类简单地转换为二元分类来预测样本是目标对象还是非目标对象。$L_1^\text{smooth}$ 是平滑的 L1 损失。

\[\mathcal{L}_\text{cls} (p_i, p^*_i) = - p^*_i \log p_i - (1 - p^*_i) \log (1 - p_i) \]

Mask R-CNN

Mask R-CNN（He et al., 2017）将 Faster R-CNN 扩展到像素级图像分割。关键点在于将分类和像素级掩模预测任务解耦。基于 Faster R-CNN 框架，它添加了一个第三分支，用于预测对象掩模，与用于分类和定位的现有分支并行。掩模分支是一个小型全连接网络，应用于每个 RoI，以像素到像素的方式预测分割掩模。

图 8. Mask R-CNN 是带有图像分割的 Faster R-CNN 模型。（图片来源：He et al., 2017）

因为像素级分割需要比边界框更精细的对齐，Mask R-CNN 改进了 RoI 池化层（称为“RoIAlign 层”），使得 RoI 能够更好地、更精确地映射到原始图像的区域。

图 9. Mask R-CNN 在 COCO 测试集上的预测。（图片来源：He 等人，2017）

RoIAlign

RoIAlign 层旨在修复 RoI 池化中由量化引起的位置不对齐。RoIAlign 消除了哈希量化，例如，通过使用 x/16 而不是[x/16]，以便提取的特征可以与输入像素正确对齐。用于计算输入中浮点位置值的双线性插值。

图 10. 一个感兴趣区域从原始图像精确映射到特征图，而不是四舍五入到整数。（图片来源：链接）

损失函数

Mask R-CNN 的多任务损失函数结合了分类、定位和分割掩模的损失：$ \mathcal{L} = \mathcal{L}\text{cls} + \mathcal{L}\text{box} + \mathcal{L}_\text{mask}$，其中 $\mathcal{L}_\text{cls}$ 和 $\mathcal{L}_\text{box}$ 与 Faster R-CNN 中的相同。

掩模分支为每个 RoI 和每个类别生成一个大小为 m x m 的掩模；总共有 K 个类别。因此，总输出大小为$K \cdot m²$。因为模型试图为每个类别学习一个掩模，所以没有类别之间为生成掩模而竞争。

$\mathcal{L}_\text{mask}$ 被定义为平均二元交叉熵损失，仅在区域与地面真实类别 k 相关联时才包括第 k 个掩模。

\[\mathcal{L}_\text{mask} = - \frac{1}{m²} \sum_{1 \leq i, j \leq m} \big[ y_{ij} \log \hat{y}^k_{ij} + (1-y_{ij}) \log (1- \hat{y}^k_{ij}) \big] \]

其中 $y_{ij}$ 是大小为 m x m 的真实掩模中单元格(i, j)的标签；$\hat{y}_{ij}^k$ 是为地面真实类别 k 学习的掩模中相同单元格的预测值。

R-CNN 家族模型总结

在这里，我展示了 R-CNN、Fast R-CNN、Faster R-CNN 和 Mask R-CNN 的模型设计。通过比较微小的差异，您可以追踪一个模型如何演变为下一个版本。

引用为：

@article{weng2017detection3,
  title   = "Object Detection for Dummies Part 3: R-CNN Family",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-12-31-object-recognition-part-3/"
}

参考文献

[1] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. “准确目标检测和语义分割的丰富特征层次结构。” 在 IEEE 计算机视觉与模式识别会议（CVPR）论文集中，第 580-587 页。2014 年。

[2] Ross Girshick. “Fast R-CNN。” 在 IEEE 国际计算机视觉会议论文集中，第 1440-1448 页。2015 年。

[3] Shaoqing Ren, Kaiming He, Ross Girshick 和 Jian Sun. “Faster R-CNN: Towards real-time object detection with region proposal networks.” 在神经信息处理系统 (NIPS) 进展中，第 91-99 页。2015.

[4] Kaiming He, Georgia Gkioxari, Piotr Dollár 和 Ross Girshick. “Mask R-CNN.” arXiv 预印本 arXiv:1703.06870, 2017.

[5] Joseph Redmon, Santosh Divvala, Ross Girshick 和 Ali Farhadi. “You only look once: Unified, real-time object detection.” 在 IEEE 计算机视觉与模式识别 (CVPR) 会议论文集中，第 779-788 页。2016.

[6] “卷积神经网络在图像分割中的简要历史：从 R-CNN 到 Mask R-CNN” 作者 Athelas.

[7] 平滑 L1 损失：github.com/rbgirshick/py-faster-rcnn/files/764206/SmoothL1Loss.1.pdf

对于小白的目标检测第二部分：CNN，DPM 和 Overfeat

原文：lilianweng.github.io/posts/2017-12-15-object-recognition-part-2/

“小白的目标检测”系列的第一部分介绍了：（1）图像梯度向量的概念以及 HOG 算法如何总结一幅图像中所有梯度向量的信息；（2）图像分割算法如何检测潜在包含对象的区域；（3）选择性搜索算法如何优化图像分割的结果以获得更好的区域提议。

在第二部分，我们将更深入地了解经典卷积神经网络架构用于图像分类。它们为进一步发展目标检测的深度学习模型奠定了基础。如果想了解更多关于 R-CNN 和相关模型的内容，请查看第三部分。

系列中所有帖子的链接：[第一部分] [第二部分] [第三部分] [第四部分]。

图像分类的 CNN

CNN，即“卷积神经网络”，是深度学习领域中处理计算机视觉问题的首选解决方案。在某种程度上，它受到了人类视觉皮层系统运作方式的启发。

卷积操作

我强烈推荐这篇指南来学习卷积算术，它提供了清晰而扎实的解释，配有大量可视化和示例。在本文中，让我们专注于二维卷积，因为我们处理的是图像。

简而言之，卷积操作将预定义的核（也称为“滤波器”）滑动在输入特征图（图像像素矩阵）上，将核和部分输入特征的值相乘相加以生成输出。这些值形成一个输出矩阵，通常情况下，核远小于输入图像。

图 1. 展示了在输入特征图上应用核以生成输出的示意图。（图片来源：River Trail documentation）

图 2 展示了如何通过在一个 5x5 的二维数值矩阵上卷积一个 3x3 的核来生成一个 3x3 的矩阵的两个真实示例。通过控制填充大小和步长，我们可以生成特定大小的输出矩阵。

图 2. 2D 卷积操作的两个示例：（顶部）无填充和 1x1 步幅；（底部）1x1 边界零填充和 2x2 步幅。（图片来源：deeplearning.net）

AlexNet（Krizhevsky 等人，2012）

5 个卷积[+可选最大池化]层 + 2 个 MLP 层 + 1 个 LR 层
使用数据增强技术扩展训练数据集，如图像平移、水平反射和补丁提取。

图 3. AlexNet 的架构。（图片来源：link）

VGG（Simonyan 和 Zisserman，2014）

该网络在当时被认为是“非常深”的；19 层
该架构非常简化，只有 3x3 卷积层和 2x2 池化层。小滤波器的堆叠模拟了具有更少参数的大滤波器。

ResNet（He 等人，2015）

网络确实非常深；152 层简单的架构。
残差块：某一层的某些输入可以传递到两层后的组件。残差块对于保持深度网络可训练并最终起作用至关重要。没有残差块，普通网络的训练损失随着层数增加不会单调递减，这是由于梯度消失和梯度爆炸。

图 4. ResNet 的残差块示意图。在某种程度上，我们可以说残差块的设计受到了人类视觉皮层系统中 V1 直接从 V1 获取输入的启发。（左图来源：Wang 等人，2017）

评估指标：mAP

许多目标识别和检测任务中使用的常见评估指标是“mAP”，即“平均精度均值”。它是一个从 0 到 100 的数字；数值越高越好。

将所有测试图像中的所有检测结果组合在一起，为每个类别绘制一个精度-召回曲线（PR 曲线）；“平均精度”（AP）是 PR 曲线下的面积。
鉴于目标对象属于不同类别，我们首先分别计算每个类别的 AP，然后对类别求平均。
如果检测结果与地面实况框的“交并比”（IoU）大于某个阈值（通常为 0.5），则检测结果为真阳性；如果是这样，指标为“mAP@0.5”。

可变部件模型

可变部件模型（DPM）（Felzenszwalb 等人，2010）使用可变部件的混合图模型（马尔可夫随机场）识别对象。该模型由三个主要组件组成：

一个粗糙的根滤波器定义了一个大致覆盖整个对象的检测窗口。滤波器为区域特征向量指定权重。
多个部件滤波器覆盖对象的较小部分。部件滤波器在根滤波器的两倍分辨率处学习。
一个空间模型用于评分部件滤波器相对于根部的位置。

图 5。DPM 模型包含（a）一个根滤波器，（b）两倍分辨率的多个部件滤波器，以及（c）用于评分部件位置和变形的模型。

检测对象的质量由滤波器得分减去变形成本来衡量。通俗地说，匹配得分 $f$ 是：

\[f(\text{model}, x) = f(\beta_\text{root}, x) + \sum_{\beta_\text{part} \in \text{part filters}} \max_y [f(\beta_\text{part}, y) - \text{cost}(\beta_\text{part}, x, y)] \]

其中，

$x$ 是一个具有指定位置和比例的图像；
$y$ 是 $x$ 的一个子区域。
$\beta_\text{root}$ 是根滤波器。
$\beta_\text{part}$ 是一个部件滤波器。
cost() 衡量部件偏离其理想位置相对于根部的惩罚。

基本得分模型是滤波器 $\beta$ 与区域特征向量 $\Phi(x)$ 的点积：$f(\beta, x) = \beta \cdot \Phi(x)$。特征集 $\Phi(x)$ 可以由 HOG 或其他类似算法定义。

具有高得分的根位置检测到具有高概率包含对象的区域，而具有高得分的部件位置确认了一个识别对象的假设。该论文采用潜在 SVM 来建模分类器。

图 6。DPM 的匹配过程。（图片来源：Felzenszwalb et al., 2010）

作者后来声称，DPM 和 CNN 模型并不是目标识别的两种不同方法。相反，可以通过展开 DPM 推理算法并将每个步骤映射到等效的 CNN 层来将 DPM 模型构建为 CNN。（查看Girshick et al., 2015中的详细信息！）

Overfeat

Overfeat [paper][code] 是将目标检测、定位和分类任务集成到一个卷积神经网络中的先驱模型。其主要思想是（i）以滑动窗口方式在图像的多个尺度区域上进行不同位置的图像分类，以及（ii）通过在相同卷积层之上训练的回归器预测边界框位置。

Overfeat 模型架构与 AlexNet 非常相似。它的训练如下：

图 7. Overfeat 模型的训练阶段。（图片来源：链接）

在图像分类任务上训练一个 CNN 模型（类似于 AlexNet）。
然后，我们通过一个回归网络替换顶部分类器层，并训练它以预测每个空间位置和尺度的对象边界框。回归器是特定于类别的，为每个图像类别生成一个。
- 输入：带有分类和边界框的图像。
- 输出：$(x_\text{left}, x_\text{right}, y_\text{top}, y_\text{bottom})$，总共 4 个值，表示边界框边缘的坐标。
- 损失：回归器经过训练，以最小化每个训练示例的生成边界框与实际情况之间的 $l2$ 范数。

在检测时，

使用预训练的 CNN 模型在每个位置执行分类。
预测分类器生成的所有分类区域上的对象边界框。
合并来自定位的具有足够重叠的边界框和来自分类器的足够置信度的相同对象。

引用为：

@article{weng2017detection2,
  title   = "Object Detection for Dummies Part 2: CNN, DPM and Overfeat",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-12-15-object-recognition-part-2/"
}

参考文献

[1] Vincent Dumoulin 和 Francesco Visin. “深度学习中的卷积算术指南。” arXiv 预印本 arXiv:1603.07285（2016）。

[2] Haohan Wang、Bhiksha Raj 和 Eric P. Xing。“深度学习的起源。” arXiv 预印本 arXiv:1702.07800（2017）。

[3] Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester 和 Deva Ramanan。“使用经过区分训练的基于部件的模型进行目标检测。” IEEE 模式分析与机器智能交易 32，第 9 期（2010）：1627-1645。

[4] Ross B. Girshick, Forrest Iandola, Trevor Darrell 和 Jitendra Malik。“可变形部件模型是卷积神经网络。” 在 IEEE 计算机视觉与模式识别（CVPR）会议论文集中，第 437-446 页。2015 年。

[5] Sermanet, Pierre, David Eigen, Xiang Zhang, Michaël Mathieu, Rob Fergus 和 Yann LeCun。“OverFeat：使用卷积网络进行集成识别、定位和检测” arXiv 预印本 arXiv:1312.6229（2013）。

对象检测入门第 1 部分：梯度向量、HOG 和 SS

原文：lilianweng.github.io/posts/2017-10-29-object-recognition-part-1/

我从未在计算机视觉领域工作过，也不知道当自动驾驶汽车被配置为区分停车标志和戴红帽的行人时，这种魔法是如何运作的。为了激励自己深入研究对象识别和检测算法背后的数学，我正在撰写一些关于这个主题“对象检测入门”的帖子。本文，第 1 部分，从图像处理中的超基础概念和一些图像分割方法开始。暂时不涉及深度神经网络。对象检测和识别的深度学习模型将在第 2 部分和第 3 部分中讨论。

免责声明：当我开始时，我将“对象识别”和“对象检测”互换使用。我认为它们并不相同：前者更多地是告诉一个图像中是否存在对象，而后者需要找出对象的位置。然而，它们高度相关，许多对象识别算法为检测奠定了基础。

系列中所有帖子的链接：[第 1 部分] [第 2 部分] [第 3 部分] [第 4 部分]。

图像梯度向量

首先，我想确保我们能区分以下术语。它们非常相似，密切相关，但并非完全相同。

	导数	方向导数	梯度
值类型	标量	标量	向量
定义	函数$f(x,y,z,…)$在点$(x_0,y_0,z_0,…)$处的变化率，即该点切线的斜率。	$f(x,y,z, …)$在单位向量$\vec{u}$方向的瞬时变化率。	它指向函数增长速度最快的方向，包含多变量函数的所有偏导数信息。

在图像处理中，我们想要知道颜色从一个极端变化到另一个极端的方向（即在灰度图像上从黑到白）。因此，我们想要测量像素颜色上的“梯度”。图像上的梯度是离散的，因为每个像素是独立的，无法进一步分割。

图像梯度向量被定义为每个单独像素的度量，包含 x 轴和 y 轴上的像素颜色变化。该定义与连续多变量函数的梯度一致，这是所有变量的偏导数向量。假设 f(x, y)记录位置(x, y)处像素的颜色，则像素(x, y)的梯度向量定义如下：

\[\begin{align*} \nabla f(x, y) = \begin{bmatrix} g_x \\ g_y \end{bmatrix} = \begin{bmatrix} \frac{\partial f}{\partial x} \\[6pt] \frac{\partial f}{\partial y} \end{bmatrix} = \begin{bmatrix} f(x+1, y) - f(x-1, y)\\ f(x, y+1) - f(x, y-1) \end{bmatrix} \end{align*} \]

$\frac{\partial f}{\partial x}$项是 x 方向的偏导数，计算为目标左右相邻像素的颜色差异，f(x+1, y) - f(x-1, y)。类似地，$\frac{\partial f}{\partial y}$项是 y 方向的偏导数，测量为 f(x, y+1) - f(x, y-1)，目标上下相邻像素的颜色差异。

图像梯度有两个重要属性：

幅度是向量的 L2 范数，$g = \sqrt{ g_x² + g_y² }$。
方向是两个方向上偏导数比率的反正切，$\theta = \arctan{(g_y / g_x)}$。

图 1。要计算目标像素在位置(x, y)处的梯度向量，我们需要知道其四个邻居的颜色（或者根据核心的不同，可能是周围八个像素）。

图 1 中示例的梯度向量是：

\[\begin{align*} \nabla f = \begin{bmatrix} f(x+1, y) - f(x-1, y)\\ f(x, y+1) - f(x, y-1) \end{bmatrix} = \begin{bmatrix} 55-105\\ 90-40 \end{bmatrix} = \begin{bmatrix} -50\\ 50 \end{bmatrix} \end{align*} \]

因此，

幅度为$\sqrt{50² + (-50)²} = 70.7107$，以及
方向为$\arctan{(-50/50)} = -45^{\circ}$。

对每个像素迭代地重复梯度计算过程太慢了。相反，可以很好地转化为在整个图像矩阵$\mathbf{A}$上应用卷积运算符，使用其中一个特别设计的卷积核。

让我们从图 1 中的 x 方向开始，使用核$[-1,0,1]$沿 x 轴滑动；$\ast$是卷积运算符：

\[\begin{align*} \mathbf{G}_x &= [-1, 0, 1] \ast [105, 255, 55] = -105 + 0 + 55 = -50 \end{align*} \]

类似地，在 y 方向上，我们采用核$[+1, 0, -1]^\top$：

\[\begin{align*} \mathbf{G}_y &= [+1, 0, -1]^\top \ast \begin{bmatrix} 90\\ 255\\ 40 \end{bmatrix} = 90 + 0 - 40 = 50 \end{align*} \]

在 python 中尝试这个：

import numpy as np import scipy.signal as sig data = np.array([[0, 105, 0], [40, 255, 90], [0, 55, 0]]) G_x = sig.convolve2d(data, np.array([[-1, 0, 1]]), mode='valid') G_y = sig.convolve2d(data, np.array([[-1], [0], [1]]), mode='valid')

这两个函数分别返回array([[0], [-50], [0]])和array([[0, 50, 0]])。（请注意，在 numpy 数组表示中，90 显示在 40 之前，因此在核心中相应地列出-1 在 1 之前。）

常见图像处理卷积核

普雷维特算子：普雷维特算子不仅依赖于四个直接相邻的像素，还利用周围八个像素以获得更平滑的结果。

\[\mathbf{G}_x = \begin{bmatrix} -1 & 0 & +1 \\ -1 & 0 & +1 \\ -1 & 0 & +1 \end{bmatrix} \ast \mathbf{A} \text{ and } \mathbf{G}_y = \begin{bmatrix} +1 & +1 & +1 \\ 0 & 0 & 0 \\ -1 & -1 & -1 \end{bmatrix} \ast \mathbf{A} \]

Sobel 算子：为了更强调直接相邻像素的影响，它们被赋予更高的权重。

\[\mathbf{G}_x = \begin{bmatrix} -1 & 0 & +1 \\ -2 & 0 & +2 \\ -1 & 0 & +1 \end{bmatrix} \ast \mathbf{A} \text{ and } \mathbf{G}_y = \begin{bmatrix} +1 & +2 & +1 \\ 0 & 0 & 0 \\ -1 & -2 & -1 \end{bmatrix} \ast \mathbf{A} \]

不同的卷积核用于不同的目标，如边缘检测、模糊、锐化等。查看此维基页面获取更多示例和参考资料。

示例：2004 年的 Manu

让我们对 2004 年 Manu Ginobili 的照片进行一个简单的实验[下载图片{:target="_blank"}]，当时他还有很多头发。为简单起见，照片首先转换为灰度。对于彩色图像，我们只需要分别在每个颜色通道中重复相同的过程。

图 2。2004 年的 Manu Ginobili 有头发。（图片来源：Manu Ginobili's bald spot through the years）

import numpy as np import scipy import scipy.signal as sig # With mode="L", we force the image to be parsed in the grayscale, so it is # actually unnecessary to convert the photo color beforehand. img = scipy.misc.imread("manu-2004.jpg", mode="L")   # Define the Sobel operator kernels. kernel_x = np.array([[-1, 0, 1],[-2, 0, 2],[-1, 0, 1]]) kernel_y = np.array([[1, 2, 1], [0, 0, 0], [-1, -2, -1]])   G_x = sig.convolve2d(img, kernel_x, mode='same') G_y = sig.convolve2d(img, kernel_y, mode='same')   # Plot them! fig = plt.figure() ax1 = fig.add_subplot(121) ax2 = fig.add_subplot(122)   # Actually plt.imshow() can handle the value scale well even if I don't do # the transformation (G_x + 255) / 2. ax1.imshow((G_x + 255) / 2, cmap='gray'); ax1.set_xlabel("Gx") ax2.imshow((G_y + 255) / 2, cmap='gray'); ax2.set_xlabel("Gy") plt.show()

图 3。在示例图像上应用 Sobel 算子卷积核。

您可能会注意到大部分区域是灰色的。因为两个像素之间的差异在-255 和 255 之间，我们需要将它们转换回[0, 255]以供显示目的。一个简单的线性转换（$\mathbf{G}$ + 255）/2 会将所有的零（即，常色背景显示梯度无变化）解释为 125（显示为灰色）。

方向梯度直方图（HOG）

方向梯度直方图（HOG）是从像素颜色中提取特征以构建对象识别分类器的高效方法。通过了解图像梯度向量的知识，理解 HOG 的工作原理并不难。让我们开始吧！

HOG 的工作原理

预处理图像，包括调整大小和颜色归一化。
计算每个像素的梯度向量、大小和方向。
将图像分成许多 8x8 像素单元。在每个单元格中，这 64 个单元格的大小值被分组并累加到 9 个无符号方向的桶中（没有符号，因此是 0-180 度而不是 0-360 度；这是基于经验实验的实际选择）。

为了更好的鲁棒性，如果像素的梯度向量的方向位于两个桶之间，其幅度不会全部分配给更接近的一个，而是在两者之间按比例分配。例如，如果像素的梯度向量幅度为 8，角度为 15 度，则它位于角度 0 和 20 之间的两个桶中，我们将分配 2 给桶 0，6 给桶 20。

这种有趣的配置使得直方图在图像受到轻微扭曲时更加稳定。

图 4. 如何分割一个梯度向量的幅度，如果其角度在两个角度区间之间。（图片来源：https://www.learnopencv.com/histogram-of-oriented-gradients/）

然后我们在图像上滑动一个 2x2 单元格（因此是 16x16 像素）的块。在每个块区域内，4 个单元格的 4 个直方图被连接成一个 36 个值的一维向量，然后归一化为单位权重。最终的 HOG 特征向量是所有块向量的连接。它可以被输入到像 SVM 这样的分类器中，用于学习目标识别任务。

例如：2004 年的 Manu

让我们重复使用前一节中的相同示例图像。记住我们已经计算出整个图像的$\mathbf{G}_x$和$\mathbf{G}_y$。

N_BUCKETS = 9 CELL_SIZE = 8  # Each cell is 8x8 pixels BLOCK_SIZE = 2  # Each block is 2x2 cells   def assign_bucket_vals(m, d, bucket_vals):  left_bin = int(d / 20.) # Handle the case when the direction is between [160, 180) right_bin = (int(d / 20.) + 1) % N_BUCKETS assert 0 <= left_bin < right_bin < N_BUCKETS   left_val= m * (right_bin * 20 - d) / 20 right_val = m * (d - left_bin * 20) / 20 bucket_vals[left_bin] += left_val bucket_vals[right_bin] += right_val   def get_magnitude_hist_cell(loc_x, loc_y):  # (loc_x, loc_y) defines the top left corner of the target cell. cell_x = G_x[loc_x:loc_x + CELL_SIZE, loc_y:loc_y + CELL_SIZE] cell_y = G_y[loc_x:loc_x + CELL_SIZE, loc_y:loc_y + CELL_SIZE] magnitudes = np.sqrt(cell_x * cell_x + cell_y * cell_y) directions = np.abs(np.arctan(cell_y / cell_x) * 180 / np.pi)   buckets = np.linspace(0, 180, N_BUCKETS + 1) bucket_vals = np.zeros(N_BUCKETS) map( lambda (m, d): assign_bucket_vals(m, d, bucket_vals), zip(magnitudes.flatten(), directions.flatten()) ) return bucket_vals   def get_magnitude_hist_block(loc_x, loc_y):  # (loc_x, loc_y) defines the top left corner of the target block. return reduce( lambda arr1, arr2: np.concatenate((arr1, arr2)), [get_magnitude_hist_cell(x, y) for x, y in zip( [loc_x, loc_x + CELL_SIZE, loc_x, loc_x + CELL_SIZE], [loc_y, loc_y, loc_y + CELL_SIZE, loc_y + CELL_SIZE], )] )

以下代码简单地调用函数来构建直方图并绘制它。

# Random location [200, 200] as an example. loc_x = loc_y = 200   ydata = get_magnitude_hist_block(loc_x, loc_y) ydata = ydata / np.linalg.norm(ydata)   xdata = range(len(ydata)) bucket_names = np.tile(np.arange(N_BUCKETS), BLOCK_SIZE * BLOCK_SIZE)   assert len(ydata) == N_BUCKETS * (BLOCK_SIZE * BLOCK_SIZE) assert len(bucket_names) == len(ydata)   plt.figure(figsize=(10, 3)) plt.bar(xdata, ydata, align='center', alpha=0.8, width=0.9) plt.xticks(xdata, bucket_names * 20, rotation=90) plt.xlabel('Direction buckets') plt.ylabel('Magnitude') plt.grid(ls='--', color='k', alpha=0.1) plt.title("HOG of block at [%d, %d]" % (loc_x, loc_y)) plt.tight_layout()

在上面的代码中，我以位于[200, 200]的左上角的块作为示例，这是该块的最终归一化直方图。您可以尝试更改代码以将块位置更改为由滑动窗口识别。

图 5. 展示了一个块的 HOG 直方图。

代码主要用于演示计算过程。有许多已实现 HOG 算法的现成库，例如OpenCV，SimpleCV和scikit-image。

图像分割（Felzenszwalb 算法）

当一张图像中存在多个对象（几乎适用于每张真实世界的照片）时，我们需要识别一个潜在包含目标对象的区域，以便分类可以更有效地执行。

Felzenszwalb 和 Huttenlocher（2004）提出了一种使用基于图的方法将图像分割成相似区域的算法。这也是我们将在后面讨论的 Selective Search（一种流行的区域提议算法）的初始化方法。

假设我们使用一个无向图$G=(V, E)$来表示一个输入图像。一个顶点$v_i \in V$代表一个像素。一条边$e = (v_i, v_j) \in E$连接两个顶点$v_i$和$v_j$。其关联的权重$w(v_i, v_j)$衡量了$v_i$和$v_j$之间的不相似性。不相似性可以在颜色、位置、强度等维度上量化。权重越高，两个像素之间的相似性越低。一个分割解$S$是将$V$划分为多个连通分量$\{C\}$。直观上相似的像素应该属于同一个分量，而不相似的像素应该分配到不同的分量。

图形构建

有两种方法可以从图像构建图形。

网格图：每个像素只与周围的邻居相连（总共 8 个单元格）。边的权重是像素强度值之间的绝对差异。
最近邻图：每个像素是特征空间中的一个点（x, y, r, g, b），其中（x, y）是像素位置，（r, g, b）是 RGB 颜色值。权重是两个像素特征向量之间的欧氏距离。

关键概念

在我们制定一个良好的图形分区（也称为图像分割）的标准之前，让我们定义一些关键概念：

内部差异：$Int(C) = \max_{e\in MST(C, E)} w(e)$，其中$MST$是分量的最小生成树。即使我们删除了所有权重小于$Int(C)$的边，分量$C$仍然保持连接。
两个分量之间的差异：$Dif(C_1, C_2) = \min_{v_i \in C_1, v_j \in C_2, (v_i, v_j) \in E} w(v_i, v_j)$。如果两者之间没有边，则$Dif(C_1, C_2) = \infty$。
最小内部差异：$MInt(C_1, C_2) = min(Int(C_1) + \tau(C_1), Int(C_2) + \tau(C_2)$，其中$\tau(C) = k / \vert C \vert$有助于确保我们对分量之间差异的阈值是有意义的。较高的$k$值更有可能导致较大的分量。

通过给定两个区域$C_1$和$C_2$定义的成对区域比较谓词来评估分割的质量：

\[D(C_1, C_2) = \begin{cases} \text{True} & \text{ if } Dif(C_1, C_2) > MInt(C_1, C_2) \\ \text{False} & \text{ otherwise} \end{cases} \]

仅当谓词为 True 时，我们将它们视为两个独立的分量；否则，分割太细，它们可能应该合并。

图像分割的工作原理

该算法遵循自底向上的过程。给定$G=(V, E)$和$|V|=n, |E|=m$：

边按权重升序排序，标记为$e_1, e_2, \dots, e_m$。
最初，每个像素都保持在自己的分量中，因此我们从$n$个分量开始。
对于$k=1, \dots, m$，重复以下步骤：
- 第$k$步的分割快照表示为$S^k$。
- 我们按顺序取第$k$条边，$e_k = (v_i, v_j)$。
- 如果$v_i$和$v_j$属于同一个分量，则不执行任何操作，因此$S^k = S^{k-1}$。
- 如果$v_i$和$v_j$属于分割$S^{k-1}$中的两个不同组件$C_i^{k-1}$和$C_j^{k-1}$，我们希望将它们合并为一个，如果$w(v_i, v_j) \leq MInt(C_i^{k-1}, C_j^{k-1})$；否则不执行任何操作。

如果您对分割属性的证明以及为什么它总是存在感兴趣，请参考论文。

图 6. 室内场景，Felzenszwalb 的基于图的分割算法中检测到的分割。

例子：2013 年的梅努

这次我将使用 2013 年老梅努·吉诺比利的照片[图片]作为示例图像，当他的秃顶变得更加明显时。为简单起见，我们使用灰度图片。

图 7. 2013 年梅努·吉诺比利的秃顶。（图片来源：梅努·吉诺比利多年来的秃顶）

与其从头开始编码，不如将skimage.segmentation.felzenszwalb应用于图像。

import skimage.segmentation from matplotlib import pyplot as plt   img2 = scipy.misc.imread("manu-2013.jpg", mode="L") segment_mask1 = skimage.segmentation.felzenszwalb(img2, scale=100) segment_mask2 = skimage.segmentation.felzenszwalb(img2, scale=1000)   fig = plt.figure(figsize=(12, 5)) ax1 = fig.add_subplot(121) ax2 = fig.add_subplot(122) ax1.imshow(segment_mask1); ax1.set_xlabel("k=100") ax2.imshow(segment_mask2); ax2.set_xlabel("k=1000") fig.suptitle("Felsenszwalb's efficient graph based image segmentation") plt.tight_layout() plt.show()

代码运行了 Felzenszwalb 算法的两个版本，如图 8 所示。左侧 k=100 生成了细粒度分割，其中识别出了梅努的秃顶的小区域。右侧 k=1000 输出了粗粒度分割，其中区域倾向于更大。

图 8. Felzenszwalb 的高效基于图的图像分割应用于 2013 年梅努的照片。

选择性搜索

选择性搜索是一种常见的算法，用于提供可能包含对象的区域建议。它建立在图像分割输出之上，并使用基于区域的特征（注意：不仅仅是单个像素的属性）进行自下而上的分层分组。

选择性搜索的工作原理

在初始化阶段，应用 Felzenszwalb 和 Huttenlocher 的基于图的图像分割算法创建起始区域。
使用贪婪算法迭代地将区域组合在一起：
- 首先计算所有相邻区域之间的相似性。
- 将两个最相似的区域组合在一起，并计算结果区域与其邻域之间的新相似性。
将最相似的区域组合在一起（步骤 2），直到整个图像变成一个单一区域。

图 9. 选择性搜索的详细算法。

配置变化

给定两个区域$(r_i, r_j)$，选择性搜索提出了四种互补的相似性度量：

颜色相似性
纹理：使用适用于材料识别的算法，如SIFT。
大小：鼓励小区域尽早合并。
形状：理想情况下，一个区域可以填补另一个区域的空白。

通过（i）调整 Felzenszwalb 和 Huttenlocher 算法中的阈值$k$，（ii）改变颜色空间和（iii）选择不同的相似性度量组合，我们可以生成多样化的选择性搜索策略。配置具有最佳质量的区域提议的版本包括（i）各种初始分割提议的混合，（ii）多个颜色空间的混合和（iii）所有相似性度量的组合。毫不奇怪，我们需要在质量（模型复杂性）和速度之间取得平衡。

引用为：

@article{weng2017detection1,
  title   = "Object Detection for Dummies Part 1: Gradient Vector, HOG, and SS",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-10-29-object-recognition-part-1/"
}

参考文献

[1] Dalal, Navneet, 和 Bill Triggs. “用于人体检测的定向梯度直方图。” 计算机视觉与模式识别（CVPR），2005 年。

[2] Pedro F. Felzenszwalb 和 Daniel P. Huttenlocher. “高效基于图像的图像分割。” 计算机视觉国际期刊 59.2（2004 年）：167-181。

[3] Satya Mallick 的定向梯度直方图

[4] Chris McCormick 的梯度向量

[5] Chris McCormick 的 HOG 人体检测器教程

学习词嵌入

原文：lilianweng.github.io/posts/2017-10-15-word-embedding/

人类词汇以自由文本形式存在。为了使机器学习模型理解和处理自然语言，我们需要将自由文本单词转换为数值。最简单的转换方法之一是进行一位有效编码，其中每个不同的单词代表结果向量的一个维度，二进制值表示单词是否存在（1）或不存在（0）。

然而，在处理整个词汇表时，使用一位有效编码在计算上是不切实际的，因为表示需要数十万维度。词嵌入用更低维度和更密集的（非二进制）数值向量表示单词和短语。一个对良好词嵌入的直观假设是它们可以近似单词之间的相似性（即，“猫”和“小猫”是相似的单词，因此它们在降维向量空间中应该接近）或揭示隐藏的语义关系（即，“猫”和“小猫”之间的关系类似于“狗”和“小狗”之间的关系）。上下文信息对于学习单词含义和关系非常有用，因为相似的单词经常出现在相似的上下文中。

学习词嵌入有两种主要方法，都依赖于上下文知识。

基于计数：第一种是无监督的，基于全局单词共现矩阵的矩阵分解。原始共现计数效果不佳，因此我们希望在此基础上做一些聪明的事情。
基于上下文：第二种方法是监督的。给定一个局部上下文，我们希望设计一个模型来预测目标单词，同时，该模型学习高效的词嵌入表示。

基于计数的向量空间模型

基于计数的向量空间模型严重依赖于单词频率和共现矩阵，假设在相同上下文中的单词具有相似或相关的语义含义。这些模型将基于计数的统计数据（如相邻单词之间的共现）映射到小而密集的单词向量中。PCA、主题模型和神经概率语言模型都是这一类别的良好示例。

与基于计数的方法不同，基于上下文的方法构建预测模型，直接针对预测给定其邻居的单词。密集的单词向量是模型参数的一部分。在模型训练过程中学习每个单词的最佳向量表示。

基于上下文：Skip-Gram 模型

假设你有一个固定大小的滑动窗口沿着句子移动：中间的词是“目标”，在其左右范围内的词是上下文词。跳字模型（Mikolov et al., 2013）被训练以预测给定目标的单词作为上下文词的概率。

以下示例演示了多对目标和上下文单词作为训练样本，由一个 5 个单词窗口沿着句子滑动生成。

“宣判者应该挥动剑。” – 尼德·史塔克

滑动窗口（大小=5）	目标词	上下文
[宣判者]	宣判者	宣判者
[宣判者]	宣判者	宣判者
[宣判者]	宣判者	宣判者
[宣判者]	宣判者	宣判者
…	…	…
[宣判者应该挥动剑]	挥动	宣判者，应该，the，剑
[应该挥动剑]	the	应该，挥动，剑
[挥动剑]	挥动	挥动，the

每个上下文-目标对被视为数据中的一个新观察。例如，上述情况中目标词“挥动”产生四个训练样本：（“挥动”，“宣判者”），（“挥动”，“应该”），（“挥动”，“the”），和（“挥动”，“剑”）。

图 1. 跳字模型。输入向量$\mathbf{x}$和输出$\mathbf{y}$都是独热编码的单词表示。隐藏层是大小为$N$的单词嵌入。

给定词汇量$V$，我们将学习大小为$N$的单词嵌入向量。该模型学会一次使用一个目标词（输入）来预测一个上下文词（输出）。

根据图 1，

输入词$w_i$和输出词$w_j$都被独热编码为大小为$V$的二进制向量$\mathbf{x}$和$\mathbf{y}$。
首先，二进制向量$\mathbf{x}$和大小为$V \times N$的单词嵌入矩阵$W$的乘积给出了输入词$w_i$的嵌入向量：矩阵$W$的第 i 行。
这个新发现的维度为$N$的嵌入向量形成了隐藏层。
隐藏层和大小为$N \times V$的单词上下文矩阵$W’$的乘积产生输出独热编码向量$\mathbf{y}$。
输出上下文矩阵$W’$将单词的含义编码为上下文，与嵌入矩阵$W$不同。注意：尽管名字是$W’$，但它与$W$是独立的，不是转置或逆之类的。

基于上下文：连续词袋（CBOW）

连续词袋（CBOW）是另一个类似的学习单词向量的模型。它从源上下文单词（即“宣判者应该 the 剑”）中预测目标单词（即“挥动”）。

图 2. CBOW 模型。多个上下文单词的词向量被平均以获得一个固定长度的向量，就像隐藏层中那样。其他符号的含义与图 1 中相同。

因为有多个上下文单词，我们对它们对应的单词向量进行平均，由输入向量和矩阵 $W$ 的乘积构成。由于平均阶段平滑了许多分布信息，一些人认为 CBOW 模型对小数据集更好。

损失函数

跳字模型和 CBOW 模型都应该经过训练以最小化一个精心设计的损失/目标函数。我们可以结合几种损失函数来训练这些语言模型。在接下来的讨论中，我们将以跳字模型为例来描述损失是如何计算的。

完全 Softmax

跳字模型通过矩阵 $W$ 定义每个单词的嵌入向量，通过输出矩阵 $W'$ 定义上下文向量。给定一个输入单词 $w_I$，让我们将 $W$ 的对应行标记为向量 $v_{w_I}$（嵌入向量），将 $W'$ 的对应列标记为 $v'_{w_I}$（上下文向量）。最终输出层应用 softmax 来计算给定 $w_I$ 预测输出单词 $w_O$ 的概率，因此：

\[p(w_O \vert w_I) = \frac{\exp({v'_{w_O}}^{\top} v_{w_I})}{\sum_{i=1}^V \exp({v'_{w_i}}^{\top} v_{w_I})} \]

这在图 1 中的呈现是准确的。然而，当 $V$ 非常大时，为每个样本计算分母通过遍历所有单词是计算上不可行的。对更高效的条件概率估计的需求导致了像分层 Softmax这样的新方法的出现。

分层 Softmax

Morin 和 Bengio（2005）提出了分层 Softmax，通过二叉树结构使求和计算更快。分层 Softmax 将语言模型的输出 softmax 层编码成树形层次结构，其中每个叶子代表一个单词，每个内部节点代表子节点的相对概率。

图 3. 分层 Softmax 二叉树的示意图。白色的叶子节点是词汇中的单词。灰色的内部节点携带到达其子节点的概率信息。从根节点到叶子 $w\_i$ 的一条路径。$n(w\_i, j)$ 表示这条路径上的第 j 个节点。（图片来源：word2vec 参数学习解释）

每个单词 $w_i$ 从根节点到其对应叶子节点有一条唯一路径。选择该单词的概率等同于从根节点通过树枝向下走到该路径的概率。由于我们知道内部节点 $n$ 的嵌入向量 $v_n$，得到该单词的概率可以通过在每个内部节点停止时取左转或右转的乘积来计算。

根据图 3，一个节点的概率是（$\sigma$是 sigmoid 函数）：

\[\begin{align} p(\text{向右转} \to \dots w_I \vert n) &= \sigma({v'_n}^{\top} v_{w_I})\\ p(\text{向左转} \to \dots w_I \vert n) &= 1 - p(\text{向右转} \vert n) = \sigma(-{v'_n}^{\top} v_{w_I}) \end{align} \]

给定输入词$w_I$时获得上下文词$w_O$的最终概率是：

\[p(w_O \vert w_I) = \prod_{k=1}^{L(w_O)} \sigma(\mathbb{I}_{\text{turn}}(n(w_O, k), n(w_O, k+1)) \cdot {v'_{n(w_O, k)}}^{\top} v_{w_I}) \]

其中$L(w_O)$是通向单词$w_O$的路径的深度，$\mathbb{I}_{\text{turn}}$是一个特殊的指示函数，如果$n(w_O, k+1)$是$n(w_O, k)$的左子节点，则返回 1，否则返回-1。内部节点的嵌入是在模型训练期间学习的。树结构在训练时极大地减少了分母估计的复杂度，从 O(V)（词汇量大小）降低到 O(log V)（树的深度）。然而，在预测时，我们仍然需要计算每个单词的概率并选择最佳的，因为我们事先不知道要到达哪个叶子节点。

一个良好的树结构对模型性能至关重要。几个方便的原则是：按频率分组单词，就像哈夫曼树为简单加速所实现的那样；将相似的单词分组到相同或相近的分支中（即使用预定义的单词簇，WordNet）。

交叉熵

另一种方法完全摆脱了 softmax 框架。相反，损失函数衡量了预测概率$p$和真实二进制标签$\mathbf{y}$之间的交叉熵。

首先，让我们回顾一下两个分布$p$和$q$之间的交叉熵是如何衡量的，即$ H(p, q) = -\sum_x p(x) \log q(x)$。在我们的情况下，当$w_i$是输出词时，真实标签$y_i$为 1；否则$y_j$为 0。模型的损失函数$\mathcal{L}_\theta$旨在最小化预测与真实之间的交叉熵，因为较低的交叉熵表示两个分布之间的高相似性。

\[\mathcal{L}_\theta = - \sum_{i=1}^V y_i \log p(w_i | w_I) = - \log p(w_O \vert w_I) \]

请回忆，

\[p(w_O \vert w_I) = \frac{\exp({v'_{w_O}}^{\top} v_{w_I})}{\sum_{i=1}^V \exp({v'_{w_i}}^{\top} v_{w_I})} \]

因此，

\[\mathcal{L}_{\theta} = - \log \frac{\exp({v'_{w_O}}^{\top}{v_{w_I}})}{\sum_{i=1}^V \exp({v'_{w_i}}^{\top}{v_{w_I} })} = - {v'_{w_O}}^{\top}{v_{w_I} } + \log \sum_{i=1}^V \exp({v'_{w_i} }^{\top}{v_{w_I}}) \]

要开始使用反向传播和 SGD 训练模型，我们需要计算损失函数的梯度。为简单起见，让我们标记$z_{IO} = {v’_{w_O}}^{\top}{v_{w_I}}$。

\[\begin{align} \nabla_\theta \mathcal{L}_{\theta} &= \nabla_\theta\big( - z_{IO} + \log \sum_{i=1}^V e^{z_{Ii}} \big) \\ &= - \nabla_\theta z_{IO} + \nabla_\theta \big( \log \sum_{i=1}^V e^{z_{Ii}} \big) \\ &= - \nabla_\theta z_{IO} + \frac{1}{\sum_{i=1}^V e^{z_{Ii}}} \sum_{i=1}^V e^{z_{Ii}} \nabla_\theta z_{Ii} \\ &= - \nabla_\theta z_{IO} + \sum_{i=1}^V \frac{e^{z_{Ii}}}{\sum_{i=1}^V e^{z_{Ii}}} \nabla_\theta z_{Ii} \\ &= - \nabla_\theta z_{IO} + \sum_{i=1}^V p(w_i \vert w_I) \nabla_\theta z_{Ii} \\ &= - \nabla_\theta z_{IO} + \mathbb{E}_{w_i \sim Q(\tilde{w})} \nabla_\theta z_{Ii} \end{align} \]

其中 $Q(\tilde{w})$ 是噪声样本的分布。

根据上述公式，正确的输出单词根据第一项有正向强化（$\nabla_\theta z_{IO}$ 越大，我们的损失就越好），而其他单词则受到第二项的负面影响。

如何估计 $\mathbb{E}_{w_i \sim Q(\tilde{w})} \nabla_\theta {v’_{w_i}}^{\top}{v_{w_I}}$，而不是通过扫描整个词汇表来使用基于交叉熵的抽样方法，这是关键。

噪声对比估计（NCE）

噪声对比估计（NCE）指标旨在使用 logistic 回归分类器（Gutmann and Hyvärinen, 2010）区分目标单词和噪声样本。

给定输入单词 $w_I$，正确的输出单词称为 $w$。同时，我们从噪声样本分布 $Q$ 中抽样 $N$ 个其他单词，表示为 $\tilde{w}_1, \tilde{w}_2, \dots, \tilde{w}_N \sim Q$。让我们将二元分类器的决策标记为 $d$，$d$ 只能取二进制值。

\[\mathcal{L}_\theta = - [ \log p(d=1 \vert w, w_I) + \sum_{i=1, \tilde{w}_i \sim Q}^N \log p(d=0|\tilde{w}_i, w_I) ] \]

当 $N$ 足够大时，根据大数定律，

\[\mathcal{L}_\theta = - [ \log p(d=1 \vert w, w_I) + N\mathbb{E}_{\tilde{w}_i \sim Q} \log p(d=0|\tilde{w}_i, w_I)] \]

要计算概率 $p(d=1 \vert w, w_I)$，我们可以从联合概率 $p(d, w \vert w_I)$ 开始。在 $w, \tilde{w}_1, \tilde{w}_2, \dots, \tilde{w}_N$ 中，我们有 1/(N+1) 的机会选择真实单词 $w$，它是从条件概率 $p(w \vert w_I)$ 中抽样得到的；同时，我们有 N/(N+1) 的机会选择一个噪声单词，每个都是从 $q(\tilde{w}) \sim Q$ 中抽样得到的。因此，

\[p(d, w | w_I) = \begin{cases} \frac{1}{N+1} p(w \vert w_I) & \text{if } d=1 \\ \frac{N}{N+1} q(\tilde{w}) & \text{if } d=0 \end{cases} \]

然后我们可以计算出 $p(d=1 \vert w, w_I)$ 和 $p(d=0 \vert w, w_I)$：

\[\begin{align} p(d=1 \vert w, w_I) &= \frac{p(d=1, w \vert w_I)}{p(d=1, w \vert w_I) + p(d=0, w \vert w_I)} &= \frac{p(w \vert w_I)}{p(w \vert w_I) + Nq(\tilde{w})} \end{align} $$$$ \begin{align} p(d=0 \vert w, w_I) &= \frac{p(d=0, w \vert w_I)}{p(d=1, w \vert w_I) + p(d=0, w \vert w_I)} &= \frac{Nq(\tilde{w})}{p(w \vert w_I) + Nq(\tilde{w})} \end{align} \]

最终，NCE 的二元分类器的损失函数变为：

\[\begin{align} \mathcal{L}_\theta & = - [ \log p(d=1 \vert w, w_I) + \sum_{\substack{i=1 \\ \tilde{w}_i \sim Q}}^N \log p(d=0|\tilde{w}_i, w_I)] \\ & = - [ \log \frac{p(w \vert w_I)}{p(w \vert w_I) + Nq(\tilde{w})} + \sum_{\substack{i=1 \\ \tilde{w}_i \sim Q}}^N \log \frac{Nq(\tilde{w}_i)}{p(w \vert w_I) + Nq(\tilde{w}_i)}] \end{align} \]

然而，$p(w \vert w_I)$仍然涉及将整个词汇表求和作为分母。让我们将分母标记为输入单词的分区函数，$Z(w_I)$。一个常见的假设是$Z(w) \approx 1$，因为我们期望 softmax 输出层被归一化（Minh and Teh, 2012）。然后损失函数简化为：

\[\mathcal{L}_\theta = - [ \log \frac{\exp({v'_w}^{\top}{v_{w_I}})}{\exp({v'_w}^{\top}{v_{w_I}}) + Nq(\tilde{w})} + \sum_{\substack{i=1 \\ \tilde{w}_i \sim Q}}^N \log \frac{Nq(\tilde{w}_i)}{\exp({v'_w}^{\top}{v_{w_I}}) + Nq(\tilde{w}_i)}] \]

噪声分布$Q$是一个可调参数，我们希望设计它的方式是：

直观上应该与真实数据分布非常相似；以及
应该容易从中进行采样。

例如，tensorflow 中 NCE 损失的采样实现(log_uniform_candidate_sampler)假设这样的噪声样本遵循对数均匀分布，也被称为齐夫定律。对数概率中给定单词的概率预计与其排名成反比，而高频词被赋予较低的排名。在这种情况下，$q(\tilde{w}) = \frac{1}{ \log V}(\log (r_{\tilde{w}} + 1) - \log r_{\tilde{w}})$，其中$r_{\tilde{w}} \in [1, V]$是按频率降序排列的单词的排名。

负采样（NEG）

Mikolov 等人提出的负采样（NEG）是 NCE 损失的简化变体。它尤其以训练 Google 的word2vec项目而闻名。与试图近似最大化 softmax 输出的对数概率的 NCE Loss 不同，负采样进行了进一步简化，因为它专注于学习高质量的词嵌入，而不是对自然语言中的词分布进行建模。

NEG 用 sigmoid 函数近似二元分类器的输出如下：

\[\begin{align} p(d=1 \vert w_, w_I) &= \sigma({v'_{w}}^\top v_{w_I}) \\ p(d=0 \vert w, w_I) &= 1 - \sigma({v'_{w}}^\top v_{w_I}) = \sigma(-{v'_{w}}^\top v_{w_I}) \end{align} \]

最终的 NCE 损失函数如下所示：

\[\mathcal{L}_\theta = - [ \log \sigma({v'_{w}}^\top v_{w_I}) + \sum_{\substack{i=1 \\ \tilde{w}_i \sim Q}}^N \log \sigma(-{v'_{\tilde{w}_i}}^\top v_{w_I})] \]

学习词嵌入的其他提示

Mikolov 等人建议了几种有助于获得良好词嵌入学习结果的实践方法。

软滑动窗口。在滑动窗口内配对单词时，我们可以给距离较远的单词分配较少的权重。一个启发式方法是——给定一个定义的最大窗口大小参数，$s_{\text{max}}$，实际窗口大小对于每个训练样本都在 1 和$s_{\text{max}}$之间随机抽样。因此，每个上下文单词被观察到的概率为 1/(它到目标单词的距离)，而相邻单词总是被观察到。
对频繁单词进行子采样。极其频繁的单词可能过于普通，无法区分上下文（即考虑停用词）。另一方面，罕见单词更有可能携带独特信息。为了平衡频繁和罕见单词，Mikolov 等人建议在采样过程中以概率$1-\sqrt{t/f(w)}$丢弃单词$w$。这里$f(w)$是单词频率，$t$是可调阈值。
首先学习短语。短语通常作为一个概念单元存在，而不是简单的个别单词组合。例如，即使我们知道“new”和“york”的含义，我们也无法确定“New York”是一个城市名。在训练词嵌入模型之前，首先学习这些短语并将它们视为单词单元可以提高结果质量。一个简单的数据驱动方法基于单字和双字计数：$s_{\text{phrase}} = \frac{C(w_i w_j) - \delta}{ C(w_i)C(w_j)}$，其中$C(.)$是单字$w_i$或双字$w_i w_j$的简单计数，$\delta$是一个折扣阈值，用于防止过于罕见的单词和短语。得分越高表示成为短语的可能性越大。为了形成超过两个单词的短语，我们可以多次扫描词汇表，逐渐降低得分截断值。

GloVe：全局向量

Pennington 等人提出的全局向量（GloVe）模型旨在将基于计数的矩阵分解和基于上下文的跳字模型结合在一起。

我们都知道计数和共现可以揭示单词的含义。为了区分在词嵌入词的上下文中的$p(w_O \vert w_I)$，我们想定义共现概率为：

\[p_{\text{co}}(w_k \vert w_i) = \frac{C(w_i, w_k)}{C(w_i)} \]

$C(w_i, w_k)$ 计算了单词$w_i$和$w_k$的共现次数。

假设，我们有两个单词，$w_i$=“ice”和$w_j$=“steam”。第三个单词$\tilde{w}_k$=“solid”与“ice”相关但与“steam”无关，因此我们期望$p_{\text{co}}(\tilde{w}_k \vert w_i)$远大于$p_{\text{co}}(\tilde{w}_k \vert w_j)$，因此$\frac{p_{\text{co}}(\tilde{w}_k \vert w_i)}{p_{\text{co}}(\tilde{w}_k \vert w_j)}$应该非常大。如果第三个单词$\tilde{w}_k$=“water”与两者相关或$\tilde{w}_k$=“fashion”与两者都不相关，则$\frac{p_{\text{co}}(\tilde{w}_k \vert w_i)}{p_{\text{co}}(\tilde{w}_k \vert w_j)}$预计接近于一。

这里的直觉是，单词含义由共现概率的比率而不是概率本身捕获。全局向量模型了解两个单词之间关于第三个上下文单词的关系如下：

\[F(w_i, w_j, \tilde{w}_k) = \frac{p_{\text{co}}(\tilde{w}_k \vert w_i)}{p_{\text{co}}(\tilde{w}_k \vert w_j)} \]

此外，由于目标是学习有意义的单词向量，$F$被设计为两个单词$w_i - w_j$之间的线性差异的函数：

\[F((w_i - w_j)^\top \tilde{w}_k) = \frac{p_{\text{co}}(\tilde{w}_k \vert w_i)}{p_{\text{co}}(\tilde{w}_k \vert w_j)} \]

考虑到目标词和上下文词之间对称的$F$，最终的解决方案是将$F$建模为一个指数函数。请阅读原始论文（Pennington et al., 2014）以获取更多方程的细节。

\[\begin{align} F({w_i}^\top \tilde{w}_k) &= \exp({w_i}^\top \tilde{w}_k) = p_{\text{co}}(\tilde{w}_k \vert w_i) \\ F((w_i - w_j)^\top \tilde{w}_k) &= \exp((w_i - w_j)^\top \tilde{w}_k) = \frac{\exp(w_i^\top \tilde{w}_k)}{\exp(w_j^\top \tilde{w}_k)} = \frac{p_{\text{co}}(\tilde{w}_k \vert w_i)}{p_{\text{co}}(\tilde{w}_k \vert w_j)} \end{align} \]

最后，

\[{w_i}^\top \tilde{w}_k = \log p_{\text{co}}(\tilde{w}_k \vert w_i) = \log \frac{C(w_i, \tilde{w}_k)}{C(w_i)} = \log C(w_i, \tilde{w}_k) - \log C(w_i) \]

由于第二项$-\log C(w_i)$与$k$无关，我们可以为$w_i$添加偏置项$b_i$来捕获$-\log C(w_i)$。为了保持对称形式，我们还为$\tilde{w}_k$添加偏置$\tilde{b}_k$。

\[\log C(w_i, \tilde{w}_k) = {w_i}^\top \tilde{w}_k + b_i + \tilde{b}_k \]

GloVe 模型的损失函数旨在通过最小化平方误差的总和来保留上述公式：

\[\mathcal{L}_\theta = \sum_{i=1, j=1}^V f(C(w_i,w_j)) ({w_i}^\top \tilde{w}_j + b_i + \tilde{b}_j - \log C(w_i, \tilde{w}_j))² \]

权重模式$f(c)$是$w_i$和$w_j$的共现的函数，是一个可调整的模型配置。当$c \to 0$时，应接近于零；随着更高的共现，应该是非递减的；当$c$变得极端大时应该饱和。论文提出了以下权重函数。

\[f(c) = \begin{cases} (\frac{c}{c_{\max}})^\alpha & \text{如果 } c < c_{\max} \text{，} c_{\max} \text{是可调整的。} \\ 1 & \text{如果 } \text{其他情况} \end{cases} \]

例子：Game of Thrones 上的 word2vec

在回顾了上述所有理论知识之后，让我们尝试从“权力的游戏语料库”中提取的词嵌入进行一点实验。使用gensim的过程非常简单。

步骤 1：提取单词

import sys from nltk.corpus import stopwords from nltk.tokenize import sent_tokenize   STOP_WORDS = set(stopwords.words('english'))   def get_words(txt):  return filter( lambda x: x not in STOP_WORDS, re.findall(r'\b(\w+)\b', txt) )   def parse_sentence_words(input_file_names):  """Returns a list of a list of words. Each sublist is a sentence.""" sentence_words = [] for file_name in input_file_names: for line in open(file_name): line = line.strip().lower() line = line.decode('unicode_escape').encode('ascii','ignore') sent_words = map(get_words, sent_tokenize(line)) sent_words = filter(lambda sw: len(sw) > 1, sent_words) if len(sent_words) > 1: sentence_words += sent_words return sentence_words   # You would see five .txt files after unzip 'a_song_of_ice_and_fire.zip' input_file_names = ["001ssb.txt", "002ssb.txt", "003ssb.txt",  "004ssb.txt", "005ssb.txt"] GOT_SENTENCE_WORDS= parse_sentence_words(input_file_names)

步骤 2：输入 word2vec 模型

from gensim.models import Word2Vec   # size: the dimensionality of the embedding vectors. # window: the maximum distance between the current and predicted word within a sentence. model = Word2Vec(GOT_SENTENCE_WORDS, size=128, window=3, min_count=5, workers=4) model.wv.save_word2vec_format("got_word2vec.txt", binary=False)

步骤 3：检查结果

在 GoT 词嵌入空间中，“国王”和“王后”的相似词排名如下：

`model.most_similar('king', topn=10)`（与‘国王’相似的词）	`model.most_similar('queen', topn=10)`（与‘王后’相似的词）
(‘国王’, 0.897245)	(‘瑟曦’, 0.942618)
(‘拜拉席恩’, 0.809675)	(‘乔佛里’, 0.933756)
(‘儿子’, 0.763614)	(‘玛格丽’, 0.931099)
(‘罗伯特’, 0.708522)	(‘姐妹’, 0.928902)
(‘领主们’, 0.698684)	(‘王子’, 0.927364)
(‘乔佛里’, 0.696455)	(‘叔叔’, 0.922507)
(‘王子’, 0.695699)	(‘瓦里斯’, 0.918421)
(‘兄弟’, 0.685239)	(‘尼德’, 0.917492)
(‘艾利斯’, 0.684527)	(‘梅丽珊卓’, 0.915403)
(‘史坦尼斯’, 0.682932)	(‘罗伯’, 0.915272)

引用为：

@article{weng2017wordembedding,
  title   = "Learning word embedding",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-10-15-word-embedding/"
}

参考文献

[1] Tensorflow 教程单词的向量表示。

[2] “Word2Vec 教程 - Skip-Gram 模型” by Chris McCormick.

[3] “关于词嵌入 - 第 2 部分：逼近 Softmax” by Sebastian Ruder.

[4] Xin Rong. word2vec 参数学习解释

[5] Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. “在向量空间中高效估计词表示” arXiv 预印本 arXiv:1301.3781 (2013).

[6] Frederic Morin and Yoshua Bengio. “分层概率神经网络语言模型” Aistats。Vol. 5。2005 年。

[7] Michael Gutmann and Aapo Hyvärinen. “噪声对比估计：非归一化统计模型的新估计原则” 人工智能和统计学国际会议论文集。2010 年。

[8] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. “单词和短语的分布式表示及其组合性” 神经信息处理系统的进展。2013 年。

[9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. “在向量空间中高效估计词表示” arXiv 预印本 arXiv:1301.3781 (2013).

[10] Marco Baroni, Georgiana Dinu, and Germán Kruszewski. “不要计数，要预测！上下文计数与上下文预测语义向量的系统比较.” 2014 年 ACL (1) 会议论文集。

[11] Jeffrey Pennington, Richard Socher, and Christopher Manning. “Glove: 全局词向量表示.” 2014 年 Empirical Methods in Natural Language Processing (EMNLP) 会议论文集.

用信息理论解剖深度学习

原文：lilianweng.github.io/posts/2017-09-28-information-bottleneck/

Naftali Tishby 教授于 2021 年去世。希望这篇文章能向更多人介绍他关于信息瓶颈的酷炫想法。

最近我观看了 Naftali Tishby 教授的讲座“深度学习中的信息理论”，发现非常有趣。他展示了如何将信息理论应用于研究深度神经网络在训练过程中的增长和转变。利用信息瓶颈（IB）方法，他为深度神经网络（DNN）提出了一个新的学习界限，因为传统的学习理论由于参数数量的指数增长而失败。另一个敏锐的观察是，DNN 训练涉及两个不同的阶段：首先，网络被训练以完全表示输入数据并最小化泛化误差；然后，它通过压缩输入的表示来学会忘记不相关的细节。

这篇文章中的大部分材料来自 Tishby 教授的讲座和相关论文。

基本概念

马尔可夫链

马尔可夫过程是一种“无记忆”（也称为“马尔可夫性质”）的随机过程。马尔可夫链是包含多个离散状态的马尔可夫过程的一种类型。也就是说，过程的未来状态的条件概率仅由当前状态决定，不依赖于过去状态。

Kullback–Leibler（KL）散度

KL 散度衡量了一个概率分布$p$与第二个期望概率分布$q$之间的偏离程度。它是不对称的。

\[\begin{aligned} D_{KL}(p \| q) &= \sum_x p(x) \log \frac{p(x)}{q(x)} \\ &= - \sum_x p(x)\log q(x) + \sum_x p(x)\log p(x) \\ &= H(P, Q) - H(P) \end{aligned} \]

当$p(x)$ == $q(x)$时，$D_{KL}$达到最小值零。

互信息

互信息度量了两个变量之间的相互依赖关系。它量化了通过另一个随机变量获得的“信息量”。互信息是对称的。

\[\begin{aligned} I(X;Y) &= D_{KL}[p(x,y) \| p(x)p(y)] \\ &= \sum_{x \in X, y \in Y} p(x, y) \log(\frac{p(x, y)}{p(x)p(y)}) \\ &= \sum_{x \in X, y \in Y} p(x, y) \log(\frac{p(x|y)}{p(x)}) \\ &= H(X) - H(X|Y) \\ \end{aligned} \]

数据处理不等式（DPI）

对于任何马尔可夫链：$X \to Y \to Z$，我们有 $I(X; Y) \geq I(X; Z)$。

一个深度神经网络可以被视为马尔可夫链，因此当我们沿着 DNN 的层向下移动时，层与输入之间的互信息只能减少。

重参数化不变性

对于两个可逆函数$\phi$，$\psi$，互信息仍然成立：$I(X; Y) = I(\phi(X); \psi(Y))$。

例如，如果我们对 DNN 的一个层中的权重进行洗牌，这不会影响该层与另一层之间的互信息。

深度神经网络作为马尔可夫链

训练数据包含从$X$和$Y$的联合分布中抽样的观测。输入变量$X$和隐藏层的权重都是高维随机变量。真实目标$Y$和预测值$\hat{Y}$在分类设置中是维度较小的随机变量。

图 1. 一个深度神经网络的结构，包括目标标签$Y$，输入层$X$，隐藏层$h\_1, \dots, h\_m$和最终预测$\hat{Y}$。（图片来源：Tishby and Zaslavsky, 2015）

如果我们像图 1 中标记 DNN 的隐藏层为$h_1, h_2, \dots, h_m$，我们可以将每一层视为马尔可夫链的一个状态：$ h_i \to h_{i+1}$。根据 DPI，我们会有：

\[\begin{aligned} H(X) \geq I(X; h_1) \geq I(X; h_2) \geq \dots \geq I(X; h_m) \geq I(X; \hat{Y}) \\ I(X; Y) \geq I(h_1; Y) \geq I(h_2; Y) \geq \dots \geq I(h_m; Y) \geq I(\hat{Y}; Y) \end{aligned} \]

一个深度神经网络（DNN）被设计成学习如何描述$X$以预测$Y，并最终将$X$压缩，只保留与$Y$相关的信息。Tishby 将这种处理描述为“相关信息的逐步细化”。

信息平面定理

一个 DNN 具有$X$的连续内部表示，一组隐藏层$\{T_i\}$。信息平面定理通过其编码器和解码器信息来表征每一层。编码器是输入数据$X$的表示，而解码器将当前层中的信息转换为目标输出$Y$。

精确地，在信息平面图中：

X 轴：$T_i$的样本复杂度由编码器的互信息$I(X; T_i)$确定。样本复杂度指的是为达到一定精度和泛化性能需要多少样本。
Y 轴：准确度（泛化误差）由解码器的互信息$I(T_i; Y)$确定。

图 2. DNN 隐藏层的编码器与解码器互信息，共 50 次实验。不同层以颜色区分，绿色为最靠近输入的层，橙色为最远的层。有三个快照，分别为初始时期、400 个时期和 9000 个时期。（图片来源：Shwartz-Ziv and Tishby, 2017）

图 2. 中的每个点标记了一个网络模拟的一个隐藏层的编码器/解码器互信息（没有应用正则化；没有权重衰减，没有丢弃等）。它们如预期地上升，因为对真实标签的知识增加（准确性增加）。在早期阶段，隐藏层学习了关于输入 $X$ 的很多信息，但后来它们开始压缩以忘记一些关于输入的信息。Tishby 认为“学习中最重要的部分实际上是遗忘”。看看这个不错的视频，展示了层的互信息随时期变化的情况。

图 3. 这里是图 2. 的聚合视图。压缩发生在泛化误差变得非常小之后。 (图片来源: Tishby’ talk 15:15)

两个优化阶段

跟踪每个层权重的归一化均值和标准差随时间的变化也揭示了训练过程的两个优化阶段。

图 4. 每个层的权重梯度的均值和标准差的范数作为训练时期函数的图示。不同层以颜色编码。 (图片来源: Shwartz-Ziv and Tishby, 2017)

在早期时期，均值比标准差大三个数量级。经过足够数量的时期后，误差饱和，标准差之后变得更加嘈杂。离输出层越远的层，噪音就越大，因为噪音可以通过反向传播过程放大和积累（不是由于层的宽度）。

学习理论

“旧” 泛化界限

经典学习理论定义的泛化界限是：

\[\epsilon² < \frac{\log|H_\epsilon| + \log{1/\delta}}{2m} \]

$\epsilon$: 训练误差和泛化误差之间的差异。泛化误差衡量算法对以前未见数据的预测的准确性。
$H_\epsilon$: 假设类的 $\epsilon$-覆盖。通常我们假设大小 $\vert H_\epsilon \vert \sim (1/\epsilon)^d$。
$\delta$: 置信度。
$m$: 训练样本的数量。
$d$: 假设的 VC 维度。

这个定义说明训练误差和泛化误差之间的差异受假设空间大小和数据集大小的函数限制。假设空间越大，泛化误差就越大。如果你对泛化界限感兴趣，我推荐这个关于 ML 理论的教程，part1 和 part2。

然而，这对深度学习不起作用。网络越大，需要学习的参数就越多。根据这些泛化界限，更大的网络（更大的$d$）将具有更差的界限。这与更大的网络能够通过更高的表达能力实现更好性能的直觉相矛盾。

“新”输入压缩界限

为了解决这一反直觉的观察，Tishby 等人提出了 DNN 的新输入压缩界限。

首先让我们将$T_\epsilon$作为输入变量$X$的一个$\epsilon$-分区。这个分区将输入相对于标签的同质性进行压缩到小单元格中。这些单元格总共可以覆盖整个输入空间。如果预测输出是二进制值，我们可以用$2^{\vert T_\epsilon \vert}$替换假设的基数$\vert H_\epsilon \vert$。

\[|H_\epsilon| \sim 2^{|X|} \to 2^{|T_\epsilon|} \]

当$X$很大时，$X$的大小约为$2^{H(X)}$。$\epsilon$-分区中的每个单元大小约为$2^{H(X \vert T_\epsilon)}$。因此，我们有$\vert T_\epsilon \vert \sim \frac{2^{H(X)}}{2^{H(X \vert T_\epsilon)}} = 2^{I(T_\epsilon; X)}$。然后输入压缩界限变为：

\[ \epsilon² < \frac{2^{I(T_\epsilon; X)} + \log{1/\delta}}{2m} $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/9d816171e63c2bf5f8933a29512d4059.png) 图 5\. 黑线是最佳可实现的信息瓶颈（IB）极限。红线对应于在有限样本集上训练时的样本外 IB 失真的上界。$\Delta C$是复杂度差距，$\Delta G$是泛化差距。（基于[Tishby 的演讲 24:50](https://youtu.be/bLqJHjXihK8?t=24m56s)重新创建） # 网络大小和训练数据大小 ## 更多隐藏层的好处拥有更多层次给我们带来计算上的好处，并加快训练过程以获得良好的泛化能力。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/c9adee527ec8529de3bc055469835592.png) 图 6\. 随着隐藏层数增加，优化时间（较少的迭代次数）大大缩短。（图片来源：[Shwartz-Ziv and Tishby, 2017](https://arxiv.org/pdf/1703.00810.pdf)） **通过随机松弛进行压缩**：根据[扩散方程](https://en.wikipedia.org/wiki/Fokker%E2%80%93Planck_equation)，第$k$层的松弛时间与该层的压缩量$\Delta S_k$的指数成正比：$\Delta t_k \sim \exp(\Delta S_k)$。我们可以计算层的压缩量为$\Delta S_k = I(X; T_k) - I(X; T_{k-1})$。因为$\exp(\sum_k \Delta S_k) \geq \sum_k \exp(\Delta S_k)$，我们预期随着隐藏层数增加（更大的$k$），训练迭代次数会呈指数减少。 ## 更多训练样本的好处拟合更多的训练数据需要隐藏层捕获更多的信息。随着训练数据规模的增加，解码器的互信息（回想一下，这与泛化误差直接相关），$I(T; Y)$，被推高并接近理论信息瓶颈界限。Tishby 强调，决定泛化的是互信息，而不是层大小或 VC 维度，这与标准理论不同。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/1f76910a5f723427b12b5c88c69b59e4.png) 图 7。不同大小的训练数据以颜色编码。绘制了多个收敛网络的信息平面。更多的训练数据导致更好的泛化。（图片来源：[Shwartz-Ziv 和 Tishby，2017](https://arxiv.org/pdf/1703.00810.pdf)) * * * 引用为： ```py @article{weng2017infotheory, title = "Anatomize Deep Learning with Information Theory", author = "Weng, Lilian", journal = "lilianweng.github.io", year = "2017", url = "https://lilianweng.github.io/posts/2017-09-28-information-bottleneck/" } ``` # 参考文献 [1] Naftali Tishby. [深度学习的信息理论](https://youtu.be/bLqJHjXihK8) [2] [机器学习理论 - 第 1 部分：介绍](https://mostafa-samir.github.io/ml-theory-pt1/) [3] [机器学习理论 - 第 2 部分：泛化界限](https://mostafa-samir.github.io/ml-theory-pt2/) [4] [揭开深度学习黑匣子的新理论](https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/)，作者为 Quanta Magazine。 [5] Naftali Tishby 和 Noga Zaslavsky. [“深度学习与信息瓶颈原理。”](https://arxiv.org/pdf/1503.02406.pdf) IEEE 信息理论研讨会（ITW），2015。 [6] Ravid Shwartz-Ziv 和 Naftali Tishby. [“通过信息揭开深度神经网络的黑匣子。”](https://arxiv.org/pdf/1703.00810.pdf) arXiv 预印本 arXiv:1703.00810，2017。 # 从 GAN 到 WGAN > 原文：[`lilianweng.github.io/posts/2017-08-20-gan/`](https://lilianweng.github.io/posts/2017-08-20-gan/) [2018-09-30 更新：感谢 Yoonju，我们有这篇文章的[韩文翻译](https://github.com/yjucho1/articles/blob/master/fromGANtoWGAN/readme.md)!] [2019-04-18 更新：这篇文章也可以在[arXiv](https://arxiv.org/abs/1904.08994)上找到。] [生成对抗网络](https://arxiv.org/pdf/1406.2661.pdf)（GAN）在许多生成任务中展现出了出色的结果，如复制现实世界丰富内容，如图像、人类语言和音乐。它受到博弈论的启发：两个模型，一个生成器和一个评论者，彼此竞争，同时使彼此变得更强。然而，训练 GAN 模型相当具有挑战性，因为人们面临着训练不稳定或无法收敛的问题。在这里，我想解释生成对抗网络框架背后的数学原理，为什么它难以训练，最后介绍一个旨在解决训练困难的修改版 GAN。 # Kullback–Leibler 和 Jensen–Shannon 散度在我们开始仔细研究 GAN 之前，让我们首先回顾两个用于量化两个概率分布相似性的度量标准。 (1) [KL（Kullback–Leibler）散度](https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence)衡量一个概率分布$p$与第二个期望概率分布$q$之间的差异。 $$ D_{KL}(p \| q) = \int_x p(x) \log \frac{p(x)}{q(x)} dx \]

当$p(x)$ == $q(x)$时，$D_{KL}$达到最小值零。

根据公式可以看出，KL 散度是不对称的。在$p(x)$接近零但$q(x)$显著非零的情况下，会忽略$q$的影响。当我们只想衡量两个同等重要分布之间的相似性时，可能会导致错误的结果。

(2) Jensen–Shannon 散度是另一种衡量两个概率分布相似性的方法，范围在$[0, 1]$之间。JS 散度是对称的（耶！）且更加平滑。如果您对 KL 散度和 JS 散度之间的比较感兴趣，请查看这篇Quora 帖子。

\[ D_{JS}(p \| q) = \frac{1}{2} D_{KL}(p \| \frac{p + q}{2}) + \frac{1}{2} D_{KL}(q \| \frac{p + q}{2}) $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/78bf48c2d963829a7e8b146ecef953b4.png) 图 1。给定两个高斯分布，$p$的均值=0，标准差=1，$q$的均值=1，标准差=1。两个分布的平均值标记为$m=(p+q)/2$。KL 散度$D_{KL}$是不对称的，但 JS 散度$D_{JS}$是对称的。一些人认为（[Huszar, 2015](https://arxiv.org/pdf/1511.05101.pdf)）GAN 取得巨大成功的一个原因是将损失函数从传统的最大似然方法中的不对称 KL 散度转换为对称 JS 散度。我们将在下一节中更多讨论这一点。 # 生成对抗网络（GAN） GAN 由两个模型组成： + 一个鉴别器$D$估计给定样本来自真实数据集的概率。它作为批评者，被优化为区分假样本和真实样本。 + 生成器$G$给出合成样本，给定一个噪声变量输入$z$（$z$带来潜在的输出多样性）。它被训练来捕捉真实数据分布，使得其生成的样本尽可能真实，或者换句话说，可以欺骗鉴别器提供高概率。 ![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/d27243d75d975c2e35050e6d803bdd93.png) 图 2. 生成对抗网络的架构。（图片来源：[www.kdnuggets.com/2017/01/generative-...-learning.html](http://www.kdnuggets.com/2017/01/generative-adversarial-networks-hot-topic-machine-learning.html)）这两个模型在训练过程中相互竞争：生成器$G$努力欺骗鉴别器，而批评模型$D$努力不被欺骗。这两个模型之间的有趣的零和博弈激励它们改进功能。给定， | 符号 | 含义 | 备注 | | --- | --- | --- | | $p_{z}$ | 噪声输入$z$上的数据分布 | 通常是均匀的。 | | $p_{g}$ | 生成器对数据$x$的分布 | | | $p_{r}$ | 真实样本$x$上的数据分布 | | 一方面，我们希望通过最大化$\mathbb{E}_{x \sim p_{r}(x)} [\log D(x)]$来确保鉴别器$D$对真实数据的决策是准确的。同时，对于一个假样本$G(z), z \sim p_z(z)$，期望鉴别器输出一个接近零的概率，即$D(G(z))$，通过最大化$\mathbb{E}_{z \sim p_{z}(z)} [\log (1 - D(G(z)))]$。另一方面，生成器被训练来增加$D$对假例产生高概率的机会，从而最小化$\mathbb{E}_{z \sim p_{z}(z)} [\log (1 - D(G(z)))]$。当将两个方面结合在一起时，$D$和$G$在一个**极小极大博弈**中，我们应该优化以下损失函数： $$ \begin{aligned} \min_G \max_D L(D, G) & = \mathbb{E}_{x \sim p_{r}(x)} [\log D(x)] + \mathbb{E}_{z \sim p_z(z)} [\log(1 - D(G(z)))] \\ & = \mathbb{E}_{x \sim p_{r}(x)} [\log D(x)] + \mathbb{E}_{x \sim p_g(x)} [\log(1 - D(x)] \end{aligned} \]

（在梯度下降更新过程中，$\mathbb{E}_{x \sim p_{r}(x)} [\log D(x)]$对$G$没有影响。）

鉴别器$D$的最佳值是多少？

现在我们有了一个明确定义的损失函数。让我们首先检查$D$的最佳值是多少。

\[L(G, D) = \int_x \bigg( p_{r}(x) \log(D(x)) + p_g (x) \log(1 - D(x)) \bigg) dx \]

由于我们对最大化$L(G, D)$时$D(x)$的最佳值感兴趣，让我们标记

\[\tilde{x} = D(x), A=p_{r}(x), B=p_g(x) \]

然后积分中的内容是什么（我们可以安全地忽略积分，因为$x$是在所有可能值上进行采样的）：

\[\begin{aligned} f(\tilde{x}) & = A log\tilde{x} + B log(1-\tilde{x}) \\ \frac{d f(\tilde{x})}{d \tilde{x}} & = A \frac{1}{ln10} \frac{1}{\tilde{x}} - B \frac{1}{ln10} \frac{1}{1 - \tilde{x}} \\ & = \frac{1}{ln10} (\frac{A}{\tilde{x}} - \frac{B}{1-\tilde{x}}) \\ & = \frac{1}{ln10} \frac{A - (A + B)\tilde{x}}{\tilde{x} (1 - \tilde{x})} \\ \end{aligned} \]

因此，设$\frac{d f(\tilde{x})}{d \tilde{x}} = 0$，我们得到鉴别器的最佳值：$D^*(x) = \tilde{x}^* = \frac{A}{A + B} = \frac{p_{r}(x)}{p_{r}(x) + p_g(x)} \in [0, 1]$。

一旦生成器训练到最佳状态，$p_g$会非常接近$p_{r}$。当$p_g = p_{r}$时，$D^*(x)$变为$1/2$。

全局最优是什么？

当$G$和$D$都达到最佳值时，我们有$p_g = p_{r}$和$D^*(x) = 1/2$，损失函数变为：

\[\begin{aligned} L(G, D^*) &= \int_x \bigg( p_{r}(x) \log(D^*(x)) + p_g (x) \log(1 - D^*(x)) \bigg) dx \\ &= \log \frac{1}{2} \int_x p_{r}(x) dx + \log \frac{1}{2} \int_x p_g(x) dx \\ &= -2\log2 \end{aligned} \]

损失函数代表什么？

根据前一节中列出的公式，$p_{r}$和$p_g$之间的 JS 散度可以计算为：

\[\begin{aligned} D_{JS}(p_{r} \| p_g) =& \frac{1}{2} D_{KL}(p_{r} || \frac{p_{r} + p_g}{2}) + \frac{1}{2} D_{KL}(p_{g} || \frac{p_{r} + p_g}{2}) \\ =& \frac{1}{2} \bigg( \log2 + \int_x p_{r}(x) \log \frac{p_{r}(x)}{p_{r} + p_g(x)} dx \bigg) + \\& \frac{1}{2} \bigg( \log2 + \int_x p_g(x) \log \frac{p_g(x)}{p_{r} + p_g(x)} dx \bigg) \\ =& \frac{1}{2} \bigg( \log4 + L(G, D^*) \bigg) \end{aligned} \]

因此，

\[L(G, D^*) = 2D_{JS}(p_{r} \| p_g) - 2\log2 \]

本质上，GAN 的损失函数通过 JS 散度量化了在鉴别器最优时生成数据分布$p_g$与真实样本分布$p_{r}$之间的相似性。最佳的$G^*$复制真实数据分布导致最小的$L(G^*, D^*) = -2\log2$，与上述方程一致。

GAN 的其他变体：在不同背景或为不同任务设计的许多 GAN 变体。例如，对于半监督学习，一个想法是更新鉴别器以输出真实类标签$1, \dots, K-1$，以及一个假类标签$K$。生成器模型旨在欺骗鉴别器输出小于$K$的分类标签。

Tensorflow 实现：carpedm20/DCGAN-tensorflow

GAN 中的问题

尽管 GAN 在逼真图像生成方面取得了巨大成功，但训练并不容易；这个过程被认为是缓慢且不稳定的。

很难实现纳什均衡

Salimans 等人（2016）讨论了 GAN 基于梯度下降的训练过程中的问题。两个模型同时训练以找到两人非合作博弈的纳什均衡。然而，每个模型独立地更新其成本，而不考虑游戏中的另一个玩家。同时更新两个模型的梯度不能保证收敛。

让我们看一个简单的例子，更好地理解为什么在非合作博弈中很难找到纳什均衡。假设一个玩家控制$x$以最小化$f_1(x) = xy$，同时另一个玩家不断更新$y$以最小化$f_2(y) = -xy$。

因为$\frac{\partial f_1}{\partial x} = y$和$\frac{\partial f_2}{\partial y} = -x$，我们在一个迭代中同时更新$x$为$x-\eta \cdot y$和$y$为$y+ \eta \cdot x$，其中$\eta$是学习率。一旦$x$和$y$有不同的符号，每次后续梯度更新都会导致巨大的振荡，并且随着时间的推移不稳定性变得更加严重，如图 3 所示。

图 3。我们的示例模拟了更新$x$以最小化$xy$和更新$y$以最小化$-xy$的过程。学习率$\eta = 0.1$。随着更多迭代，振荡变得越来越不稳定。

低维支撑

术语	解释
流形	在每个点附近局部类似于欧几里得空间的拓扑空间。准确地说，当这个欧几里得空间的维度为$n$时，流形被称为$n$-流形。
支撑	实值函数$f$是包含那些不映射到零的域的子集。

Arjovsky 和 Bottou（2017）讨论了$p_r$和$p_g$的支撑位于低维流形上的问题，以及它如何在一篇非常理论的论文“Towards principled methods for training generative adversarial networks”中全面讨论了 GAN 训练的不稳定性。

许多真实世界数据集的维度，如 $p_r$ 所代表的，只是人为地高。已经发现它们集中在一个较低维度的流形中。这实际上是流形学习的基本假设。想象一下真实世界的图像，一旦主题或包含的对象固定，图像就有很多限制要遵循，即，一只狗应该有两只耳朵和一条尾巴，一座摩天大楼应该有笔直而高耸的身体等。这些限制使图像远离了具有高维度自由形式的可能性。

$p_g$ 也位于低维流形中。每当生成器被要求生成一个更大的图像，比如 64x64，给定一个小维度，比如 100，噪声变量输入 $z$，这 4096 个像素的颜色分布已经由小的 100 维随机数向量定义，并且几乎无法填满整个高维空间。

因为 $p_g$ 和 $p_r$ 都位于低维流形中，它们几乎肯定是不相交的（见图 4）。当它们具有不相交的支持时，我们总是能够找到一个完美的鉴别器，将真假样本完全正确地分开。如果你对证明感兴趣，请查看论文。

图 4. 高维空间中的低维流形几乎不可能重叠。（左）三维空间中的两条线。（右）三维空间中的两个曲面。

梯度消失

当鉴别器完美时，我们保证 $D(x) = 1, \forall x \in p_r$ 和 $D(x) = 0, \forall x \in p_g$。因此损失函数 $L$ 降至零，我们最终没有梯度来更新学习迭代中的损失。图 5 展示了一个实验，当鉴别器变得更好时，梯度迅速消失。

图 5. 首先，DCGAN 被训练了 1、10 和 25 个 epochs。然后，固定生成器，从头开始训练一个鉴别器，并用原始成本函数测量梯度。我们看到梯度范数迅速衰减（以对数刻度表示），在最好的情况下，在 4000 个鉴别器迭代后衰减了 5 个数量级。（图片来源：Arjovsky and Bottou, 2017）

因此，训练 GAN 面临着一个困境：

如果鉴别器表现不佳，生成器就无法获得准确的反馈，损失函数无法代表现实。
如果鉴别器表现出色，损失函数的梯度会下降到接近零，学习变得非常缓慢甚至陷入僵局。

这个困境显然能够使 GAN 训练变得非常艰难。

模式坍塌

在训练过程中，生成器可能会崩溃到始终产生相同输出的设置。这是 GAN 的常见失败案例，通常称为模式崩溃。即使生成器可能能够欺骗相应的鉴别器，但它未能学会表示复杂的真实世界数据分布，并且陷入了一个极低多样性的小空间中。

图 6. 使用具有 4 层、512 个单元和 ReLU 激活函数的 MLP 网络训练 DCGAN 模型，配置为缺乏图像生成的强归纳偏差。结果显示了显著的模式崩溃。（图片来源：Arjovsky, Chintala, & Bottou, 2017.）

缺乏适当的评估指标

生成对抗网络并没有一个可以告诉我们训练进度的良好目标函数。缺乏一个良好的评估指标，就像在黑暗中工作一样。没有好的信号告诉何时停止；没有好的指标来比较多个模型的性能。

改进的 GAN 训练

提出以下建议以帮助稳定和改进 GAN 的训练。

前五种方法是实现更快收敛 GAN 训练的实用技术，提出于“改进 GAN 训练技术”。最后两种是在“为生成对抗网络训练提供原则方法”中提出的，以解决分布不一致的问题。

(1) 特征匹配

特征匹配建议优化鉴别器以检查生成器的输出是否与真实样本的预期统计匹配。在这种情况下，新的损失函数定义为 $| \mathbb{E}{x \sim p_r} f(x) - \mathbb{E}f(G(z)) |_2² $，其中 $f(x)$ 可以是特征统计的任何计算，如均值或中位数。

(2) 小批量鉴别

通过小批量鉴别，鉴别器能够在一个批次中消化训练数据点之间的关系，而不是独立处理每个点。

在一个小批量中，我们近似每对样本之间的接近程度，$c(x_i, x_j)$，并通过将它们与同一批次中其他样本的接近程度相加来得到一个数据点的总结，$o(x_i) = \sum_{j} c(x_i, x_j)$。然后将 $o(x_i)$ 明确添加到模型的输入中。

(3) 历史平均

对于两个模型，将 $ | \Theta - \frac{1}{t} \sum_{i=1}^t \Theta_i |² $ 添加到损失函数中，其中 $\Theta$ 是模型参数，$\Theta_i$ 是参数在过去训练时间 $i$ 的配置。这个额外部分在 $\Theta$ 在时间上变化太剧烈时惩罚训练速度。

(4) 单边标签平滑

在馈送鉴别器时，不提供 1 和 0 标签，而是使用软化的值，如 0.9 和 0.1。已经证明可以减少网络的脆弱性。

(5) 虚拟批次归一化（VBN）

每个数据样本基于一个固定批次（“参考批次”）的数据进行归一化，而不是在其小批次内进行。参考批次在开始时选择一次，并在训练过程中保持不变。

Theano 实现：openai/improved-gan

(6) 添加噪声。

根据上一节的讨论，我们现在知道$p_r$和$p_g$在高维空间中是不相交的，这导致了梯度消失的问题。为了人为地“扩散”分布并增加两个概率分布重叠的机会，一个解决方案是在鉴别器$D$的输入上添加连续噪声。

(7) 使用更好的分布相似度度量

原始 GAN 的损失函数衡量了$p_r$和$p_g$的分布之间的 JS 散度。当两个分布不相交时，这个度量无法提供有意义的值。

Wasserstein 度量被提出来替代 JS 散度，因为它具有更加平滑的值空间。更多内容请参见下一节。

Wasserstein GAN（WGAN）

什么是 Wasserstein 距离？

Wasserstein 距离是两个概率分布之间的距离度量。它也被称为地球移动者距离，简称 EM 距离，因为非正式地可以解释为将一个概率分布形状的一堆土移动和转换为另一个分布形状的最小能量成本。成本由：移动的土量 x 移动距离来量化。

让我们首先看一个简单的情况，其中概率领域是离散的。例如，假设我们有两个分布$P$和$Q$，每个都有四堆土，总共有十铲土。每堆土中的铲土数量分配如下：

\[P_1 = 3, P_2 = 2, P_3 = 1, P_4 = 4\\ Q_1 = 1, Q_2 = 2, Q_3 = 4, Q_4 = 3 \]

为了使$P$看起来像$Q$，如图 7 所示，我们：

首先将 2 铲土从$P_1$移动到$P_2$ => $(P_1, Q_1)$匹配。
然后将 2 铲土从$P_2$移动到$P_3$ => $(P_2, Q_2)$匹配。
最后将 1 铲土从$Q_3$移动到$Q_4$ => $(P_3, Q_3)$和$(P_4, Q_4)$匹配。

如果我们将使$P_i$和$Q_i$匹配的成本标记为$\delta_i$，那么我们将有$\delta_{i+1} = \delta_i + P_i - Q_i$，在这个例子中：

\[\begin{aligned} \delta_0 &= 0\\ \delta_1 &= 0 + 3 - 1 = 2\\ \delta_2 &= 2 + 2 - 2 = 2\\ \delta_3 &= 2 + 1 - 4 = -1\\ \delta_4 &= -1 + 4 - 3 = 0 \end{aligned} \]

最后，地球移动者距离是$W = \sum \vert \delta_i \vert = 5$。

图 7. 在 $P$ 和 $Q$ 之间移动污垢的逐步计划。

处理连续概率域时，距离公式变为：

\[W(p_r, p_g) = \inf_{\gamma \sim \Pi(p_r, p_g)} \mathbb{E}_{(x, y) \sim \gamma}[\| x-y \|] \]

在上面的公式中，$\Pi(p_r, p_g)$ 是 $p_r$ 和 $p_g$ 之间所有可能的联合概率分布的集合。一个联合分布 $\gamma \in \Pi(p_r, p_g)$ 描述了一个污垢传输计划，与上面的离散例子类似，但在连续概率空间中。准确地说，$\gamma(x, y)$ 表示应该从点 $x$ 传输到点 $y$ 的污垢百分比，以使 $x$ 遵循 $y$ 的相同概率分布。这就是为什么关于 $x$ 的边际分布加起来等于 $p_g$，$\sum_{x} \gamma(x, y) = p_g(y)$（一旦我们完成从每个可能的 $x$ 移动计划的污垢量到目标 $y$，我们最终得到了完全符合 $p_g$ 的 $y$）以及反之 $\sum_{y} \gamma(x, y) = p_r(x)$。

将 $x$ 视为起点，$y$ 视为目的地时，移动的总污垢量为 $\gamma(x, y)$，行程距离为 $| x-y |$，因此成本为 $\gamma(x, y) \cdot | x-y |$。通过所有 $(x,y)$ 对的期望成本可以轻松计算为：

\[\sum_{x, y} \gamma(x, y) \| x-y \| = \mathbb{E}_{x, y \sim \gamma} \| x-y \| \]

最后，我们将所有污垢移动解决方案的成本中最小的一个作为 EM 距离。在 Wasserstein 距离的定义中，$\inf$（infimum，也称为最大下界）表示我们只对最小成本感兴趣。

为什么 Wasserstein 距离比 JS 或 KL 散度更好？

即使两个分布位于低维流形中且没有重叠，Wasserstein 距离仍然可以提供有意义且平滑的距离表示。

WGAN 论文用一个简单的例子阐释了这个想法。

假设我们有两个概率分布，$P$ 和 $Q$：

\[ \forall (x, y) \in P, x = 0 \text{ and } y \sim U(0, 1)\\ \forall (x, y) \in Q, x = \theta, 0 \leq \theta \leq 1 \text{ and } y \sim U(0, 1)\\ $$![](https://github.com/OpenDocCN/geekdoc-dl-zh/raw/master/lilianweng/img/613cc8800885d396cceb23c5779ec4e2.png) 图 8\. 当 $\theta \neq 0$ 时，$P$ 和 $Q$ 之间没有重叠。当 $\theta \neq 0$ 时： $$ \begin{aligned} D_{KL}(P \| Q) &= \sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{0} = +\infty \\ D_{KL}(Q \| P) &= \sum_{x=\theta, y \sim U(0, 1)} 1 \cdot \log\frac{1}{0} = +\infty \\ D_{JS}(P, Q) &= \frac{1}{2}(\sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{1/2} + \sum_{x=0, y \sim U(0, 1)} 1 \cdot \log\frac{1}{1/2}) = \log 2\\ W(P, Q) &= |\theta| \end{aligned} \]

但是当 $\theta = 0$ 时，两个分布完全重叠：

\[\begin{aligned} D_{KL}(P \| Q) &= D_{KL}(Q \| P) = D_{JS}(P, Q) = 0\\ W(P, Q) &= 0 = \lvert \theta \rvert \end{aligned} \]

当两个分布不相交时，$D_{KL}$给我们无穷大。$D_{JS}$的值突然跳跃，在$\theta = 0$处不可微。只有 Wasserstein 度量提供了一个平滑的度量，这对使用梯度下降进行稳定学习过程非常有帮助。

使用 Wasserstein 距离作为 GAN 的损失函数

无法穷尽所有可能的联合分布$\Pi(p_r, p_g)$来计算$\inf_{\gamma \sim \Pi(p_r, p_g)}$。因此，作者根据 Kantorovich-Rubinstein 对偶提出了一个智能的公式转换，以：

\[W(p_r, p_g) = \frac{1}{K} \sup_{\| f \|_L \leq K} \mathbb{E}_{x \sim p_r}[f(x)] - \mathbb{E}_{x \sim p_g}[f(x)] \]

$\sup$（上确界）是$inf$（下确界）的对立面；我们希望衡量最小上界，或者更简单地说，最大值。

Lipschitz 连续性？

新形式的 Wasserstein 度量中的函数$f$要求满足$| f |_L \leq K$，意味着它应该是K-Lipschitz 连续的。

一个实值函数$f: \mathbb{R} \rightarrow \mathbb{R}$如果存在一个实常数$K \geq 0$，使得对于所有的$x_1, x_2 \in \mathbb{R}$，

\[\lvert f(x_1) - f(x_2) \rvert \leq K \lvert x_1 - x_2 \rvert \]

这里$K$被称为函数$f(.)$的 Lipschitz 常数。处处连续可微的函数是 Lipschitz 连续的，因为导数，估计为$\frac{\lvert f(x_1) - f(x_2) \rvert}{\lvert x_1 - x_2 \rvert}$，有界。然而，Lipschitz 连续函数可能不是处处可微的，比如$f(x) = \lvert x \rvert$。

解释 Wasserstein 距离公式的转换如何发生值得单独写一篇长文，所以我在这里略过细节。如果你对如何使用线性规划计算 Wasserstein 度量，或者如何根据 Kantorovich-Rubinstein 对偶将 Wasserstein 度量转换为其对偶形式感兴趣，请阅读这篇精彩文章。

假设这个函数$f$来自一个 K-Lipschitz 连续函数的家族$\{ f_w \}_{w \in W}$，由参数$w$参数化。在修改后的 Wasserstein-GAN 中，“鉴别器”模型用于学习$w$以找到一个好的$f_w$，损失函数被配置为衡量$p_r$和$p_g$之间的 Wasserstein 距离。

\[L(p_r, p_g) = W(p_r, p_g) = \max_{w \in W} \mathbb{E}_{x \sim p_r}[f_w(x)] - \mathbb{E}_{z \sim p_r(z)}[f_w(g_\theta(z))] \]

因此，“鉴别器”不再是一个直接的批评者，告诉假样本与真实样本的区别。相反，它被训练为学习一个$K$-Lipschitz 连续函数，以帮助计算 Wasserstein 距离。随着训练中损失函数的减小，Wasserstein 距离变小，生成器模型的输出越来越接近真实数据分布。

一个大问题是在训练过程中保持$f_w$的$K$-Lipschitz 连续性，以使一切顺利进行。论文提出了一个简单但非常实用的技巧：在每次梯度更新后，将权重$w$夹紧到一个小窗口，例如$[-0.01, 0.01]$，从而得到一个紧凑的参数空间$W$，因此$f_w$获得其下限和上限以保持 Lipschitz 连续性。

图 9. Wasserstein 生成对抗网络的算法。（图片来源：Arjovsky, Chintala, & Bottou, 2017.)

与原始 GAN 算法相比，WGAN 进行了以下更改：

在对评论函数进行每次梯度更新后，将权重夹紧到一个小的固定范围，$[-c, c]$。
使用从 Wasserstein 距离导出的新损失函数，不再使用对数。 “鉴别器”模型不再直接充当评论家，而是辅助估计真实数据和生成数据分布之间的 Wasserstein 度量。
作者经验性地推荐在评论家上使用RMSProp优化器，而不是像Adam这样基于动量的优化器，后者可能导致模型训练不稳定。我还没有看到关于这一点的清晰理论解释。

遗憾的是，Wasserstein GAN 并不完美。即使原始 WGAN 论文的作者们提到“权重夹紧明显是一种强制 Lipschitz 约束的糟糕方式”（哎呀！）。WGAN 仍然存在训练不稳定、在夹紧权重后收敛缓慢（当夹紧窗口太大时）以及梯度消失（当夹紧窗口太小）等问题。

一些改进，准确地用梯度惩罚替换权重夹紧，已在Gulrajani 等人 2017 年中讨论过。我将把这留到未来的帖子中。

例子：创造新宝可梦！

为了好玩，我尝试在一个微小的数据集上使用carpedm20/DCGAN-tensorflow，这个数据集是Pokemon sprites。这个数据集只有大约 900 张宝可梦图片，包括同一宝可梦物种不同等级的图片。

让我们看看模型能够创造出什么类型的新宝可梦。不幸的是，由于训练数据量很小，新宝可梦只有粗略的形状而没有细节。随着更多的训练轮次，形状和颜色看起来会更好！万岁！

图 10. 在一组 Pokemon 精灵图像上训练carpedm20/DCGAN-tensorflow。在训练轮次= 7、21、49 之后列出样本输出。

如果你对carpedm20/DCGAN-tensorflow的注释版本以及如何修改它来训练 WGAN 和带有梯度惩罚的 WGAN 感兴趣，请查看lilianweng/unified-gan-tensorflow。

引用为:

@article{weng2017gan,
  title   = "From GAN to WGAN",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-08-20-gan/"
}

或者

@misc{weng2019gan,
    title={From GAN to WGAN},
    author={Lilian Weng},
    year={2019},
    eprint={1904.08994},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

参考文献

[1] Goodfellow, Ian, 等. “生成对抗网络。” NIPS, 2014.

[2] Tim Salimans, 等. “改进的生成对抗网络训练技术。” NIPS 2016.

[3] Martin Arjovsky 和 Léon Bottou. “朝着训练生成对抗网络的原则方法。” arXiv 预印本 arXiv:1701.04862 (2017).

[4] Martin Arjovsky, Soumith Chintala, 和 Léon Bottou. “Wasserstein GAN。” arXiv 预印本 arXiv:1701.07875 (2017).

[5] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, Aaron Courville. 改进的 Wasserstein GAN 训练。 arXiv 预印本 arXiv:1704.00028 (2017).

[6] 在变换下计算地球移动距离

[7] Wasserstein GAN 和 Kantorovich-Rubinstein 对偶性

[8] zhuanlan.zhihu.com/p/25071913

[9] Ferenc Huszár. “如何（不）训练生成模型：定期抽样、似然、对手？” arXiv 预印本 arXiv:1511.05101 (2015).

如何解释机器学习模型的预测？

原文：lilianweng.github.io/posts/2017-08-01-interpretation/

机器学习模型已经开始渗透到健康保健、司法系统和金融行业等关键领域。因此，弄清楚模型如何做出决策，并确保决策过程符合种族要求或法律法规成为必要。

与此同时，深度学习模型的快速增长进一步推动了解释复杂模型的需求。人们渴望充分应用人工智能的力量在日常生活的关键方面。然而，如果没有足够对模型的信任或有效的解释意外行为的程序，特别是考虑到深度神经网络是作为黑匣子诞生的，这是很困难的。

想象以下情况：

金融行业受到严格监管，贷款发放机构法律要求做出公平决策，并解释他们的信用模型以提供拒绝贷款申请的原因。
医疗诊断模型对人类生命负责。我们如何能够有足够的信心按照黑匣子模型的指示来治疗患者？
在法庭上使用犯罪决策模型来预测再犯风险时，我们必须确保模型以公平、诚实和无歧视的方式运作。
如果自动驾驶汽车突然表现异常，而我们无法解释原因，我们是否会足够放心地在大规模的实际交通中使用这项技术？

在Affirm，我们每天发放数以万计的分期贷款，当模型拒绝某人的贷款申请时，我们的核保模型必须提供拒绝原因。这是我深入研究并撰写这篇文章的许多动机之一。模型可解释性是机器学习中的一个重要领域。这篇评论并不旨在详尽研究每一项研究，而是作为一个起点。

可解释模型

Lipton (2017)在一篇理论评论论文中总结了可解释模型的特性，“模型可解释性的神话”：人类可以重复(“可模拟性”)计算过程，并完全理解算法(“算法透明度”)，模型的每个部分都有直观的解释(“可分解性”)。

许多经典模型具有相对简单的形式，并自然地带有特定于模型的解释方法。同时，正在开发新工具来帮助创建更好的可解释模型(Been, Khanna, & Koyejo, 2016; Lakkaraju, Bach & Leskovec, 2016)。

回归

线性回归模型的一般形式是：

\[y = w_0 + w_1 x_1 + w_2 x_2 + … + w_n x_n \]

系数描述了独立变量增加一个单位时响应的变化。除非特征已经标准化（查看 sklearn.preprocessing.StandardScaler和RobustScaler），否则不能直接比较这些系数，因为不同特征的一个单位可能指的是非常不同的事物。在没有标准化的情况下，乘积$w_i \dot x_i$可以用来量化一个特征对响应的贡献。

朴素贝叶斯

朴素贝叶斯之所以被称为“朴素”，是因为它基于一个非常简化的假设，即特征彼此独立，并且每个特征对输出的贡献是独立的。

给定一个特征向量$\mathbf{x} = [x_1, x_2, \dots, x_n]$和一个类别标签$c \in \{1, 2, \dots, C\}$，这个数据点属于这个类别的概率是：

\[\begin{aligned} p(c | x_1, x_2, \dots, x_n) &\propto p(c, x_1, x_2, \dots, x_n)\\ &\propto p(c) p(x_1 | c) p(x_2 | c) \dots p(x_n | c)\\ &\propto p(c) \prod_{i=1}^n p(x_i | c). \end{aligned} \]

然后定义朴素贝叶斯分类器为：

\[\hat{y} = \arg\max_{c \in 1, \dots, C} p(c) \prod_{i=1}^n p(x_i | c) \]

因为模型在训练过程中学习了先验$p(x_i \vert c)$，所以通过后验$p(c \vert x_i) = p(c)p(x_i \vert c) / p(x_i)$可以轻松衡量单个特征值的贡献。

决策树/决策列表

决策列表是一组布尔函数，通常由if... then... else...的语法构建。if 条件包含涉及一个或多个特征和布尔输出的函数。决策列表具有良好的可解释性，并且可以在树结构中可视化。许多关于决策列表的研究都受到医疗应用的推动，其中可解释性几乎与模型本身一样重要。

下面简要描述了几种决策列表类型：

下降规则列表（FRL）（Wang 和 Rudin，2015）对特征值完全强制单调性。例如，在二元分类环境中，与每条规则相关的预测$Y=1$的概率随着在决策列表中向下移动而减少。
贝叶斯规则列表（BRL）（Letham 等人，2015）是一个生成模型，可以产生可能的决策列表的后验分布。
可解释决策集（IDS）（Lakkaraju，Bach＆Leskovec，2016）是一个预测框架，用于创建一组分类规则。学习同时优化准确性和可解释性。IDS 与我稍后将描述的BETA 方法密切相关，用于解释黑匣子模型。

随机森林

奇怪的是，许多人认为随机森林模型是一个黑匣子，这是不正确的。考虑到随机森林的输出是大量独立决策树的多数投票，而每棵树都是自然可解释的。

如果我们一次查看一棵树，那么很容易评估单个特征的影响。随机森林的全局特征重要性可以通过整个集合中所有树的节点不纯度总减少的平均值来量化（“平均减少不纯度”）。

对于一个实例，因为所有树中的决策路径都被很好地跟踪，我们可以利用父节点和子节点之间数据点均值的差异来近似这次分裂的贡献。在这一系列博客文章中了解更多：解释随机森林。

解释黑匣子模型

许多模型并非设计为可解释的。解释黑匣子模型的方法旨在从训练模型中提取信息来证明其预测结果，而不知道模型的详细工作原理。让解释过程独立于模型实现对于现实世界的应用是有益的：即使基础模型不断升级和完善，建立在其之上的解释引擎也不会担心变化。

如果不考虑保持模型透明和可解释性，我们可以通过添加更多参数和非线性计算赋予模型更大的表达能力。这就是深度神经网络在涉及丰富输入的任务中取得成功的方式。

解释的呈现方式没有严格要求，但主要目标主要是回答：我能相信这个模型吗？ 当我们依赖模型做出关键或生死决定时，我们必须确保模型是可信的。

解释框架应该在两个目标之间取得平衡：

忠实度：解释产生的预测应尽可能与原始模型一致。
可解释性：解释应该足够简单以便人类理解。

附注：接下来的三种方法是为局部解释而设计的。

预测分解

Robnik-Sikonja 和 Kononenko (2008) 提出通过测量原始预测与省略一组特征后的预测之间的差异来解释模型对一个实例的预测。

假设我们需要为一个分类模型 $f: \mathbf{X} \rightarrow \mathbf{Y}$ 生成解释。给定一个数据点 $x \in X$，其中包含属性 $A_i$ 的 $a$ 个单独值，$i = 1, \dots, a$，并且被标记为类别 $y \in Y$。预测差异 通过计算知道或不知道 $A_i$ 的情况下模型预测的概率之间的差异来量化：

\[\text{probDiff}_i (y | x) = p(y| x) - p(y | x \backslash A_i) \]

（该论文还讨论了使用赔率比或基于熵的信息度量来量化预测差异。）

问题：如果目标模型输出概率，那很好，获取 $ p(y \vert x) $ 就很简单。否则，模型预测必须经过适当的后建模校准来将预测分数转换为概率。这个校准层是另一个复杂的部分。

另一个问题：如果我们通过用缺失值（如 None、NaN 等）替换 $A_i$ 来生成 $x \backslash A_i$，我们必须依赖模型的内部机制进行缺失值插补。一个用中位数替换这些缺失情况的模型应该与一个插入特殊占位符的模型产生非常不同的输出。论文中提出的一个解决方案是用该特征的所有可能值替换 $A_i$，然后根据每个值在数据中出现的可能性加权求和预测：

\[\begin{aligned} p(y \vert x \backslash A_i) &= \sum_{s=1}^{m_i} p(A_i=a_s \vert x \backslash A_i) p(y \vert x \leftarrow A_i=a_s) \\ &\approx \sum_{s=1}^{m_i} p(A_i=a_s) p(y \vert x \leftarrow A_i=a_s) \end{aligned} \]

其中 $p(y \vert x \leftarrow A_i=a_s)$ 是在特征向量 $x$ 中用值 $a_s$ 替换特征 $A_i$ 后获得标签 $y$ 的概率。训练集中有 $m_i$ 个唯一值的 $A_i$。

借助省略已知特征时的预测差异度量，我们可以分解每个单独特征对预测的影响。

图 1. 对一个 SVM 模型进行解释，该模型预测了Titanic 数据集中一个男性成年头等舱乘客的生存情况。信息差异与概率差异非常相似，但它衡量了在不知道$A\_i$的情况下找出$y$为真所需的信息量：$\text{infDiff}\_i (y|x) = \log\_2 p(y|x) - \log\_2 p(y|x \backslash A\_i)$。特定实例的解释用深色条形图表示。浅色阴影的半高条形图是给定属性值的平均正面和负面解释。在这种情况下，成为男性成年人使得生存的可能性非常小；舱位等级的影响不那么大。

局部梯度解释向量

这种方法（Baehrens 等人，2010）能够解释任意非线性分类算法所做的局部决策，使用表征数据点如何移动以改变其预测标签的局部梯度。

假设我们有一个贝叶斯分类器，它在数据集$X$上训练，并输出类标签$Y$上的概率，$p(Y=y \vert X=x)$。并且一个类标签$y$从类标签池$\{1, 2, \dots, C\}$中抽取。这个贝叶斯分类器构造如下：

\[f^{*}(x) = \arg \min_{c \in \{1, \dots, C\}} p(Y \neq c \vert X = x) \]

局部解释向量被定义为在测试点$x = x_0$处的概率预测函数的导数。这个向量中的大数值突出显示了对模型决策有很大影响的特征；正号表示增加该特征会降低$x_0$被分配给$f^{*}(x_0)$的概率。

然而，这种方法要求模型输出为概率（类似于上面的“预测分解”方法）。如果原始模型（标记为$f$）没有校准为产生概率怎么办？正如论文建议的，我们可以通过另一个分类器来近似$f$，使其形式类似于贝叶斯分类器$f^{*}$：

(1) 对训练数据应用Parzen 窗口来估计加权类密度：

\[\hat{p}_{\sigma}(x, y=c) = \frac{1}{n} \sum_{i \in I_c} k_{\sigma} (x - x_i) \]

其中$I_c$是包含由模型$f$分配给类别$c$的数据点索引的索引集，$I_c = \{i \vert f(x_i) = c\}$。$k_{\sigma}$是一个核函数。高斯核是许多候选中最受欢迎的一个。

(2) 然后，应用贝叶斯规则来近似所有类别的概率$p(Y=c \vert X=x)$：

\[\begin{aligned} \hat{p}_{\sigma}(y=c | x) &= \frac{\hat{p}_{\sigma}(x, y=c)}{\hat{p}_{\sigma}(x, y=c) + \hat{p}_{\sigma}(x, y \neq c)} \\ &\approx \frac{\sum_{i \in I_c} k_{\sigma} (x - x_i)}{\sum_i k_{\sigma} (x - x_i)} \end{aligned} \]

(3) 最终估计的贝叶斯分类器形式如下：

\[\hat{f}_{\sigma} = \arg\min_{c \in \{1, \dots, C\}} \hat{p}_{\sigma}(y \neq c \vert x) \]

注意，我们可以使用原始模型 $f$ 生成标记数据，数量不受训练数据大小限制。超参数 $\sigma$ 被选择以优化 $\hat{f}_{\sigma}(x) = f(x)$ 达到高保真度的机会。

图 2. 展示了如何在简单对象分类中应用局部梯度解释向量与高斯过程分类器（GPC）。GPC 模型自然输出概率。 (a) 显示了训练点及其标签，红色（正 1）和蓝色（负-1）。 (b) 展示了正类别的概率函数。 (c-d) 显示了局部梯度和局部解释向量的方向。

附注：正如您所见，上述两种方法都要求模型预测为概率。模型输出的校准增加了另一层复杂性。

LIME（局部可解释模型无关解释）

LIME，简称局部可解释模型无关解释，可以在我们感兴趣的预测周围局部近似黑盒模型（Ribeiro, Singh, & Guestrin, 2016）。

与上述相同，让我们将黑盒模型标记为 $f$。LIME 提出以下步骤：

(1) 将数据集转换为可解释数据表示：$x \Rightarrow x_b$。

文本分类器：指示单词存在或不存在的二进制向量
图像分类器：指示相似像素块（超像素）存在或不存在的二进制向量。

图 3. 将图像转换为可解释数据表示的示例。 (图片来源: www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-explanations-lime)

(2) 给定一个预测 $f(x)$，对应的可解释数据表示为 $x_b$，让我们围绕 $x_b$ 采样实例，通过均匀随机抽取 $x_b$ 的非零元素，抽取次数也是均匀抽样的。这个过程生成了一个扰动样本 $z_b$，其中包含 $x_b$ 的非零元素的一部分。

然后我们将 $z_b$ 恢复回原始输入 $z$，通过目标模型得到一个预测分数 $f(z)$。

使用许多这样的采样数据点 $z_b \in \mathcal{Z}_b$ 及其模型预测，我们可以学习一个解释模型（例如以回归形式简单表示），具有本地的准确性。根据它们与 $x_b$ 的接近程度，采样数据点被赋予不同的权重。该论文使用了一个 lasso 回归与预处理，事先选择了前 k 个最显著的特征，称为“K-LASSO”。

图 4. 粉色和蓝色区域是黑盒模型 $f$ 预测的两个类别，大红色十字是要解释的点，其他小十字（被 $f$ 预测为粉色）和点（被 $f$ 预测为蓝色）是采样数据点。即使模型可能非常复杂，我们仍然能够学习一个简单的本地解释模型，如灰色虚线所示。（图片来源：homes.cs.washington.edu/~marcotcr/blog/lime）

检查解释是否合理可以直接决定模型是否值得信赖，因为有时模型可能会捕捉到虚假相关性或泛化。论文中的一个有趣例子是将 LIME 应用于 SVM 文本分类器，用于区分“基督教”和“无神论”。该模型在保留测试集上取得了相当不错的准确率（94%！），但 LIME 解释表明决策是基于非常任意的原因，比如计算单词“re”、“posting”和“host”，这些单词与“基督教”或“无神论”都没有直接联系。经过这样的诊断，我们了解到即使模型给出了不错的准确率，也不能被信任。这也启示了改进模型的方法，比如在文本上进行更好的预处理。

图 5. 展示如何在图像分类器上使用 LIME。（图片来源：www.oreilly.com/learning/introduction-to-local-interpretable-model-agnostic-explanations-lime）

欲了解更详细的非论文解释，请阅读作者的这篇博客文章。非常值得一读。

附注：在本地解释模型应该比全局解释模型更容易，但更难维护（考虑到维度诅咒）。下面描述的方法旨在解释整个模型的行为。然而，全局方法无法捕捉细粒度的解释，例如一个特征在这个区域可能很重要，但在另一个区域可能一点都不重要。

特征选择

本质上，所有经典的特征选择方法（Yang and Pedersen, 1997; Guyon and Elisseeff, 2003）都可以被视为全局解释模型的方法。特征选择方法将多个特征的贡献分解，以便我们可以通过各个特征的影响来解释整体模型输出。

有大量关于特征选择的资源，所以我会在本文中跳过这个主题。

BETA（透明逼近的黑盒解释）

BETA，简称透明逼近的黑盒解释，与可解释决策集（Lakkaraju, Bach & Leskovec, 2016）密切相关。BETA 学习一个紧凑的两级决策集，其中每个规则清晰地解释模型行为的一部分。

作者提出了一个新颖的目标函数，使学习过程针对高忠实度（解释与模型之间的高一致性）、低明确性（解释中决策规则之间的重叠较少）和高可解释性（解释决策集轻量且小）进行优化。这些方面被合并为一个目标函数进行优化。

图 6. 一个好的模型解释的要求：忠实度、明确性和可解释性。给定目标模型为$\mathcal{B}$，其解释是一个包含一组规则的两级决策集$\Re$，其中规则为$(q\_1, s\_1, c\_1), \dots, (q\_M, s\_M, c\_M)$，其中$q\_i$和$s\_i$是形式为（特征，运算符，数值）的谓词的合取，$c\_i$是一个类别标签。查看论文获取更多细节。（图片来源：arxiv.org/abs/1707.01154)

可解释人工智能

我从 DARPA 项目“可解释人工智能”中借用了这个部分的名称。这个可解释人工智能（XAI）计划旨在开发更具解释性的模型，并使人类能够理解、适当信任和有效管理新一代人工智能技术的出现。

随着深度学习应用的进展，人们开始担心即使模型出现问题，我们也可能永远不知道。复杂的结构，大量的可学习参数，非线性数学运算以及一些有趣的特性 (Szegedy 等人，2014)导致深度神经网络的不可解释性，创造了一个真正的黑匣子。尽管深度学习的力量源于这种复杂性——更灵活地捕捉现实世界数据中丰富而复杂的模式。

对对抗样本的研究（OpenAI 博客：强大的对抗样本，用对抗样本攻击机器学习，Goodfellow, Shlens & Szegedy, 2015; Nguyen, Yosinski, & Clune, 2015)引起了人们对人工智能应用的稳健性和安全性的警示。有时模型可能表现出意外的、意想不到的和不可预测的行为，我们没有快速/良好的策略来解释原因。

图 7. 对抗样本的插图。 (a-d) 是通过在原始图像上添加人类无法察觉的噪音生成的对抗图像（Szegedy 等人，2013）。训练良好的神经网络模型可以成功分类原始图像，但无法对对抗图像进行分类。 (e-h) 是生成的模式（Nguyen, Yosinski & Clune, 2015）。训练良好的神经网络模型将它们标记为 (e) 校车，(f) 吉他，(g) 孔雀和 (h) 狮子狗。 (图片来源：Wang, Raj & Xing, 2017)

Nvidia 最近开发了一种方法来可视化最重要的像素点，用于他们的自动驾驶汽车的决策过程。这种可视化提供了关于人工智能思维方式以及系统在操作汽车时依赖的内容的见解。如果人工智能认为重要的内容与人类做出类似决策的方式一致，我们自然会对这个黑匣子模型更有信心。

这个不断发展的领域每天都有许多令人兴奋的新闻和发现。希望我的帖子能给你一些指引，并鼓励你更深入地探究这个主题 😃

引用为:

@article{weng2017gan,
  title   = "How to Explain the Prediction of a Machine Learning Model?",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2017",
  url     = "https://lilianweng.github.io/posts/2017-08-01-interpretation/"
}

参考文献

[1] Zachary C. Lipton. “模型可解释性的神话。” arXiv 预印本 arXiv:1606.03490 (2016).

[2] Been Kim, Rajiv Khanna, 和 Oluwasanmi O. Koyejo. “Examples are not enough, learn to criticize! criticism for interpretability.” Advances in Neural Information Processing Systems. 2016.

[3] Himabindu Lakkaraju, Stephen H. Bach, 和 Jure Leskovec. “可解释的决策集：描述和预测的联合框架。” Proc. 22nd ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining. ACM, 2016.

[4] Robnik-Šikonja, Marko, 和 Igor Kononenko. “解释个体实例的分类。” IEEE Transactions on Knowledge and Data Engineering 20.5 (2008): 589-600.

[5] Baehrens, David, 等. “如何解释个体分类决策。” Journal of Machine Learning Research 11.Jun (2010): 1803-1831.

[6] Marco Tulio Ribeiro, Sameer Singh, 和 Carlos Guestrin. “为什么我应该相信你？：解释任何分类器的预测。” Proc. 22nd ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining. ACM, 2016.

[7] Yiming Yang, 和 Jan O. Pedersen. “文本分类中特征选择的比较研究。” Intl. Conf. on Machine Learning. Vol. 97. 1997.

[8] Isabelle Guyon, 和 André Elisseeff. “变量和特征选择简介。” Journal of Machine Learning Research 3.Mar (2003): 1157-1182.

[9] Ian J. Goodfellow, Jonathon Shlens, 和 Christian Szegedy. “解释和利用对抗样本。” ICLR 2015.

[10] Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus. “神经网络的有趣特性。” Intl. Conf. on Learning Representations (2014)

[11] Nguyen, Anh, Jason Yosinski, 和 Jeff Clune. “深度神经网络很容易被愚弄：对无法识别图像的高置信度预测。” Proc. IEEE Conference on Computer Vision and Pattern Recognition. 2015.

[12] Benjamin Letham, Cynthia Rudin, Tyler H. McCormick, 和 David Madigan. “使用规则和贝叶斯分析的可解释分类器：构建更好的中风预测模型。” The Annals of Applied Statistics 9, No. 3 (2015): 1350-1371.

[13] Haohan Wang, Bhiksha Raj, 和 Eric P. Xing. “关于深度学习的起源。” arXiv preprint arXiv:1702.07800 (2017).

[14] OpenAI 博客：Robust Adversarial Examples

[15] 用对抗样本攻击机器学习

[16] 读懂 AI 汽车的思维：NVIDIA 的神经网络如何做出决策

使用 RNN 预测股票价格：第 2 部分

原文：lilianweng.github.io/posts/2017-07-22-stock-rnn-part-2/

在第 2 部分教程中，我想继续讨论股价预测的主题，并赋予我在第 1 部分中构建的递归神经网络具有响应多只股票的能力。为了区分与不同价格序列相关的模式，我使用股票符号嵌入向量作为输入的一部分。

数据集

在搜索过程中，我发现了用于查询 Yahoo! Finance API 的这个库。如果 Yahoo 没有关闭历史数据获取 API，这将非常有用。尽管您可能会发现它对查询其他信息也很有用。在这里，我选择了 Google Finance 链接，其中包括几个免费数据源用于下载历史股价。

数据获取代码可以写得如下所示：

import urllib2 from datetime import datetime BASE_URL = "https://www.google.com/finance/historical?"  "output=csv&q={0}&startdate=Jan+1%2C+1980&enddate={1}" symbol_url = BASE_URL.format(  urllib2.quote('GOOG'), # Replace with any stock you are interested. urllib2.quote(datetime.now().strftime("%b+%d,+%Y"), '+') )

在获取内容时，请记得添加 try-catch 包装器，以防链接失败或提供的股票符号无效。

try:  f = urllib2.urlopen(symbol_url) with open("GOOG.csv", 'w') as fin: print >> fin, f.read() except urllib2.HTTPError:  print "Fetching Failed: {}".format(symbol_url)

完整的数据获取器代码可以在这里找到。

模型构建

该模型预计会学习不同股票的价格序列。由于不同的基础模式，我想明确告诉模型它正在处理哪只股票。嵌入比独热编码更受青睐，因为：

鉴于训练集包括$N$只股票，独热编码将引入$N$（或$N-1$）个额外的稀疏特征维度。一旦每个股票符号被映射到长度为$k$的更小的嵌入向量，$k \ll N$，我们最终得到一个更压缩的表示和更小的数据集来处理。
由于嵌入向量是要学习的变量。相似的股票可能与相似的嵌入相关联，并有助于彼此的预测，比如“GOOG”和“GOOGL”，您将在图 5 中看到。

在递归神经网络中，在时间步$t$，输入向量包含第$i$只股票的input_size（标记为$w$）个每日价格值，$(p_{i, tw}, p_{i, tw+1}, \dots, p_{i, (t+1)w-1})$。股票符号被唯一映射到长度为embedding_size的向量（标记为$k$），$(e_{i,0}, e_{i,1}, \dots, e_{i,k})$。如图 1 所示，价格向量与嵌入向量连接，然后输入 LSTM 单元。

另一种选择是将嵌入向量与 LSTM 单元的最后状态连接起来，并在输出层学习新的权重$W$和偏置$b$。然而，通过这种方式，LSTM 单元无法区分一个股票的价格与另一个的价格，其能力将受到很大限制。因此，我决定采用前一种方法。

图 1。具有股票符号嵌入的股价预测 RNN 模型的架构。

RNNConfig中添加了两个新的配置设置：

embedding_size控制每个嵌入向量的大小；
stock_count指的是数据集中唯一股票的数量。

它们共同定义了嵌入矩阵的大小，模型需要学习embedding_size $\times$ stock_count个额外变量，与第 1 部分的模型相比。

class RNNConfig():  # ... old ones embedding_size = 3 stock_count = 50

定义图形

— 让我们开始阅读一些代码 —

(1) 如教程第 1 部分：定义图形所示，让我们定义一个名为lstm_graph的tf.Graph()，以及一组张量来保存输入数据inputs、targets和learning_rate。还需要定义一个占位符，用于存储与输入价格相关联的股票符号列表。股票符号事先已经通过label encoding映射为唯一整数。

# Mapped to an integer. one label refers to one stock symbol. stock_labels = tf.placeholder(tf.int32, [None, 1])

(2) 然后我们需要设置一个嵌入矩阵作为查找表，其中包含所有股票的嵌入向量。该矩阵用随机数在区间[-1, 1]内初始化，并在训练过程中进行更新。

# NOTE: config = RNNConfig() and it defines hyperparameters. # Convert the integer labels to numeric embedding vectors. embedding_matrix = tf.Variable(  tf.random_uniform([config.stock_count, config.embedding_size], -1.0, 1.0) )

(3) 重复股票标签num_steps次，以匹配 RNN 的展开版本和训练期间inputs张量的形状。转换操作tf.tile接收一个基本张量，并通过多次复制其特定维度来创建一个新张量；准确地说，输入张量的第$i$维将被multiples[i]倍。例如，如果stock_labels是[[0], [0], [2], [1]]，通过[1, 5]进行平铺将产生[[0 0 0 0 0], [0 0 0 0 0], [2 2 2 2 2], [1 1 1 1 1]]。

stacked_stock_labels = tf.tile(stock_labels, multiples=[1, config.num_steps])

(4) 然后根据查找表embedding_matrix将符号映射为嵌入向量。

# stock_label_embeds.get_shape() = (?, num_steps, embedding_size). stock_label_embeds = tf.nn.embedding_lookup(embedding_matrix, stacked_stock_labels)

(5) 最后，将价格值与嵌入向量组合起来。操作tf.concat沿着维度axis连接张量列表。在我们的情况下，我们希望保持批量大小和步数数量不变，只是扩展长度为input_size的输入向量以包含嵌入特征。

# inputs.get_shape() = (?, num_steps, input_size) # stock_label_embeds.get_shape() = (?, num_steps, embedding_size) # inputs_with_embeds.get_shape() = (?, num_steps, input_size + embedding_size) inputs_with_embeds = tf.concat([inputs, stock_label_embeds], axis=2)

代码的其余部分运行动态 RNN，提取 LSTM 单元的最后状态，并处理输出层中的权重和偏差。有关详细信息，请参阅第 1 部分：定义图表。

训练会话

如果您还没有阅读过如何在 Tensorflow 中运行训练会话，请阅读第 1 部分：开始训练会话。

在将数据输入图表之前，股票符号应通过label encoding转换为唯一整数。

from sklearn.preprocessing import LabelEncoder label_encoder = LabelEncoder() label_encoder.fit(list_of_symbols)

训练/测试拆分比例保持不变，每支个股的训练占 90%，测试占 10%。

可视化图表

在代码中定义图表后，让我们在 Tensorboard 中检查可视化，以确保组件构建正确。基本上，它看起来非常像我们在图 1 中的架构图。

图 2. 上述定义的图表的 Tensorboard 可视化。主图表中已删除两个模块，“train”和“save”。

除了展示图表结构或跟踪变量随时间的变化外，Tensorboard 还支持嵌入可视化。为了将嵌入值传达给 Tensorboard，我们需要在训练日志中添加适当的跟踪。

(0) 在我的嵌入可视化中，我希望用行业部门对每支股票进行着色。此元数据应存储在 csv 文件中。该文件有两列，股票符号和行业部门。csv 文件是否有标题并不重要，但所列股票的顺序必须与label_encoder.classes_一致。

import csv embedding_metadata_path = os.path.join(your_log_file_folder, 'metadata.csv') with open(embedding_metadata_path, 'w') as fout:  csv_writer = csv.writer(fout) # write the content into the csv file. # for example, csv_writer.writerows(["GOOG", "information_technology"])

(1) 首先在训练tf.Session中设置摘要写入器。

from tensorflow.contrib.tensorboard.plugins import projector with tf.Session(graph=lstm_graph) as sess:  summary_writer = tf.summary.FileWriter(your_log_file_folder) summary_writer.add_graph(sess.graph)

(2) 将我们图表lstm_graph中定义的张量embedding_matrix添加到投影仪配置变量中，并附加元数据 csv 文件。

 projector_config = projector.ProjectorConfig() # You can add multiple embeddings. Here we add only one. added_embedding = projector_config.embeddings.add() added_embedding.tensor_name = embedding_matrix.name # Link this tensor to its metadata file. added_embedding.metadata_path = embedding_metadata_path

(3) 此行在文件夹your_log_file_folder中创建一个文件projector_config.pbtxt。TensorBoard 将在启动时读取此文件。

 projector.visualize_embeddings(summary_writer, projector_config)

结果

该模型是使用标普 500 指数中市值最大的前 50 支股票进行训练的。

（在github.com/lilianweng/stock-rnn内运行以下命令）

python main.py --stock_count=50 --embed_size=3 --input_size=3 --max_epoch=50 --train

以下配置被使用：

stock_count = 100
input_size = 3
embed_size = 3
num_steps = 30
lstm_size = 256
num_layers = 1
max_epoch = 50
keep_prob = 0.8
batch_size = 64
init_learning_rate = 0.05
learning_rate_decay = 0.99
init_epoch = 5

价格预测

简要概述预测质量，图 3 绘制了“KO”、“AAPL”、“GOOG”和“NFLX”测试数据的预测。真实值和预测之间的总体趋势相匹配。考虑到预测任务的设计方式，模型依赖于所有历史数据点来预测接下来的 5（input_size）天。使用较小的input_size，模型不需要担心长期增长曲线。一旦我们增加input_size，预测将变得更加困难。

图 3. AAPL、MSFT 和 GOOG 在测试集中的真实和预测股价。价格在连续预测滑动窗口中进行了归一化处理（参见第 1 部分：归一化）。为了更好地比较真实和预测的趋势，y 轴值乘以 5。

嵌入可视化

一种常见的可视化嵌入空间中聚类的技术是t-SNE（Maaten 和 Hinton, 2008），在 Tensorboard 中得到很好的支持。t-SNE，即“t-分布随机邻域嵌入”，是随机邻域嵌入的一种变体（Hinton 和 Roweis, 2002），但具有修改后的成本函数，更容易优化。

与 SNE 类似，t-SNE 首先将数据点之间的高维欧氏距离转换为表示相似性的条件概率。
t-SNE 在低维空间中定义了与数据点类似的概率分布，并最小化了两个分布之间的Kullback–Leibler 散度，以便确定地图上点的位置。

查看此文章了解如何调整 t-SNE 可视化中的参数，困惑度和学习率（epsilon）。

图 4. 使用 t-SNE 可视化股票嵌入。每个标签根据股票行业部门进行着色。我们有 5 个聚类。有趣的是，GOOG、GOOGL 和 FB 属于同一聚类，而 AMZN 和 AAPL 属于另一个聚类。

在嵌入空间中，我们可以通过检查它们的嵌入向量之间的相似性来衡量两只股票之间的相似性。例如，在学习的嵌入中，GOOG 与 GOOGL 最相似（见图 5）。

图 5. 在嵌入可视化图中点击“GOOG”，并用从深到浅的颜色突出显示前 20 个相似的邻居，随着相似性的降低颜色逐渐变浅。

已知问题

随着训练的进行，预测值会减少并趋于平缓。这就是为什么我在图 3 中将绝对值乘以一个常数，以便更清晰地看到趋势，因为我更关心预测的涨跌方向是否正确。然而，预测值减少的问题肯定有原因。可能不是使用简单的均方误差作为损失，我们可以采用另一种形式的损失函数，在预测方向错误时进行更多的惩罚。
损失函数一开始下降得很快，但偶尔会出现数值爆炸（突然出现峰值然后立即回落）。我怀疑这也与损失函数的形式有关。一个更新和更智能的损失函数可能能够解决这个问题。

本教程中的完整代码可在github.com/lilianweng/stock-rnn找到。

使用 RNN 预测股价：第 1 部分

原文：lilianweng.github.io/posts/2017-07-08-stock-rnn-part-1/

这是一个关于如何使用 Tensorflow 构建递归神经网络来预测股市价格的教程。完整的可运行代码可在github.com/lilianweng/stock-rnn中找到。如果你不知道什么是递归神经网络或 LSTM 单元，可以查看我的先前文章。

我想强调一件事，因为我撰写这篇文章的动机更多地是为了演示如何在 Tensorflow 中构建和训练 RNN 模型，而不是解决股票预测问题，所以我没有努力改进预测结果。欢迎参考我的代码，并添加更多与股票预测相关的想法来改进它。祝好！

现有教程概述

互联网上有许多教程，比如：

尽管存在这些现有教程，我仍然想写一个新的主要有三个原因：

早期的教程已经无法适应新版本了，因为 Tensorflow 仍在开发中，API 接口的变化很快。
许多教程在示例中使用合成数据。嗯，我想要使用真实世界的数据来尝试。
一些教程假设你事先了解 Tensorflow API 的一些内容，这使得阅读有点困难。

阅读了一堆例子后，我建议从 Penn Tree Bank（PTB）数据集中的官方示例开始。PTB 示例展示了一个漂亮且模块化设计模式的 RNN 模型，但这可能会阻碍你轻松理解模型结构。因此，在这里我将以非常直接的方式构建图形。

目标

我将解释如何使用带有 LSTM 单元的 RNN 模型来预测标准普尔 500 指数的价格。数据集可以从Yahoo! Finance ^GSPC下载。在以下示例中，我使用了从 1950 年 1 月 3 日（Yahoo! Finance 能够追溯到的最大日期）到 2017 年 6 月 23 日的标准普尔 500 数据。数据集每天提供几个价格点。为简单起见，我们将仅使用每日的收盘价进行预测。同时，我将演示如何使用TensorBoard进行轻松调试和模型跟踪。

简要回顾：递归神经网络（RNN）是一种具有隐藏层自环的人工神经网络类型，这使得 RNN 能够利用隐藏神经元的先前状态来学习给定新输入时的当前状态。RNN 擅长处理序列数据。长短期记忆（LSTM）单元是一种特别设计的工作单元，帮助 RNN 更好地记忆长期上下文。

欲了解更深入的信息，请阅读我的先前文章或这篇精彩的文章。

数据准备

股票价格是一个长度为$N$的时间序列，定义为$p_0, p_1, \dots, p_{N-1}$，其中$p_i$是第$i$天的收盘价，$0 \le i < N$。想象一下，我们有一个固定大小为$w$的滑动窗口（稍后，我们将称之为input_size），每次我们将窗口向右移动$w$的大小，以便所有滑动窗口中的数据之间没有重叠。

图 1。标准普尔 500 指数的价格随时间变化。我们使用一个滑动窗口中的内容来预测下一个窗口的内容，而两个连续窗口之间没有重叠。

我们即将构建的 RNN 模型以 LSTM 单元作为基本隐藏单元。我们使用从第一个滑动窗口$W_0$一直到时间$t$的窗口$W_t$中的值：

\[\begin{aligned} W_0 &= (p_0, p_1, \dots, p_{w-1}) \\ W_1 &= (p_w, p_{w+1}, \dots, p_{2w-1}) \\ \dots \\ W_t &= (p_{tw}, p_{tw+1}, \dots, p_{(t+1)w-1}) \end{aligned} \]

来预测接下来窗口$w_{t+1}$中的价格：

\[W_{t+1} = (p_{(t+1)w}, p_{(t+1)w+1}, \dots, p_{(t+2)w-1}) \]

本质上，我们试图学习一个近似函数，$f(W_0, W_1, \dots, W_t) \approx W_{t+1}$。

图 2 RNN 的展开版本。

考虑到时间反向传播（BPTT）的工作原理，我们通常以“展开”的方式训练 RNN，这样我们就不必进行太远的传播计算，从而简化训练过程。

这里是来自 Tensorflow 教程关于num_steps的解释：

按设计，循环神经网络（RNN）的输出取决于任意远的输入。不幸的是，这使得反向传播计算变得困难。为了使学习过程可行，通常会创建网络的“展开”版本，其中包含固定数量（num_steps）的 LSTM 输入和输出。然后在这个有限的 RNN 近似上进行训练。这可以通过每次输入长度为num_steps的输入并在每个这样的输入块之后执行反向传播来实现。

价格序列首先被分割成不重叠的小窗口。每个窗口包含input_size个数字，每个被视为一个独立的输入元素。然后，任何连续的num_steps个输入元素被分组成一个训练输入，形成了一个用于在 Tensorfow 上训练的“展开”版本的 RNN。相应的标签是它们之后的输入元素。

例如，如果input_size=3和num_steps=2，我的前几个训练示例会是这样的：

\[\begin{aligned} \text{Input}_1 &= [[p_0, p_1, p_2], [p_3, p_4, p_5]]\quad\text{Label}_1 = [p_6, p_7, p_8] \\ \text{Input}_2 &= [[p_3, p_4, p_5], [p_6, p_7, p_8]]\quad\text{Label}_2 = [p_9, p_{10}, p_{11}] \\ \text{Input}_3 &= [[p_6, p_7, p_8], [p_9, p_{10}, p_{11}]]\quad\text{Label}_3 = [p_{12}, p_{13}, p_{14}] \end{aligned} \]

这里是数据格式化的关键部分：

seq = [np.array(seq[i * self.input_size: (i + 1) * self.input_size])  for i in range(len(seq) // self.input_size)]   # Split into groups of `num_steps` X = np.array([seq[i: i + self.num_steps] for i in range(len(seq) - self.num_steps)]) y = np.array([seq[i + self.num_steps] for i in range(len(seq) - self.num_steps)])

数据格式化的完整代码在这里。

训练/测试分割

由于我们总是想要预测未来，我们将最新的 10%数据作为测试数据。

归一化

标普 500 指数随时间增长，导致测试集中的大多数值超出了训练集的范围，因此模型必须预测它从未见过的一些数字。遗憾而不足为奇的是，它表现得很糟糕。见图 3。

图 3 当 RNN 模型必须预测超出训练数据范围的数字时的一个非常悲伤的例子。

为了解决尺度不一致的问题，我在每个滑动窗口中对价格进行了归一化处理。任务变成了预测相对变化率而不是绝对值。在时间$t$的归一化滑动窗口$W’_t$中，所有的值都被最后一个未知价格——$W_{t-1}$中的最后一个价格所除：

\[W’_t = (\frac{p_{tw}}{p_{tw-1}}, \frac{p_{tw+1}}{p_{tw-1}}, \dots, \frac{p_{(t+1)w-1}}{p_{tw-1}} ) \]

这里有一个数据存档stock-data-lilianweng.tar.gz，包含我在 2017 年 7 月之前爬取的标普 500 股票价格。随意使用它 😃

模型构建

定义

lstm_size: 一个 LSTM 层中的单元数。
num_layers: 堆叠的 LSTM 层数。
keep_prob: 在dropout操作中保留的细胞单位的百分比。
init_learning_rate: 起始学习率。
learning_rate_decay: 后续训练 epoch 中的衰减比率。
init_epoch: 使用恒定init_learning_rate的迭代次数。
max_epoch: 训练中的总迭代次数
input_size: 滑动窗口/一个训练数据点的大小
batch_size: 一个小批次中要使用的数据点数量。

LSTM 模型有num_layers个堆叠的 LSTM 层，每个层包含lstm_size个 LSTM 单元。然后，对每个 LSTM 单元的输出应用保留概率为keep_prob的dropout掩码。dropout 的目标是消除对某一维度的潜在强依赖，以防止过拟合。

训练总共需要max_epoch个迭代；一个epoch是所有训练数据点的完整遍历。在一个 epoch 中，训练数据点被分成大小为batch_size的小批次。我们将一个小批次发送到模型进行一次 BPTT 学习。在前init_epoch个 epoch 期间，学习率设置为init_learning_rate，然后在每个后续 epoch 中按$\times$ learning_rate_decay衰减。

# Configuration is wrapped in one object for easy tracking and passing. class RNNConfig():  input_size=1 num_steps=30 lstm_size=128 num_layers=1 keep_prob=0.8 batch_size = 64 init_learning_rate = 0.001 learning_rate_decay = 0.99 init_epoch = 5 max_epoch = 50   config = RNNConfig()

定义图

一个tf.Graph没有连接到任何真实数据。它定义了如何处理数据以及如何运行计算的流程。稍后，这个图可以在tf.session中被输入数据，并且此时计算会真正发生。

— 让我们开始阅读一些代码 —

(1) 首先初始化一个新图。

import tensorflow as tf tf.reset_default_graph() lstm_graph = tf.Graph()

(2) 图的工作原理应在其范围内定义。

with lstm_graph.as_default():

(3) 定义计算所需的数据。在这里，我们需要三个输入变量，全部定义为tf.placeholder，因为在图构建阶段我们不知道它们是什么。

inputs: 训练数据X，一个形状为(# 数据示例，num_steps，input_size)的张量；数据示例的数量未知，因此为None。在我们的情况下，它将在训练会话中成为batch_size。如果感到困惑，请查看 input format example。
targets: 训练标签y，一个形状为(# 数据示例，input_size)的张量。
learning_rate: 一个简单的浮点数。

 # Dimension = ( #     number of data examples, #     number of input in one computation step, #     number of numbers in one input # ) # We don't know the number of examples beforehand, so it is None. inputs = tf.placeholder(tf.float32, [None, config.num_steps, config.input_size]) targets = tf.placeholder(tf.float32, [None, config.input_size]) learning_rate = tf.placeholder(tf.float32, None)

(4) 此函数返回一个带有或不带有 dropout 操作的LSTMCell。

 def _create_one_cell(): return tf.contrib.rnn.LSTMCell(config.lstm_size, state_is_tuple=True) if config.keep_prob < 1.0: return tf.contrib.rnn.DropoutWrapper(lstm_cell, output_keep_prob=config.keep_prob)

(5) 如果需要，让我们将单元格堆叠成多个层。MultiRNNCell有助于将多个简单单元格按顺序连接起来组成一个单元格。

 cell = tf.contrib.rnn.MultiRNNCell( [_create_one_cell() for _ in range(config.num_layers)], state_is_tuple=True ) if config.num_layers > 1 else _create_one_cell()

(6) tf.nn.dynamic_rnn构建由cell（RNNCell）指定的递归神经网络。默认情况下，它返回一对（模型输出，状态），其中输出val的大小为（batch_size，num_steps，lstm_size）。状态指的是 LSTM 单元格的当前状态，在此处未使用。

 val, _ = tf.nn.dynamic_rnn(cell, inputs, dtype=tf.float32)

(7) tf.transpose将输出从维度（batch_size，num_steps，lstm_size）转换为（num_steps，batch_size，lstm_size）。然后选择最后一个输出。

 # Before transpose, val.get_shape() = (batch_size, num_steps, lstm_size) # After transpose, val.get_shape() = (num_steps, batch_size, lstm_size) val = tf.transpose(val, [1, 0, 2]) # last.get_shape() = (batch_size, lstm_size) last = tf.gather(val, int(val.get_shape()[0]) - 1, name="last_lstm_output")

(8) 定义隐藏层和输出层之间的权重和偏置。

 weight = tf.Variable(tf.truncated_normal([config.lstm_size, config.input_size])) bias = tf.Variable(tf.constant(0.1, shape=[config.input_size])) prediction = tf.matmul(last, weight) + bias

(9) 我们使用均方误差作为损失度量，并使用the RMSPropOptimizer 算法进行梯度下降优化。

 loss = tf.reduce_mean(tf.square(prediction - targets)) optimizer = tf.train.RMSPropOptimizer(learning_rate) minimize = optimizer.minimize(loss)

开始训练会话

(1) 要开始使用真实数据训练图形，我们首先需要启动一个tf.session。

with tf.Session(graph=lstm_graph) as sess:

(2) 根据定义初始化变量。

 tf.global_variables_initializer().run()

(0) 训练时期的学习率应该事先计算好。索引指的是时期索引。

learning_rates_to_use = [  config.init_learning_rate * ( config.learning_rate_decay ** max(float(i + 1 - config.init_epoch), 0.0) ) for i in range(config.max_epoch)]

(3) 下面的每个循环完成一个时期的训练。

 for epoch_step in range(config.max_epoch): current_lr = learning_rates_to_use[epoch_step]  # Check https://github.com/lilianweng/stock-rnn/blob/master/data_wrapper.py # if you are curious to know what is StockDataSet and how generate_one_epoch() # is implemented. for batch_X, batch_y in stock_dataset.generate_one_epoch(config.batch_size): train_data_feed = { inputs: batch_X, targets: batch_y, learning_rate: current_lr } train_loss, _ = sess.run([loss, minimize], train_data_feed)

(4) 不要忘记在最后保存您训练好的模型。

 saver = tf.train.Saver() saver.save(sess, "your_awesome_model_path_and_name", global_step=max_epoch_step)

完整的代码在这里可用。

使用 TensorBoard

在没有可视化的情况下构建图形就像在黑暗中绘画，非常模糊且容易出错。Tensorboard提供了图形结构和学习过程的简单可视化。查看这个实践教程，只需 20 分钟，但非常实用，并展示了几个实时演示。

简要总结

使用with [tf.name_scope](https://www.tensorflow.org/api_docs/python/tf/name_scope)("your_awesome_module_name"):将致力于相似目标的元素包装在一起。
许多tf.*方法接受name=参数。分配一个自定义名称可以在阅读图时使您的生活更轻松。
像tf.summary.scalar和tf.summary.histogram这样的方法有助于在迭代过程中跟踪图中变量的值。
在培训会话中，使用tf.summary.FileWriter定义一个日志文件。

with tf.Session(graph=lstm_graph) as sess:  merged_summary = tf.summary.merge_all() writer = tf.summary.FileWriter("location_for_keeping_your_log_files", sess.graph) writer.add_graph(sess.graph)

稍后，将训练进度和摘要结果写入文件。

_summary = sess.run([merged_summary], test_data_feed) writer.add_summary(_summary, global_step=epoch_step)  # epoch_step in range(config.max_epoch)

图 4a 由示例代码构建的 RNN 图。"train"模块已从主图中"移除"，因为在预测时不是模型的真正部分。

图 4b 点击"output_layer"模块以展开并详细检查结构。

完整的工作代码可在github.com/lilianweng/stock-rnn中找到。

结果

我在实验中使用了以下配置。

num_layers=1 keep_prob=0.8 batch_size = 64 init_learning_rate = 0.001 learning_rate_decay = 0.99 init_epoch = 5 max_epoch = 100 num_steps=30

（感谢 Yury 发现了我在价格归一化中的一个错误。我最终使用了同一时间窗口中的最后价格，而不是使用前一个时间窗口的最后价格。以下图表已经更正。）

总体来说，预测股票价格并不是一项容易的任务。特别是在归一化之后，价格趋势看起来非常嘈杂。

图 5a 针对测试数据中最后 200 天的预测结果。模型使用 input_size=1 和 lstm_size=32 进行训练。

图 5b 针对测试数据中最后 200 天的预测结果。模型使用 input_size=1 和 lstm_size=128 进行训练。

图 5c 针对测试数据中最后 200 天的预测结果。模型使用 input_size=5，lstm_size=128 和 max_epoch=75 进行训练（而不是 50）。

本教程中的示例代码可在github.com/lilianweng/stock-rnn:scripts中找到。

(更新于 2017 年 9 月 14 日) 模型代码已更新为封装在一个类中：LstmRNN。模型训练可以通过main.py触发，例如：

python main.py --stock_symbol=SP500 --train --input_size=1 --lstm_size=128

对好奇的人的深度学习概述

原文：lilianweng.github.io/posts/2017-06-21-overview/

（本文源自我在WiMLDS x Fintech meetup上的演讲，由 Affirm 主办。）

我相信很多人都看过或听说过 2016 年 AlphaGo 和职业围棋选手李世石之间的比赛。李世石是九段最高段位和多次世界冠军。毫无疑问，他是世界上最优秀的围棋选手之一，但在这次与 AlphaGo 的系列比赛中，他以 1-4 的比分输掉了比赛。在此之前，围棋被认为是计算机难以掌握的游戏，因为其简单的规则在棋盘位置上提供了指数级别的变化，远远超过国际象棋。这一事件无疑将 2016 年归为人工智能的重要一年。由于 AlphaGo，人们对人工智能的进展引起了很多关注。

与此同时，许多公司正在投入资源推动人工智能应用的边界，这确实有潜力改变甚至彻底改变我们的生活方式。熟悉的例子包括自动驾驶汽车、聊天机器人、家庭助手设备等。近年来我们取得进展的秘密之一就是深度学习。

为什么深度学习现在有效？

简单来说，深度学习模型是大型且深层的人工神经网络。神经网络（“NN”）可以用有向无环图很好地表示：输入层接收信号向量；一个或多个隐藏层处理前一层的输出。神经网络的最初概念可以追溯到半个多世纪前。但为什么现在它有效？为什么人们突然开始谈论它们？

图 1. 一个三层人工神经网络。（图片来源：cs231n.github.io/convolutional-networks/#conv）

原因出奇的简单：

我们有更多的数据。
我们有更强大的计算机。

一个大而深的神经网络有更多的层次和更多的节点，每一层都有更多的节点，这导致需要调整的参数数量呈指数增长。没有足够的数据，我们无法有效地学习参数。没有强大的计算机，学习将会太慢且不足够。

这里有一个有趣的图表，展示了数据规模与模型性能之间的关系，由 Andrew Ng 在他的“应用深度学习的要点”演讲中提出。在小数据集上，传统算法（回归、随机森林、支持向量机、梯度提升机等）或统计学习表现出色，但一旦数据规模飙升，大型神经网络胜过其他模型。部分原因是与传统机器学习模型相比，神经网络模型有更多参数，并且具有学习复杂非线性模式的能力。因此，我们期望模型能够自行选择最有用的特征，而无需太多专家参与的手动特征工程。

图 2。数据规模与模型性能的关系。（基于重新创建：youtu.be/F1ka6a13S9I）

深度学习模型

接下来，让我们看一些经典的深度学习模型。

卷积神经网络

卷积神经网络，简称“CNN”，是一种前馈人工神经网络，其神经元之间的连接模式受到视觉皮层系统的组织启发。主要视觉皮层（V1）从视网膜接收原始视觉输入并进行边缘检测。次级视觉皮层（V2），也称为前条皮质，从 V1 接收边缘特征并提取简单的视觉属性，如方向、空间频率和颜色。视觉区 V4 处理更复杂的对象属性。所有处理过的视觉特征流向最终的逻辑单元，颞下沟皮质（IT），用于对象识别。V1 和 V4 之间的快捷路径启发了一种特殊类型的 CNN，其中包含非相邻层之间的连接：残差网络（He 等，2016），其中的“残差块”支持将一层的某些输入传递到两层后的组件。

图 3。人类视觉皮层系统的插图。（图片来源：Wang & Raj 2017）

卷积是一个数学术语，这里指的是两个矩阵之间的操作。卷积层有一个固定的小矩阵定义，也称为核或滤波器。当核滑动或卷积穿过输入图像的矩阵表示时，它计算核矩阵中的值和原始图像值的逐元素乘积。特别设计的核可以快速高效地处理图像，用于常见目的如模糊、锐化、边缘检测等。

图 4. LeNet 架构由两组卷积、激活和池化层组成，接着是一个全连接层、激活、另一个全连接层，最后是一个 softmax 分类器（图片来源：deeplearning.net/tutorial/lenet.html）

卷积和池化（或图 4 中的“子采样”）层类似于 V1、V2 和 V4 视觉皮层单元，响应特征提取。对象识别推理发生在后续的全连接层中，这些层使用提取的特征。

递归神经网络

序列模型通常被设计用于将一个输入序列转换为生活在不同领域的输出序列。短语“RNN”代表递归神经网络，适用于此目的，并在手写识别、语音识别和机器翻译等问题上显示出巨大改进（Sutskever et al. 2011，Liwicki et al. 2007）。

递归神经网络模型具有处理长序列数据和处理具有时间上下文传播的任务的能力。该模型在一个时间步中处理序列中的一个元素。计算后，新更新的单元状态传递到下一个时间步以促进下一个元素的计算。想象一下，当一个 RNN 模型逐个字符地阅读所有维基百科文章时，然后它可以根据上下文预测接下来的单词。

图 5. 一个具有一个隐藏单元的递归神经网络（左）及其在时间上展开的版本（右）。展开版本说明了时间上发生的事情：$s\_{t-1}$、$s\_{t}$和$s\_{t+1}$是相同的单元，在不同时间步$t-1$、$t$和$t+1$具有不同状态。（图片来源：LeCun, Bengio, and Hinton, 2015; 图 5)

然而，简单的感知器神经元线性组合当前输入元素和上一个单元状态可能会轻易丢失长期依赖关系。例如，我们以“爱丽丝正在工作…”开头一句，然后在整个段落后，我们想要用“她”或“他”正确开始下一句。如果模型忘记了人物的名字“爱丽丝”，我们就永远不会知道。为了解决这个问题，研究人员创建了一个具有更复杂内部结构的特殊神经元，用于记忆长期上下文，名为“长短期记忆（LSTM）”单元。它足够聪明，可以学习应该记住旧信息多长时间，何时遗忘，何时利用新数据，以及如何将旧记忆与新输入结合起来。这篇介绍写得非常好，我建议所有对 LSTM 感兴趣的人阅读。它已经在Tensorflow 文档中正式推广 😉

图 6. LSTM 单元的结构。 (图片来源: colah.github.io/posts/2015-08-Understanding-LSTMs)

为了展示循环神经网络（RNN）的强大之处，Andrej Karpathy 使用带有 LSTM 单元的 RNN 构建了一个基于字符的语言模型。在事先不知道任何英语词汇的情况下，该模型可以学习字符之间的关系以形成单词，然后学习单词之间的关系以形成句子。即使没有大量的训练数据，它也能取得不错的性能。

图 7. 基于字符的循环神经网络模型写作像莎士比亚。 (图片来源: karpathy.github.io/2015/05/21/rnn-effectiveness)

RNN: 序列到序列模型

序列到序列模型是 RNN 的扩展版本，但其应用领域有足够的区别，我想单独列出来。与 RNN 一样，序列到序列模型操作顺序数据，但特别常用于开发聊天机器人或个人助手，为输入问题生成有意义的回应。序列到序列模型由两个 RNN 组成，编码器和解码器。编码器从输入单词中学习上下文信息，然后通过“上下文向量”（或“思考向量”，如图 8 所示）将知识传递给解码器。最后，解码器使用上下文向量生成适当的回应。

图 8. 用于生成 Gmail 自动回复的序列到序列模型。（图片来源：research.googleblog.com/2015/11/computer-respond-to-this-email.html）

自动编码器

与先前的模型不同，自动编码器用于无监督学习。它旨在学习低维表示高维数据集，类似于主成分分析（PCA）的做法。自动编码器模型尝试学习一个近似函数 $ f(x) \approx x $ 来复制输入数据。然而，它受到中间具有非常少节点的瓶颈层的限制。由于容量有限，模型被迫形成数据的非常高效编码，这本质上就是我们学到的低维代码。

图 9. 自动编码器模型具有仅有少量神经元的瓶颈层。（图片来源：Geoffrey Hinton 的 Coursera 课程"神经网络与机器学习" - 第 15 周）

Hinton 和 Salakhutdinov 使用自动编码器对各种主题的文档进行压缩。如图 10 所示，当同时应用 PCA 和自动编码器将文档压缩到二维时，自动编码器表现出更好的结果。借助自动编码器，我们可以进行高效的数据压缩，加快信息检索的速度，包括文档和图像。

图 10. 当 PCA 和自动编码器尝试将文档压缩为两个数字时的输出。（图片来源：Hinton & Salakhutdinov 2006）

强化（深度）学习

由于我在帖子中以 AlphaGo 开头，让我们更深入地了解为什么 AlphaGo 取得成功。强化学习（"RL"）是其成功背后的秘密之一。RL 是机器学习的一个子领域，允许机器和软件代理在给定上下文中自动确定最佳行为，目标是通过给定的度量标准最大化长期性能。

图 11. AlphaGo 神经网络训练流程和架构。（图片来源：Silver 等人 2016）

AlphaGo 系统从一个监督学习过程开始，训练一个快速展开策略和一个策略网络，依赖于专业玩家游戏的手动策划训练数据集。它学习在游戏棋盘上的当前位置给出最佳策略。然后，通过设置自我对弈游戏来应用强化学习。当 RL 策略网络在与以前版本的策略网络对战中赢得越来越多的游戏时，它得到改进。在自我对弈阶段，AlphaGo 通过与自己对战而不需要额外的外部训练数据变得越来越强大。

生成对抗网络

生成对抗网络，简称“GAN”，是一种深度生成模型。GAN 能够通过真实数据学习后创建新的示例。它由两个在零和博弈框架中相互竞争的模型组成。著名的深度学习研究员Yann LeCun对其给予了极高的评价：生成对抗网络是过去十年中机器学习中最有趣的想法。（参见 Quora 问题：“深度学习中一些最近和可能即将发生的突破是什么？”）

图 12. 生成对抗网络的架构。（图片来源：www.kdnuggets.com/2017/01/generative-adversarial-networks-hot-topic-machine-learning.html）

在原始 GAN 论文中，GAN 被提出用于从真实照片中学习生成有意义的图像。它包括两个独立的模型：生成器和判别器。生成器产生假图像并将输出发送给判别器模型。判别器像一名法官一样工作，因为它被优化用于识别真实照片和假照片。生成器模型努力欺骗判别器，而判别器努力不被欺骗。这两个模型之间的有趣的零和博弈激励它们发展设计的技能并改进功能。最终，我们采用生成器模型生成新图像。

工具包和库

在学习所有这些模型之后，您可能会想知道如何实现这些模型并将它们用于实际应用。幸运的是，我们有许多用于构建深度学习模型的开源工具包和库。Tensorflow相当新，但已经吸引了很多关注。事实证明，TensorFlow 是2015 年最受关注的 Github 项目。所有这些都发生在 2015 年 11 月发布后的 2 个月内。

如何学习？

如果你对这个领域非常新，并愿意花一些时间以更系统化的方式学习深度学习，我建议你从 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 合著的书籍Deep Learning开始。Geoffrey Hinton（深度学习教父！）的 Coursera 课程“神经网络用于机器学习”。该课程的内容是围绕 2006 年准备的，相当古老，但它可以帮助你建立扎实的深度学习模型理解基础，并加速进一步探索。

与此同时，保持好奇心和激情。这个领域每天都在取得进展。即使是经典的或广泛采用的深度学习模型可能也只是在 1-2 年前提出的。阅读学术论文可以帮助你深入学习知识，并跟上最前沿的发现。

有用资源

谷歌学术：scholar.google.com
arXiv 计算机科学部分：arxiv.org/list/cs/recent
无监督特征学习和深度学习教程
Tensorflow 教程
数据科学周刊
KDnuggets
大量博客文章和在线教程
相关的Cousera课程
awesome-deep-learning-papers

提到的博客文章

值得一读的有趣博客

提到的论文

[1] He, Kaiming, et al. “用于图像识别的深度残差学习。” 2016 年 IEEE 计算机视觉与模式识别大会论文集。

[2] Wang, Haohan, Bhiksha Raj, and Eric P. Xing. “深度学习的起源。” arXiv 预印本 arXiv:1702.07800，2017 年。

[3] Sutskever, Ilya, James Martens, and Geoffrey E. Hinton. “使用循环神经网络生成文本。” 2011 年第 28 届国际机器学习会议论文集（ICML）。

[4] Liwicki, Marcus 等人。“基于双向长短期记忆网络的在线手写识别的新方法。” 第 9 届国际文件分析与识别会议论文集。2007 年。

[5] LeCun, Yann，Yoshua Bengio 和 Geoffrey Hinton。“深度学习。” 自然杂志 521.7553（2015）：436-444。

[6] Hochreiter, Sepp 和 Jurgen Schmidhuber。“长短期记忆。” 神经计算 9.8（1997）：1735-1780。

[7] Cho, Kyunghyun 等人。“使用 RNN 编码器-解码器学习短语表示进行统计机器翻译。” 2014 年经验方法自然语言处理会议论文集 1724-1734。

[8] Hinton, Geoffrey E.和 Ruslan R. Salakhutdinov。“利用神经网络降低数据的维度。” 科学 313.5786（2006）：504-507。

[9] Silver, David 等人。“利用深度神经网络和树搜索掌握围棋游戏。” 自然杂志 529.7587（2016）：484-489。

[10] Goodfellow, Ian 等人。“生成对抗网络。” NIPS，2014 年。

posted @ 2024-11-01 16:31 绝不原创的飞龙阅读(359) 评论(0) 收藏举报

刷新页面返回顶部

符号	含义
\(d\)	模型大小 / 隐藏状态维度 / 位置编码大小。
\(h\)	多头注意力层中的头数。
\(L\)	输入序列的段长度。
\(N\)	模型中的注意力层总数；不考虑 MoE。
\(\mathbf{X} \in \mathbb{R}^{L \times d}\)	输入序列，其中每个元素都映射为形状为 \(d\) 的嵌入向量，与模型大小相同。
\(\mathbf{W}^k \in \mathbb{R}^{d \times d_k}\)	键权重矩阵。
\(\mathbf{W}^q \in \mathbb{R}^{d \times d_k}\)	查询权重矩阵。
\(\mathbf{W}^v \in \mathbb{R}^{d \times d_v}\)	值权重矩阵。通常情况下 \(d_k = d_v = d\)。
\(\mathbf{W}^k_i, \mathbf{W}^q_i \in \mathbb{R}^{d \times d_k/h}; \mathbf{W}^v_i \in \mathbb{R}^{d \times d_v/h}\)	每个头部的权重矩阵。
\(\mathbf{W}^o \in \mathbb{R}^{d_v \times d}\)	输出权重矩阵。
\(\mathbf{Q} = \mathbf{X}\mathbf{W}^q \in \mathbb{R}^{L \times d_k}\)	查询嵌入输入。
\(\mathbf{K} = \mathbf{X}\mathbf{W}^k \in \mathbb{R}^{L \times d_k}\)	键嵌入输入。
\(\mathbf{V} = \mathbf{X}\mathbf{W}^v \in \mathbb{R}^{L \times d_v}\)	值嵌入输入。
\(\mathbf{q}_i, \mathbf{k}_i \in \mathbb{R}^{d_k}, \mathbf{v}_i \in \mathbb{R}^{d_v}\)	查询、键、值矩阵中的行向量，\(\mathbf{Q}\)、\(\mathbf{K}\) 和 \(\mathbf{V}\)。
\(S_i\)	第 \(i\) 个查询 \(\mathbf{q}_i\) 要关注的键位置集合。
\(\mathbf{A} \in \mathbb{R}^{L \times L}\)	输入序列长度为 \(L\) 时，自注意力矩阵。\(\mathbf{A} = \text{softmax}(\mathbf{Q}\mathbf{K}^\top / \sqrt{d_k})\)。
\(a_{ij} \in \mathbf{A}\)	查询 \(\mathbf{q}_i\) 和键 \(\mathbf{k}_j\) 之间的标量注意力分数。
\(\mathbf{P} \in \mathbb{R}^{L \times d}\)	位置编码矩阵，第 \(i\) 行 \(\mathbf{p}_i\) 是输入 \(\mathbf{x}_i\) 的位置编码。

符号	含义
\(K\)	唯一类别标签的数量。
\((\mathbf{x}^l, y) \sim \mathcal{X}, y \in \{0, 1\}^K\)	已标记数据集。 \(y\) 是真实标签的独热表示。
\(\mathbf{u} \sim \mathcal{U}\)	未标记数据集。
\(\mathcal{D} = \mathcal{X} \cup \mathcal{U}\)	整个数据集，包括已标记和未标记的示例。
\(\mathbf{x}\)	任何可以被标记或未标记的样本。
\(\mathbf{x}_i\)	第 \(i\) 个样本。
\(U(\mathbf{x})\)	用于主动学习选择的评分函数。
\(P_\theta(y \vert \mathbf{x})\)	由 \(\theta\) 参数化的 softmax 分类器。
\(\hat{y} = \arg\max_{y \in \mathcal{Y}} P_\theta(y \vert \mathbf{x})\)	分类器的最自信预测。
\(B\)	标记预算（要标记的最大样本数）。
\(b\)	批处理大小。

符号	含义
\(L\)	唯一标签的数量。
\((\mathbf{x}^l, y) \sim \mathcal{X}, y \in \{0, 1\}^L\)	有标签数据集。\(y\)是真实标签的独热表示。
\(\mathbf{u} \sim \mathcal{U}\)	未标记数据集。
\(\mathcal{D} = \mathcal{X} \cup \mathcal{U}\)	整个数据集，包括有标签和无标签样本。
\(\mathbf{x}\)	任何样本，可以是有标签或无标签的。
\(\bar{\mathbf{x}}\)	应用增强后的\(\mathbf{x}\)。
\(\mathbf{x}_i\)	第 \(i\) 个样本。
\(\mathcal{L}\), \(\mathcal{L}_s\), \(\mathcal{L}_u\)	损失、监督损失和无监督损失。
\(\mu(t)\)	无监督损失权重，随时间增加。
\(p(y \vert \mathbf{x}), p_\theta(y \vert \mathbf{x})\)	给定输入的标签集的条件概率。
\(f_\theta(.)\)	具有权重 \(\theta\) 的实现的神经网络，我们要训练的模型。
\(\mathbf{z} = f_\theta(\mathbf{x})\)	\(f\) 输出的 logits 向量。
\(\hat{y} = \text{softmax}(\mathbf{z})\)	预测的标签分布。
\(D[.,.]\)	两个分布之间的距离函数，例如 MSE、交叉熵、KL 散度等。
\(\beta\)	教师模型权重的 EMA 加权超参数。
\(\alpha, \lambda\)	MixUp 的参数，\(\lambda \sim \text{Beta}(\alpha, \alpha)\)。
\(T\)	用于加强预测分布的温度。
\(\tau\)	用于选择合格预测的置信阈值。

符号	含义
\(x_i^{(t)} \in \mathbb{R}^n\)	第(t)代第\(i\)个样本
\(y_i^{(t)} \in \mathbb{R}^n\)	$x_i^{(t)} = \mu^{(t-1)} + \sigma^{(t-1)} y_i^{(t)} $
\(\mu^{(t)}\)	第(t)代的均值
\(\sigma^{(t)}\)	步长
\(C^{(t)}\)	协方差矩阵
\(B^{(t)}\)	\(C\)的特征向量构成的矩阵，作为行向量
\(D^{(t)}\)	一个对角线矩阵，对角线上是\(C\)的特征值。
\(p_\sigma^{(t)}\)	第(t)代\(\sigma\)的评估路径
\(p_c^{(t)}\)	第(t)代\(C\)的评估路径
\(\alpha_\mu\)	\(\mu\)更新的学习率
\(\alpha_\sigma\)	\(p_\sigma\)的学习率
\(d_\sigma\)	\(\sigma\)更新的阻尼因子
\(\alpha_{cp}\)	\(p_c\)的学习率
\(\alpha_{c\lambda}\)	\(C\)的秩-min(λ, n)更新的学习率
\(\alpha_{c1}\)	\(C\)的秩-1 更新的学习率

符号	意义
\(\mathcal{D}\)	数据集，\(\mathcal{D} = \{ \mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \dots, \mathbf{x}^{(n)} \}\)，包含\(n\)个数据样本；$\vert\mathcal{D}\vert =n $。
\(\mathbf{x}^{(i)}\)	每个数据点是一个\(d\)维向量，\(\mathbf{x}^{(i)} = [x^{(i)}_1, x^{(i)}_2, \dots, x^{(i)}_d]\)。
\(\mathbf{x}\)	数据集中的一个数据样本，\(\mathbf{x} \in \mathcal{D}\)。
\(\mathbf{x}’\)	\(\mathbf{x}\)的重构版本。
\(\tilde{\mathbf{x}}\)	\(\mathbf{x}\)的损坏版本。
\(\mathbf{z}\)	在瓶颈层学习到的压缩编码。
\(a_j^{(l)}\)	第\(l\)隐藏层中第\(j\)个神经元的激活函数。
\(g_{\phi}(.)\)	由\(\phi\)参数化的编码函数。
\(f_{\theta}(.)\)	由\(\theta\)参数化的解码函数。
\(q_{\phi}(\mathbf{z}\vert\mathbf{x})\)	估计后验概率函数，也称为概率编码器。
\(p_{\theta}(\mathbf{x}\vert\mathbf{z})\)	给定潜在编码的真实数据样本生成的可能性，也称为概率解码器。

符号	意义
\(\mathcal{S}\)	一组状态。
\(\mathcal{A}\)	一组动作。
\(P_i: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}_{+}\)	转移概率函数。
\(R_i: \mathcal{S} \times \mathcal{A} \to \mathbb{R}\)	奖励函数。

	基础分布	目标分布	模型	数据生成	密度估计
MAF	\(\mathbf{z}\sim\pi(\mathbf{z})\)	\(\mathbf{x}\sim p(\mathbf{x})\)	\(x_i = z_i \odot \sigma_i(\mathbf{x}_{1:i-1}) + \mu_i(\mathbf{x}_{1:i-1})\)	顺序；缓慢	一次通过；快速
IAF	\(\tilde{\mathbf{z}}\sim\tilde{\pi}(\tilde{\mathbf{z}})\)	\(\tilde{\mathbf{x}}\sim\tilde{p}(\tilde{\mathbf{x}})\)	\(\tilde{x}_i = \tilde{z}_i \odot \tilde{\sigma}_i(\tilde{\mathbf{z}}_{1:i-1}) + \tilde{\mu}_i(\tilde{\mathbf{z}}_{1:i-1})\)	一次通过；快速	顺序；缓慢
———-	———-	———-	———-	———-	———-

名称	对齐评分函数	引用
基于内容的注意力	\(\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \text{cosine}[\boldsymbol{s}_t, \boldsymbol{h}_i]\)	Graves2014
加性(*)	\(\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \mathbf{v}_a^\top \tanh(\mathbf{W}_a[\boldsymbol{s}_{t-1}; \boldsymbol{h}_i])\)	Bahdanau2015
基于位置	\(\alpha_{t,i} = \text{softmax}(\mathbf{W}_a \boldsymbol{s}_t)\) 注意：这简化了 softmax 对齐，只依赖于目标位置。	Luong2015
一般	\(\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \boldsymbol{s}_t^\top\mathbf{W}_a\boldsymbol{h}_i\) 其中 \(\mathbf{W}_a\) 是注意力层中的可训练权重矩阵。	Luong2015
点积	\(\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \boldsymbol{s}_t^\top\boldsymbol{h}_i\)	Luong2015
缩放点积(^)	\(\text{score}(\boldsymbol{s}_t, \boldsymbol{h}_i) = \frac{\boldsymbol{s}_t^\top\boldsymbol{h}_i}{\sqrt{n}}\) 注意：与点积注意力非常相似，只是多了一个缩放因子；其中 n 是源隐藏状态的维度。	Vaswani2017

符号	含义
\(s \in \mathcal{S}\)	状态。
\(a \in \mathcal{A}\)	动作。
\(r \in \mathcal{R}\)	奖励。
\(S_t, A_t, R_t\)	一个轨迹在时间步\(t\)的状态、动作和奖励。我有时也会使用\(s_t, a_t, r_t\)。
\(\gamma\)	折现因子；对未来奖励的不确定性进行惩罚；\(0<\gamma \leq 1\)。
\(G_t\)	返回值；或者折现未来奖励；\(G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}\)。
\(P(s’, r \vert s, a)\)	从当前状态\(s\)经过动作\(a\)和奖励\(r\)到达下一个状态\(s’\)的转移概率。
\(\pi(a \vert s)\)	随机策略（代理行为策略）；\(\pi_\theta(.)\)是一个由\(\theta\)参数化的策略。
\(\mu(s)\)	确定性策略；我们也可以将其标记为\(\pi(s)\)，但使用不同的字母可以更好地区分，以便我们可以轻松区分策略是随机的还是确定性的，而无需进一步解释。\(\pi\)或\(\mu\)是强化学习算法的学习目标。
\(V(s)\)	状态值函数衡量状态\(s\)的期望回报；\(V_w(.)\)是一个由\(w\)参数化的值函数。
\(V^\pi(s)\)	当我们遵循策略\(\pi\)时状态\(s\)的值；\(V^\pi (s) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s]\)。
\(Q(s, a)\)	行动值函数类似于 \(V(s)\)，但评估的是状态和动作对 \((s, a)\) 的预期回报；\(Q_w(.)\) 是由 \(w\) 参数化的行动值函数。
\(Q^\pi(s, a)\)	类似于 \(V^\pi(.)\)，当我们遵循策略 \(\pi\) 时，（状态，动作）对的值；\(Q^\pi(s, a) = \mathbb{E}_{a\sim \pi} [G_t \vert S_t = s, A_t = a]\)。
\(A(s, a)\)	优势函数，\(A(s, a) = Q(s, a) - V(s)\)；可以将其视为以状态值为基准的 Q 值的另一版本，具有更低的方差。

方法	更新空间
普通梯度	参数空间上的 \(\Delta \theta\)
自然梯度	在搜索分布空间上的 \(\Delta \theta\)
SVGD	在核函数空间上的 \(\Delta \theta\)（已编辑）

\(n\)	\(G_t\)	注释
\(n=1\)	\(G_t^{(1)} = R_{t+1} + \gamma V(S_{t+1})\)	TD 学习
\(n=2\)	\(G_t^{(2)} = R_{t+1} + \gamma R_{t+2} + \gamma² V(S_{t+2})\)
…
\(n=n\)	$ G_t^{(n)} = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n V(S_{t+n}) $
…
\(n=\infty\)	$G_t^{(\infty)} = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T + \gamma^{T-t} V(S_T) $	MC 估计

龙哥盟

掠夺·扩张·投机·博弈

LiLianWeng-博客中文翻译-一-

LiLianWeng 博客中文翻译（一）

思考高质量的人类数据

人类评分员 ↔ 数据质量

众人的智慧

评分者一致性

评分者不一致 & 两种范式

数据质量 ↔ 模型训练

影响函数

训练过程中的预测变化

嘈杂交叉验证

参考文献

对 LLMs 的对抗攻击

基础知识

威胁模型

分类

文本生成

白盒 vs 黑盒

对抗性攻击类型

令牌操作

基于梯度的攻击

Jailbreak Prompting

人类在循环红队中

红队建模

缓解探究

鞍点问题

一些关于 LLM 鲁棒性的工作

参考文献

以 LLM 为核心控制器的自主代理

代理系统概述

组件一：规划

任务分解

自我反思

第二部分：记忆

记忆类型

最大内积搜索（MIPS）

第三部分：工具使用

案例研究

科学发现代理

生成代理模拟

概念验证示例

挑战

引文

参考资料

提示工程

基本提示

零样本

少样本

示例选择提示

示例排序的提示

指导提示

自一致性抽样

思维链（CoT）

CoT 提示的类型

提示和扩展

自动提示设计

增强语言模型

检索

编程语言

外部 APIs

引用

有用资源

参考文献

变压器家族版本 2.0

符号说明

变压器基础知识

注意力和自注意力

多头自注意力

编码器-解码器架构

位置编码

正弦位置编码

学习的位置编码

相对位置编码

旋转位置嵌入

不可微的外部记忆

距离增强的注意力分数

使其具有循环性

深度自适应 Transformer