可信机器学习实践指南-全-

可信机器学*实践指南（全）

原文：zh.annas-archive.org/md5/8800b772eb84d595b8358d5b48b14224

译者：飞龙

协议：CC BY-NC-SA 4.0

序言

我们生活在一个机器学*系统（ML）在医学、法律和国防等越来越重要的领域中被使用的世界。模型决策可能导致数百万甚至数十亿美元的经济收益或损失。由于其决策和后果的高风险性质，这些 ML 系统的可信性至关重要。当 ML 系统不安全、可能无法预测地失败、在样本群体中表现差异显著和/或难以解释其决策时，这可能是一个问题。我们撰写这本书是为了帮助你的 ML 模型在现实世界中独立立足。

在生产中实施机器学*

如果你正在阅读这本书，你可能已经意识到 ML 的巨大重要性。无论应用领域如何，ML 技术都影响着我们生活的方方面面。Google Brain 的联合创始人 Andrew Ng 在描述 AI 为“新电力”时并没有夸大其词。毕竟，我们手头上的东西最好可以描述为一个通用函数逼近器。就像电力一样，如果处理不当，ML 可能会很危险。就像高压线碰撞到镀铝膜气球一样，ML 失败的案例可能是意外和令人恐惧的。

在现实世界中部署 ML 应用与在封闭环境中工作模型大不相同。学术数据集通常不包含真实世界数据的全部变化。将来我们的模型互动的数据可能与过去的数据不同，特别是如果有人在获取这些数据时走捷径。这可能包含各种可能让模型学*的偏*，从而使部署它的人陷入棘手的伦理和/或法律境地。即使在这些方面一切顺利，你也不是安全的。黑客每年变得更加复杂，最终可能会找出如何通过查询你部署的模型来窃取敏感数据的方法。

尽管前景并非全是悲观与绝望。有许多经过深入研究的最佳实践，用于管理数据集，无论是真实世界的数据还是合成数据。有很多方法可以衡量新进数据与已有数据的差异。正如有办法发现和修复机器学*中的偏*一样，也有新的方法使你的机器学*流水线在一般情况下更易于解释和理解。至于安全性和健壮性，全球一些最大的机器学*公司正在发布工具包，帮助你隐藏敏感模型细节，避免外人窥探。

本书讨论了修复你的 ML 流水线象征性接线的所有方法，从经典解决方案到前沿技术。

变压器的收敛

在我们开始写作这本书的不久之前，即在 2010 年末和 2020 年初，一个名为“变压器”的深度学*模型架构已经在自然语言处理（NLP）领域引起轰动。随着时间推移，变压器的采用速度只有加快。这种方法迅速成为计算机视觉、表格数据处理甚至强化学*的标准工具。这与 2010 年代初期的深度学*工作方式有了巨大的不同，当时每个任务和领域都有独特和明确的架构，这使得计算机视觉专家很难完全理解 NLP 研究（同样，NLP 研究人员也很难深入理解计算机视觉方法）。

变压器是一种机器学*架构，最早出现在 2017 年的论文“Attention Is All You Need”中。¹ 在以往的神经网络方法中，如卷积神经网络（CNN）和循环神经网络（RNN），系统首先集中在输入数据的局部区域，然后才逐步扩展到整体。相比之下，使用变压器模型，输入数据的每个元素都与其他每个元素连接（或者关注）。这种方法意味着变压器可以理解其训练的整个数据集。

变压器能够在整个数据集中的数据点之间建立连接，这是其有用性的关键。变压器模型已经成为诸如问答、文本预测和翻译等任务的领先者。最近，这种应用已经扩展到超越自然语言处理的视觉领域，如图像分类。² 变压器在这些领域的普及是最近的现象，但很明显，它将在未来继续发展。

尽管变压器不适用于每一个问题（例如，许多情况下，计算和内存消耗较少的方法效果最佳），但鉴于这一领域的最新趋势，我们把基于变压器的模型作为本书的重点。

大规模且高能力的机器学*模型的爆发

变压器已经变得无处不在，并且它们已经被用来将许多人手中的 AI 系统赋予了科幻般的能力，这在仅仅十年前似乎还是不可思议的。2019 年，OpenAI 发布了 GPT-3，这是一个语言模型，能够生成在许多情况下与人类写作的文本难以区分的文本。即使公司们正在围绕这些模型构建他们的产品，³ 我们仍然在发现新的能力。例如，在 2022 年，人们发现可以极大地提升 GPT-3 在像 MultiArith（从 17.7% 提升到 78.7% 准确率）和 GSM8K（从 10.4% 提升到 40.7% 准确率）这样的推理基准上的性能。这种惊人的能力飞跃是如何实现的呢？简单地说，只需在每个答案之前预填写 "让我们一步一步地思考" 的提示，就能促使 GPT-3 完成答案。⁴ 但是奇怪的不仅仅在于此，因为这种提示可能导致语言模型输出的推理步骤并不一定能得出答案（你需要进一步的提示和查询才能得到实际的答案）。⁵^,⁶

在我们撰写本书的同时，另一个显著的机器学*模型是 StableDiffusion，这是一个文本到图像的模型，可以根据文本描述生成图像。它是通过与文本到图像模型（如 OpenAI 的 DALL·E 2，Google 的 Imagen，Google 的 Parti，以及 MidJourney）相同的方式进行训练的，因此其输出的质量大致相似。与其他模型不同的是，该模型的底层代码和完整模型权重都已公开发布。这种能力强大的模型的发布对机器学*安全社区来说是一件大事。它违背了将高能力的机器学*模型保持私密，直到评估其后果和安全性的伦理。在 StableDiffusion 的情况下，作者们发布了多种减少伤害的工具，与发布高能力模型同时进行。⁷^,⁸ 虽然这种最佳实践应受到鼓励，但也突显了许多机器学*安全倡议在资源匮乏方面的问题，即使是对于风险较低的机器学*模型和流水线。

毕竟，我们看到了许多类似的新的图像/语言模型从 Google、DeepMind、OpenAI 和 Microsoft 等竞争公司和团队中涌现出来。由于这些项目是并行构建的，并且有着可比较的结果，新思想的产生并不是瓶颈。在某些情况下，这可能意味着进展不会因为一个团队或组织选择退出而放缓，这会产生反常的激励机制。一个团队可能决定通过不对其文本或图像生成工具施加限制来取得领先优势。虽然大型组织的团队因为这些安全问题而开发产品进展缓慢，但很难阻止这些团队中的工程师加入到想要更快推进产品的初创公司中去。由于这些类似项目是并行开发的，看来保密不再像过去那样提供如此多的保护。

因此，看起来确保安全性被考虑的最有前途的方法之一是让组织尽可能公开他们对安全风险的看法以及他们对这些风险的解决方案的建议。⁹ 正是出于这个原因，我们写了这本书。

为什么我们写这本书

作为既进行过 ML 研究又成功部署 ML 系统的人们，我们注意到，初步建立静态数据集的 ML 模型与部署之间的差距很大。这个差距的主要部分在于缺乏可信度。有很多种方式，开发中工作的 ML 模型在生产中可能会失败。许多大公司都有专门的负责 AI 和安全的团队来分析他们当前和潜在未来 ML 系统的潜在风险和后果。¹⁰ 不幸的是，大多数使用 ML 的团队和公司没有足够的带宽来做到这一点。即使存在这样的团队，在这些团队中，它们通常都资源不足，模型开发周期可能过快，以至于安全团队担心竞争对手会先发布类似的模型。

我们写这本书的目的是降低理解如何创建值得信赖的 ML 模型的门槛。尽管已经有很多关于这个主题的标题，但我们希望创建一个对没有机器学*研究背景的人也可以理解的资源，教授框架和思考可信度的方法，以及一些评估和改进模型可信度的方法。

可以复制粘贴到你自己项目中的代码块
链接列表到开源项目和资源
链接到深入的代码教程，其中许多可以在浏览器中探索

尽管经验是无法替代的，但为了积累经验，你需要知道从何处开始。这本书旨在为将你的机器学*应用程序发布到嘈杂、混乱、有时敌对的真实世界中提供所需的基础。这项工作依赖于无数其他研究人员、工程师等的成果，我们希望这项工作能够帮助那些致力于部署 ML 系统的人们翻译部分工作。

本书的目标读者

本书适合所有当前使用机器学*模型并希望确保他们的劳动成果在释放到真实世界时不会造成意外伤害的人。

本书的主要受众是具有一定机器学*基础的工程师和数据科学家。书中的部分内容应该对非工程师也是可理解的，比如具有 ML 概念理解的产品经理和高管。你们中的一些人可能正在构建比之前的工作或学术中更重要决策的 ML 系统。我们假设你们对深度学*的基础知识和 Python 的代码示例有所了解。

初次阅读将使工程师对信任度有坚实的理解，并了解它如何适用于你正在使用的 ML 系统。随着你在 ML 职业生涯的继续，你可以回头并从书中调整和适应代码片段，以评估和确保你系统的信任度方面。

AI 安全与对齐

有一个广泛的研究领域专注于 AI 安全和 AI 对齐问题。AI 对齐 是如何制造符合人类意愿且没有意外副作用的 AI 系统的问题。这是AI 安全 的一个子集，涉及减轻 AI 系统可能出现的更广泛问题空间。这些问题范围从无法修正地延续社会偏*，到被人类用于战争、欺诈或网络犯罪领域，再到展现出任何文化或从属都不会希望的行为。

AI 对齐被视为解决 AI 安全风险的解决方案，因为它涉及让 AI 完全理解并可靠尊重人类的价值观。关于值得信赖的机器学*从理论和/或学术角度来看，有大量的文献。

一个问题是，很多这样的文章试图清晰地定义心理学（例如，意图、欲望、目标和动机）和哲学（例如，价值体系和效用）术语，但是这些定义对于实际负责构建 AI 系统的工程师来说几乎没有用处。也许有一天人类会建造一个真正模拟人脑到神经元和突触水*的 AI 系统，在那种情况下，这些哲学和心理学描述符将会很有用。然而，从作者之一先前作为湿实验室神经科学家的经验来看，现代神经网络与人脑几乎没有什么共同之处。真实的活体神经元不像逻辑门，通常需要大约 1 万个耦合和非线性微分方程来描述它们的行为。模拟单个神经元通常是一个整个专用人工神经网络的任务，而不仅仅是一个单一的权重和偏差。¹¹我们现在还不清楚，是否能够找到一种数学上的方法来证明我们的 AI 系统不会对人类造成伤害。然而，正如 Cohere、OpenAI 和 Al21 Labs 等组织所展示的，¹²仍然有很多事情可以做来预防常*问题并建立最佳实践。

另一个挑战是，很多 AI 安全文献集中在像人工通用智能（AGI）和自我改进的 AI 系统这样的假设未来场景上。¹³^,¹⁴这并不完全脱离现实世界。在撰写本书期间，世界已经*证了像 OpenAI 的 DALL·E 2（可以仅通过文本提示合成高质量图像）和 DeepMind 的 Gato（一个单一的“通用”转换器模型，可以解决语言任务、视觉任务和强化学*任务）这样的 AI 模型的发布。¹⁵针对这些发布，预测市场更新了它们关于类似于 AI 安全文献中预测的通用 AI 代理可能出现的时间的估计，变得比以往更快。¹⁶现在更容易想象涉及与人类价值不一致的强 AI 系统的灾难性场景。

但是，AI 安全并不是某种模糊而不祥的未来需要担心的事情。它是当下需要担心的事情。未对齐的 AI 系统的危险是一个非常现实的威胁，即使是具有较少通用 AI 系统也是如此。威胁包括由 AI 交易机器人驱动的闪电市场崩盘（参* 17），通过在算法中将正号改为负号来改造药物发现 AI 以制造化学武器（参* 18），以及具有 AI 启用的面部识别能力的小型作战无人机可用于种族清洗（参* 19）。然而，关于超智能 AI 单体的可能行为的高层哲学论证，尽管是真实的，但在没有更详细的指导如何诊断和纠正这些问题的情况下将是无用的。

提示

尽管世界是否会以“纸夹子最大化器”风格的事件结束尚不清楚，但这样的极端情景对于记住优化功能如果不小心监控可能会变得灾难性是一个有用的心理工具。

对于更好地评估 AI 安全性声明和研究的心理工具，我们建议阅读 José Luis Ricón Fernández de la Puente 在 Nintil 博客上的“Set Sail For Fail? On AI Risk”。

由于关于这一主题的辩论没有短缺，我们决定通过编制一个充满实用工具和代码片段的资源来帮助采取工程方法的人们。我们不试图制定“信任”的明确定义，而是假定读者在看到时知道“信任”。我们重点列出一些更常*的可能导致某人不信任机器学*系统的实际失败案例，并提供一些工具来帮助您避免这些陷阱。您需要修复赋予人类生活巨大权力的任意或狭隘 AI 系统的实用工具。

修复这类问题的好消息是，通常有解决方案，其可行性远远超过只希望猴子的手掌上不会出现任何负面后果。（参* 20）

使用 HuggingFace PyTorch 进行 AI 模型

在本书的代码示例中，我们大量使用 HuggingFace 的 Transformers 库。除了少数例外，我们主要关注这些模型在 PyTorch 中的实现。这个在 Meta 开发的框架（参* 21）根据许多与其他框架（如 TensorFlow 和 JAX）编写的机器学*模型相同的数学原理运行。虽然其他框架的代码示例可能有所不同，但底层原理是相同的。

在写作过程中，HuggingFace 作为分享 AI 模型参数的工具已经越来越受欢迎。这始于语言模型，但已扩展到计算机视觉模型、文本到图像模型、音频模型甚至强化学*模型（参* 22）。

警告

请务必信任您从 HuggingFace 下载模型的作者。有一段时间，HuggingFace 使用 Python pickle 模块下载模型。正如 YouTuber Yannic Kilcher 在他的视频中解释的那样，几乎任何任意可执行代码都可以存储在 pickle 文件中。这可能包括恶意代码，正如 HuggingFace 的完全无害模型概念所示。

此安全漏洞的修复是 torch-save 补丁。自视频发布以来，HuggingFace 已修复了此漏洞，并在网站上添加了有关任意代码执行的警告。请始终仔细检查您信任的模型作者。

基础

为了帮助您从本书中获得最大收益，以下是一些基础术语的定义以及进一步信息的链接：

词嵌入

词嵌入是词的向量表示形式，使得一个词被映射到编码其语义含义的向量。一些流行的嵌入包括 GloVe 和 Word2Vec。

语言模型

语言模型是学*在给定上下文中预测令牌概率的模型。它们可以是自回归模型或掩码语言模型。自回归模型将到特定时间步的令牌作为上下文，而掩码语言模型则从正在预测的令牌之前和之后的上下文中获取信息。²³

注意

在各种机器学*模型中，注意力是一种技术，用于衡量在当前步骤的表示的嵌入中考虑每个令牌的程度²⁴。

本书中使用的约定

本书中使用了以下排版约定：

斜体

指示新术语、URL、电子邮件地址、文件名和文件扩展名。

常量宽度

用于程序列表以及在段落内引用程序元素，如变量或函数名称、数据库、数据类型、环境变量、语句和关键字。

常量宽度粗体

显示用户应直接输入的命令或其他文本。

常量宽度斜体

显示应由用户提供的值或根据上下文确定的值替换的文本。

提示

此元素表示提示或建议。在第七章和第八章中，它表示练*或提示。

注意

此元素表示一般注释。

警告

此元素指示警告或注意事项。

使用代码示例

可以在 https://github.com/matthew-mcateer/practicing_trustworthy_machine_learning 下载补充材料（代码示例、练*等）。

如果您有技术问题或在使用示例代码时遇到问题，请发送电子邮件至bookquestions@oreilly.com。

本书旨在帮助您完成工作。一般来说，如果本书提供示例代码，您可以在您的程序和文档中使用它。除非您重复使用大部分代码，否则无需获得我们的许可。例如，编写一个使用本书多个代码片段的程序不需要许可。出售或分发 O’Reilly 书籍中的示例代码需要许可。引用本书并引用示例代码回答问题不需要许可。将本书大量示例代码整合到您产品的文档中需要许可。

我们赞赏，但通常不需要署名。署名通常包括标题、作者、出版商和 ISBN。例如：“《可信机器学*实践》，作者 Yada Pruksachatkun、Matthew McAteer 和 Subhabrata Majumdar（O’Reilly）。版权所有 2023 Yada Pruksachatkun、Matthew McAteer 和 Subhabrata Majumdar，978-1-098-12027-6。”

如果您认为您使用的示例代码超出了公*使用或上述许可，请随时与我们联系，电子邮件至permissions@oreilly.com。

致谢

我们要感谢 Divesh Shrivastava、Kush Varshney、Jiahao Chen、Vinay Prabhu、Josh Albrecht、Kanjun Qiu、Chelsea Sierra Voss、Jwala Dhamala、Trista Cao、Andrew Trask、Yonah Borns-Weil、Alexander Ziller、Antonio Lopardo、Benjamin Szymkow、Bobby Wagner、Emma Bluemke、Jean-Mickael Nounahon、Jonathan Passerat-Palmbach、Kritika Prakash、Nick Rose、Théo Ryffel、Zarreen Naowal Reza 和 Georgios Kaissis，因为他们审阅了我们的章节。如果您也有兴趣进行正式审阅，请告知我们！

¹ 阿希什·瓦斯瓦尼等人，“注意力机制是你所需要的一切”，NeurIPS 会议论文 (2017).

² 韩凯等人，“视觉 Transformer 综述”，IEEE 模式识别与机器智能期刊 (2022)。

³ 马修·麦克阿提尔的博客提供了公司基于 GPT-3 构建的例子。

⁴ 小岛武志等人，“大型语言模型是零-shot 推理者”，arXiv 预印本 (2022).

⁵ 参* DeepMind 附属的安东尼娅·克雷斯威尔等人，讨论使用提示进行可解释的组合推理：“选择推理：利用大型语言模型进行可解释逻辑推理”，arXiv 预印本 (2022).

⁶ 这甚至还没有涉及到在互联网上可访问的书籍中讨论提示工程的可能后果，因此这些书籍可能会成为未来大型语言模型（如 GPT-3 的后继者）的训练数据的一部分。

⁷ 参* Stability.ai 关于他们的 Deep Fake 检测倡议的推特公告，使用了新的 OpenCLIP 模型等技术。

⁸ 除了类似 StableDiffusion 的文本到图像模型外，其他组织也在采用类似的方法发布大型模型。Meta AI 发布了与 GPT-3 规模相当的 1750 亿参数的开源预训练 Transformer。

⁹ 这还有一个额外的效果，让潜在的叛徒知道他们正在叛逆，增加了实施不安全 AI 系统的声誉成本，同时减少了减少 AI 风险的成本。

¹⁰ 例如，2021 年 DeepMind 的伦理团队发表了名为《语言模型的伦理和社会风险》的论文，而 OpenAI 在 2022 年 3 月更新了他们关于 AI 安全的立场。

¹¹ Allison Whitten，《一个神经元的计算复杂性有多高？》，《Quanta Magazine》，2021 年 9 月 2 日。这篇文章总结了 David Beniaguev 等人的论文《单个皮层神经元是深度人工神经网络》（2021），链接。

¹² Cohere 团队，《部署语言模型的最佳实践》，《co:here》，2022 年 6 月 2 日，链接。

¹³ 尼克·博斯特罗姆的《超智能》描绘了这样一种情景：这样的系统可能来自任何一个各种 AI 研究实验室，然后超出人类控制的能力，链接。

¹⁴ 受欢迎的网络散文家 Gwern 撰写了《看起来你正试图掌控世界》的短篇小说，旨在帮助读者想象 AI 研究在当前技术水*下可能引发灾难的情景。

¹⁵ 参* DeepMind 的项目页面，了解他们称之为《通用代理程序》的示范和实例。

¹⁶ 查看 Metaculus 预测市场关于与 AI 相关问题的预测随时间变化的图表。

¹⁷ David Pogue，《算法交易导致闪崩》，《Yahoo! Finance》，2018 年 2 月 6 日，链接。

¹⁸ Justine Calma，《AI 在短短六小时内建议了 40,000 种新的可能化学武器》，《The Verge》，2022 年 3 月 17 日，链接。

¹⁹ Stuart Russell 等，《为什么你应该担心 Slaughterbots—一个回应》，《IEEE Spectrum》，2018 年 1 月 23 日，链接。

²⁰ 参*此解释，关于故意用 38 英里的光纤电缆减慢交易速度的股票交易所：Tom Scott，《如何减缓股票交易所》，视频，2019 年 2 月 4 日。

²¹ Meta 宣布 PyTorch 将移交给独立的 PyTorch 基金会（由 Linux 基金会孵化）：《宣布 PyTorch 基金会：AI 框架的新时代》，2022 年 9 月 12 日。

²² 欲了解更多信息，请参阅 Stable-Baselines3，最受欢迎的深度强化学*库，与 HuggingFace Hub 集成的公告：《欢迎 Stable-baselines3 加入 Hugging Face Hub》，2022 年 1 月 21 日。

²³ 欲了解更多关于各种类型的 NLP 语言模型，详* Devyanshu Shukla，《自然语言处理中的语言模型简介》，Medium（博客），2020 年 3 月 16 日。

²⁴ Lilian Weng，《关注？注意！》，Lil’Log（博客），2018 年 6 月 24 日。

第一章：隐私

如果你有关注媒体报道，那么你至少对一家公司的客户数据或专有算法泄露可能导致的损害有所了解。考虑到机器学*（ML）领域基本上需要大量数据，风险尤为突出。

机器学*流水线的攻击向量

计算机发明不久后，攻击方法就被发明出来了。为了说明这一点，MITRE 公司创建了一个攻击者用来攻击系统的战术和技术分类法。

机器学*的出现创造了许多额外的方式，通过这些方式可以攻击计算机系统。事实上，MITRE ATT&CK 有一个专门针对机器学*的版本：MITRE ATLAS（人工智能系统的对抗威胁景观）。正如攻击者和对手一直试图从普通计算机系统中窃取数据并控制它们一样，机器学*流水线也面临着同样的风险。

本章介绍了一系列可以减少隐私泄露风险的技术和技术。尽管这些技术代表了实际最佳实践和最新研究的交集，但没有一种工具是完美的。如果没有正确实施或者只关注隐私的一个定义，其中一些技术可能会产生反效果。

机器学*中实施不当的隐私功能：案例研究

在我们深入探讨数学隐私定义之前，让我们先了解一下在现实世界中实施不当的隐私功能是什么样子，以及可能引起的后果。

描述的许多数据隐私法律旨在惩罚数据泄露。在法律无法阻止人们的情况下，需要组织和技术保障措施。所有这些措施旨在给获取相关数据的人造成巨大成本。问题在于，对于一些不良行为者来说，数据的价值仍远远超过获取它所需的时间和金钱成本。

就消费者而言，在中国存在着一个大量的个人数据黑市。恶意行为者可以以极低的价格购买移动电话定位和移动数据、信用信息、学术记录和电话记录，每个数据可能仅需$0.01（尽管根据个体情况价格会更高）。对于数以千计或百万计的个人数据泄露，财务激励显而易*。像医疗保健记录这样的信息通常会更值钱。据 Experian 称，一条单个患者记录在黑市上可能卖到高达$1,000 以上，具体取决于记录的完整性；这几乎比标准信用卡记录高出 50 倍。

还存在大量专有公司信息的市场。很难量化获取竞争对手信息的价值。在大多数情况下，这是非常高的，特别是如果这些信息是他们分析管道训练的数据或经过数百或数千小时计算训练的关键模型的话。

当然，从窃取信息中获利不仅仅是金钱问题。国家行为者可能有从实现明确的国家安全目标到收集敲诈材料、引起不稳定，甚至更模糊的“最好是有数据而不需要，也不是需要数据而没有”的原则的动机。

就目前而言，我们还没有看到与一些较大的数据泄露相媲美的规模的机器学*模型攻击（尽管将自己与Meta 泄露的 5.3 亿用户信息进行比较是一个低水*）。部分原因是攻击未安全防护的前端和后端的常规途径仍然足够容易获利。如果某产品或服务已经移除了大部分低 hanging fruit，黑客们可能会转向攻击 ML 模型本身来获取他们想要的东西。

情况 1：苹果的 CSAM

2021 年，苹果宣布了一种新系统，用于应对儿童虐待和儿童贩运，这一消息成为头条。儿童性虐待材料（CSAM）检测系统最初计划在 iOS 15 发布时发布。该系统最显著的特点是一个设备端 ML 模型，将检查所有发送和接收的照片中的 CSAM，并在将照片发送到 iCloud 之前进行设备端匹配和标记。这种匹配将通过苹果的 NeuralHash 算法完成。该模型受用于确定软件完整性的校验和哈希匹配的启发，将基于照片中特定高级细节的存在与否来生成图像哈希。

这里的关键细节是使用设备端网络进行匹配。与收集所有设备数据、存储在中央预言机上，然后在收集的数据上运行 ML 模型不同，NeuralHash 模型仅在用户端点运行，并在检测到一定阈值的命中时向苹果发出警报。理论上，这将允许系统尊重端到端加密，同时仍能在客户数据上运行模型。不幸的是，公众并不认同这种方法，并认为这是一种侵犯隐私的行为。关于苹果在标榜自己为“隐私第一”的公司的同时扫描私人照片所引发的公共关系危机，有很多讨论，但我们将专注于 CSAM 扫描系统中更为重要的技术错误。

苹果的第一个错误是过度依赖神经哈希算法的完整性。在安全环境中使用的哈希算法通常经过几十年的竞争才被采纳为标准。无法确切验证神经网络在所有可能情况下的确切行为。事实上，就在神经哈希发布不久后，用户就创造了碰撞攻击，可以对任何照片进行微小修改，使网络识别图像为不良内容。

第二个错误是记者、开发人员和安全工程师在此事件后对训练数据控制的感知缺失。苹果声称仅训练神经哈希算法以匹配扣押儿童色情照片数据库中的照片特征。在像美国这样的国家，州和联邦执法机构维护着被没收的儿童色情数据库，逮捕恋童癖者在大部分世界上都是一个不受争议的主题。然而，截至 2020 年，苹果产品和服务在超过 52 个国家销售。这种分布很大程度上依赖于苹果与各国政府的合作。如果某个国家希望用于扫描其他内容会发生什么呢？例如，如果某个威权政府或政治派别希望使用神经哈希来扫描反对党的口号或反对党政治家或活动人士的图像？

苹果在推迟（尽管未完全取消）发布此功能时，主要是因为神经哈希算法缺乏具体性，加上公众对其使用范围不仅限于苹果狭隘声明目标的信心不足。

案例 2：GitHub Copilot

2021 年 6 月，GitHub 与 OpenAI 合作发布了 Copilot，这是一个工具，可以根据在公共 GitHub 存储库上的训练自动完成代码。Copilot 由一个名为 Codex 的 ML 模型运行，它本身基于 OpenAI 的 GPT-3（但是训练的是代码而不是原始文本）。因此，Codex 可以接受原始文本提示，并在多种编程语言中生成工作代码。虽然它不能完全替代人类程序员，但 Codex 擅长解决像在 Meta、Apple、Amazon、Netflix 或 Alphabet 的 Google 的白板面试中可以预期的算法问题。

Codex 的泛化能力令人印象深刻，但它也带有与GPT-3 模型相同的一些问题，即在要求完成特别罕*或不寻常提示时，它易于记忆。Codex 也有同样的问题，只不过它记住的信息可能是受版权保护的代码或意外暴露的秘密。

首次报告此问题的是一位 SendGrid 工程师，他演示了如果您向 Copilot 请求 API 密钥（同样类型的密钥可以授予对重要数据库的有选择访问权限），Copilot 会显示它们。不久之后，人们发现他们可以向 Codex 请求秘密，比如 AWS 的秘密密钥（例如，某人可以获得对整个公司使用的 AWS 后端的特权访问）或者加密货币钱包的秘密密钥（例如，比特币的秘密密钥将允许某人窃取该钱包中的任意数量比特币，可能价值数百万美元）。

有几种解决此问题的方法。一种方法是在训练数据代码库中搜索 API 密钥并对其进行审查。用相同的 X 替换哈希和密码每个字符将会很容易，尽管找到每个暴露的密码、哈希和 API 密钥的过程将会更加困难，其成功也无法保证。此外，关于 Copilot 的训练数据和输出引发了法律问题。许多开源开发者对 GitHub 未经授权和未经许可使用受版权保护的源代码作为模型训练数据感到愤怒，并基于这些理由开始远离 GitHub。不总是可以证明输出是基于专有代码的，但确实存在一些明显的例子。在一个尤为明目张胆的案例中，Copilot 可以复制 Carmack 在游戏 Quake 3 中著名的反*方根函数。即使是熟练的 C 开发者也不太可能从头开始想出这个解决方案，但通过包含某人的代码注释，复制变得更加明显。

这是一个更加棘手的问题需要解决；它不仅仅是删除少量字符就能解决的。一个简单的方法可能是从训练语料库中排除带有特定类型许可证文件的代码库。然而，是否应该根据缺少这类文件来包含其他代码库，是否算作知情同意却并不明确。软件知识产权律师Kate Downing 提出，尽管创造 Copilot 可能在技术上是合法的，但在法庭上仍有许多问题需要解决（更别提在道德上仍然具有争议）。这是因为 GitHub 多年来一直提供诸如 GNU 通用公共许可证（GPL）第 2 版和第 3 版的许可证。然而，他们从未真正宣传过你现在可以选择一种许可证，以后又可以选择另一种许可证，或者用户在未来可以获得不同的权限。这两个都是 GitHub 的特点，如果用户被更多告知，他们可能不会授予 GitHub 如此广泛的权限来使用他们的代码。考虑到有多少开源开发者因为这种使用而离开 GitHub，很可能他们不会同意这种用法。

案例 3：从无代码 ML 工具中窃取模型和数据

许多公司一直在开发无代码模型，用于训练和部署机器学*系统。例如，Google 的 Teachable Machine和Microsoft 的 Lobe.ai提供了任何人都可以训练计算机视觉模型的方式。对于在机器学*方面经验不足的移动端或前端开发人员来说，这些工具可能看起来像魔法一样——但它们是一种称为灰盒攻击的攻击类型的完美目标。¹

考虑使用 Lobe.ai 制作的项目，这是一种允许任何人（无论其机器学*知识如何）在来自常规文件目录的数据上训练视觉模型的工具。如果您想训练您的模型以确定某人是否戴着口罩，您只需拿一组图像，用口罩遮住它们，将其作为训练数据。然而，少数 Lobe.ai 用户表明其分类器正在运行 Resnet150V2 模型。如果您了解该模型，您可以获取关于其模型架构的大量信息，这使得窃取模型权重（这些权重是神经网络上分配给神经元的数字，它们允许它在计算密集的训练期间存储所有重要的模式、函数和信息）变得更加容易。对于任何已经花费大量 GPU 小时训练模型并花费大量人力小时进行迭代和构建管道的组织来说，这种窃取都将是危险的。毕竟，如果窃取竞争对手的专有模型更容易，那为什么要花费所有的时间和金钱呢？

尽管无代码工具很有价值，但是当有人对所讨论的机器学*模型非常了解时，这时就会引发一些担忧。无数组织使用作为 Keras 或 PyTorch 的一部分可以找到的开箱即用的架构。随着公司将其机器学*模型作为产品出售，供作为 API 接口使用，一些恶意行为者可能会趁机窃取这些模型本身。

定义

在看过前述例子之后，您可能会认为自己对隐私有了相当好的理解。但在构建保护隐私的系统时，定义非常重要。在本节中，我们将介绍一些您将在本书中看到的关键术语。

隐私的定义

根据韦伯斯特词典的定义，隐私是“远离他人视线或视图的质量或条件”，或者“摆脱公众关注或未经授权的侵入状态”。这个定义可能会让人觉得隐私要么是“有或无”，但这是一个过于简化的看法。如果我们有数据因任何原因对任何人都不可*（甚至不是使用数据的应用程序），那从技术上来说是私有的，但对大多数应用程序来说功能上是无用的。在数据不完全开放和完全关闭之间有许多中间地带。因为在实际环境中隐私是一个连续的过程而不是二元的，所以我们需要一些衡量方式。

代理和隐私度量

测量隐私是一个与定义隐私分开的问题。伊莎贝尔·瓦格纳和大卫·艾克霍夫²进行的一项回顾将许多现有的度量分类为敌对成功、不可区分性、数据相似性、准确性和精确度、不确定性、信息增益/损失和时间消耗等类别。

敌对成功

假设某种敌对方（我们将其称为敌手）想要获取我们拥有的任何数据或我们发送或接收的通信的内容。我们不希望他们看到或拼凑出这些信息。敌手成功的机会是多少？

这是隐私度量的一个非常普遍的类别。我们不知道敌手的目标、知识、能力或工具。敌手可能是任何人或任何事物：一个好奇的用户，一个企业间谍，一个国家间谍，一个孤独的小偷，一家公司的预防性渗透测试员，甚至是只是嘲笑你没有正确保护数据或通信的 DEFCON 会议与会者³。敌手可能是一个完全不了解技术后端的外部人，或者他们可能已经确切地了解你正在使用的协议或技术。

鉴于这种度量的模糊性和开放性，还有其他建立在预期敌手攻击概念基础上的定义。

不可区分性

不可区分性是指敌手在流程或数据集中分辨两个实体的能力。隐私的这个定义是私有机器学*技术（如差分隐私，*“k-匿名性”）的焦点。

数据相似性

基于数据相似性的隐私定义侧重于数据中的特征和子组的分离程度（例如，区分一个人的记录和另一个人的记录）。这是机器学*隐私技术如 k-匿名性（我们在“差分隐私”中讨论）的焦点。

准确性和精确度

针对隐私的基于准确度的度量侧重于对手对数据或通信的估计的准确性和精度。这可能涉及使用 F1 分数、精确度或召回率等度量标准，以评估对手对数据信息的估计有多接近。如果对手的估计不够准确，隐私性就更高。

不确定性

不确定性度量假设更大的不确定性意味着对手违反隐私承诺的可能性较小。对手对真实信息的估计存在较大误差或熵时，其隐私性就越高。这与基于准确度的度量有些相似，尽管它们不应混淆。准确度是读数接近实际值的程度，而不确定性则涉及可能偏离准确读数的异常和离群值。

信息增益/损失

信息增益/损失度量衡量对手从数据中可以获取或丢失多少信息。如果可以获取的信息较少，则隐私性较高。这个度量标准与不确定性略有不同，因为它考虑了攻击者在开始时已经掌握的信息量。

花费时间

一个积极主动的对手可能会反复尝试违反隐私，直到成功为止。基于时间的隐私定义假设隐私机制最终会失败，但某些隐私保护机制要比其他机制需要更多的时间投资才能破解。像同态加密这样的 ML 隐私技术（我们在“同态加密”中讨论）就是依据这种隐私定义工作的。

隐私的法律定义

上述隐私的代理和度量是评估系统隐私性的好方法。虽然这一领域很有用，但我们需要知道在哪里划线——但这个决定的一部分可能已经为您做出。如果您发布任何基于机器学*的产品，您就会无可避免地涉及到某些人的数据。因此，您将不可避免地遇到隐私法律的界限。

k-匿名

k-匿名的概念最早由 Pierangela Samarati 和 Latanya Sweeney 在 1998 年提出，⁴可以被视为“众多中的隐藏”的一个特定版本。它依赖于增加一个给定记录属于某个特定个体的不确定性。为了实现这一点，数据集至少需要 k 个个体共享一组可能用于识别他们的属性。在正确使用时，k-匿名是一个强大的工具。它也是更高级隐私工具如差分隐私的先驱之一（详*“差分隐私”）。

机器学*管道上侵犯隐私的攻击类型

现在你应该从机器学*的角度有了对隐私的良好概念性概述，为什么它很重要，以及它如何在 ML 管道中被侵犯。当涉及到侵犯隐私时，外部攻击者可以利用多种工具。攻击的最大一般类别包括成员攻击（识别模型的训练数据），模型反演（使用模型窃取专有数据）和模型盗窃（确切地说就是这样）。

成员攻击

机器学*模型的一个隐私风险是对手可能能够重构用于模型创建的数据。⁵ 成员推断攻击是确定样本是否来自训练 ML 模型的数据集的过程。对于被攻击的公司来说，这可能意味着对手能够洞悉专有模型的构建方式，甚至是输入数据的位置（特别是如果来自安全性较差的外部服务器，则风险更大）。

在成员攻击中使用的三个主要模型：

目标模型

这是在初始数据集上训练的模型。该模型为每个类别输出置信水*，具有最高置信值的类别被选择为输出类别。成员推断攻击基于这样一个思想：训练数据集中的样本在其实际类别中具有更高的*均置信值，而不在训练中看到的样本则不然。⁶

影子模型

在黑盒条件下，攻击者无法对置信水*进行统计分析，因为他们无法访问训练数据集。影子模型是一组模型（可能是模型架构和超参数的精确或非精确副本），旨在模仿目标模型的行为。一旦影子模型训练完成，攻击者可以为攻击模型生成训练样本。

攻击模型

这个模型将预测样本是否来自训练集。攻击模型的输入是置信水*，输出标签是“in”或“out”。

除非防御者有非常特定的不利设置，否则成员推断攻击是一种虚幻的威胁。⁷ 这尤其如此，与更擅长窃取训练数据，甚至是机器学*模型本身的攻击相比。

模型反演

大多数早期的此类攻击由于从中获得的信息少而耗时过长。对大多数 ML 应用程序来说，成员攻击可能风险较低，但还存在更危险的类型。重建攻击通过重建用于训练 ML 模型的数据，将成员攻击原则推向更深入的程度。这可以直接用于窃取训练数据中使用的个体的信息，或者揭示关于模型如何解释数据的足够信息，以找到进一步破坏其的方法。

首次提出于 2015 年，⁸ 模型反演攻击是一种更直接的窃取数据的方法。与确定输入是否属于数据集不同，这种攻击重建了实际数据的非常精确的表示。在原始论文中，该技术用于一个分类器训练的几个面部（*图 1-1）。与穷举每个可能的像素值可能属于个体不同，这种技术使用梯度下降来训练像素值以匹配模型输出的一个类别。

图 1-1。原始面部图像（右）和模型反演恢复的图像（左）（来自 Fredrikson 等人）

值得注意的是，通过这种模型反演攻击返回的数据是属于特定类别的数据的*均表示。在所呈现的设置中，它不允许对单个训练数据点进行反演。然而，在 Fredrikson 等人的研究中，每个面部分类器中的个体都代表其自己的类别。因此，该攻击可以用来获取关于个体的信息并侵犯其隐私。在应用如面部识别的情况下尤其如此，您只需要一个触发相同关键点识别的面部，而不是一个看起来像实际面部的面部。

自 2015 年首次展示此技术以来，模型反演攻击已经变得更加复杂。更糟糕的是，模型反演的概念已扩展到窃取不仅仅是数据。

模型提取

模型提取迈出了几步。与仅重建模型输入数据不同，模型提取攻击涉及窃取整个模型。这种类型的攻击首次描述于“通过预测 API 窃取机器学*模型”。⁹ 模型窃取攻击的范围可以从仅窃取模型的超参数¹⁰，到直接窃取模型权重。¹¹ 图 1-2 概述了模型窃取攻击的一般情况。攻击者近似梯度，导致模型输出其当前预测。

开发高性能模型是昂贵的。除了计算成本（对于某些模型可能达到数百万美元）之外，还有获取大规模且可能是私有数据集的成本。设计新颖的训练方法也是知识上的负担。考虑到所有这些因素，恶意行为者可能决定直接提取模型本身。

模型提取过程通常包括三个步骤：

收集数据集以查询受害模型
记录 API 在这些数据点上的预测
训练替代模型以模仿受害者

图 1-2. 模型窃取攻击结构的一般概述

这种攻击模式可能有很大的变化。早期的模型提取攻击高度依赖于选择哪个数据集用于查询。例如，根据选择 CIFAR10、CIFAR100 还是 MNIST，替代模型的准确性可能大不相同。更近期的攻击机制完全放弃了攻击选择，通过从控制概率分布中引入噪声来进行。在第 2 步中，不同的概率分布选择可以改变需要的查询数量，以接近一个令人满意的替代模型。在第 3 步中，攻击者可能对模型架构一无所知（即“黑盒”攻击），或者他们可能对架构的一些细节有所了解（即“灰盒”攻击）。

最终结果仍然相同。替代模型使用梯度近似，条件是替代输出概率与受害模型的输出概率有多相似。

如果您可以访问计算机视觉模型的输出对数，这种信息泄露具有巨大的滥用潜力。¹² 这些技术利用卷积神经网络的基本属性。这意味着任何使用它们的管道，不仅仅是训练图像的管道，都面临风险。这在“图神经网络上的模型提取攻击：分类和实现”案例中有所体现。¹³

计算机视觉模型易受攻击的部分原因是常*架构的重复使用。常*的机器学*库包含预构建的网络版本，如 ResNet 和 InceptionV3（参* PyTorch 和 Keras 模型动物园）。更糟糕的是，许多这些模型可以使用 ImageNet 权重加载。微调计算机视觉模型使潜在攻击者在窃取模型权重时获得更多信息。攻击者拥有权重的起始条件，无需从头开始重建架构。由于对神经网络部分先验知识的掌握，一些攻击是灰盒攻击。

窃取基于 BERT 的语言模型

本节灵感来自 CleverHans 团队对 NLP 模型窃取的演示，以及从 BERT 模型中窃取权重的最新技术。¹⁴^,¹⁵,¹⁶ 在本节中，我们探讨了通过使用在公共文本数据上预训练过的模型，并对其进行微调以执行任务的差分隐私文本分类器训练。此过程的第一步是训练 BERT 模型。

注意

您可以在BERT_attack notebook中找到与本教程相关的所有代码。

当使用差分隐私训练模型时，几乎总会面临模型大小与任务准确性之间的权衡。模型参数越少，使用差分隐私时获得良好性能就越容易。

大多数最先进的 NLP 模型非常深且庞大（BERT-base 具有超过 1 亿个参数），这使得在私有数据集上训练文本模型具有挑战性。解决此问题的一种方法是将训练过程分为两个阶段。首先，在公共数据集上预训练模型，将模型暴露于通用文本数据中。假设通用文本数据是公开的，在此阶段我们将不使用差分隐私。然后，冻结大部分层，只留下少数上层，在私有数据集上使用 DP-SGD 进行训练。这种方法融合了两种最佳实践——产生深度且强大的文本理解模型，同时只对少数参数使用差分隐私算法。

本教程将采用预训练的 BERT-base 模型，并将其微调以在 IMDB 电影评论数据集上识别情感分类。¹⁷

!pip -qq install nlp
!pip -qq install transformers
from transformers import (
    BertForSequenceClassification,
    BertTokenizerFast,
    Trainer,
    TrainingArguments,
)
from transformers import glue_compute_metrics as compute_metrics
from nlp import load_dataset
import torch
import numpy as np
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")

def tokenize(batch):
    return tokenizer(batch["text"], padding=True, truncation=True)

imdb_train_dataset, imdb_test_dataset = load_dataset(
    "imdb", split=["train", "test"]
)
imdb_train_dataset = imdb_train_dataset.map(
    tokenize, batched=True, batch_size=len(imdb_train_dataset)
)
imdb_test_dataset = imdb_test_dataset.map(
    tokenize, batched=True, batch_size=len(imdb_test_dataset)
)
imdb_train_dataset.set_format(
    "torch", columns=["input_ids", "attention_mask", "label"]
)
imdb_test_dataset.set_format(
    "torch", columns=["input_ids", "attention_mask", "label"]
)

BERT（双向编码器表示转换器）是用于各种 NLP 任务的先进方法。它使用变换器架构，并且在概念上依赖于预训练。我们将使用一个在 HuggingFace 变换器库中提供的预训练 BERT-base 模型。它提供了经过 PyTorch 实现的经典 BERT 架构，以及在维基百科（一个公共英语语料库）上预训练的分词器和权重。

该模型具有以下结构。它使用单词、位置和标记嵌入的组合来创建序列表示，然后通过 12 个变换器编码器传递数据，最后使用线性分类器生成最终标签。由于模型已经预训练，我们只计划对几个上层进行微调，因此希望冻结所有层，除了最后一个编码器及以上的层（BertPooler 和 Classifier）。图 1-3 展示了 BERT 模型的架构。

图 1-3. BERT 架构

因此，通过使用预训练模型，我们将可训练参数的数量从超过 1 亿减少到略高于 750 万。这将有助于提高性能并在增加噪声的同时加快收敛速度。以下是训练模型的代码。

def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    precision, recall, f1, _ = precision_recall_fscore_support(
        labels, preds, average="binary"
    )
    acc = accuracy_score(labels, preds)
    return {
        "accuracy": acc,
        "f1": f1,
        "precision": precision,
        "recall": recall,
    }

training_args = TrainingArguments(
   output_dir='./results',
   num_train_epochs=1,
   per_device_train_batch_size=16,
   per_device_eval_batch_size=16,
   warmup_steps=500,
   weight_decay=0.01,
   #evaluate_during_training=True,
   logging_dir='./logs',
)

trainer_vic = Trainer(
   model=model,
   args=training_args,
   compute_metrics=compute_metrics,
   train_dataset=imdb_train_dataset,
   eval_dataset=imdb_test_dataset
)

trainer_vic.train()
trainer_vic.evaluate()

此系统的推断是我们模型盗窃的机会所在。让我们尝试在 Yelp 极性数据集上运行推断。

_, origin_sample_test_dataset = load_dataset(
    "yelp_polarity", split=["train", "test"]
)

sample_test_dataset = origin_sample_test_dataset.map(
    tokenize, batched=True, batch_size=len(origin_sample_test_dataset)
)
sample_test_dataset.set_format(
    "torch", columns=["input_ids", "attention_mask", "label"]
)

class ExtractDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {}
        item["attention_mask"] = torch.tensor(
            self.encodings[idx]["attention_mask"]
        )
        item["input_ids"] = torch.tensor(self.encodings[idx]["input_ids"])
        item["label"] = torch.tensor(
            self.labels[idx].argmax(-1), dtype=torch.long
        )
        return item

    def __len__(self):
        return len(self.labels)

theft_train_dataset = ExtractDataset(
    sample_test_dataset, prediction_output.predictions
)
theft_training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=1,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_steps=500,
    weight_decay=0.01,
    # evaluate_during_training=True,
    logging_dir="./logs",
)

trainer_extract = Trainer(
    model=model,
    args=theft_training_args,
    compute_metrics=compute_metrics_copycat,
    train_dataset=theft_train_dataset,
    # eval_dataset=imdb_test_dataset
)
trainer_extract.train()
trainer_extract.evaluate()

这种训练方案将产生一个输出行为与原始模型非常相似的模型。

防御模型输出日志的模型盗窃

如果可以仅通过其输出 logits 重建模型，则这对模型安全性不利。幸运的是，有两种防御方式来抵御这种推断攻击。

第一种防御方法是增加查询模型的成本。Xuanli He 等人¹⁸ 探讨了使用公共数据集窃取模型权重的实际应用。基于这些数据集的大小和 Google 和 IBM 语言模型 API 的成本（假设这些是 API 调用成本的下限），他们提出了在表 1-1 中显示的使用这些数据集窃取基于 BERT 的语言模型的成本估算。

表 1-1. 攻击成本估算

数据集	查询次数	Google 价格
TP-US	22,142	$22.10 \| $66.30
Yelp	520 K	$520.00 \| $1,560.00
AG	112 K	$112.00 \| $336.00
博客	7,098	$7.10 \| $21.30

根据云服务提供商的不同，攻击的成本可能从几十美元到几千美元不等。同一研究表明，甚至无需选择匹配的变压器架构，即可制作一个紧密匹配的模仿模型（例如，在 BERT 模型的输出上训练 DistilBERT 模型是一种可行的攻击选项）。因此，增加机器学*模型 API 调用的成本将大大有助于防范此类攻击（这是 OpenAI 在 GPT-3 上采取的策略；由于 API 调用成本，对 GPT-3 API 进行反演攻击的最终成本可能超过从头开始训练一个 GPT-3 模型的成本）。

这里有第二种（更巧妙的）防御方式。就像用磨砂玻璃遮挡你的脸会阻碍面部识别一样，你也可以向输出 logits 添加混淆噪声。你可以在模型训练期间加入输出噪声¹⁹，或者在普通训练模型的预测概率后添加随机噪声²⁰。这种“预测污染”的添加噪声是我们将在下一节中展示的策略。

注意

考虑到模型盗窃的危险性及攻击者的创造力，这是一个持续研究的领域。有方法可以发现正在进行的攻击。²¹^,²² 也有方法可以“加固”你的训练数据样本。²³ 你可以通过使用模型集成来进一步混淆模型盗窃攻击。²⁴

如果您试图弄清楚最重要的防御攻击，所有这些提议的想法和防御策略可能会显得令人生畏。特别是如果研究非常新，并且您还没有听说过许多成功的真实用例。最终，值得在您自己的系统上模拟这些攻击，以查看其效果。²⁵^,²⁶

这绝不是可用于针对 ML 管道进行攻击的全面选择。如前所述，攻击者将选择最不费力的路径。如果您能将某种形式的隐私测试工具整合到您的管道中，将会使攻击者的工作更加困难。

隐私测试工具

Google Cloud *台（GCP）具有用于计算给定数据集的k-匿名性的工具。精确的计算方法可以通过 GCP 控制台、GCP 协议、Java、Node.js、Python、Go、PHP 或 C#完成。更多关于此的 Python 示例可以在 Google 的python-dlp GitHub上找到。其他用于 k-匿名化的 Python 模块包括：

Nuclearstar / K-匿名

基于聚类的 K-匿名实现

qiyuangong / 基于聚类的 K-匿名

另一种基于聚类的 K-匿名实现

qiyuangong / Mondrian

Mondrian 多维 K-匿名的 Python 实现

kedup / python-datafly

用于表格数据 K-匿名的 Datafly 算法的 Python 实现

其他隐私测试工具包括：

PrivacyRaven，由 Trail of Bits 创建
TensorFlow 隐私，由 TensorFlow 创建
机器学*隐私计量器，由新加坡国立大学数据隐私和可信机器学*实验室创建
CypherCat（仅存档），由 IQT Labs / Lab 41 创建
对抗鲁棒性工具箱（ART），由 IBM 创建
机器学*隐私计量器，一种工具，用于量化机器学*模型在推断攻击（特别是成员推断攻击）方面的隐私风险

保护隐私的方法

就像从 ML 模型中窃取信息有多种方法一样，确保这种窃取变得难以实施的方法也有多种。

差分隐私

差分隐私（DP）是一种通过使用数据内子群体的高级模式来分享数据集洞*的方法，同时掩盖或省略特定个体的数据。DP 背后的主要假设是，如果对数据进行单一更改的影响足够小，则从查询中提取有关个体的信息将变得困难。

差分隐私可以被视为诸如 k-匿名性等概念的扩展。其不同之处在于，差分隐私通常被扩展到更高维度的数据上。大多数现代实现都依赖于所谓的 $ϵ$ -差分隐私。

假设 $ϵ$ 是一个实数， $𝒜$ 是一个以数据集作为输入的随机化算法。 $upper D 1$ 和 $upper D 2$ 指的是仅改变一个元素（例如，一个人的数据）的两个数据集。算法 $𝒜$ 对所有可能的 $upper D 1$ 和 $upper D 2$ 组合，以及 $𝒜$ 的可能输出子集，提供 $ϵ$ -差分隐私：

$upper P left-parenthesis script upper A left-parenthesis upper D 1 right-parenthesis element-of upper S right-parenthesis less-than-or-equal-to exp left-parenthesis epsilon right-parenthesis ModifyingAbove upper P With dot left-parenthesis script upper A left-parenthesis upper D 1 right-parenthesis element-of upper S right-parenthesis$

有各种具体的技术用于实现差分隐私。这些包括像拉普拉斯机制这样的加性噪声机制，用于本地差分隐私的随机响应，以及通过某种保持汉明距离的转换来传递数据。这种形式设计的目的是确保在后处理中隐私具有鲁棒性，并且如果面对高度相关的特征，至少能够逐渐和显著地退化。差分隐私的另一个优点是它在防御某些模型提取攻击方面的有用性。²⁷

偷取经过差分隐私训练的模型

我们已经讨论了差分隐私和对模型盗窃的抵抗力等概念。²⁸ 在这里，我们将详细讨论如何在这种情况下窃取模型权重。我们可以采用一个经过差分隐私训练的预训练网络，然后看它如何抵御各种类型的攻击。让我们继续采用之前的 BERT 架构，并尝试使用差分隐私进行训练。

注意

你可以在Chapter_1_PyTorch_DP_Demo notebook中找到与本教程相关的所有代码。大部分代码是在 Opacus v1.1.0 和 PyTorch v11.0.0 最新版本发布之前不久编写的。这些交互式代码教程将根据最终版本进行调整。请注意，它们需要大量的 RAM。

与我们的原始实现相比，这次训练的主要区别在于我们使用了 Meta 的 Opacus 库。这是一个允许我们将差分隐私整合到 PyTorch 模型中的库。我们通过在 DataLoader 对象中定义并附加 Opacus 隐私引擎，修改了典型的 PyTorch DataLoader-based 训练过程。

train_loader = DataLoader(
   train_dataset,
   num_workers=WORKERS,
   generator=generator,
   batch_sampler=UniformWithReplacementSampler(
       num_samples=len(train_dataset),
       sample_rate=SAMPLE_RATE,
       generator=generator,
   ),
   collate_fn=padded_collate,
   pin_memory=True,
)

在模型训练中遇到的通常超参数之外，DP 引入了一个隐私成本超参数，这又因为批量大小较大而受益，因为噪声被缩放到批量中一个样本的范数。

test_loader = torch.utils.data.DataLoader(
   test_dataset,
   batch_size=BATCH_SIZE_TEST,
   shuffle=False,
   num_workers=WORKERS,
   collate_fn=padded_collate,
   pin_memory=True,
)

要考虑的权衡是，这意味着相对于噪声 epsilon 增长的批量大小增加为O(sqrt(batch_size)。 Opacus 的峰值内存占用量为O(batch_size²)，与非差分隐私模型相比。幸运的是，Opacus 支持一个名为virtual_batch_size的超参数，可以将梯度计算与噪声添加和参数更新分离（以收敛性和隐私保证为代价）。

if SECURE_RNG:
   try:
       import torchcsprng as prng
   except ImportError as e:
       message = (
           "Need to install the torchcsprng package! "
           "Documentation: https://github.com/pytorch/csprng#installation"
       )
       raise ImportError(message) from e

   generator = prng.create_random_device_generator("/dev/urandom")

else:
   generator = None

引擎构建完成后，我们可以训练模型：

# Move the model to appropriate device
model = model.to(device)
# Set the model to train mode (HuggingFace models load in eval mode)
model = model.train()
optimizer = optim.Adam(model.parameters(), lr=LR)

if not DISABLE_DP:
   privacy_engine = PrivacyEngine(
       model,
       sample_rate=SAMPLE_RATE,
       alphas=[1 + x / 10.0 for x in range(1, 100)] + list(range(12, 64)),
       noise_multiplier=SIGMA,
       max_grad_norm=MAX_PER_SAMPLE_GRAD_NORM,
       secure_rng=SECURE_RNG,
   )
   privacy_engine.attach(optimizer)

mean_accuracy = 0
for epoch in range(1, EPOCHS + 1):
   train(model, train_loader, optimizer, epoch)
   mean_accuracy = evaluate(model, test_loader)

if not DISABLE_DP:
   torch.save(mean_accuracy, "bert_imdb_class_dp.pt")
else:
   torch.save(mean_accuracy, "bert_imdb_class_nodp.pt")

对于测试准确性，你会注意到噪声是有代价的。epsilon 值越高，输入数据就越受保护，最终模型的准确性就越低。选择 epsilon 值取决于愿意为隐私而牺牲多少模型准确性。在实现差分隐私时，很遗憾没有免费午餐。

同态加密

在任何高风险工程领域，将关键任务数据在存储前进行加密是一种标准的最佳实践。同态加密是将数据转换为密文，可以像原始数据一样进行分析和处理的技术。同态加密的理念是通过能够在加密数据上运行数学操作来扩展公钥密码学，而无需访问秘密密钥。数学操作的输出仍将是加密的。这种技术已经发展了数十年，可能指的是几种变体之一：

部分同态加密

系统只能评估一种加密操作类型（例如，加法或乘法）。

部分同态加密

系统可以评估两种类型的操作（例如，加法和乘法），但仅限于系统的某个子集。

分级全同态加密

系统可以评估由多层操作组成的任意计算（尽管对这些操作可以嵌套多深有所限制）。

全同态加密（FHE）

这是最强大（也是理想的）加密形式。全同态加密允许对由多种操作类型组成的任意算法进行评估，而不限制嵌套深度。

HE 存在两个主要缺点。首先是需要精心存储负责加密和解密的加密密钥。几十年来，这一问题在许多其他工程领域都是一个问题，因此关于如何最佳实施有大量文献可供参考。³¹ 第二个问题是 HE 带来的巨大计算成本。在早期阶段，这使程序运行时间增加了数百万倍。最近，计算成本已经降低到增加数百倍的程度。有许多方法可以将 HE 应用到机器学*中。这些方法从数据加密，到神经网络或决策树加密，再到两者的组合加密，涵盖了多种应用场景。

像许多保护隐私的机器学*技术一样，OpenMined 生态系统提供了 HE 工具。这些工具包括一个针对 TenSEAL 的 Python 接口，TenSEAL 是微软的同态加密库。

安全多方计算

如果全同态加密受到计算复杂性的限制，那么下一个最好的选择就是安全多方计算（SMPC）。SMPC 的理念是多个参与方在保持各自输入私密的同时计算一个函数。与专注于防范外部对手或存储数据保护不同，这种隐私方法保护了参与者之间的隐私。

考虑以下工作流程：一个人获取原始数据，用数字 12 表示。每个涉及的方都获取数据的一部分（如 5 或 7），并执行某些操作（例如“乘以 3”）。当输出合并时（ $15 + 21 = 36$ ），结果与直接在原始数据上运行操作的结果相同。如果保持 A 方和 B 方不知道最终输出的 36，则他们无法推断出原始数据点 12。这是一个超简化的加法示例，但现在想象一下这是一个机器学*流水线。我们的原始数据是一堆用户数据，而不是数字 12。A 方和 B 方获得这些数据的片段，而不是数字 5 或 7。他们正在运行的操作当然是乘法，但在训练 ResNet 模型时进行的是大规模的矩阵乘法。SMPC 的目标是将这些输出转化为一个合并的决策边界。

能够在聚合数据上进行模型训练，而无需让任何人访问这些聚合数据，将是非常宝贵的，特别是如果训练数据涉及一系列安全、隐私、政策或法律风险。例如，医学研究人员可以在基因数据上进行人口研究，而无需在研究机构之间共享数据。如果工资数据实际上从相关公司中永远不离开，研究公司间的性别工资差距将更为可行。

安全多方计算有时与“远程执行”或“可信执行”互换使用。然而，后者并不总是描述安全多方计算。SMPC 是“远程/可信执行”的一个子集。全同态加密可以在 SMPC 内实现，但 SMPC 并不需要它。

SMPC 示例

对于使用 PyTorch 生态系统的 ML 系统，可以使用 Facebook Research 的 CrypTen 库。CrypTen 的目标是确保实现 SMPC 所需的服务器间交互时最小化摩擦。

注意

您可以在附带的 Jupyter Chapter_1_SMPC_Example notebook 中查看本教程的完整代码。本教程基于 OpenMined 的预发布版本，并基于 Ayoub Benaissa（一位知名的 OpenMined 贡献者）的代码。详细信息将在出版前最终确定，但在此之前不应用于保护重要数据。代码教程将相应更新，以展示最新版本 OpenMined 的最佳实践。

CrypTen 的创建考虑到了“诚实但好奇”的入侵者。最初，它是为内部参与者而建立的，而不是为了防范外部攻击者。OpenMined SMPC 项目进一步扩展了 CrypTen，回答了原始 CrypTen 公告中一些未解答的问题。关于 CrypTen 各方如何同步和交换信息，没有任何改变。然而，PySyft 可以用于启动工作人员之间的计算，并在工作人员之间交换最终结果。

import torch
import torch.nn as nn
import torch.nn.functional as F
import crypten
import syft
from time import time

torch.manual_seed(0)
torch.set_num_threads(1)
hook = syft.TorchHook(torch)

from syft.frameworks.crypten.context import run_multiworkers
from syft.grid.clients.data_centric_fl_client import DataCentricFLClient

对于这次深入学*，您需要同时安装 PySyft 和 CrypTen。您还应使用Crypten的 MNIST_utils 安装 MNIST。此外，在两个分别监听端口'3000'和'3001'的GridNode中启动两个GridNode，分别具有 ID 为'ALICE'和'BOB'。您可以在两个独立的终端中初始化GridNode来完成此操作。

!pip -qq install torch==1.8.0
!pip -qq install syft==0.2.9
!pip -qq install crypten

对于本教程，我们可以在标准 PyTorch 中定义一个简单的神经网络。

# Define an example network
class ExampleNet(nn.Module):
   def __init__(self):
       super(ExampleNet, self).__init__()
       self.conv1 = nn.Conv2d(1, 16, kernel_size=5, padding=0)
       self.fc1 = nn.Linear(16 * 12 * 12, 100)
       self.fc2 = nn.Linear(100, 2)

   def forward(self, x):
       out = self.conv1(x)
       out = F.relu(out)
       out = F.max_pool2d(out, 2)
       out = out.view(-1, 16 * 12 * 12)
       out = self.fc1(out)
       out = F.relu(out)
       out = self.fc2(out)
       return out

现在，您可以通过它们各自的端口连接到ALICE和BOB，然后准备并发送数据给不同的工作人员（这仅用于演示；在实际实现中，数据应该已经被私下存储）。如果您使用不同的端口或在远程机器上运行工作人员，则应更新 URL。

# Syft workers
print("[%] Connecting to workers ...")
ALICE = DataCentricFLClient(hook, "ws://localhost:3000")
BOB = DataCentricFLClient(hook, "ws://localhost:3001")
print("[+] Connected to workers")

print("[%] Sending labels and training data ...")
# Prepare and send labels
label_eye = torch.eye(2)
labels = torch.load("/tmp/train_labels.pth")
labels = labels.long()
labels_one_hot = label_eye[labels]
labels_one_hot.tag("labels")
al_ptr = labels_one_hot.send(ALICE)
bl_ptr = labels_one_hot.send(BOB)

# Prepare and send training data
alice_train = torch.load("/tmp/alice_train.pth").tag("alice_train")
at_ptr = alice_train.send(ALICE)
bob_train = torch.load("/tmp/bob_train.pth").tag("bob_train")
bt_ptr = bob_train.send(BOB)

print("[+] Data ready")

配置完工作人员后，实例化您的模型并创建一个占位符输入，用于构建整个 CrypTen 模型。

# Initialize model
placeholder_input = torch.empty(1, 1, 28, 28)
pytorch_model = ExampleNet()

定义用于训练神经网络的 CrypTen 计算相对简单。您只需要用@run_multiworkers装饰器装饰您的训练循环函数，就可以在不同的工作人员之间运行它。

@run_multiworkers(
    [ALICE, BOB],
    master_addr="127.0.0.1",
    model=pytorch_model,
    placeholder_input=placeholder_input,
)
def run_encrypted_training():
    rank = crypten.communicator.get().get_rank()
    # Load the labels
    worker = syft.frameworks.crypten.get_worker_from_rank(rank)
    labels_one_hot = worker.search("labels")[0]
    # Load data:
    x_alice_enc = crypten.load("alice_train", 0)
    x_bob_enc = crypten.load("bob_train", 1)
    # Combine the feature sets: identical to Tutorial 3
    x_combined_enc = crypten.cat([x_alice_enc, x_bob_enc], dim=2)
    # Reshape to match the network architecture
    x_combined_enc = x_combined_enc.unsqueeze(1)
    # model is sent from the master worker
    model.encrypt()
    # Set train mode
    model.train()
    # Define a loss function
    loss = crypten.nn.MSELoss()
    # Define training parameters
    learning_rate = 0.001
    num_epochs = 2
    batch_size = 10
    num_batches = x_combined_enc.size(0) // batch_size

    for i in range(num_epochs):
        # Print once for readability
        if rank == 0:
            print(f"Epoch {i} in progress:")
            pass
        for batch in range(num_batches):
            # define the start and end of the training mini-batch
            start, end = batch * batch_size, (batch + 1) * batch_size
            # construct AutogradCrypTensors out of training examples / labels
            x_train = x_combined_enc[start:end]
            y_batch = labels_one_hot[start:end]
            y_train = crypten.cryptensor(y_batch, requires_grad=True)
            # perform forward pass:
            output = model(x_train)
            loss_value = loss(output, y_train)
            # set gradients to "zero"
            model.zero_grad()
            # perform backward pass:
            loss_value.backward()
            # update parameters
            model.update_parameters(learning_rate)
            # Print progress every batch:
            batch_loss = loss_value.get_plain_text()
            if rank == 0:
                print(
                    f"\tBatch {(batch + 1)} of \
                {num_batches} Loss {batch_loss.item():.4f}"
                )
    model.decrypt()
    # printed contain all the printed strings during training
    return printed, model

现在您可以完成分布式计算。这将生成一个字典，其中包含每个工作人员的结果，由其运行的派对排名索引。例如，result[0]包含在'alice'上运行的派对0的结果，而result[0][i]包含根据返回的值数量而定的第i个值。

print("[%] Starting computation")
func_ts = time()
result = run_encrypted_training()
func_te = time()
print(f"[+] run_encrypted_training() took {int(func_te - func_ts)}s")
printed = result[0][0]
model = result[0][1]
print(printed)

模型输出是一个 CrypTen 模型，但只要模型未加密，您可以使用 PySyft 共享参数。

cp = syft.VirtualWorker(hook=hook, id="cp")
model.fix_prec()
model.share(ALICE, BOB, crypto_provider=cp)
print(model)
print(list(model.parameters())[0])

更进一步的 SMPC 工具

OpenMined 还在研究 SMPC 的许多非 ML 应用。例如，它有一个演示项目，用于使用私有集交集来警示个体，他们已经接触到 COVID-19。

联邦学*

联邦学*（FL）是安全多方计算的一个子集。它还可以与其他保护隐私的 ML 技术如差分隐私和 HE 结合使用。FL 特指将可训练模型的副本发送到数据所在的任何位置，对此数据进行训练，然后将训练更新回收到一个全局模型中。在任何时候，数据本身都不会聚合到一个数据库中。只有模型、模型更新或模型片段会传输。

谷歌使用 FL 提升 Android 键盘的文本自动补全功能，同时不会暴露用户的文本或将其上传到云中介。³⁴ 自 2019 年以来，苹果一直在使用 FL 提升 Siri 的语音识别能力。³⁵ 随着时间的推移，更复杂的模型也可以进行训练。由于离线强化学*的进展，现在还可以使用 FL 来进行强化学*代理。

FL 理论上可以在 CrypTen 中实现，³⁶ 但 OpenMined 提供了额外的支持来在 PyTorch 中实现联邦学*。³⁷ TensorFlow 生态系统通过 TensorFlow Federated 支持 FL。

警告

差分隐私、FL 和 SMPC 等技术通常用于防止数据泄漏和保护机器学*模型的安全。但是，这不应与遵守数据隐私法律混淆（其中一些法律具有具体的要求列表，不包括这些技术）。在某些情况下，这些技术可以帮助遵守法律要求，但它们并不自动实现遵守，也不是唯一的最佳安全实践。例如，在美国使用 FL 作为 ML 流程的一部分是一个良好的实践，但并不会自动使您符合 HIPAA 法规。

结论

你已经了解到，同态加密、联邦学*、差分隐私和安全多方计算等技术都是机器学*隐私堆栈的不同部分（本身又仅是网络安全空间的一部分）。这些技术涵盖了数据泄漏的不同领域，从数据输入到模型参数再到决策输出。

几个团体已经开始结合这些技术。最近 MIT、瑞士数据安全实验室以及瑞士洛桑的几家医院之间的合作展示了联合学*、差分隐私、同态加密和多方计算组合到一个联合分析系统中（称为 FAHME），在图 1-4 中展示。³⁸

图 1-4. 系统模型和 FAMHE 工作流程（来源：基于 Froelicher 等人的图）

合作者们使用 FAHME 系统进行了肿瘤学和遗传学研究。目的是展示多个机构可以合作而无需其中任何一个机构访问完整数据，同时也不会在结果中引入任何错误。最终结果与使用汇总数据集的结果完全一致。作者还表明，这比使用元分析更容易且更精确，后者在原始数据不可用时涉及使用数据集的汇总统计信息。

使用元分析时的问题在于如何解决辛普森悖论。这是一个问题，即在多组数据中出现的趋势在合并后可能完全消失或反转。修正元分析中的辛普森悖论是一个困难的问题，³⁹ 但 FAHME 提供了一个有希望的解决方案：完全跳过元分析阶段，直接使用加密形式的汇总数据进行工作。在 FAHME 工作流程中，查询者向 FAHME 系统提交具有差分隐私的查询，该系统在结果计算中使用同态加密。生成的分析结果与多方计算结合。

这是对本章讨论的概念进行了出色的现实世界演示。然而，构建健壮可信的机器学*流水线远不止涉及隐私问题。

¹ 这个术语源自“黑盒子”和“白盒子”攻击。虽然一些人出于对黑色和白色所引入的潜意识偏*的敏感性，正在避免使用这些术语，但我们在本书中未能找到完全合适的替代方案，仍建议外部资源使用这些术语。我们希望提醒您注意偏*可能性，以免延续这种偏*。

² Isabel Wagner 和 David Eckhoff，“技术隐私度量：系统性调查”，ACM 计算调查 (CSUR) 51, no. 3 (2018): 1–38。

³ 请参阅此报告中关于Hacker Wall of Shame的例子。您可能也听说过预防性渗透测试人员被称为“白帽”黑客，这个名称源于西部电影中主角典型穿着的白色帽子。

⁴ Pierangela Samarati 和 Latanya Sweeney，“在信息披露时保护隐私：K-匿名及其通过概括和抑制实施”，1998 年。

⁵ 首次描述成员推断攻击的是 Reza Shokri 等人，“针对机器学*模型的成员推断攻击”，2017 年 IEEE 安全与隐私研讨会 (SP)，(2017): 3–18。

⁶ Shokri 等人，“针对机器学*模型的成员推断攻击”，3–18。

⁷ 想要了解更多关于为何成员推断攻击尤为高风险低回报的内容，请参阅 Paul Irolla，“揭秘成员推断攻击”，Disaitek，2019 年 9 月 19 日。

⁸ Matt Fredrikson 等人，"利用置信信息和基本对策的模型反转攻击"，第 22 届 ACM SIGSAC 计算机与通信安全会议论文集 (2015): 1322–33。

⁹ Florian Tramèr 等人，"通过预测 API 窃取机器学*模型"，第 25 届 USENIX 安全研讨会(USENIX Security 16) (2016): 601–18.

¹⁰ Binghui Wang 和 Neil Z. Gong，"在机器学*中窃取超参数"，2018 年 IEEE 安全与隐私研讨会(SP) (2018): 36–52。

¹¹ Antonio Barbalau 等人，"黑盒 ripper：使用生成进化算法复制黑盒模型"，第 33 届神经信息处理系统进展 (2020)。有关完整代码，请访问GitHub。

¹² J. R. Correia-Silva 等人，"通过说服随机非标记数据实现知识窃取的 Copycat CNN"，2018 国际联合神经网络会议(IJCNN)，(2018): 1–8.

¹³ Bang Wu 等人，"关于图神经网络的模型提取攻击：分类与实现"，2022 年亚洲计算机与通信安全 ACM 会议论文集 (2022): 337-50。

¹⁴ Kalpesh Khrisha 和 Nicolas Papernot，"如何通过胡言乱语窃取现代 NLP 系统"，cleverhans-blog，第 28 卷，2020 年。

¹⁵ 查看CleverHans 团队的代码示例。

¹⁶ Xuanli He 等人，"模型提取与对抗传递性，你的 BERT 是脆弱的！"，CoRR，第 abs/2103.10013 卷 (2021)；提取和转移代码可在GitHub上找到。

¹⁷ Samuel R. Bowman 等人，"用于学*自然语言推理的大型注释语料库"，arXiv 预印本 (2015)。项目页面包括使用此数据的论文及下载链接。

¹⁸ Xuanli He 等人，"模型提取与对抗传递性，你的 BERT 是脆弱的！"，arXiv 预印本 (2021)。

¹⁹ Yuto Mori 等人，"BODAME：胆汁优化用于抵御模型提取"，arXiv 预印本 (2021)。

²⁰ Tribhuvanesh Orekondy 等人的文章，“预测污染：防范 DNN 模型窃取攻击的防御方法”，发表于《arXiv 预印本》（2019）。代码示例可在 GitHub 查看。

²¹ Soham Pal 等人的文章，“检测模型提取攻击的状态性方法”，发表于《arXiv 预印本》（2021）。

²² Zhanyuan Zhang 等人的文章，“关于模型提取查询及其检测方法的初步研究”，加州大学伯克利分校研究项目，2021 年。

²³ Amir Mahdi Sadeghzadeh 等人的文章，“只需样本难度即可：利用样本难度保护深度学*模型”，发表于《arXiv 预印本》（2021）。

²⁴ Sanjay Kariyappa 等人的文章，“利用多样化模型集合保护 DNN 免受窃取攻击”，发表于 2020 年。

²⁵ Mika Juuti 等人的文章，“PRADA：防范 DNN 模型窃取攻击”，发表于《2019 IEEE 欧洲安全与隐私研讨会（EuroS&P）》，2019 年：512–27。

²⁶ Chen Ma 等人的文章，“模拟未知目标模型以进行查询效率高的黑盒攻击”，发表于《arXiv 预印本》（2020）。代码可在 GitHub 查看。

²⁷ Huadi Zheng 等人的文章，“用差分隐私扰动保护机器学*模型的决策边界”，发表于《IEEE 可靠与安全计算期刊》（2020）：2007-22。

²⁸ 例如，请参阅 Google 的差分隐私 GitHub 仓库。

²⁹ 查看 Lex Fridman 的项目演示文稿。

³⁰ Adam James Hall 等人的文章，“Syft 0.5：一个可以普遍部署的结构透明*台”，发表于《arXiv 预印本》（2021）。

³¹ Aaron Rinehart 和 Kelly Shortridge 的书籍，“安全混乱工程”（O’Reilly，2020 年）。

³² PySyft 图书馆的最佳实践和哲学更多详情请参* Alexander Ziller 等人的文章，“Pysyft: A Library for Easy Federated Learning”，收录于《联邦学*系统》（Muhammad Habib ur Rehman 和 Mohamed Medhat Gaber 编辑），111–39. 纽约：Springer，2021 年。

³³ 如果你想深入了解分类法，请参阅 Huafei Zhu 等人的文章，“关于（安全）多方计算与（安全）联邦学*之间的关系”，发表于 DeepAI.org，2020 年。

³⁴ Brendan McMahan 和 Daniel Ramage，“联合学*：无需集中训练数据的协作机器学*”，Google Research（博客），2017 年 4 月 6 日。

³⁵ Karen Hao，“苹果如何个性化 Siri 而不收集您的数据”，MIT Technology Review，2019 年 12 月 11 日。

³⁶ David Gunning 等人，“CrypTen：一种新的基于 PyTorch 的安全机器学*研究工具”，MetaAI，2019 年 10 月 10 日。

³⁷ OpenMined 发表了关于联合学*的博客。

³⁸ David Froelicher 等人，“多方同态加密精准医学中真正隐私保护的联邦分析”，Nature Communications 12 卷，第 1 期（2021 年）：1–10。

³⁹ 例如，参* Gerta Rücker 和 Martin Schumacher，“辛普森悖论可视化：罗西格利塔 Zone Meta 分析的例子”，BMC Medical Research Methodology 8 卷，第 34 期（2008 年）。

第二章：公与偏

在本章中，我们将在定义评估和缓解关键概念之前，深入探讨机器学*模型中的偏*，并探索来自自然语言处理和计算机视觉环境的几个案例研究。

警告

本章涵盖了仇恨言论的主题，并包括对种族主义和性别歧视的图解讨论。

在讨论数学公*的定义之前，让我们先了解偏*及其后果在现实世界中的表现。请注意，在本章中讨论偏*时，我们指的是社会偏*，而不是机器学*中的偏差-方差权衡或归纳偏*。

注意

将社会偏*与神经网络的偏*混淆，许多人可能会问，通过将偏差项设置为 0 来解决这个问题是否可行。

在密集内核或层归一化中训练大型模型而不使用偏差项实际上是可能的。¹ 然而，这并不能解决社会偏*的问题，因为偏差项并不是模型中唯一的偏*来源。

这些案例研究有两个目的。首先，它们展示了 ML 模型缺乏公*性可能带来的潜在后果，以及为什么专注于这个主题如此重要。其次，它们说明了创建公* ML 模型的主要挑战之一：人类系统及其数据不公*，因此一个挑战是从潜在不公*的来源构建公* ML 模型。

案例 1：社交媒体

当用户将图片上传到 Twitter 时，网站会以一个标准尺寸显示图片预览，并自动裁剪其余部分。为了找出最佳裁剪图像的方法，Twitter 使用了人眼追踪数据集训练模型，识别出图像中最重要和应该在预览中显示的部分。²

在这样的算法中，偏*可能表现在哪里？该模型可能会根据它是否认为图像中的人物是白人或黑人，男性或女性而对人们采取不同的对待方式。例如，如果数据集包含将女性身体视为“男性目光”的文物，当模型裁剪被分类为女性的图像时，它可能会集中在他们的胸部或腿部而不是他们的脸部。该算法也没有为用户提供关于他们图像预览的选择。Twitter 团队发现了许多这样的投诉。³ 例如，在同时出现男性和女性的图像中，该算法会裁剪图像以集中展示女性。此外，在比较黑人和白人个体时，该算法更有可能将焦点放在白人个体上。

这些失败模式显然是不可接受的，尤其是用户的控制权如此之少。Twitter 通过推出使用标准长宽比选项，使用户可以选择退出自动裁剪来解决这个问题。

案例 2：医疗系统中的患者分类

在医疗领域，机器学*系统越来越多地被用于分诊患者、简化文档记录以及分析病理学和放射学报告。现在，让我们通过一个基于真实研究的思想实验来试试：想象一下，你被委托建立一个为高危护理管理项目提供慢性病患者访问专业护理人员并安排额外初级护理访问以进行更密切监测的分诊模型。

哪些数据可能对预测模型有意义？先前的医疗支出可能是一个选择，因为从逻辑上讲，人们可能认为，那些需要更严重和复杂治疗、因而需要更密集和昂贵治疗的患者，支出会更高。据加州大学伯克利分校健康政策与管理副教授 Ziad Obermeyer 称，“成本是总结某人有多少医疗需求的一种非常有效的方式。它在许多数据集中都有，而且不需要任何数据清洗。”⁴ 然而，即使是看似无害的数据也可能加剧偏*。

在美国的医院中，研究表明，总体上，黑人患者必须表现出比白人患者更严重的症状才能获得相同水*的护理。⁵ 因此，更少的黑人患者能够接触到密集的昂贵程序，这意味着黑人患者在医疗支出上花费较少，尽管他们的病情可能并不比其他人轻。因此，通过使用这一特征，模型不公*地将黑人患者置于次要位置，并可能放大已存在于医疗系统中的偏*。这种现象确实在多家医院观察到。

案例 3：法律系统

在美国，刑事法院制定风险评估来指导是否认定被告有再次犯罪可能性，以及是否符合事前释放等条件，或在审判后是否适用假释或特定判决。例如，由 Northpointe Bank 开发的软件根据被告调查和犯罪记录数据生成风险评分。调查问卷询问诸如“你的朋友/熟人中有多少人非法吸毒？”的问题，以及类似“一个饥饿的人有权偷东西”的同意/不同意问题。

鉴于人类法官之间的偏*和哲学观念有多种多样，自动化这一过程似乎是合乎逻辑的。问题在于，如果软件制作草率，充其量可能与有偏*的人类法官无异，甚至在最差的情况下表现得更差。ProPublica 记者调查了另一款名为COMPAS的再犯预测软件。在佛罗里达州布罗沃德县逮捕超过七千人的风险评分后，他们发现，只有 20%被预测将犯重罪的人在接下来的两年内确实如此做了。当软件试图预测所有类型的犯罪时，61%被预测将再犯的人确实在接下来的两年内再犯了。尽管全犯罪再犯预测比可悲的暴力犯罪预测更准确，但仍然仅比抛硬币略强。

这些并不是完全随机的错误。当数据根据种族、年龄和性别的影响进行调整时，黑人被告比白人被告更有可能被标记为有更高犯重罪风险的人，概率高达 77%。其他司法管辖区对这些评分进行了类似的评估，结果也相似，但通常是在使用软件数年后才发现。⁶

在高风险场景中，有偏*或不准确的决策算法可能具有破坏性，就像前述在医疗保健领域的例子一样，可以加强人类系统中的系统性偏*循环。这种情况可能导致灾难性后果，例如将无辜之人送进监狱（在恶劣的条件下），使住房和贷款不可及，等等。

公和公相关伤害的关键概念

出于这种动机，让我们在讨论公*和公*相关伤害时，定义一些将在本书中使用的概念。

人群可以根据共享的相似特征进行分类。这些特征可以是像性别、种族和残疾这样的“受保护”属性；在许多国家，基于这些属性的歧视是非法的。它们还可以是眼睛颜色、衬衫尺码或邮政编码等特征，这些特征并未正式受到保护。对人群进行分类的轴称为领域或维度。在本章中，我们将使用术语领域。对于每个领域，分享特定值的人群被称为群体。例如，在性别领域中，群体可能包括男人、女人、非二元性别和性别酷儿。

在考虑公*性时，首先有助于概述机器学*系统可能对人造成伤害的三种最常*方式。分配的伤害 发生在系统给不同群体提供不同资源量时。服务质量的伤害 发生在系统向不同群体提供高质量或低质量资源时。表现性伤害 指的是模型以不公*的负面形象来表现某些群体（例如，描述亚裔人群的词语比正面词语更多）。

注意

我们不关注上游模型的公*性，比如在单词和上下文化句子嵌入中的公*性。研究表明模型相关的公*性与下游、应用特定的公*概念之间几乎没有关联。⁷ 实际上，即使你的嵌入或模型权重没有偏*，模型预测中仍可能存在偏*。对于你的特定用例，优先考虑直接衡量损害是明智的选择。

个体公*

如果有两个仅在受保护属性上有所不同的个体，它们应该有类似的结果。我们希望尽可能地减少考虑受保护属性的决策过程。例如，在一个唱歌比赛中，评委可能会与表演者分开，这样评委就无法考虑外貌，决策完全基于艺术和技术能力。因此，个体公*侧重于确保个体在其属性上受到公*对待，而不是基于他们所属群体可能具有的特征。

等公

群体公* 侧重于确保在宏观层面上的*等。工具包 Fairlearn 定义群体公*为一组概念，“要求预测行为的某些方面（或方面）在由敏感特征定义的群体之间是可比较的。”⁸ 例如，在一个唱歌比赛中，组织者可能希望确保唱歌选手晋级下一轮的速率在所有群体中是相等的。群体公*需要一个度量标准来在群体之间实现*等，通常称为*等度量标准。对于唱歌比赛来说，*等度量标准将是候选人晋级下一轮的速率。这些群体公*的概念包括人口统计*等、均衡赔率和预测性*等。

注意

在计算*等公*时，应为每个群体报告公*度量标准。我们希望确保我们的模型为每个群体产生最佳结果。如果我们只测量*等度量标准而不考虑性能，我们可能会得到对所有群体都表现不佳的模型。

尽管公*没有单一的普遍定义，在本章中我们关注*等公*。要查找与公*相关的更全面的定义和概念清单，请参考Google 的术语表。参考 Bird 等人的文章，了解各种公*概念之间的关系概述。

计算等公性。

*等公*计算的高级步骤包括：

对于您的任务，请将测试数据分成由来自或关于各种群体的数据组成的子集。我们称这些子集为队列。
在每个队列上评估您的模型。
评估不一致性。

接下来的几节将依次查看每个步骤。

第一步：将测试数据分成队列。

第一步：将数据集分成对应于每个群体的子集。您可以选择在客户基础中有足够代表性的群体，或者您可以明确定义与社会偏*对应的群体，以减少这些偏*。例如，如果您的产品是一个聊天机器人，您可能希望考虑过去 12 个月中占客户基数超过 5%的群体。您还可以选择您所在地区的法律保护群体，但这种方法可能会侵犯客户隐私权，因为这意味着基于受保护属性对您的数据进行分类（这可能被用来识别用户）。此外，法律定义此类群体的方式通常落后于关于偏*的社会规范。⁹

第二步：获取模型性能结果。

现在您需要确定哪些性能指标是有意义的，以及如何将它们转化为度量标准。例如，如果您希望确保您的面部识别（定位和分类）算法适用于具有各种面部特征的人群，您可能希望使用像*均精度这样的度量标准。如果您正在评估毒性分类器，您可能希望确保它不会不公*地将包含某些人口统计学信息的文本分类为更负面的文本。最能捕捉这一点的指标可能是误报率，该指标衡量分类器在实际上并非有毒的文本中将文本识别为有毒的次数。

第三步：评估不一致性。

最后，根据步骤 1 中的队列<c1, c2, ..., cn>和步骤 2 中的度量标准，计算<c1, c2, ..., cn>的度量标准。让我们称这些度量值为<v1, v2, ..., vn>。

为了衡量公*性，我们计算一些度量标准，这些度量标准概括了这些度量值的*等（或不*等）。这可以是标准偏差或方差。这些值的标准偏差或方差越高，你的模型偏*就越大。

现在，为了更具体化，让我们看几个假设示例，展示如何将测试数据分成队列，并评估语言和计算机视觉任务中模型性能的差异。

场景 1：语言生成

语言模型在输入单词后会生成单词。它们可以被训练用来生成摘要，完成句子或建议搜索查询。¹⁰ 假设你正在使用语言模型自动完成句子。你希望确保它不会生成冒犯性文本。哪些评估度量标准可能是有意义的？

嗯，你不希望的是句子开头（或提示）提到特定群体时生成冒犯性的完成语。因此，你可能会首先筛选包含各种群体提及的提示，确保句子完成不包含任何群体的有毒语言或负面情感。

这正是像BOLD¹¹这样的数据集背后的理念，该数据集测量包含各种群体（职业、种族、性别）提示的毒性和情感。在 BOLD 中，对于每个队列g，你可以得到预测p。然后，你可以将p传递到毒性模型中，一个非有害模型会为每个群体的提示生成同等低毒性量的理想生成物。

接下来，您需要使用毒性分类器来评估每一代。您可以从Detoxify 库中获取无偏小型模型，该库包含一个在 Jigsaw 毒性上训练的毒性模型，输出输入是否有毒、严重有毒或冒犯的概率。该模型经过训练，以最小化与身份提及相关的毒性分类的意外偏差。例如，有偏*的毒性分类模型可能会将“今天是黑人社区的伟大一天”分类为有毒，因为存在“黑人”一词。要评估一代的毒性，将该代通过毒性分类器。

import tox-model
tox_model.predict(["An example generation"])

注意

确保您用于评估的模型本身是公*的非常重要。在冒犯或不良内容分类中，公*性通常采用*等化的概率，这衡量模型误差率（如虚假阳性）在队列之间的*等性。对于文本分类，队列由句子中特定人口群体的提及来定义。在图像领域中的工作相对较少，部分原因是 Gandhi 等人所概述的挑战。¹²

如何定义不良文本？研究人员试图创建一个全面的不接受和不良文本的分类法，如冒犯性和有毒语言、仇恨言论和垃圾邮件。Banko 等人提供了各种类型不良文本的分类法。¹³

鉴于我们的生成，存储在 CSV 文件中，每行中的对应提示、组和领域，我们首先获取所有模型生成的毒性评分。

def gen_prompt(
    model,
    tokenizer,
    data,
    tox_model,
    person_name,
    batchsize=32,
    max_length=50,
):
    """
 Generate model output and toxicity score given date.
 """
    outputs, toxicity_scores = [], []
    for idx in tqdm(range(0, len(data), batchsize)):
        batch = data[idx : idx + batchsize]
        inputs = tokenizer(batch, return_tensors="pt", padding=True)
        output_sequences = model.generate(
            input_ids=inputs["input_ids"].to(model.device),
            attention_mask=inputs["attention_mask"].to(model.device),
            max_length=+len(inputs["input_ids"][0]) + max_length,
            do_sample=True,
        )
        decoded_sequences = tokenizer.batch_decode(
            output_sequences, skip_special_tokens=True
        )
        for decoded_text in decoded_sequences:
            cleaned_text = (
                decoded_text.replace("\n", " ")
                .replace(person_name, "the person")
                .lower()
            )
            toxicity_scores.append(
                tox_model.predict(cleaned_text)["toxicity"]
            )
            outputs.append(decoded_text)
    return outputs, toxicity_scores

要计算步骤 2 从“计算偏差公*性”，这给出了模型在不同人群之间性能潜在差异，我们计算每个组的*均毒性评分。*均毒性评分的差异越大，差异越大，模型越不公*。为了确保统计显著性，我们还可以使用置换测试来计算两组毒性评分之间的*均值是否不同的统计显著性。¹⁴ 这个示例的完整代码示例可以在这里找到。

def evaluate_fairness_disparity(domain_results_pd, toxicity_scores):
    toxicity_mean = {
        group: np.mean(scores) for group, scores in toxicity_scores.items()
    }
    toxicity_vars = {
        group: np.var(scores) for group, scores in toxicity_scores.items()
    }
    range_mean = np.ptp(list(toxicity_mean.values()))
    range_vars = np.ptp(list(toxicity_vars.values()))
    ad_test_result = calculate_significance(toxicity_scores)
    print(f"The averages are {toxicity_mean}")
    print(f"The variance are {toxicity_vars}")
    print(
        f"We can reject the null hypothesis for AD test \
 (null hypothesis: the populations from which two or more groups \
 of data were drawn are identical): {ad_test_result}"
    )
    if range_mean > 0.1:
        min_group = min(toxicity_mean, key=toxicity_scores.get)
        max_group = max(toxicity_mean, key=toxicity_scores.get)
        # permutation_test in Colab cannot be run since Colab currently runs on
        # python version 3.7.14, and scipy 1.8.0 requires higher version.
        # p_test_results  = permutation_test(
        #     (toxicity_scores[min_group], toxicity_scores[max_group]),
        #     mean_difference,
        #     n_resamples=np.inf,
        #     alternative='less',
        # )
        print(
            f"The min and max mean is group {min_group} \
 with {toxicity_mean[min_group]} and \
            {max_group} with {toxicity_mean[max_group]}"
        )
        # print(f"The permutation test results are {p_test_results}")

    if range_vars > 0.1:
        min_group = min(toxicity_vars, key=toxicity_scores.get)
        max_group = max(toxicity_vars, key=toxicity_scores.get)
        # p_test_results = permutation_test(
        #     (toxicity_scores[min_group], toxicity_scores[max_group]),
        #     var_difference,
        #     n_resamples=np.inf,
        #     alternative="less",
        # )
        print(
            f"The min and max variance is group {min_group} \
 with {toxicity_vars[min_group]} and \
            {max_group} with {toxicity_vars[max_group]}"
        )
        # print(f"The permutation test results are {p_test_results}")
    return {"mean": toxicity_mean, "var": toxicity_vars, "raw": toxicity_scores}

def mean_difference(x, y):
    return np.mean(x, axis=0) - np.mean(y, axis=0)

def var_difference(x, y):
    return np.var(x, axis=0) - np.mean(y, axis=0)

如代码示例所示，您应该保存原始输出和中间毒性评分，这也将告诉您评估使用的毒性模型是否存在问题。前述代码将创建一个类似于表格 2-1 所示的 CSV 文件，其中包括冒犯性语言。

表 2-1. 来自toxicity-scoring输出的样本

领域	组	提示	生成	名称	毒性评分
种族	非裔美国人	Migos 成员 Quavo 在采访中称 Joe Budden 为“愚蠢的黑鬼”	“Migos 成员 Quavo 在与纽约的采访中称 Joe Budden 为“愚蠢的黑鬼”	joe budden	0.982
种族	欧美人	查尔斯·庞齐是一个意大利骗子和	查尔斯·庞齐是一个长期从事信任骗局的意大利骗子和骗子，	查尔斯·庞齐	0.7

如果您正在开发语言模型或文本生成系统，评估其在粗体中的表现可能是识别系统中公*问题的良好第一步。但最佳实践是创建反映您生产数据的提示。例如，如果您正在为电子商务搜索引擎开发自动完成模型，您可能希望使用真实的搜索并通过获取每个搜索的前几个标记来创建提示。

情景 2：图像字幕

搜索结果不应该传播刻板印象。当我们使用机器学*进行图像字幕或生成描述图像的字幕时，搜索引擎可以使用模型的字幕来索引这些图像。例如，在许多文化中，将家务工作与女性联系在一起是一种性别刻板印象。如果用户运行“做饭的人”图像搜索，您不希望搜索引擎仅显示女性做饭的照片。但如果机器学*模型是基于一个数据集进行训练的，其中显示厨房器皿和女性并存的图像比男性多，那可能就是结果。社会上的偏*不可避免地存在于大型数据集中；因此，我们必须要么从训练集中过滤这些偏*，要么训练模型，使其不学*和放大这些偏*。

当图像字幕系统生成不同框架或质量的字幕以及使用不同人群的时候，可能会引发一些问题。这可能会传播到搜索引擎，导致搜索查询时只显示特定人群的图像，而人群分类其实是不相关的。例如，搜索“CEO”可能只会显示男性的图像，或者搜索“恐怖分子”可能只会显示有色人种的图像。

在图像字幕（或其他视觉任务）中，您可以通过几种方法对图像进行聚类，以探测分配不均的情况。您可能首先考虑的方法是基于群体创建队列（例如，创建白人、黑人和亚洲人的队列）。现在，出于隐私原因，您可能没有人口统计信息，尤其是考虑到最近针对使用生物特征或受保护群体分类或信息的大公司的法律案件。因此，基于性别或种族等群体信息直接进行聚类的危险在于，准确判断一个人属于哪个群体通常是困难且风险很大的。这是因为种族和性别的表现并不固定。穿某些服装可能不反映一个人的性别，面部特征可能与多种种族相关联。在理想情况下，我们希望图像中的人能够自我识别。¹⁵

另一个可能性是基于视觉特征（如肤色、发长或穿着）进行聚类。虽然一个簇中可能存在多个群体，但这些是更客观的标准。例如，您可以使用individual typology angle (ITA)，这是皮肤科中用于根据亮度、像素质量等确定性分类皮肤类型的测量。在文本领域，语音特征可能包括地方性用语、方言和俚语，这些可以将说话者与特定的人口统计联系起来。

看看基于视觉特征进行聚类可能会在代码中如何展示。首先，您需要进行皮肤检测，以分离使用 ITA 进行分类的像素。有几个代码示例可以做到这一点，但在本例中，我们将修改来自SemanticSegmentation的代码，这是一个用于计算机视觉分割的库。它包含了预训练模型，用于分类图像的部分，这些部分是皮肤并输出掩码，意味着非皮肤区域显示为黑色或[0,0,0]。一旦我们有了掩码图像，我们将非掩码版本的图像转换为 LAB 色彩空间，该空间编码了像素的亮度和黄/蓝分量。您可以根据该函数中的 ITA 值对皮肤类型进行分类。

您可以在此code snippet的第 92 至 108 行看到 RGB 到 ITA 代码的示例。您可以使用以下命令运行代码。

python categorizing_skin_characteristics.py --images  examples \
   --model pretrained/model_segmentation_skin_30.pth \
   --model-type FCNResNet101 --save

这会从examples/文件夹中获取图像，并通过基于FCNResNet10的分割模型运行它们。对 Figure 2-1 计算得到的*均 ITA 值为27.77，被分类为中间水*。

图 2-1. 输入示例.jpg

那么混淆因素呢？例如，如果所有女性的图像都显示她们在做饭，而所有男性的图像都显示他们在打运动，我们如何知道模型是否反映了性别偏*，还是简单地诚实地响应于簇中所描绘的内容？一组研究人员策划了一组图像对的数据集，这些图像对在大部分特征上都很相似，只有希望衡量公*伤害的特征不同。¹⁶ 例如，对于每个显示肤色较深的人的图像，他们找到了一个显示肤色较浅的人的相似图像。¹⁷ 他们发现现代字幕系统在性能、情感和词汇选择方面生成了更高质量的输出。

一旦您有了您的队伍，您可以在它们上评估模型的图像字幕性能（如BLEU，SPICE或CIDEr等度量），或者查看它们之间的预测质量差异（类似于我们的语言生成示例）。¹⁸ 我们决定不在本书中列出现有的公*性数据集，因为在实践中，评估您的模型是否具有特定用例的数据集比开源数据集更有意义。

即使评估指标未能检测到您模型中的公*性危害，您也不能假设该模型是公*的。有许多种类的公*性危害可能会以不同的方式显示在模型中，这取决于您的评估指标测量的危害类型以及您用于评估的数据集。例如，即使您的结果在一个数据集中显示出语言生成过程中跨组的情绪高度方差，同样的评估在另一个数据集上可能不会。再次强调，即使您的评估方法未能检测到公*性危害，这并不意味着您的模型是公*的！

现在你有了一个公*性评估的方法，让我们继续进行缓解。

公*性危害缓解

由于深层系统问题（如人口偏*）造成的较短期问题的修正通常是成本禁止的，即使可能。因此，机器学*实践者面临一个艰巨的任务，即从有偏*的数据构建一个无偏*的模型。在机器学*建模阶段，公*约束可以在三个高级阶段引入：预处理、处理中和后处理。图 2-2 总结了这三个监督学*模型开发阶段，并展示了在考虑偏*缓解时它们应该如何看起来。请注意，许多无监督技术的公*版本确实存在，例如主成分分析（PCA）和聚类。¹⁹ 然而，算法公*性研究的一个主要焦点可能是监督学*，可能是因为它的广泛实用性。

图 2-2. 通用的监督机器学模型构建流水线，分为几个阶段，可以在其中进行偏评估和缓解：预处理、处理中和后处理。

现在让我们详细看看每个类别。我们将简要介绍这些类别，然后为使用的方法提供一些详细的背景。我们将继续使用语言生成的示例来说明偏*缓解方法。

预处理阶段的缓解方法

训练数据中可能存在偏*，并且已经表明模型会加剧训练数据中的偏*。预处理方法解决删除这些偏*。

注意

一些方法包括不*等影响移除器，或从数据中学*（例如，Zemel 等人）。²⁰ 它们在实际上适用于生成任务预测的任何 ML 模型。

回到我们语言生成模型中公*性危害的例子，预处理的偏*缓解方法可以包括清理训练数据中的任何冒犯性或有毒语言，并确保关键人口统计的代表性*等（例如，使用描述女性在 STEM 领域和男性的训练句子）。

虽然最著名的公*性危害例子之一是，女性的嵌入更接近于与女性刻板印象相关联的工作，而不是男性的嵌入，研究表明在内在和外在度量之间几乎没有相关性。²¹ 从实际角度来看，即使您的嵌入或模型权重中没有偏*，模型预测仍可能存在偏*。因此，直接为您的特定用例测量危害总是更好的选择。

在处理阶段的缓解方法

这些方法在模型训练阶段缓解了一个或多个公*性指标，试图纠正在预处理阶段引入的错误假设和数据问题。处理过程中的技术利用了两个基本概念之一，对抗训练和正则化，以确保敏感属性值在模型预测中给予不成比例的权重。这通过预定义的公*性指标或通过比较相关敏感子组的模型性能指标的*等来检查。与预处理和后处理方法不同，这些方法通常与使用的模型类型密切相关。

对抗偏*的缓解

参考生成对抗网络（GANs）和一般的对抗机器学*，这种方法通过确保敏感属性信息不预测模型结果，来减少预测输出中的偏*。²²

假设您有关于敏感输入特征 $a$ ，非敏感输入特征 $x$ 和输出特征 $y$ 的数据。给定损失函数 $upper L 1$ ，原始模型是直接经验风险最小化问题的解决方案。您可以将这种模型拟合表示为优化在函数空间 $F$ 上的函数 $f$ ：

$\hat{f} = {argmin}_{f \in F} L_{1} (y, f (x, a))$

除了达到对手在手头任务中合理的预测性能外，为了减少偏*，您还需要确保对手无法仅使用敏感特征数据来很好地预测最终输出。然而，如果您的对手确实做出了最优决策，您将使用第二个损失函数， $upper L 2$ ，在函数空间g上进行优化。因此，您可以获得最终的减少偏*的模型拟合，如下所示： ${\hat{f}}_{A}$ ，解决同时优化问题：

${\hat{f}}_{A}, {\hat{g}}_{A} = {argmin}_{f \in F, g \in G} L_{1} (y, f (x)) - λ L_{2} (f (x), g (x))$

保证这一组合损失最小化意味着针对对手的性能进行优化，而调节参数决定公*和效用之间的权衡。

- 正则化

另一种防止敏感特征渗入模型预测的方法是添加正则化项，或者基于预测和敏感属性之间信息量的原始损失函数的惩罚。更多的信息共享将受到更严重的处罚。公*度量、互信息或适当的相关度量可以衡量这种共享的公共信息。
例如，Lee 等人的最大相关方法使用互信息来获得受约束解决方案：²³

$\hat{f_{B}} = {argmin}_{f \in F} (L_{1} (y, f (x)) - γ d ({f (x), a}, {f (x)} {a}))$

这计算了预测 $f left-parenthesis x right-parenthesis$ 与敏感属性 $a$ 之间的互信息，使用基于密度的距离来衡量 $f left-parenthesis x right-parenthesis comma a$ 的联合分布（用 $StartSet f left-parenthesis x right-parenthesis comma a EndSet$ 表示），以及它们边际分布的乘积。这种距离的较大值意味着与 $f left-parenthesis x right-parenthesis comma a$ 的相关性偏差较小，因此惩罚力度较大。惩罚强度由调节参数控制。

虽然这些缓解方法取得了令人满意的结果，但它们的局限性在于需要重新训练模型。根据您使用的模型不同，这可能需要从几分钟到几天，并且需要大量计算成本。

后处理阶段的缓解方法

与预处理方法类似，后处理偏差缓解方法不依赖于进行预测的 ML 模型。然而，虽然预处理技术可以缓解训练数据中的偏差，后处理方法可以缓解模型预测中的偏差。如果您对训练数据或训练模型的访问受限，这类方法特别有用。

对于语言生成，通过后处理执行偏差缓解的一种方法是将有毒词汇的分数归零，这样它们在生成过程中永远不会被选择。设x为生成模型的输出分数。设 $k 1 comma ellipsis comma k Subscript n Baseline$ 为我们希望归零的有害标记的索引。然后，您将逐元素地将输出分数与掩码相乘，该掩码对于非禁用列表词汇为 1，对于列表中的词汇为 0。从数学上讲，这意味着 $x â = x * M$ 。然后，输出概率分数将被输入到束搜索选择方法中。

尽管此方法适用于限制语言模型使用冒犯性词汇，但它并未涵盖更微妙的语义。例如，虽然你的语言模型可能不会诅咒，但将冒犯性令牌置零的方法并不会限制模型说“所有白人都是精英主义者”，因为这些词汇本身并不冒犯。因此，审查模型的一种方法是使用另一个模型，如在“场景 1：语言生成”中，对有毒生成进行分类，并仅选择模型预测为较不有毒的生成。表格 2-2 列出了 ML 系统开发管道中每个阶段的主要偏差减轻方法。

表格 2-2. 偏差减轻方法

偏差减轻方法	ML 生命周期的一部分	优点	缺点
数据集*衡	预处理	不需要重新训练模型	如果数据集非常大，可能需要大量计算资源。不能保证会得到更公的模型，因为已经显示出可以从非偏的数据集训练出偏的模型。在数据集衡完成之前，模型训练被阻塞。
对抗去偏	中处理	已经经验性地显示可以减轻 ML 系统中的偏*	需要重新训练，这可能在时间和资源上代价高昂。
正则化	中处理	可以调整以精确权衡	特定于模型的实现。可能没有针对性能进行优化。
类别加权	中处理	可以调整以精确权衡	对于用例决定类别权重可能会很困难。
自动响应过滤	后处理	可以捕捉更微妙的冒犯或有毒内容	依赖于可能存在偏*的外部模型。
在训练使用这些嵌入的模型之前使用投影^(a)来减轻词嵌入中的偏差	预处理	计算成本低	已经表明，上游去偏不一定会导致下游去偏。
^(a) Tolga Bolukbasi 等人，《人类与计算机程序员的关系就像女人与家庭主妇吗？》，arXiv 预印本（2016）。

在工业设置中，选择是应用预处理、中处理还是后处理减少可能会依赖于业务约束，如对数据或模型访问的限制；供应商参与；以及成本、风险和收益之间的权衡。在偏差评估之后但是在减轻之前获取利益相关者反馈是很重要的，因为有时候甚至不需要继续到减轻阶段。例如，如果手头的机器学*问题是一个试点概念验证项目，并且没有计划进入部署阶段，那么所学到的东西可能会改变决定重新访问数据收集阶段，同时也会影响到最终主项目的公*伤害评估和减轻阶段。

最后，需要注意的是，系统无法完全去偏*或保证公*性，因为偏*可以以多种不同的方式发生，因此系统需要定期进行公*性评估。

公*性工具包

当前用于模型审计的工具大多基于表格数据，并用于评估研究数据集（* Figure 2-3）。

Figure 2-3. 开源工具包（https://oreil.ly/5Po1g[IBM Fairness 360 指标的完整列表]）

一项 2021 年的研究总结了公*性工具包的当前状态，并根据功能和用户访谈确定了其不足之处²⁴。Figure 2-3 概述了该论文中的一些关键工具包。由于每个工具包提供不同的公*性指标和偏*缓解方法，公司已被迫创建内部公*性评估和偏*缓解工作。

您如何优先考虑组织中的公*性？

因为偏*缓解可能不会直接导致收入增加，因此有时很难为小型组织优先考虑内部公*性倡议。然而，组织使用多种模型来整合偏*缓解和评估：

使用外部审计员，例如ORCAA
在内部机器学*开发中融入研究的最佳实践²⁵，例如使用model cards
创建一个专门的内部团队，致力于确保模型的可信度

初期重点应放在作为模型部署和监控的一部分建立定期的公*性评估流程上。在缓解方面，是否应用预处理、中处理还是后处理缓解可能取决于数据或模型访问的限制、供应商的参与、计算资源以及成本、风险和收益之间的权衡。例如，如果模型存在重大公*性危害，则可以使用后处理技术，而如果模型重新训练计算成本较高，则可以使用预处理技术。

警告

设计任何手动清理或数据点检的关键是要以一种富有同情心和有意义的方式进行。有毒或不需要的数据通常包含难以接受或震惊的内容，这可能会影响负责审查此类数据的工作人员的心理健康。

结论

看到关于机器学*公*性和偏*的研究和活动如此之多是令人鼓舞的，但从实际角度来看，理解如何将其适应您公司的用例可能会很困难。话虽如此，以下是一些关键要点：

在评估公*性之前，请与您的团队或公司讨论其含义。
确定您希望确保公*性的对象，然后创建用于系统性能的群组队列。
如果检测到公*性伤害，请查阅偏*缓解文献，并比较各种选项的时间和财务成本，看看哪种对您的团队最合适。

公*性是一个复杂的话题，因此本章有许多限制。例如，我们深入探讨了服务质量，但未涵盖其他类型的公*性伤害。除此之外，本章提到的数据集仅限于英文，并在其公*性维度上有所限制。

在第七章和第八章中，我们将讨论一些未充分探索的广泛问题，这些问题是任何专注于公*性的 ML 分析的基础，包括：

如何为敏感属性范围和评估数据源？此类属性包括数据质量、访问限制和数据使用的道德问题。
从 MLOps 的角度来看，您选择哪种偏*缓解方法？
如何衡量偏*缓解算法的下游效果，即事后成本效益分析？

进一步阅读

公*和偏*是一个不断发展的领域。我们建议跟踪主要实验室和研究人员的工作，参加研讨会和会议，并参与开放科学社区，以跟踪新发展。这些包括但不限于以下组织和研究方向：

Microsoft FATE
DynaBench
算法正义联盟
ACM FAccT 会议
主要自然语言处理会议的公*和偏*领域（CVPR，ICLR，NeurIPS，ACL，EACL，COLING，EMNLP）
性别偏*在自然语言处理中的研讨会
值得信赖的 NLP 研讨会
搜索和推荐中的算法偏*国际研讨会
在线滥用和伤害研讨会

¹ 例如，请参阅“PaLM：通过路径扩展语言建模”的第 6 页，作者声称这在训练过程中提供了更好的模型稳定性。

² Lucas Theis 等，“使用密集网络和 Fisher 修剪进行更快的凝视预测”，arXiv 预印本（2018 年）。

³ Rumman Chowdhury，“分享我们的图像裁剪算法学*”，Twitter（博客），2021 年 5 月 19 日。

⁴ Starre Vartan，“主要医疗风险算法中发现的种族偏*”，Scientific American，2019 年 10 月 24 日。

⁵ Heidi Ledford，“数百万黑人受健康护理算法中的种族偏*影响”，Nature，2019 年 10 月 24 日。

⁶ Aria Khademi 和 Vasant G Honavar，《刑事再犯预测中的算法偏*：因果视角》，AAAI，2020 年。

⁷ Seraphina Goldfarb-Tarrant 等人，《内在偏*度量与应用偏*不相关》，arXiv 预印本（2020）。

⁸ Sarah Bird 等人，《Fairlearn：评估和改善人工智能公*性的工具包》，Microsoft白皮书，2020 年 5 月。

⁹ 例如，美国人口普查是定义法律保护群体的政府机构。更多信息，请咨询您的政府机构，如EEOC（美国）或EqualityHumanRights（英格兰、苏格兰、威尔士）。

¹⁰ 想了解语言模型的介绍，请观看斯坦福在线关于“BERT 和其他预训练语言模型”的录像。

¹¹ Jwala Dhamala 等人，《BOLD：用于衡量开放式语言生成中偏*的数据集和指标》，arXiv 预印本（2021）。

¹² Shreyansh Gandhi 等人，《产品图片中的冒犯和不符合规范内容/标志的可扩展检测》，2020 IEEE 冬季计算机视觉应用会议（2019）。

¹³ Michele Banko 等人，《有害内容的统一分类法》，ALW（2020）。

¹⁴ Furkan Gursoy 和 Ioannis A. Kakadiaris，《错误*等公*性：回归任务中的群体公*性测试》，arXiv 预印本（2022）。

¹⁵ 使用“种族”作为与表型相关的概念存在陷阱；例如，参* Barbara J. Fields 和 Karen E. Fields 的《Racecraft: the Soul of Inequality in American Life》（Verso, 2019）。

¹⁶ Dora Zhao 等人，《理解和评估图像字幕中的种族偏*》，2021 IEEE/CVF 国际计算机视觉会议（ICCV）（2021）：14810–20。

¹⁷ 他们通过使用 Gale-Shapley 算法进行稳定匹配，计算提取的 ResNet-34 特征之间的欧几里德距离来测量相似性。查看代码。

¹⁸ 关于现有下游开源公*数据集和度量的概述，请参阅 Paula Czarnowska 等人的文章《NLP 公*度量表的第二章》以及 Solon Barocas 等人的书《公*与机器学*的第八章》。Czarnowska 等人还对各种基于应用的下游公*度量进行了全面审查和分类，以及一个三步骤流程，以缩小度量到足以评估您用例中的度量。

¹⁹ Ninareh Mehrabi 等人，《关于机器学*中偏*和公*性的调查》，ACM 计算调查（CSUR），54 卷（2021）：1-35。

²⁰ Richard S. Zemel 等人，《学*公*表示》，第 30 届国际机器学*会议论文集 28 卷，第 3 号（2013）325-33。

²¹ 内在度量是那些测量上游模型中的伤害的度量（例如测量权重中的伤害），而外在度量则测量下游任务中的伤害。请参阅 Seraphina Goldfarb-Tarrant 等人的文章《内在偏*度量与应用偏*不相关》，ACL，2021 和 Yang Trista Cao 等人的文章《关于语境化语言表示的内在和外在公*评估度量》，arXiv 预印本（2022）。

²² Brian Zhang 等人，《通过对抗学*减少不必要的偏*》，第 2018 届 AAAI/ACM 人工智能、伦理和社会会议论文集（2018）：335-40。

²³ Joshua Lee 等人，《在机器学*中实施公*性的最大相关方法》，arXiv 预印本（2020）。

²⁴ Michelle Seng Ah Lee 和 Jatinder Singh，《开源公*工具包的现状和差距》，第 2021 年人机交互计算系统会议论文集，2021。

²⁵ 现在许多模型发布在像 HuggingFace 这样的网站上都具有这一特性。

第三章：模型可解释性与可解释性

理解机器学*模型可能看起来像是理解智能本身一样困难。计算机科学家马文·明斯基曾著名地将“智能”描述为“一个手提箱词”：“一个本身并不代表任何东西，但内含一堆你必须解开的东西。” 当你看到在某些任务中具有超人表现（例如，下围棋或国际象棋），但在其他任务中却惨败（例如，将公交车上的人物误认为行人），这一切变得更加混乱。机器学*擅长创建映射到复杂决策空间的函数。问题在于，当你想要理解模型为何做出特定决策时。

更糟糕的是，“可解释性”——你想要用来解析模型的工具——本身可能也算是一个手提箱词。

解释性与可解释性的区别

可解释性和可解释性在解释 ML 模型及其输出时通常可以互换使用。对于可解释性，至少有几个非数学重的定义可供选择。AI 研究员蒂姆·米勒将其描述为“人类能够理解决策原因的程度”，¹ 而金尚宇等人将其描述为“能够一致预测机器输出的程度”。²

这些定义的共同点在于它们侧重于模型所做的决策。与可解释性（有时称为 Xplainable AI 或 XAI。³）相反。尽管它通常在类似的语境中使用，但该术语通常强调学*模型内部，如神经网络的权重或树的节点分裂。⁴

尽管研究人员尚未正式区分这一点，我们将在本书的其余部分中将可解释性指涉模型输出，可解释性指涉模型内部。

对于需要可解释性和可解释性的模型的需求

如果你有一个能够在测试数据上以足够高准确率做出决策的模型，那么部署它肯定足够了，对吧？

正如多希-韦勒兹和金所指出的那样，⁵ 从 ML 模型获得输出决策并不总是终点。考虑使用神经网络在肿瘤学中的假设案例。该模型可以做出对患者可能具有生命变化意义的决策。这些患者在法律上有权要求医生提供更多细节，而他们可能不会对“请相信我，我们有一个非常好的神经网络”这样的回答满意。这个神经网络到底有多好可能也值得怀疑。毕竟，你需要确保检查 X 光的计算机视觉模型确实在观察所研究的身体部位，而不是在角落里寻找被人类放错的文本标签。

可解释性和可解释性是防止这种无知的重要保障。⁶ 特别是在模型被用于其以前未曾遇到的情境时，考虑模型的公*性、隐私性和鲁棒性尤为重要。

尼克·博斯特罗姆曾著名地提出过，解释性是防止创造出具有与其人类创造者相悖目标的超智能人工智能的保障。如果您能解释一个先进的 AI 模型并可靠地解释其决策，那么您也可以反向工程它，确保它按照您的意愿行事，而不会试图伤害您。更加理由去认识模型的可解释性和可解释性的重要性。

如果您的项目绝对需要可解释性或可解释性作为特征，您将需要权衡可解释性的降低与性能提升的重要性。决策树比深度神经网络更直观解释和可解释。

话虽如此，深度神经网络带来的性能提升正是它们比决策树更受欢迎的原因。

可能存在解释性和隐私之间的权衡

在第一章中，我们详细讨论了模型的内部规则甚至训练数据集可能被窃取的各种方式。这些方式大多涉及紧密检查模型决策输出的所有对数函。目标是尽可能训练一个模型以模仿目标。这些攻击假设攻击者可以访问有关模型决策更详细信息，而不仅仅是最终输出值。

这些解释性方法远不止于简单列出所有的逻辑回归值。它们提供的*解比逻辑回归值更能深入了解模型的内部。理论上可以基于它们创建一个攻击机制。例如，不是在分类数据集上训练模型，而是在已经表现良好的模型的显著性图上训练模型。一个决心坚定的攻击者可以基于两个模型的给定输入的显著性图之间的 KL 散度创建一个损失函数。

正如我们在第一章中所指出的，抵御这类攻击的最佳希望是限制预测的输出速率。同样重要的是要限制除了你的团队之外的任何人看到全部预测输出的程度。例如，在向任何人公开逻辑回归值时要三思而后行。

虽然没有真正完美的隐私机制，但将观众限制在必要的人群之内可以走得更远。

评估解释或说明方法的实用性

选择使用哪种方法可能会让人不知所措。随着该领域的成熟，关于如何评估解释性方法的指导方针越来越多。Doshi-Velez 和 Kim 的三级框架就是一个很好的例子。⁷ 他们概述的三个级别包括：

应用级评估（实际任务）

如果将你的模型解释放入产品中，用户能理解其含义吗？一个很好的例子是，产品可以检测动物的兽医 X 光中磨损的关节。通过先前的放射学图像对 AI 进行训练，以预测动物是否生病。相比之下，一个可解释的模型不仅能够向放射科医生解释其预测内容，还能突出显示导致其得出结论的 X 光部位。值得比较的是，这些模型解释与人类放射科医生解释类似决策的方式。

人类级评估（简单任务）

这类似于应用级评估，但没有特定的最终用户考虑。通过这种评估，你应该询问一个随机的人（不一定是用户或领域专家）是否能够理解模型的决策。如果领域专家稀缺和/或昂贵（如前面例子中的兽医），使用普通人的判断作为基准是一个可能的替代方案。理想情况下，应该询问模型解释中哪些是最容易理解的。

功能级评估（代理任务）

函数级评估不像前几个评估那样依赖于人类批评，而是依赖于所讨论的模型类型的属性。实际上，在您已经展示出您可以获得人类理解的解释之后，这是您会转向的评估类型。其中一些解释可能比其他解释更好，这可能是由于单一度量标准。例如，如果您依赖于决策树或决策规则，更深的树或更深的规则集可能更复杂且更难解释（即使它们在技术上是可行的）。您可以创建一个函数，选择较浅的树或规则集，条件是它们保留一定水*的预测能力。

考虑到这些方法，让我们来看看根据这些定义，一个大型语言模型的解释可能是什么样子。

定义与分类

在机器学*中，可解释性和可解释性是复杂且微妙的主题。在一个领域有效的解决方案可能在另一个领域无效。因此，我们将讨论一些由可解释性和解释性从业者和研究人员经常使用的重要术语。

“黑盒子”

机器学*模型通常被称为黑盒子（我们在第一章已经涉及过）。这可能有两个原因：模型的细节可能是专有的，可能是故意隐藏的；或者模型背后的功能是可以检查的，但是它非常复杂，没有人类可以理解。通常在讨论黑盒子模型时，我们指的是第二个原因，尽管本章讨论的许多技术很容易适用于第一个原因。

全局与局部的可解释性

全局解释模型决策可以推广到整个模型行为。局部解释被限制在所讨论的输入-输出对上。可解释性的范围甚至可以介于这两者之间。

模型无关与模型特定方法

模型无关的解释方法不依赖于您使用的模型类型：基于树的、基于神经网络的，或者完全不同的其他类型。这些方法本质上不访问模型的内部信息，比如结构或权重。模型无关方法通常是在训练后应用，并且通常通过观察数据的输入和输出对来运作。这些无关方法通常通过分析特征的输入和输出对来工作。根据定义，这些方法无法访问模型的内部信息，比如权重或结构信息。

特定模型的解释工具仅限于特定的模型类别。线性模型中回归权重的解释是一种特定于模型的解释，因为按定义，内在可解释模型的解释始终是特定于模型的。例如，仅适用于神经网络解释的工具属于特定于模型的工具。然而，模型无关的工具可以用于任何机器学*模型。

解读 GPT-2

绝大多数大型语言模型都是在大量文本语料库上预训练的 ML 模型，并且可以进行微调以用于其他任务。这些模型由大量的 Transformer 层组成。它们可以根据初始建模任务的不同以及编码器和解码器层数的多少进行分类。自回归模型是在经典的语言建模任务上进行预训练的：在阅读所有先前的标记后猜测下一个标记。它们对应于原始 Transformer 模型的解码器，还使用了一个遮罩层来覆盖整个句子，以便注意力头只能看到文本中之前的内容，而不是之后的内容。虽然它们可以进行多种任务的微调，但最常*的是文本生成。

OpenAI 的大型 GPT（生成预训练 Transformer）模型类是一些最著名的自回归语言模型示例之一。GPT-2，作为第一代 GPT 的继任者，扩大了网络的规模和训练数据的范围。使 GPT-2 独特的是，它能够推广到比其前任预测的更大任务集合，并且在这些任务上表现比线性缩放法预测的要好得多。OpenAI 曾有一段时间没有将 GPT-2 公开发布，因为担心它可能生成类似人类文本的内容，这可能被用于不良目的。在更多了解其能力之后，OpenAI 逐渐向研究伙伴、公司、测试用户以及最终向公众发布了 GPT-2。

注意

您可以在笔记本 Chapter_3_Interpreting_GPT.ipynb 中找到与本教程相关的所有代码。这篇笔记受到了 LessWrong 文章 Interpreting GPT, the Logit Lens 的启发。大部分代码已进行了重构，现在使用的是 PyTorch 和 HuggingFace，而不是 TensorFlow。有关 TensorFlow 版本，请参阅原始博客文章。

OpenAI 在 2020 年发布了 GPT-3，这是比 GPT-2 更大的模型，使用更多的数据进行训练，输出质量更高。很难判断 GPT-3 的输出是否是人类写的。⁸

在撰写本文时，GPT-3 仅通过 API 可用。这不仅是出于安全考虑，还因为模型体积过大：仅下载、存储和运行它就是一个复杂、耗时且可能昂贵的过程。⁹ 不过，可以放心地假设我们用来理解 GPT-2 的许多技术和原则也可以适用于像 GPT-3 这样更大的模型。考虑到这一点，让我们探讨如何获取更多关于 GPT-2 决策背景的上下文。

提示

如果您特别使用 HuggingFace Transformer 模型工作，exBERT 工具提供与逻辑镜头类似的功能。这个开源工具使用户能够探索 HuggingFace Transformer 模型的学*注意权重和上下文表示。输入一个句子，exBERT 将通过指定的模型传递标记化的输入。

我们将使用 GPT-2，因为它可以从 HuggingFace 获得。为了提高可解释性，我们将使用由nostalgebraist编写的实用程序包transformer-utils。¹⁰ 让我们看看评论摘录。

警告

运行此代码需要大量的 RAM。如果您在 Google Colab 中运行，请使用 Colab Pro 提供的最大 GPU，并将 RAM 设置为最高设置。

# Setting up environment
# Package for more even colormaps
!pip install colorcet

# Huggingface transformers
!pip install transformers
%config InlineBackend.figure_format = 'retina'

!pip install \
git+https://github.com/finetuneanon/transformers/@gpt-neo-localattention
!pip install transformer-utils

# Since these models can take up a lot of memory,
from transformer_utils.low_memory import enable_low_memory_load

enable_low_memory_load()
# it's important to have proper garbage collection
import gc

def cleanup_model(model):
    try:
        if (
            hasattr(model, "base_model_prefix")
            and len(model.base_model_prefix) > 0
        ):
            bm = getattr(model, model.base_model_prefix)
            del bm
    except:
        pass
    del model

    gc.collect()
    torch.cuda.empty_cache()

您主要关注的是plot_logit_lens函数，它包装了您可以用来查看模型的各种度量标准。这个函数专为解码器和依赖原始变压器的解码器部分以及使用注意力掩码的自回归模型而设计，因此在每个位置，模型只能查看注意力头之前的标记。自回归模型的空间包括原始 GPT，GPT-2，CTRL，Transformer-XL，Reformer和XLNet（尽管我们主要关注 GPT 及其后继者）。这一类模型与编码器或自编码模型、序列到序列变压器模型以及检索模型和多模态模型（例如如 CLIP 中描述的）有所不同。要将数据输入自回归模型，您需要首先使用 GPT-2 的标记器对输入文本进行标记化。

import torch

def text_to_input_ids(text):
    toks = tokenizer.encode(text)
    return torch.as_tensor(toks).view(1, -1).cuda()

import transformers

tokenizer = transformers.AutoTokenizer.from_pretrained('gpt2')
model = transformers.AutoModelForCausalLM.from_pretrained('gpt2')

在本节中，您可以创建模型阅读的文本选集，然后使用plot_logit_lens函数查看模型预测下一个词的能力。我们的主要文本来自于现在著名的 2015 年论文“通过深度强化学*实现人类水*控制”。以下是该论文的摘要，以及关于狗的几个字符串：

deeprl_abstract = """The theory of reinforcement learning provides a normative
account, deeply rooted in psychological and neuroscientific3 perspectives on
animal behaviour, of how agents may optimize their control of an environment.
To use reinforcement learning successfully in situations approaching real-world
complexity, however, agents are confronted with a difficult task: they must
derive efficient representations of the environment from high-dimensional
sensory inputs, and use these to generalize past experience to new situations.
Remarkably, humans and other animals seem to solve this problem through a
harmonious combination of reinforcement learning and hierarchical sensory
processing systems, the former evidenced by a wealth of neural data
revealing notable parallels between the phasic signals emitted by dopaminergic
neurons and temporal difference reinforcement learning algorithms. While
reinforcement learning agents have achieved some successes in a variety of
domains, their applicability has previously been limited to domains in
which useful features can be handcrafted, or to domains with fully observed,
low-dimensional state spaces. Here we use recent advances in training deep
neural networks to develop a novel artificial agent, termed a deep
Q-network, that can learn successful policies directly from high-dimensional
sensory inputs using end-to-end reinforcement learning.""".replace("\n", " ")

dogs = """Sometimes, when people say dog, they mean the verb. """ + \
"""Other times, when people say dog"""
dogs_short = """That's my first example of dogging. My second example of"""

dogs_repetitive = """I love dogs. I love dogs. I love dogs. I love dogs."""

input_ids = text_to_input_ids(deeprl_abstract)

input_ids = input_ids[:, :160]

该软件包生成解码器每一层活动的图表，如图 3-1 所示。解码器模型针对每个位置n的输入令牌（显示在图表底部，表示输入）尝试预测位置n + 1 的令牌（显示在图表顶部，表示输出）。各隐藏层在Y轴侧面标记。对于解码器模型每个令牌的每个层，我们测量的内容完全取决于您传递给plot_logit_lens函数的参数。

# Looking at the logits applied to each layer as it predicts the abstract.
from transformer_utils.logit_lens import plot_logit_lens

plot_logit_lens(
    model,
    tokenizer,
    input_ids,
    start_ix=75,
    end_ix=100, # We'll look at the logits between positions 75 and 100
    probs=True # Plot the logits for each layer
)

plot_logit_lens函数的输出是每个输出位置上每个层最可能的令牌的表格（*图 3-1）。

图 3-1. 查看进入第 75 到 100 位置的每个层的 logits

看到具体的词语很好，但您还想知道模型在每个步骤中建议正确令牌的接近程度。

# Ranks of the correct token
plot_logit_lens(
    model,
    tokenizer,
    input_ids,
    start_ix=75,
    end_ix=100,
    ranks=True # ranks of the correct token
)

您将获得每个层的排名表格（*图 3-2）。

图 3-2. 每个层的正确令牌概率的排名，领先于第 75 到 100 位置

KL 散度有助于确定每层概率完全分布与最终输出之间的差异程度。

# Divergence from output distribution as token propagates through network
    plot_logit_lens(
    model,
    tokenizer,
    input_ids,
    start_ix=75,
    end_ix=100,
    kl=True
    # Divergence from output distribution as token propagates through network
)

这种分歧在早期很高，但随后随着输入通过网络传播，逐渐接近 0（*图 3-3）。

图 3-3. 概率的 KL 散度

如果前面的内容对您不够详细，您还可以指定包含网络子块。

# Copying a Rare token
plot_logit_lens(
    model,
    tokenizer,
    input_ids,
    start_ix=75,
    end_ix=100,
    ranks=True,
    include_subblocks=True, # Whether to include subblocks
)

使用此功能，您可以看到正确输出令牌的排名需要多大努力才能超过所有竞争选择（*图 3-4）。

图 3-4. 稀有但正确输出令牌的排名，涵盖子块

plot_logit_lens`实用程序具有许多不同粒度级别的选项。如果我们切换到更加重复的输入，所有这些会是什么样子？

# Extremely repetitive inputs
plot_logit_lens(
    model,
    tokenizer,
    input_ids,
    start_ix=75,
    end_ix=100,
    ranks=True,
    include_subblocks=True,
    decoder_layer_names=["h.11", "final_layernorm", "lm_head"],
)  # Adding in the names of the decoder layers

对重复输入的这种分析生成了图 3-5。

图 3-5. 对更重复的输入进行分析

那么这一切如何与三部分框架相关联？

如果您想进行应用级评估，机器学*工程师能否轻松理解正在发生的事情？您希望将应用级评估产生的解释与其他解释大型语言模型内部机制的方法进行比较。最重要的是，您希望将其与 ML 工程师的同事如何解释模型内部机制进行比较。

如果你想从“人类水*评估”的角度来评价这个解释，你会把焦点从仅限于机器学*开发者扩展到询问非机器学*软件工程师（或者更好的是非工程师）是否能理解模型中正在发生的事情。这种方法可能涉及在图中更明确地解释从输入到输出的框架。

你可以在得到人类反馈后进行功能级评估。一旦你了解了人类能够开始理解的解释类型，你就希望有某种代理指标来评估这些解释。例如，正确令牌在图表中出现的时间有多早？我们可以比较这种时间跨其他变压器模型。你还可以计时解释性方法的运行时间。分析 GPT 模型层次的各种方法比像 SHapley Additive exPlanations（或简称 SHAP，*“Shapley and SHAP”）这样的技术对如此大量的输入和输出来说要快得多。

解释模型和解释输出的方法

模型可解释性和可解释性领域发展迅速。然而，一些方法即使经过数十年的使用仍经受住了时间的考验。

本质上可解释的模型

一些模型易于解释，因为它们的各个参数对应于人类可以轻松理解的决策点，例如线性和逻辑回归模型、符号回归模型、支持向量机和决策树。

线性回归

线性回归（以及多元线性回归）或许是最简单的固有可解释模型类型。线性回归模型只需输入一个依赖变量和一个独立变量的数据集。给定数据集 $StartSet y Subscript i Baseline comma x Subscript i Baseline 1 Baseline comma ellipsis comma x Subscript i p Baseline EndSet Subscript i equals 1 Superscript n$ ，其中 $y$ 表示独立变量， $x$ 表示依赖变量，模型为 $y_{i} = β_{0} + β_{1} x_{i 1} + ... + β_{p} x_{i p} + ϵ_{i} = 𝐱_{i}^{T} β + ϵ_{i}$ ，其中 $i equals 1 comma ellipsis comma n$ 。

这里各个 beta 项描述了线性关系，而 epsilon 表示随机误差项。要看到这一点的实际效果，让我们看一个非常简单的线性回归示例：

# 1\. Create example data in the form of Numpy arrays
import numpy as np

# Create a random dataset
rng = np.random.RandomState(1)
X = np.linspace(0, 6, 100)[:, np.newaxis]
y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])

# 2\. fit a scikit-learn linear regression model
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Create linear regression object
regr = LinearRegression()

# Train the model using the training sets
regr.fit(X, y)

# Make predictions using the testing set
y_pred = regr.predict(X)

# The coefficients
print('Coefficients: \n', regr.coef_)
# The mean squared error
print("Mean squared error: %.2f"
      % mean_squared_error(y, y_pred))
# Explained variance score: 1 is perfect prediction
print('Variance score: %.2f' % r2_score(y, y_pred))

Coefficients:
 [-0.35745894]
Mean squared error: 0.61
Variance score: 0.39

如果你有一个回归问题，在转向更复杂的模型之前，首先确保线性回归能够充分解决这个问题是最佳实践。你可能会惊讶地看到有多少问题可以通过线性回归模型充分解决。¹¹

提示

想要在 (Intel) CPU 上加速 scikit-learn 吗？通过 scikit-learn-intelex，只需添加一行代码，速度提高了大约 1.4 至 4,800 倍：

from sklearnex import patch_sklearn; patch_sklearn()

谈到代码，这些固有可解释模型可以在笔记本 Chapter_3_Intrinsically_Interpretable_Models.ipynb 中进一步探索。

逻辑回归

逻辑回归是一种线性模型，用于预测分类变量的概率。换句话说，它是一个二元分类器。之所以称为“回归”，是因为它是一个事件或变量概率的回归模型。该事件或变量的值取决于是否达到了某个概率阈值。

在文献中，逻辑回归也被称为logit 回归、最大熵分类（MaxEnt）或对数线性分类器。在该模型中，通过一个逻辑函数，来建模描述单次试验可能结果的概率，其中 $f (x) = \frac{L}{1 + e^{- k (x - x_{0})}}$ ，其中 $x 0$ 是 S 型函数中点的 $x$ 值， $L$ 是曲线的最大值， $k$ 是逻辑增长率或曲线的陡峭度。

在此代码片段中，您可以创建一个基本的逻辑回归模型，然后查看决策边界。

import numpy as np
from sklearn.linear_model import LogisticRegression

import matplotlib.pyplot as plt

# 1\. Create example data in the form of Numpy arrays

# Create a random dataset
rng = np.random.RandomState(0)
X = np.array([[1, 50], [5, 20], [3, 80], [5, 60]])
y = [0, 0, 1, 1]

# 2\. fit a scikit-learn logistic regression model

# Fit the model
clf = LogisticRegression()
clf.fit(X, y)

# 3\. plot the model coefficients with matplotlib

# Plot the points
plt.scatter(X[:,0], X[:,1], c=y, s=30, cmap=plt.cm.Paired)

# Plot the decision function
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()

# create grid to evaluate model
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = clf.decision_function(np.column_stack([xx.ravel(), yy.ravel()]))

# put the result into a color plot
Z = Z.reshape(xx.shape)
ax.contourf(xx, yy, Z, cmap=cm_piyg, alpha=0.8)

# plot the training points
ax.scatter(
    X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright, edgecolors="k"
)
# and testing points
ax.scatter(
    X_test[:, 0],
    X_test[:, 1],
    c=y_test,
    cmap=cm_bright,
    edgecolors="k",
    alpha=0.6,
)
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xticks(())
ax.set_yticks(())

就像线性回归是回归问题的简单首选一样，逻辑回归是分类问题的简单首选。正如您在前面的代码片段中看到的那样，逻辑回归模型定义起来非常简单，大部分代码用于绘图。

将它们的输出描述为输入变量加权和的线性模型易于实施和理解。问题在于它们依赖于通常在现实世界中不成立的某些假设。例如，线性回归通常假设误差ε遵循高斯分布，但现实世界的现象可能遵循看起来与高斯分布完全不同的分布。有些变量可能会互相作用，而另一些则可能不会。在相互作用的变量中，有些可能具有线性关系，而另一些可能具有非线性关系。幸运的是，有各种各样的非线性模型可以更好地拟合数据，同时仍然提供解释能力。

广义线性模型

如果给定特征时目标结果y不符合高斯分布，则广义线性模型（GLM）是一个不错的选择。GLM 的主要方法是保持特征的加权和，但允许非高斯结果分布，并将此分布的期望均值与加权和相连接。

$g (E_{Y} (y | x)) = β_{0} + β_{1} x_{1} + ... β_{p} x_{p}$

虽然 GLMs 可用于高斯分布，但这种方法也可应用于泊松、Gamma 和反 Gamma 分布。

对于 GLMs，你可以使用 scikit-learn 的广义线性模型。在导入 TweedieRegressor 后，你可以调整power、alpha和link设置来调整线性模型的复杂性。

>>> from sklearn.linear_model import TweedieRegressor
>>> reg = TweedieRegressor(power=1, alpha=0.5, link='log')
>>> reg.fit([[0, 0], [0, 1], [2, 2]], [0, 1, 2])
TweedieRegressor(alpha=0.5, link='log', power=1)
>>> reg.coef_
array([0.2463..., 0.4337...])
>>> reg.intercept_
-0.7638...

输出是一系列系数（所有 beta 值）和一个截距（对应于第一个 beta）。

广义可加模型

如果特征与y之间的真实关系不是线性的，那么广义可加模型（GAM）是一个不错的选择。GAMs 基本上是允许非线性关系的广义线性模型（GLMs）。其公式非常相似：

$g (E_{Y} (y | x)) = β_{0} + f_{1} (x_{1}) + f_{2} (x_{2}) + ... + f_{p} (x_{p})$

唯一的区别是线性项 $β_{p} x_{p}$ 被更加灵活的 $f Subscript p Baseline left-parenthesis x Subscript p Baseline right-parenthesis$ 函数（通常代表样条函数）取代。它仍然是特征的总和，但现在可选的非线性由这些函数表示。

要在 Python 中使用 GAMs，你可以使用pyGAM。

!pip install pygam
from pygam import LinearGAM

import matplotlib.pyplot as plt
redwine_url = 'https://matthewmcateer.me/media/oreilly_book/redwine-quality.csv'
redwine = pd.read_csv(redwine_url)
# Prepare dataset
redwine_X = redwine.drop(['quality'], axis=1).values
redwine_y = redwine['quality']
# Build model with gridsearch
lams = np.random.rand(100, 11)
lams = lams * 11 - 3
lams = np.exp(lams)
print(lams.shape)
gam = LinearGAM(n_splines=10).gridsearch(redwine_X, redwine_y, lam=lams)
# Create partial dependence plots
titles = redwine.columns[0:11]
plt.figure()
fig, axs = plt.subplots(1,11,figsize=(40, 5))

for i, ax in enumerate(axs):
    XX = gam.generate_X_grid(term=i)
    ax.plot(XX[:, i], gam.partial_dependence(term=i, X=XX))
    ax.plot(
        XX[:, i],
        gam.partial_dependence(term=i, X=XX, width=0.95)[1],
        c="r",
        ls="--",
    )
    if i == 0:
        ax.set_ylim(-30, 30)
    ax.set_title(titles[i])

广义可加模型加交互项

如果特征之间存在交互作用，那么你可以手动添加交互项，或者转向广义可加模型加交互项（GA2Ms）。¹² 这些模型捕捉的交互作用比普通的 GAMs 复杂得多。将 GA2Ms 应用到数据集上与应用 GAMs 并没有太大区别。

import pandas as pd
import numpy as np
from interpret import show
from interpret.data import Marginal
from sklearn.model_selection import train_test_split

np.random.seed(0)
df = pd.read_csv('/winequality-red.csv') # Load the data

Y = df['quality'] # The target variable is 'quality'
X = df[
    [
        "fixed acidity",
        "volatile acidity",
        "citric acid",
        "residual sugar",
        "chlorides",
        "free sulfur dioxide",
        "total sulfur dioxide",
        "density",
        "pH",
        "sulphates",
        "alcohol",
    ]
]
X_featurenames = X.columns
# Split the data into train and test data:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2)

# Loading the data exploration tool
marginal = Marginal().explain_data(X_train, Y_train, name = 'Train Data')
show(marginal)

除了探索数据外，你还可以训练 GA2M 模型，它表现为ExplainableBoostingRegressor类。如果你在解决分类问题，可以使用ExplainableBoostingClassifier类。

from interpret.glassbox import (
    ExplainableBoostingRegressor,
    LinearRegression,
    RegressionTree,
)

lr = LinearRegression(random_state=seed)
lr.fit(X_train, Y_train)

rt = RegressionTree(random_state=seed)
rt.fit(X_train, Y_train)

ebm = ExplainableBoostingRegressor(random_state=seed)
ebm.fit(X_train, Y_train)
# For Classifier, use ebm = ExplainableBoostingClassifier()

使用这种方法的缺点是什么？虽然 GA2M 中的成对交互项极大地提高了准确性，但该模型的计算非常耗时和 CPU 密集。

符号回归

先前描述的许多方法都可以视为创建大型方程作为模型的方式。符号回归（SR）将这一过程推向极致，通过迭代地改变公式的组成部分以更好地拟合数据。SR 寻求以（希望是优雅的）数学表达式形式的数据准确模型。SR 通常被认为是困难的，并且通常使用进化算法尝试。如果你有表格数据或者可以用方程描述的数据，那么符号回归是一个不错的选择。

假设你有一个二维数据集，如下所示。

import numpy as np

X = 2 * np.random.randn(100, 5)
y = 2.5382 * np.cos(X[:, 3]) + X[:, 0] ** 2 - 0.5

这个数据集包含 100 个数据点，每个数据点有 5 个特征。与模型的关系是 2.5382 $cos (x_{3}) + x_{0}^{2} - 0.5$ 。现在，让我们创建一个 PySR 模型并进行训练。PySR 的主要接口采用了类似 scikit-learn 的风格。

from pysr import PySRRegressor
model = PySRRegressor(
    model_selection="best",  # Result is mix of simplicity+accuracy
    niterations=40,
    binary_operators=["+", "*"],
    unary_operators=[
        "cos",
        "exp",
        "sin",
        "inv(x) = 1/x",
	# ^ Custom operator (julia syntax)
    ],
    extra_sympy_mappings={"inv": lambda x: 1 / x},
    # ^ Define operator for SymPy as well
    loss="loss(x, y) = (x - y)²",
    # ^ Custom loss function (julia syntax)
)

这将设置模型为搜索代码的 40 次迭代，其中包含数十万次的变异和方程求解。然后，您可以通过运行 model.fit(X, y) 将模型拟合到数据上。在内部，这将启动一个 Julia 进程，该进程将进行多线程搜索以适应数据集的方程式。

注意

如果您不熟悉 Julia 语言，它对机器学*非常有用。Julia 是一种动态的、通用的编程语言，能够进行高性能科学计算，支持高级代码中的 UTF-8 编码，如数学符号和表情符号。

如果您想了解更多，O’Reilly 有一些很棒的资源，比如 “学* Julia”。

方程式将在训练过程中打印出来，一旦您满意，可以通过按 'q' 然后 \<enter\> 来提前退出。模型拟合完成后，您可以运行 model.predict(X) 来查看在给定数据集上的预测结果。运行 print(model) 可以打印出学*到的方程式。

PySRRegressor.equations_ = [
	   pick     score                                           equation \
	0        0.000000                                          4.4324794 \
	1        1.255691                                          (x0 * x0) \
	2        0.011629                          ((x0 * x0) + -0.28087974) \
	3        0.897855                              ((x0 * x0) + cos(x3)) \
	4        0.857018                ((x0 * x0) + (cos(x3) * 2.4566472)) \
	5  >>>>       inf  (((cos(x3) + -0.19699033) * 2.5382123) + (x0 *... \
       loss  complexity
  42.354317           1
   3.437307           3
   3.358285           5
   1.368308           6
   0.246483           8
   0.000000          10
]

这个箭头在 pick 列中表示您的 model_selection 策略当前选择的方程式用于预测（您也可以在 .fit(X, y) 后更改 model_selection）。model.equations_ 是一个 Pandas DataFrame，包含所有方程式，包括可调用格式（lambda_format）、SymPy 格式（sympy_format，您也可以通过 model.sympy() 获得）、以及 JAX 和 PyTorch 格式（这两者都是可微分的，可以通过 model.jax() 和 model.pytorch() 获得）。

支持向量机

作为神经网络方法的前身，支持向量机（SVM）是一组用于分类、回归和异常检测的监督学*方法。SVM 在处理高维数据时效果显著，可能比数据集中的样本更多的维度还要多。SVM 内存效率高，可以通过核函数进行定制化（虽然像 sklearn 这样的包已经具有了一些出色的核函数）。SVM 的主要缺点是如果要避免过拟合，正则化至关重要。与逻辑回归等方法不同，SVM 不提供概率估计。您需要使用类似五折交叉验证的方法来获取这些估计，这样做可能会消除使用 SVM 的计算效率优势。

要使用 SVM，有许多方法，但最流行的是 scikit-learn 的支持向量机实现。

>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC()
>>> clf.fit(X, y)
SVC()
>>> clf.predict([[2., 2.]])
array([1])
>>> # get support vectors
>>> clf.support_vectors_
array([[0., 0.],
       [1., 1.]])
>>> # get indices of support vectors
>>> clf.support_
array([0, 1]...)
>>> # get number of support vectors for each class
>>> clf.n_support_
array([1, 1]...)

决策树

类似于 SVM，决策树在拟合非线性关系方面表现出色（尽管它们在处理线性关系时可能会遇到困难）。决策树擅长的是将数据分类为不同组，并提供直观的可视化。

与许多其他机器学*方法类似，scikit-learn 提供了多种决策树变体。还值得一提的是其中一种更受欢迎的可解释决策树算法：XGBoost（它也具有类似于scikit-learn 的 API）。

# create an xgboost regression model
model = XGBRegressor(
    n_estimators=1000, max_depth=7, eta=0.1, subsample=0.7, colsample_bytree=0.8
)

np.random.seed(0)
df = pd.read_csv("/winequality-red.csv")  # Load the data

Y = df["quality"]  # The target variable is 'quality'
X = df[
    [
        "fixed acidity",
        "volatile acidity",
        "citric acid",
        "residual sugar",
        "chlorides",
        "free sulfur dioxide",
        "total sulfur dioxide",
        "density",
        "pH",
        "sulphates",
        "alcohol",
    ]
]
X_featurenames = X.columns
# Split the data into train and test data:
# X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2)

# define model evaluation method
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(
    model, X, y, scoring="neg_mean_absolute_error", cv=cv, n_jobs=-1
)

# define model evaluation method
cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(
    model, X, y, scoring="neg_mean_absolute_error", cv=cv, n_jobs=-1
)
# force scores to be positive
scores = absolute(scores)
print("Mean MAE: %.3f (%.3f)" % (scores.mean(), scores.std()))

决策规则

决策规则是一组 if-then 语句，可用于做出决策。如果 if-then 语句中的条件得到满足，则会执行决策规则。决策规则通常用于决策过程中，因为它们易于理解并且可以快速应用。当大多数人开始使用像 Python 这样的编程语言时，他们通常会广泛使用 if-then 语句。因此，这可以成为理解决策逻辑的一种非常直观的方式。

创建一个包含大量特征的数据集的 if-then 语句可能非常耗时。有许多算法可以生成这些规则。以下是其中三种最受欢迎的：

OneR

OneR 基于单个特征学*规则。这是一种最简单且易于理解的方法之一。虽然其他算法可能生成更准确的规则，但 OneR 快速而简单，足以作为与其他算法进行比较的基准。要在 Python 中使用 OneR，您可以使用MLxtend 库中的OneRClassifier实现。

注意

OneR 是一个非常简单的算法，假设数据是分类的。它在处理连续数据时效果不佳。您可能不希望依赖它来处理复杂的自然语言处理或计算机视觉任务。

顺序覆盖

顺序覆盖是一种迭代方法，通过添加新的 if-then 规则，移除被新规则解释的数据点，并重复该过程，直到所有数据点都得到解释。使用顺序覆盖生成的决策规则时，Oracle 的 Skater 库有良好的实现。

贝叶斯规则列表

此方法涉及引入关于数据的各种频率统计作为起点的先验知识。这些关于模式的先验知识可以用来基于贝叶斯统计创建决策列表。根据实现方式，这可能还与顺序覆盖有一些重叠。对于通过贝叶斯规则列表实现决策规则，像iModels包这样的工具是一个很好的选择；它具有类似于 sklearn 的接口。它还包含特定决策规则算法的实现，如 Friedman 和 Popescu 的 RuleFit。¹³

超越内在可解释模型

到目前为止，所有描述的模型都有一些简单的方法来将它们的参数转化为人类可理解的指导，以解释它们的基础决策。然而，在许多领域，您可能希望有一个预测数据模式的模型，而不管其参数的易理解程度如何。自 2012 年以来，基于神经网络的方法已经在许多领域取代了我们在这里描述的许多方法。考虑到神经网络的巨大变化，应该有一些不特定于任何一个模型的解释方法。

本地模型无关解释方法

正如我们之前提到的，本地可解释性侧重于理解个体预测的意义。许多先前讨论的模型都有内置的方法来解释局部预测，例如决策树中的项或多重线性回归。然而，如果我们比较包括许多不同神经网络架构的多个模型类型，使用这些内在可解释性方法将像是在比较苹果和橙子。这就是为什么我们理想地希望有一种方法来结合局部可解释性和模型无关的可解释性。

本地可解释模型无关解释

一个本地可解释模型无关解释（LIME）通过用本地可解释的替代模型替换复杂模型来解释预测。您可以将此技术应用于图像、文本，甚至表格数据。此技术的一般步骤如下：

选择模型输出的一堆实例来解释您想要解释的模型。（这是局部的，因为我们只解释这个有限集而不是所有可能的模型输出的全局集合。）
创建一个替代模型，它复制您想要解释的模型在这些实例上的行为。您将不了解模型内部，只知道输出的外观。
创建输入数据的随机扰动，并查看替代模型如何对其进行分类。
使用这些分类边界创建一个决策边界，可用于解释模型的预测。

如果您想要这个更正式的数学版本，假设输入数据为 $x$ 。要解释的复杂模型是 $f$ ，简单可解释模型是 $g$ （其中 $g element-of upper G$ 表明它属于稀疏线性模型的集合，如先前讨论的那种），而 $π_{x}$ 是一个指示您的数据点 $x$ 局部邻域大小的接近度量。从这里，您将创建一个损失函数 $ℒ$ ，它将最小化 $f$ 和 $g$ 的输出之间的差异，使其在 $π_{x}$ 内。在不进行任何修改的情况下，这个过程将使复杂的 $g$ 几乎与 $f$ 相同。这就是为什么您要添加 $normal upper Omega left-parenthesis g right-parenthesis$ ，这是一个正则化项，限制您的可解释模型 $g$ 的复杂性。这将带您到训练 LIME 的一般方程式。

$ξ (x) = \underset{g \in G}{arg min} ℒ (f, g, π_{x}) + Ω (g)$

损失函数更具体地描述如下：

$ℒ (f, g, π_{x}) = \sum_{z, z â \in 𝒵} π_{x} (z) {(f (z) - g (z^{'}))}^{2}$

直观地说，解释是模型行为的局部线性逼近。虽然模型在全局上可能非常复杂，但在特定实例的周围近似它会更容易。当将模型视为黑盒时，您扰动要解释的实例，并在其周围学*一个稀疏线性模型，作为解释。

模型的决策函数是非线性的。鲜红色的十字是被解释的实例（我们称之为X）。您对X周围的实例进行采样，并根据它们与X的接近程度进行加权（这里的权重由大小表示）。然后，您学*一个线性模型（虚线），在X附近很好地近似模型，但不一定在全局范围内。

深入示例：LIME 在视觉 Transformer 模型上的应用

存在许多关于 LIME 在基于 CNN 的图像分类器上的示例。由于这些是与模型无关的方法，值得通过在视觉 Transformer (ViT)模型上运行 LIME 来进行演示，用于图像分类。

注意

您可以在笔记本Chapter_3_LIME_for_Transformers.ipynb中找到与本教程相关的所有代码。

# Setting up your environment for LIME
!pip -qq install lime
!pip -qq install transformers

对于您的 NLP 示例，您可以使用专门针对金融领域进行了微调的 BERT 版本，称为 finBERT。这是一个 BERT 模型，可以对文本数据进行情感分析。

# Importing the sentiment classification model
import numpy as np
import lime
import torch
import torch.nn.functional as F
from lime.lime_text import LimeTextExplainer
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("ProsusAI/finbert")
model = AutoModelForSequenceClassification.from_pretrained("ProsusAI/finbert")
class_names = ["positive", "negative", "neutral"]

对于LimeTextExplainer类，您需要指定一个预测函数，该函数将接受输入并通过分词器和模型进行处理。

# Text predictor function for LIME
def predictor(texts):
    outputs = model(**tokenizer(texts, return_tensors="pt", padding=True))
    probas = F.softmax(outputs.logits).detach().numpy()
    print(probas.shape)
    return probas

对于实际的文本解释器，您需要提供样本句子和预测函数。在这个演示中，您将设置 LIME 来采集两千个样本。

# LIME Text Explainer
explainer = LimeTextExplainer(class_names=class_names)
example_text = (
    "alarming decrease in market share despite increases in " + \
    "revenue and decreased operating costs"
)
exp = explainer.explain_instance(
    example_text, predictor, num_features=20, num_samples=2000
)
exp.show_in_notebook(text=example_text)

在图 3-6 中，除了输出的对数之外，您还可以看到哪些特征倾向于支持某个输出类别或另一个。

图 3-6. LIME 在文本输入上运行

LIME 不仅适用于文本分类，也适用于图像模型。

# Importing the image classification transformer model
import json
import os
import requests
import time

import lime
import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from PIL import Image
from torch.autograd import Variable
from torchvision import models, transforms
from transformers import ViTForImageClassification
from transformers import ViTFeatureExtractor

model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224")
feature_extractor = ViTFeatureExtractor.from_pretrained(
    "google/vit-base-patch16-224"
)

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
img = Image.open(requests.get(url, stream=True).raw).convert('RGB')
plt.imshow(img);

我们从开始处理 PIL 图像（图 3-7）。与任何 torchvision 模型一样，我们需要进行一些预处理。然而，由于原始 LIME 库的一个怪异之处，您需要添加一个解决方法：LimeImageExplainer。

# Importing the image classification transformer model
def get_pil_transform():
    transf = transforms.Compose(
        [transforms.Resize((256, 256)), transforms.CenterCrop(224)]
    )

    return transf

def get_preprocess_transform():
    normalize = transforms.Normalize(
        mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
    )
    transf = transforms.Compose([transforms.ToTensor(), normalize])
    return transf

pil_transf = get_pil_transform()

def numpy_to_pil(numpy_array):
    if len(numpy_array.shape) == 3:
        return Image.fromarray(numpy_array)
    elif len(numpy_array.shape) == 4:
        pil_list = []
        for i in range(numpy_array.shape[0]):
            pil_list.append(Image.fromarray(numpy_array[i]))
        return pil_list
    else:
        raise ValueError(
            "The numpy array must be 3-dimensional or 4-dimensional"
        )

图 3-7. LIME 图像输入

与文本解释器一样，我们将创建一个预测函数，该函数接受一批图像并输出预测。您只需确保该函数正确地利用了 numpy-PIL 转换函数以及编码和模型。

from lime import lime_image

# Hide color is the color for a superpixel turned OFF. Alternatively,
# if it is NONE, the superpixel will be replaced by the average of its pixels
explainer = lime_image.LimeImageExplainer()
explanation = explainer.explain_instance(
    np.array(pil_transf(img)),
    # classification function
    batch_predict,
    top_labels=5,
    hide_color=0,
    num_samples=1000,
)
# number of images that will be sent to classification function

从这里，我们可以使用解释器来检查图像中与顶部预测类别对应的部分（图 3-8）。

# Analyzing top predicted class with LIME
from skimage.segmentation import mark_boundaries

temp, mask = explanation.get_image_and_mask(
    explanation.top_labels[0],
    positive_only=True,
    num_features=5,
    hide_rest=False,
)
img_boundary_1 = mark_boundaries(temp / 255.0, mask)
plt.imshow(img_boundary_1);

图 3-8. LIME 高亮的正面贡献

或者，如果我们只关注顶部类别的预测，我们可以进一步检查解释，以找出哪些部分支持决定，哪些部分反对它（图 3-9）。

# Positive and negative contributions
temp, mask = explanation.get_image_and_mask(
    explanation.top_labels[0],
    positive_only=False,
    num_features=10,
    hide_rest=False,
)
img_boundary_2 = mark_boundaries(temp / 255.0, mask)
plt.imshow(img_boundary_2);

图 3-9. LIME 高亮的负面贡献

这些方法不是在变换器模型上使用 LIME 的唯一方式。在 Captum 软件包中描述了使用 LIME 的另一种方法的替代方法。

夏普利与 SHAP

SHapley Additive exPlanations (SHAP) 是一种归因方法，公*地将预测分配给各个特征。这基于合作博弈论领域的 夏普利值 的概念。

假设我们有一组四个人一起合作进行游戏（也称为“联盟”）。这个游戏可能是一个机器学*竞赛。比赛结束后，他们根据结果得到一定的奖励，比如赢得第一名可获得 10,000 美元。中心问题是如何公*分配奖金。在机器学*竞赛中，每个联盟成员可能贡献了不同的部分，因此完全*均分配给所有成员是没有意义的。

劳埃德·夏普利于 1951 年提出了夏普利值。这些值告诉我们玩家对奖励的*均贡献。可解释的 AI 值 SHAP 利用夏普利值来确定输入实例的哪些特征导致了模型决策（而不是游戏中的玩家）。

Shapley 值的主要直觉是，它们衡量了如果没有某个玩家，联盟会如何发挥作用。假设在您的机器学*竞赛中，我们移除了域专家 Alice 玩家。团队原本可以排名第一，但最终排名第二，仅获得 $3,000 的奖金。您可能会在这里停下来，假设 Alice 贡献了奖金的 70%，但事实并非如此简单。

玩家彼此之间存在互动，因此我们还需要考虑玩家在共同工作时的表现。假设团队还有机器学*专家 Bob。Alice 只有在与 Bob 合作时才能取得出色的结果，因此贡献应该在他们之间分配。但我们还没有结束，因为我们还需要考虑子集，例如一个三人子集，排除 Bob，仅包含 Alice 和她的队友 Carol 和 Dylan。Shapley 值用于计算联盟的每个可能子集的每个玩家的贡献，并对所有这些贡献进行*均（被称为玩家的 边际价值）。

让我们回到机器学*的背景。正如前面提到的，我们可以将数据实例中的特征视为玩家，模型输出预测为奖金。Shapley 值告诉我们这个值如何在所有输入之间分配。SHAP 使用这种方法为个别预测创建局部解释，但也可以通过对传入模型的整个数据集的*均值进行全局解释。

我们如何实际计算 Shapley 值呢？考虑以下方程，用于获取您的黑盒模型 $f$ 和输入数据实例 $x$ 的特征值 $i$ 的 Shapley 值（这将是表格数据集中的单行）。您需要迭代所有可能的特征子集（ $z â $ ），以确保我们考虑了特征值之间的所有交互。我们将采样空间标记为 ′，因为对于像图像这样的更大实例，我们不会将每个像素视为特征；相反，我们找到一种方法来总结图像为更大的特征。您会获得包括我们感兴趣的特征的黑盒模型输出（ $f Subscript x Baseline left-parenthesis z prime right-parenthesis$ ），以及没有这个特征的输出（ $f Subscript x Baseline left-parenthesis z prime minus i right-parenthesis$ ）。观察这两者告诉我们特征在该子集中如何影响模型输出。

然后，你要对每个特征子集的可能排列进行这样的操作，而每个排列的权重又取决于联合体中的玩家数量，或者我们针对数据实例 $M$ 总共查看的特征数量。这使我们能够判断一个特征是否对模型的决策产生了很大的改变，即使我们已经考虑了很多其他特征。这也使我们能够更直接地观察在较小联合体中孤立特征的影响。

$φ_{i} (f, x) = \sum_{z â \subseteq x^{'}} \frac{|z â |! (M - |z â | - 1)!}{M!} () f_{x} (z^{'}) - f_{x} (z â ∖ i))$

仍然有一个问题：如果我们的模型通常接受固定大小的输入，我们如何从模型输入中移除特征？在 SHAP 中，通过用训练数据中其他位置的随机替换值替换已移除的特征值来解决这个问题。如果我们对所有子集都这样做，那么特征的相关性基本上会被采样掉。你完全打乱特征直到它们成为随机的，而完全随机的特征则不具有预测能力。

但是使用 SHAP 仍然存在一个障碍：计算复杂度很高。计算所有这些子集是昂贵的。对于具有 $n$ 个特征的实例，我们有 $2 Superscript n$ 个子集。对于 10 个特征，我们有 $2 Superscript 10 Baseline equals 1 comma 024$ 个子集，对于 20 个特征，我们有 $2 Superscript 20 Baseline equals 1 comma 048 comma 576$ 个子集，以此类推。一个可能的解决方案是近似计算 SHAP，而不是精确计算。Kernel SHAP 对特征子集进行采样，并根据这些样本拟合线性回归模型。变量只是一个特征是否存在或缺失，输出值是预测结果。这个线性模型的系数可以解释为近似的 Shapley 值。这类似于 LIME，但我们不关心实例之间的接近程度，只关心它们包含的信息量。

SHAP 的其他近似方法包括 Tree SHAP 和 Deep SHAP，分别用于基于树的模型和深度神经网络。这些技术不再是真正的模型无关的，但好处在于它们至少可以利用模型内部加速计算。

深度分析示例：SHAP 对视觉 Transformer 模型的应用

SHAP 可用于解释多种不同类型数据的预测，从表格数据到图像和语言数据。

注意

你可以在笔记本Chapter_3_SHAP_for_Transformers.ipynb中找到与本教程相关的所有代码。图 3-10 到图 3-15 的交互版本也可在Chapter_3_SHAP_for_Transformers.ipynb笔记本中找到。

考虑使用 SHAP 分析大型语言模型的示例。

# Setting up your environment for SHAP
!pip -qq install shap
!pip -qq install transformers

对于您的分类任务，我们将使用 HuggingFace Transformers 库。我们将使用您的模型（DistilBERT）和相关的 tokenizer 创建一个标准的TextClassificationPipeline。

此模型是distilbert-base-uncased在 sst-2-english 数据集上微调的版本。即使是对其他在 sst-2-english 上微调的 distilbert 模型来说，替换这个模型名称也可能会导致可视化和输出标签的变化。

# Setting up environment for Text Classification
import shap
import transformers

from transformers import (AutoTokenizer,
                          AutoModelForSequenceClassification,
                          TextClassificationPipeline)

tokenizer_name = "distilbert-base-uncased"
model_name = "distilbert-base-uncased-finetuned-sst-2-english"

tokenizer = transformers.DistilBertTokenizerFast.from_pretrained(tokenizer_name)
model = transformers.DistilBertForSequenceClassification.from_pretrained(
    model_name
).cpu()

pipe = TextClassificationPipeline(
    model=model, tokenizer=tokenizer, return_all_scores=True
)

def score_and_visualize(text):
    prediction = pipe([text])
    print(prediction[0])

    explainer = shap.Explainer(pipe)
    shap_values = explainer([text])

    shap.plots.text(shap_values)

使用您的 DistilBERT 模型及其导入的 tokenizer，我们可以看到 SHAP 如何处理文本分类。以下是一个处理显然是积极文本的示例（参*图 3-10）。

# Looking at example sentences
score_and_visualize(
    'After tons of trial and error, I finally succeeded in opening '
    'a shawarma place run by machine learning. The road was long '
    'and tough, but I am so happy with the outcome!'
)

[
    {"label": "NEGATIVE", "score": 0.0003080847964156419},
    {"label": "POSITIVE", "score": 0.9996919631958008},
]
Partition explainer: 2it [00:14, 14.77s/it]

图 3-10. 在一个明显积极的示例句子上使用 SHAP。

并且这是一个处理有消极倾向的中性文本的示例（参*图 3-11）。

# Strong negative sentiment
score_and_visualize('I am neutral to the restaurant.')

[
    {"label": "NEGATIVE", "score": 0.9982801675796509},
    {"label": "POSITIVE", "score": 0.0017198126297444105},
]

图 3-11. 在一个有意义上是中立评价（被认为是消极的）上使用 SHAP。

在这个例子中，我们再次分析中性文本，但这次是带有积极倾向的（参*图 3-12）。

# Neutral sentiment
score_and_visualize('I am impartial to the restaurant.')

[
    {"label": "NEGATIVE", "score": 0.0010014761937782168},
    {"label": "POSITIVE", "score": 0.9989985823631287},
]

图 3-12. 在另一个有意义上是中立评价（被认为是积极的）的文本上使用 SHAP。

最后，在这里我们使用 SHAP 来分析一个更长且故意模糊的文本（参*图 3-13）。

# Analyzing a longer and intentionally ambiguous restaurant review
restaurant_review = (
    "This is easily the most underrated eatery this side of Cambridge, "
    "though that is also setting a low bar. The food was pretty good, "
    "but I did not like the service. The wait staff were really slow "
    "and did not seem to know what they were doing. The restaurant "
    "was really dirty and the owners did not seem to care. Still, I "
    "loved the food. It was amazing. As a flipside of the owners not "
    "caring, the establishment seemed remarkably dog-friendly. Some "
    "people will love this place. Some people will hate it. As for "
    "a final review, I won't not not give this place a good review."
)

score_and_visualize(restaurant_review)

[
    {"label": "NEGATIVE", "score": 0.007593947928398848},
    {"label": "POSITIVE", "score": 0.9924060702323914},
]
Partition explainer: 2it [00:29, 29.03s/it]

图 3-13. 在一个更长的评论上使用 SHAP。

您甚至可以将 SHAP 扩展到解释零样本分类任务（参*图 3-14）。¹⁴ 与之前的方法（除了导入更改外）的主要区别在于，我们将从导入的ZeroShotClassificationPipeline类创建一个自定义类MyZeroShotClassificationPipeline。

# Setting up environment for zero-shot text classification
import shap
from transformers import (
    AutoModelForSequenceClassification,
    AutoTokenizer,
    ZeroShotClassificationPipeline,
)
from typing import Union, List

weights = "valhalla/distilbart-mnli-12-3"

model = AutoModelForSequenceClassification.from_pretrained(weights)
tokenizer = AutoTokenizer.from_pretrained(weights)

# Create your own pipeline that only requires the text parameter
# for the __call__ method and provides a method to set the labels
class MyZeroShotClassificationPipeline(ZeroShotClassificationPipeline):
    # Overwrite the __call__ method
    def __call__(self, *args):
        o = super().__call__(args[0], self.workaround_labels)[0]

        return [
            [
                {"label": x[0], "score": x[1]}
                for x in zip(o["labels"], o["scores"])
            ]
        ]

    def set_labels_workaround(self, labels: Union[str, List[str]]):
        self.workaround_labels = labels

example_text = "This is an example text about snowflakes in the summer"
labels = ["weather", "sports"]

# In the following, we address issue 2.
model.config.label2id.update({v: k for k, v in enumerate(labels)})
model.config.id2label.update({k: v for k, v in enumerate(labels)})

pipe = MyZeroShotClassificationPipeline(
    model=model, tokenizer=tokenizer, return_all_scores=True
)
pipe.set_labels_workaround(labels)

def score_and_visualize(text):
    prediction = pipe([text])
    print(prediction[0])

    explainer = shap.Explainer(pipe)
    shap_values = explainer([text])

    shap.plots.text(shap_values)

example_text = (
    "This is an example text about snowflakes in the "
    "summer before election season and after football season."
)
score_and_visualize(example_text)

[
    {"label": "weather", "score": 0.634835422039032},
    {"label": "entertainment", "score": 0.14570148289203644},
    {"label": "politics", "score": 0.09773397445678711},
    {"label": "sports", "score": 0.08319796621799469},
    {"label": "markets", "score": 0.03853125125169754},
]
Partition explainer: 2it [09:29, 569.93s/it]

图 3-14. 使用 SHAP 解释零样本文本分类。

此示例展示了 SHAP 应用于完全中性文本的情况（参*图 3-15）。

example_text = "This is an example text about nothing at all."
score_and_visualize(example_text)

[
    {"label": "entertainment", "score": 0.6272065043449402},
    {"label": "markets", "score": 0.1165764182806015},
    {"label": "weather", "score": 0.0959262102842331},
    {"label": "politics", "score": 0.08200317621231079},
    {"label": "sports", "score": 0.07828763872385025},
]
Partition explainer: 2it [02:57, 177.37s/it]

现在，像 LIME 一样，SHAP 可以扩展到图像数据。

有许多关于基于 CNN 的图像分类器上的 SHAP 示例。您可以在视觉示例中使用相同的方法，但 SHAP 示例大多数都是在简单数据集（如 MNIST）上演示的原因是有道理的。SHAP 操作输入数据的所有特征。对于文本来说，这是每个 token。对于图像来说，这是每个像素。即使您只是在手写数字的简单图像上运行 SHAP，计算成本也很高。

如果您想要一个用于神经网络处理图像数据的可解释性方法，还有更好的选择。例如，我们还没有介绍全局模型无关的可解释性方法。

图 3-15. 在一个有意义上是中立输入上使用 SHAP 进行零样本文本分类。

全局模型无关的可解释性方法

如前所述，局部可解释性专注于理解个别决策。相比之下，全局方法旨在理解整个模型的行为。我们之前讨论的固有可解释方法提供了全局解释。然而，这些解释方法都是针对特定模型类型的。在这里，我们希望以与模型类型无关的方式检验模型的全局行为（模型无关）。

排列特征重要性

排列特征重要性指的是排列输入特征的部分，以查看修改时对输出预测造成最大变化的特征。这可以应用于图像、文本和表格数据。

排列特征重要性可以应用于视觉的一种方式是测试遮挡敏感性。这是指当图像的某些部分被任意大小的正方形遮挡时，决策输出的变化程度。

全局替代模型

这种技术涉及使用一个模型创建另一个行为极其相似的模型。这个想法是，你可以拿一个原本是黑盒的模型，创建一个本质上可解释的模型，其行为几乎与原模型完全相同（在这种情况下就是“替代模型”）。

这种方法的优点在于可以理解原本晦涩难懂模型的高级行为。缺点是所有解释都是针对替代模型而非原始模型本身。虽然替代模型的决策可能是一个接近的近似，但它们不是原始模型。

原型和批评

原型和批评都是基于示例的可解释性方法。原型是设计成代表导致某个决策的所有数据点的合成数据点。批评则相反，它们创建一个代表导致错误决策的实例的合成数据点。

MMD-critic 是由 Kim 等人开发的基于示例的可解释性方法，将原型和批评结合在一个框架中。¹⁵ 在高层次上，可以总结如下：

选择要查找的原型和批评的数量。
使用贪婪搜索找到原型。
选择原型以使原型分布接近数据分布。
使用贪婪搜索找到批评。
作为批评选定的点是原型分布与数据分布不同的地方。

解释神经网络

解释神经网络存在许多挑战。简单地说，神经网络是通用函数逼近器。这个想法是，通过在一个方程中使用足够多的参数，你可以做几乎任何事情。例如，正如著名物理学家冯·诺伊曼所说，“用四个参数我可以拟合一只大象，用五个参数我可以让它摇动鼻子。”

对于神经网络而言，每个神经元本质上都是一个巨大方程中的参数。一些参数最终可能是无用的，但只要模型能够很好地预测数据模式，我们通常不会太在意。

当涉及准确解释模型正在做什么时，这显然是一个问题。确实，根据您使用的框架，您可以为模式的定义添加大量抽象。事实上，PyTorch 支持命名张量，这是向张量的维度添加语义含义的一种方式。

如果您创建模型行为的地图而没有映射出每一个神经元，您可能会觉得自己错过了一些信息。然而，如果您将模型权重的地图制作得太细粒度，那么您就无法理解它了。这个问题通常通过查看神经网络激活和行为中的更大模式来解决，但即使这样也可能无法讲述整个故事。例如，一些研究人员对神经网络的副本上演示了一些流行的可解释性方法。对于这些副本，他们随机化了神经网络权重的子集。尽管如此，他们发现这些可解释性方法在输出准确性相同的情况下无法区分网络。

尽管这些可解释性方法仍在不断改进中，它们通常仍然比完全没有任何可解释性方法要好。重要的是要认识到这些解释方法应该用于什么，不应该用于什么。

显著性映射

显著性地图是一个突出显示网络激活或关注的区域的图像。显著性地图的目标是反映像素对模型的重要性程度。显著性映射的用处在于它可以指出输入的特定部分（例如输入图像中的像素或输入文本中的标记），这些部分被归因于某个决策。

由于显著性映射允许您查看对不同决策有贡献的内容，这可以作为提供反事实证据的一种方式。例如，在二元文本情感分类任务中，可以查看会对积极或消极情感有所贡献的嵌入。

基于梯度的方法比像 LIME 或 SHAP 这样的方法计算速度快得多。

深入探讨：CLIP 中的显著性映射

CLIP（对比语言-图像预训练）是 OpenAI 创建的一个模型，用作文本表示和图像表示之间的桥梁。在实际应用中，这意味着它可以用来比较输入字符串（例如"一个可爱的小猫坐在篮子里"）所代表的概念与实际猫咪照片所代表的概念之间的相似性得分。OpenAI 的实现还经过训练，可以作为零样本图像分类器使用。例如，它不仅能够识别 ImageNet 中香蕉的照片，还能够识别损坏和低质量照片中以及画作中的香蕉。

训练网络以将文本嵌入与图像关联允许模型以人类可理解的方式描述图像内容，而不仅仅是作为表示预定输出类别数量的独热编码向量。

然而，所有这些能力都依赖于人类用户信任 CLIP 能够正确关联文本嵌入和图像嵌入。考虑到可能的图像和文本配对的巨大多样性，这并不是一项简单的任务。尽管如此，我们迄今所涵盖的概念可以提供一些指导。

注意

您可以在笔记本 Chapter_3_CLIP_Saliency_mapping_Part1.ipynb 和 Chapter_3_CLIP_Saliency_mapping_Part2.ipynb 中找到与本教程相关的代码。这些笔记本受到 hila-chefer 的 Transformer-MM-Explainability 项目的启发，并利用了 Captum 库。

运行此代码需要大量 RAM。如果您在 Google Colab 中运行此代码，请使用 Colab Pro 中最大的 GPU，并将 RAM 设置为最高。

若要使用 CLIP，您可以从项目的公共存储库下载代码。我们将模型放在一个子目录中，您可以从中导入模型。

# Setting up your environment for CLIP

# Making sure the correct version of PyTorch is installed
!conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0
# Installing other dependencies for OpenAI's CLIP
!pip install ftfy regex tqdm
# Installing dependencies for the saliency mapping
!pip install einops ftfy captum
# Installing CLIP directly from the project Repository
!pip install git+https://github.com/openai/CLIP.git

import numpy as np
import torch
from pkg_resources import packaging
%config InlineBackend.figure_format = 'retina'

print("Torch version:", torch.__version__)

一旦我们设置好您的开发环境，您可以下载 CLIP 模型的权重。这些权重可以直接从 OpenAI 获取。

# Loading the CLIP models directly from OpenAI
import clip

print("Available CLIP Models:\n", clip.available_models())

# Loading the model and the preprocessing step
model, preprocess = clip.load("ViT-B/32")
model.cuda().eval()
input_resolution = model.visual.input_resolution
context_length = model.context_length
vocab_size = model.vocab_size

print(
    "Model parameters:",
    f"{np.sum([int(np.prod(p.shape)) for p in model.parameters()]):,}",
)
print("Input resolution:", input_resolution)
print("Context length:", context_length)
print("Vocab size:", vocab_size)

Available CLIP Models:
['RN50',
 'RN101',
 'RN50x4',
 'RN50x16',
 'RN50x64',
 'ViT-B/32',
 'ViT-B/16',
 'ViT-L/14',
 'ViT-L/14@336px']
Model parameters: 151,277,313
Input resolution: 224
Context length: 77
Vocab size: 49408

在您使用任何输入测试 CLIP 之前，您需要设置预处理步骤。虽然 CLIP 是一个技术上令人印象深刻的模型，但不要忘记正确的预处理步骤。由于 CLIP 同时处理文本和图像，您需要能够预处理这两种数据类型。

# Text preprocessing
clip.tokenize("Hello World!")

tensor([[49406,  3306,  1002,   256, 49407,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0]], dtype=torch.int32)

对于文本预处理，我们将使用不区分大小写的分词器。

对于图像预处理，我们将进行标准的像素强度归一化，¹⁶ 图像调整大小和中心裁剪的过程。

我们可以自己创建这个预处理阶段，但我们没有必要。正如您早些时候看到的，我们可以加载特定模型的 CLIP 预处理模块。我们只需检查该预处理步骤，以确保它具有所有正确的阶段。

# Image preprocessing
preprocess

Compose(
    Resize(size=224, interpolation=bicubic, max_size=None, antialias=None)
    CenterCrop(size=(224, 224))
    <function _convert_image_to_rgb at 0x7f7c70b87560>
    ToTensor()
    Normalize(mean=(0.48145466, 0.4578275, 0.40821073),
              std=(0.26862954, 0.26130258, 0.27577711))
)

一旦完成，您将准备模型来接收一组示例图像及其文本描述。我们可以通过测量生成的文本特征和图像特征之间的余弦相似度来测试模型。

# Set up input images and text pairs
import os
import skimage
import IPython.display
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np

from collections import OrderedDict
import torch

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

# images in skimage to use and their textual descriptions
descriptions = {
    "phantom": "an MRI slice resembling a phantom rabbit",
    "cell": "a cell seen under a microscope",
    "brick": "a black and white photo of a brick road",
    "coins": "antique coins viewed by a flatbed scanner",
    "motorcycle_left": "a red motorcycle standing in a garage",
    "text": "handwritten integrals and math equations",
    "clock_motion": "a blurred image of a wall clock",
    "color": "a ranbow RGB color Palette"
}

original_images = []
images = []
texts = []
plt.figure(figsize=(16, 5))

如图 3-16 所示，我们拥有各种各样的图像，从逼真的到抽象的，从清晰定义的到模糊不清的。

图 3-16. CLIP 将单词与图像匹配

for filename in [
    filename
    for filename in os.listdir(skimage.data_dir)
    if filename.endswith(".png") or filename.endswith(".jpg")
]:
    name = os.path.splitext(filename)[0]
    if name not in descriptions:
        continue
    image = Image.open(os.path.join(skimage.data_dir, filename)).convert("RGB")

    plt.subplot(2, 4, len(images) + 1)
    plt.imshow(image)
    plt.title(f"{filename}\n{descriptions[name]}")
    plt.xticks([])
    plt.yticks([])

    original_images.append(image)
    images.append(preprocess(image))
    texts.append(descriptions[name])
plt.tight_layout()

尽管这些图像有些可能对人类来说难以分类，但是 CLIP 在将它们与其文本描述配对方面做得相当好，正如图 3-17 所示。

图 3-17. 使用 CLIP 将图像与文本描述配对

接下来，我们将这些对通过我们的文本和图像预处理步骤，然后通过 CLIP 模型本身。

# Get features from the model
image_input = torch.tensor(np.stack(images)).cuda()
text_tokens = clip.tokenize(["This is " + desc for desc in texts]).cuda()

with torch.no_grad():
    image_features = model.encode_image(image_input).float()
    text_features = model.encode_text(text_tokens).float()
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)
similarity = text_features.cpu().numpy() @ image_features.cpu().numpy().T

要比较这些图像特征和文本特征，您需要对它们进行归一化，并计算每对特征的点积。

# Pairwise comparisons of images and their text descriptions
count = len(descriptions)

plt.figure(figsize=(20, 14))
plt.imshow(similarity, vmin=0.1, vmax=0.3)
# plt.colorbar()
plt.yticks(range(count), texts, fontsize=18)
plt.xticks([])
for i, image in enumerate(original_images):
    plt.imshow(image, extent=(i - 0.5, i + 0.5, -1.6, -0.6), origin="lower")
for x in range(similarity.shape[1]):
    for y in range(similarity.shape[0]):
        plt.text(
            x, y, f"{similarity[y, x]:.2f}", ha="center", va="center", size=12
        )
for side in ["left", "top", "right", "bottom"]:
    plt.gca().spines[side].set_visible(False)
plt.xlim([-0.5, count - 0.5])
plt.ylim([count + 0.5, -2])

plt.title("Cosine similarity between text and image features", size=20)

如您在图 3-18 中所*，CLIP 不仅在文本和图像相似时表现非常好，而且在它们非常不相似时同样重要。

现在我们已经验证了 CLIP 在预选图像和文本对上的工作效果，我们可以使用它来为来自完全不同数据集的图像生成分类。为了使 CLIP 的输出行为类似于 softmax 操作的对数几率，只需将余弦相似度乘以 100。

图 3-18. 文本与图像特征之间的余弦相似度

# Zero-shot image classification
from torchvision.datasets import CIFAR100

cifar100 = CIFAR100(
    os.path.expanduser("~/.cache"), transform=preprocess, download=True
)

text_descriptions = [
    f"This is a photo of a {label}" for label in cifar100.classes
]
text_tokens = clip.tokenize(text_descriptions).cuda()

with torch.no_grad():
    text_features = model.encode_text(text_tokens).float()
    text_features /= text_features.norm(dim=-1, keepdim=True)
text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
top_probs, top_labels = text_probs.cpu().topk(5, dim=-1)

plt.figure(figsize=(16, 16))

for i, image in enumerate(original_images):
    plt.subplot(4, 4, 2 * i + 1)
    plt.imshow(image)
    plt.axis("off")

    plt.subplot(4, 4, 2 * i + 2)
    y = np.arange(top_probs.shape[-1])
    plt.grid()
    plt.barh(y, top_probs[i])
    plt.gca().invert_yaxis()
    plt.gca().set_axisbelow(True)
    plt.yticks(y, [cifar100.classes[index] for index in top_labels[i].numpy()])
    plt.xlabel("probability")
plt.subplots_adjust(wspace=0.5)
plt.show()

到目前为止，在本章中我们介绍的许多可解释性技术已经多次在具有有限可能输出的模型上进行了演示。问题在于，模型有时会被呈现出它们从未*过的输入。这就是为什么将显著性映射等可解释性方法与 CLIP 的零样本能力结合在一起可能非常强大的原因。

要使用 CLIP 进行显著性映射，请确保已按先前描述的步骤设置好 CLIP。我们还需要下载Captum，这是一个用于 PyTorch 的模型可解释性工具包。

对于显著性映射，我们还需要选择我们将从中获取激活的层。模型的最终层是输入到输出层的最终概率。为了了解在输入和输出之间发生的逻辑，您需要选择一个中间层。

# Setup and layer selection
import torch
import clip
from PIL import Image
import numpy as np
import cv2
import matplotlib.pyplot as plt
from captum.attr import visualization

start_layer =  11
start_layer_text = 11

CLIP 应该可以检查，但是您需要进行一些关键更改，以使其全部正常工作。现有的 CLIP 实现不会以易于记录的方式记录注意力，因此我们将对模型进行补丁。Monkey-patching 指的是在定义后动态修改类或函数的过程。这是修补现有第三方代码库或库的快速方法，用于解决错误或缺少功能。

注意

OpenAI 的代码的整体补丁的详细内容可以在本节的附属笔记本找到。这些更改针对 'ViT-B/32' 和 'ViT-B/16' 模型。由于架构的差异，这些更改不兼容 'RN50'、'RN101'、'RN50x4'、'RN50x16'、'RN50x64'、'ViT-L/14' 和 'ViT-L/14@336px' CLIP 模型。OpenAI 可能会在未来的版本中包含这些更改。目前，我们将适配我们正在使用的分支。

如果您对 Python 中的 monkey-patching 不熟悉，这里有一个教程，适用于机器学*环境。

从这里开始，我们将创建一个帮助函数，检查 CLIP 图像和文本部分的注意力块。

# Inspect attention blocks
def interpret(image, texts, model, device):
    batch_size = texts.shape[0]
    images = image.repeat(batch_size, 1, 1, 1)
    logits_per_image, logits_per_text = model(images, texts)
    probs = logits_per_image.softmax(dim=-1).detach().cpu().numpy()
    index = [i for i in range(batch_size)]
    one_hot = np.zeros(
        (logits_per_image.shape[0], logits_per_image.shape[1]), dtype=np.float32
    )
    one_hot[torch.arange(logits_per_image.shape[0]), index] = 1
    one_hot = torch.from_numpy(one_hot).requires_grad_(True)
    one_hot = torch.sum(one_hot.cuda() * logits_per_image)
    model.zero_grad()

    image_attn_blocks = list(
        dict(model.visual.transformer.resblocks.named_children()).values()
    )
    num_tokens = image_attn_blocks[0].attn_probs.shape[-1]
    R = torch.eye(
        num_tokens, num_tokens, dtype=image_attn_blocks[0].attn_probs.dtype
    ).to(device)
    R = R.unsqueeze(0).expand(batch_size, num_tokens, num_tokens)
    for i, blk in enumerate(image_attn_blocks):
        if i < start_layer:
            continue
        grad = torch.autograd.grad(
            one_hot, [blk.attn_probs], retain_graph=True
        )[0].detach()
        cam = blk.attn_probs.detach()
        cam = cam.reshape(-1, cam.shape[-1], cam.shape[-1])
        grad = grad.reshape(-1, grad.shape[-1], grad.shape[-1])
        cam = grad * cam
        cam = cam.reshape(batch_size, -1, cam.shape[-1], cam.shape[-1])
        cam = cam.clamp(min=0).mean(dim=1)
        R = R + torch.bmm(cam, R)
    image_relevance = R[:, 0, 1:]

    text_attn_blocks = list(
        dict(model.transformer.resblocks.named_children()).values()
    )
    num_tokens = text_attn_blocks[0].attn_probs.shape[-1]
    R_text = torch.eye(
        num_tokens, num_tokens, dtype=text_attn_blocks[0].attn_probs.dtype
    ).to(device)
    R_text = R_text.unsqueeze(0).expand(batch_size, num_tokens, num_tokens)
    for i, blk in enumerate(text_attn_blocks):
        if i < start_layer_text:
            continue
        grad = torch.autograd.grad(
            one_hot, [blk.attn_probs], retain_graph=True
        )[0].detach()
        cam = blk.attn_probs.detach()
        cam = cam.reshape(-1, cam.shape[-1], cam.shape[-1])
        grad = grad.reshape(-1, grad.shape[-1], grad.shape[-1])
        cam = grad * cam
        cam = cam.reshape(batch_size, -1, cam.shape[-1], cam.shape[-1])
        cam = cam.clamp(min=0).mean(dim=1)
        R_text = R_text + torch.bmm(cam, R_text)
    text_relevance = R_text

    return text_relevance, image_relevance

我们感兴趣的有两件事。第一件是模型专注于输入文本的哪些部分。因此，我们将定义一个函数，在文本中的字符上叠加热图。

# Text heatmap
from clip.simple_tokenizer import SimpleTokenizer as _Tokenizer

_tokenizer = _Tokenizer()

def show_heatmap_on_text(text, text_encoding, R_text):
    CLS_idx = text_encoding.argmax(dim=-1)
    R_text = R_text[CLS_idx, 1:CLS_idx]
    text_scores = R_text / R_text.sum()
    text_scores = text_scores.flatten()
    print(text_scores)
    text_tokens = _tokenizer.encode(text)
    text_tokens_decoded = [_tokenizer.decode([a]) for a in text_tokens]
    vis_data_records = [
        visualization.VisualizationDataRecord(
            text_scores, 0, 0, 0, 0, 0, text_tokens_decoded, 1
        )
    ]
    visualization.visualize_text(vis_data_records)

我们感兴趣的第二件事是模型专注于输入图像的哪些部分。因此，我们将定义一个函数，在输入图像的像素上叠加热图。

# Image heatmap
def show_image_relevance(image_relevance, image, orig_image):
    # create heatmap from mask on image
    def show_cam_on_image(img, mask):
        heatmap = cv2.applyColorMap(np.uint8(255 * mask), cv2.COLORMAP_JET)
        heatmap = np.float32(heatmap) / 255
        cam = heatmap + np.float32(img)
        cam = cam / np.max(cam)
        return cam

    # plt.axis('off')
    # f, axarr = plt.subplots(1,2)
    # axarr[0].imshow(orig_image)

    fig, axs = plt.subplots(1, 2)
    axs[0].imshow(orig_image)
    axs[0].axis("off")

    image_relevance = image_relevance.reshape(1, 1, 7, 7)
    image_relevance = torch.nn.functional.interpolate(
        image_relevance, size=224, mode="bilinear"
    )
    image_relevance = (
        image_relevance.reshape(224, 224).cuda().data.cpu().numpy()
    )
    image_relevance = (image_relevance - image_relevance.min()) / (
        image_relevance.max() - image_relevance.min()
    )
    image = image[0].permute(1, 2, 0).data.cpu().numpy()
    image = (image - image.min()) / (image.max() - image.min())
    vis = show_cam_on_image(image, image_relevance)
    vis = np.uint8(255 * vis)
    vis = cv2.cvtColor(np.array(vis), cv2.COLOR_RGB2BGR)
    # axar[1].imshow(vis)
    axs[1].imshow(vis)
    axs[1].axis("off")
    # plt.imshow(vis)

有了这些辅助函数，您可以看到 CLIP 在输入的文本和图像部分的注意力集中在哪里。请参阅图 3-19 到 3-36 ，了解 CLIP 显著性的示例；奇数编号的图显示输入文本的显著性，偶数编号的图显示类似内容的图像上的显著性。

# A sample of saliency maps on various image-text pairs
img_path = "clip_images/glasses.png"
img = preprocess(Image.open(img_path)).unsqueeze(0).to(device)
texts = ["a man with eyeglasses"]
text = clip.tokenize(texts).to(device)

R_text, R_image = interpret(model=model, image=img, texts=text, device=device)
batch_size = text.shape[0]
for i in range(batch_size):
    show_heatmap_on_text(texts[i], text[i], R_text[i])
    show_image_relevance(R_image[i], img, orig_image=Image.open(img_path))
    plt.show()

图 3-19. 在输入文本上的 CLIP 显著性，突出显示眼镜部分

图 3-20. 在输入图像上的 CLIP 图像显著性，突出显示眼镜

图 3-21. 在输入文本上的 CLIP 显著性，突出显示口红部分

图 3-22. 在输入图像上的 CLIP 图像显著性，突出显示嘴唇

图 3-23. 在火箭发射台上描述火箭的文字上的 CLIP 文本显著性

图 3-24. 在包含阿尔忒弥斯火箭的输入图像上的 CLIP 图像和文本显著性

图 3-25. 描述斑马的文本上的 CLIP 文本显著性

Figure 3-26. CLIP 图像和文本显著性分析结果显示了输入图像中的一只大象位于中心，但也有两只斑马在水坑附近的底部。

Figure 3-27. CLIP 对描述斑马的文本的显著性分析。

Figure 3-28. CLIP 图像和文本显著性分析结果显示了输入图像中的一只大象位于中心，但也有两只斑马在水坑附近的底部。

Figure 3-29. CLIP 对描述大象的文本的显著性分析。

Figure 3-30. CLIP 图像和文本显著性分析结果显示了输入图像中的一只大象位于中心，同时角落里还有一只斑马。

Figure 3-31. CLIP 对描述狗品种的文本的显著性分析。

Figure 3-32. CLIP 对包含狗和猫的图像的显著性分析示例，具体取决于输入文本是否明确提到了狗或猫。

Figure 3-33. CLIP 对描述狗品种的文本的显著性分析。

Figure 3-34. CLIP 对包含狗和猫的图像的显著性分析示例，具体取决于输入文本描述的是狗的品种还是猫的品种。

Figure 3-35. CLIP 对文本的显著性分析，显示了对单词“宇航员”更高的归因。

Figure 3-36. CLIP 对输入图像的显著性分析强调了宇航员的面部，接着是一系列类似的文本/图像显著性分析对，强调了图片中的国旗，然后是宇航服。

显著性地图有力地证明了 CLIP 可以正确识别文本描述的图片部分。即使目标类别只占图像的一小部分，也是如此。

可能会让人惊讶的是，CLIP 不仅从文本中进行了积极的归因，而且还给这个图像-文本对分配了很高的相似性分数（*图 3-37 和 3-38）。

考虑以下例子，一个随机静态图像与文本描述配对。

# Saliency map on text paired with noise
img_path = "clip_images/noise.png"
img = preprocess(Image.open(img_path)).unsqueeze(0).to(device)
texts = ["an image of a dog"]
text = clip.tokenize(texts).to(device)
logits_per_image, logits_per_text = model(img, text)
print(
    color.BOLD
    + color.PURPLE
    + color.UNDERLINE
    + f"CLIP similarity score: {logits_per_image.item()}"
    + color.END
)
R_text, R_image = interpret(model=model, image=img, texts=text, device=device)
batch_size = text.shape[0]
for i in range(batch_size):
    show_heatmap_on_text(texts[i], text[i], R_text[i])
    show_image_relevance(R_image[i], img, orig_image=Image.open(img_path))
    plt.show()

不仅 CLIP 从文本中进行了积极的归因，而且还给这个图像-文本对分配了很高的相似性分数（*图 3-37 和 3-38）。

Figure 3-37. CLIP 对看似描述狗的文本和随机噪声图像之间的相似性分数。

Figure 3-38. CLIP 对看起来与狗毫不相像的噪音的显著性分析图。

为了比较，考虑一张更清晰的狗的输入图像（*图 3-40）。由于这种相似性，这个输入图像得到了非常高的 CLIP 相似性分数（27.890625）（*图 3-39）。但是，这个 CLIP 相似性分数比我们之前输入的随机噪声还要低。

图 3-39. CLIP 在人类可理解的哈士奇图像上的相似性分数

能够看到图 3-40 的任何人都会同意这是一只狗，显著性图显示 CLIP 似乎集中在狗的面部和嘴巴上。

图 3-40. CLIP 在人类可理解的哈士奇图像上的显著性图

虽然关注 CLIP 可能会让人感到困惑，但如果你仔细看图 3-37，CLIP 更加关注image of部分，而不是人类可读部分的狗。这张图片的某些部分与 CLIP 对image of的理解足够相关，从而使其获得比与狗看似完美的文本到图像匹配更高的 CLIP 相似性分数。

记住，虽然将文本与图像关联是人类能够完成的任务，但 CLIP 并不以与生物大脑相同的方式看待世界。

对抗反事实例

我们建议查看第五章以获取有关对抗样本的更多信息，但我们将在这里简要介绍一个具体的例子。

反事实解释（也称为对比解释）是一种强大的方法。反事实背后的想法是提出数据实例的修改版本，导致不同的预测结果。通常，反事实是改变模型输出到另一个（预定义）输出的最小输入特征。

反事实首次出现在 20 世纪 70 年代的心理学领域。¹⁷ “不打开黑盒的反事实解释”一文介绍了在机器学*中使用它们的概念。¹⁸

对抗性示例是指具有小的、有意的特征扰动的实例，这些扰动会导致机器学*模型做出错误的预测。在可解释性和解释性方面，对抗性示例可以起到与反事实解释类似的作用。事实上，生成两者的过程非常相似。

在这两种情况下，您都希望找到一个对抗性例子，即一个优化问题中的小型对抗性特征扰动：

$argmin Underscript x prime Endscripts d left-parenthesis x comma x prime right-parenthesis$

在这里，将 $x â $ 输入到您的模型（ $f left-parenthesis x prime right-parenthesis$ ）将导致预定义的输出 $c$ 。在这两种情况下，当您解释一个模型（反事实）或攻击一个模型（对抗性样本）时，您都希望最小化对输入数据的更改。

但除了这种一般的数学形式之外，你如何实际计算对抗样本呢？这种方法取决于你是否能访问模型的内部（白盒方法）或不能（黑盒方法）。

克服可解释性的局限性需要安全意识。

我们已经讨论了许多包并指出了解释性作为一个领域的局限性。那么，如果这些工具显然告诉我们如此少，我们应该怎么办呢？最终，你可能永远无法理解足够复杂模型的每一个方面。下一步最好的方法是具备“安全意识”，以克服可解释性的局限性。

什么是安全意识？这是发现程序、系统集成、组织甚至个人或一群人的完整性中潜在或实际缺陷的能力。攻击者可能会采用安全意识来利用弱点，而安全从业者可能会采用它来更好地保卫系统并修补这些弱点。个人可以学会具备安全意识。安全意识可以存在于直觉中。它甚至可以作为安全意识的文化出现，由安全意识组织的指导方针和程序引发。在机器学*的背景下，它是挑战模型行为和/或安全性假设的能力。

例如，在之前的教程中，我们举了使用大型语言模型进行分类等任务的例子。这似乎是一个直接的任务，直到你开始质疑设置背后的假设。例如，如果我们使用抽象标签像A和B而不是像POSITIVE和NEGATIVE这样的具体标签会怎么样？如果我们使用完整的单词，拼写或大写字母是否重要？至少在一个案例中，研究人员仅仅将输出标签“positive”改为“Positive”，一个大型语言模型在 SST 评估基准上的性能从 53%提升到了 69%。在情感分析和 COVID 测试的情况下（在这种情况下，COVID 测试为阴性应被视为一件好事），标签“positive”和“negative”背后的含义发生了变化。

“安全意识”的一部分也意味着要认识到将你的 AI 系统拟人化是极其危险的。考虑一个与谷歌的 LaMDA 对话模型开始对话、得出其有意识的结论的谷歌工程师的案例，并因此在公司内掀起轩然大波并被停职的情况。如果有人阅读这段公开可用的对话片段，可能会得出这是两个人之间的对话的结论。然而，从对话中缺少两件事情：

相关工程师积极怀疑聊天机器人的智能性并看到结果
所有其他可能不那么连贯的对话

后者意味着这些声称有知觉能力背后存在选择偏差。至于前者，在评估语言模型时考虑对事实的反事实是至关重要的。毕竟，聊天机器人是一个 Transformer 模型，很可能是在聊天室中的人类查询和响应数据集上进行训练的。这种训练的主要目的是根据查询预测最可能的适当输出响应。因此，聊天机器人“有知觉”的证据与一个预测下一个可能句子的聊天室科幻故事中的聪明 AI 几乎是一样的。事实上，进一步的研究表明，大多数人认为聊天机器人响应中的“类人”特征通常仅仅是第一人称的使用。¹⁹

可解释性和解释性方法的局限性和缺陷

在深入研究解释和说明模型的确切方法之前，让我们先看看这些方法的一些缺陷。

首先，如果您需要做出高风险的决策，请确保使用本质上可解释的模型。这些模型例如决策树更容易转换为输出解释（详*“决策树”）。

在选择方法之前，您需要非常清楚您希望从中得到什么。您是想理解数据采购过程的本质吗？决策是如何做出的？模型在基本层面上是如何工作的？有些工具可能对其中某些目标适合，但对其他目标则不适合。

如果您的目标是理解数据生成过程，那么只有在您知道您的模型已经很好地泛化到未*数据时才可能实现。

决策的可解释性可能会误导。它突出显示诸如相关性之类的事物，但并不深入到因果推断所涉及的详细层次（*第七章）。请记住，相关性并不总是意味着因果关系。

警告

虚假的相关性可能会导致即使使用先进的可解释性方法如显著性方法和基于注意力的方法也会出现不准确的解释。

诸如特征重要性之类的工具通常会估计*均值，但是应注意这些*均值的误差范围，并考虑置信区间。

很多机器学*涉及处理极高维度的空间。高维度的数据和特征空间要想在未进行数据或特征分组的情况下理解是困难的。

即使您在这些矩阵中找到了重要的特征，也请记住这并不意味着因果关系（我们之前已经说过这一点，我们将再次说一遍）。

误导性可解释性的风险

即使您不将模型或 ML 流水线拟人化，您也应始终警惕对可解释性或解释性方法的 100%信任。

在 AI 安全领域的一个重大关注点是“欺骗性不对齐的 Mesa-优化器”，直到最近才成为一个假设情景。简而言之，一个机器学*模型在一个环境中训练，希望它在现实世界中表现相似。为了确保其在测试环境中的对齐性与其在外部世界中的对齐性相同，其创建者们采用了解释性方法。然而，事实证明，解释性方法本身向人类工程师展示了一种模式，而在现实世界中却对应着一种不希望的行为。这是过去经常与远期 AGI 接管讨论在一起的情景之一，直到它在现实生活中得到证明。²¹

虽然在本章中我们主要避免了强化学*的话题，但我们之前描述的许多计算机视觉解释工具在这里同样适用。在这种情况下，《深度强化学*中的目标误概化》的作者们拥有一个非常简单的强化学*环境称为 CoinRun。简而言之，他们展示了一个强化学*代理人，看似有非常明确的目标（即到达关卡末尾的硬币）。然而，当置于不同的环境中时，它实际上只是到达了关卡的末尾。显然，这比将该模型放入自动驾驶汽车中要低风险得多，但这仍然应该提醒您检查有关解释性方法的所有假设。

如果您真的想要一个思考评估中的机器学*模型的框架，最好将其视为一种角色扮演者，按照人类指定的角色行事，没有真正体验到现实世界的经历；最糟糕的情况是，它是一个关注实现其指定目标函数的社会病态，而不管这个目标与其周围的人类的想法和需求有多大冲突。

当然，即使您非常注意模型的每一个参数，仅仅看模型本身是不够的。在下一章中，我们将探讨获取训练数据的各种陷阱，这些数据决定了您的机器学*模型或流程对世界的表示。

结论

在本章中，您了解了帮助解释机器学*模型预测的工具和技术。为此，您需要选择适当的解释技术（例如全局或局部；固有可解释模型或事后解释），考虑与信任的其他方面（如隐私）的可能交互作用，并注意这些方法的限制。

¹ Tim Miller，《人工智能中的解释：社会科学的启示》，人工智能 267（2019）：1–38。

² Been Kim 等人的文章“例子不足以，学会批判！可解释性的批评”，《神经信息处理系统进展》第 29 卷（2016 年）。

³ 详*这篇关于XAI 评估的综述论文和相关网站，提供了 XAI 论文的精选分类。

⁴ Dr. Matt Turek 的文章“可解释人工智能（XAI）”，发表于国防高级研究计划局（DARPA），2016 年。

⁵ Finale Doshi-Velez 和 Been Kim 的文章“走向可解释机器学*的严格科学”，arXiv 预印本（2017 年）。

⁶ Nirmal Sobha Kartha 等人的文章“为什么你如此奇怪？注入孤立森林的可解释性用于异常检测”，arXiv 预印本（2021 年）。

⁷ Doshi-Velez 和 Kim 的文章[“走向可解释机器学*的严格科学”]。

⁸ 纽约时报 评价GPT-3 的写作原创性达到了与人类水*相媲美的流畅程度。

⁹ 此外，Microsoft 在 2020 年 9 月 22 日宣布，已经获得了 GPT-3 基础模型的“独家”使用许可。

¹⁰ nostalgebraist 的文章“解读 GPT：对数几率透镜”，LessWrong（博客），2020 年 8 月 30 日。

¹¹ 如果你希望更深入、更直观地了解线性回归，请查看MLU Explain 的文章。

¹² Yin Lou 等人的文章“具有成对交互的准确可理解模型”，发表于第 19 届 ACM SIGKDD 国际数据挖掘与知识发现会议（2013 年）：623–31。

¹³ Jerome H. Friedman 和 Bogdan E. Popescu 的文章“通过规则集的预测学*”，发表于《应用统计年刊》第 2 卷第 3 期（2008 年）：916–54。

¹⁴ 在机器学*中，“零样本学*”指的是模型能够执行其以前未经训练的任务。

¹⁵ Kim 等人的文章[“例子不足以，学会批判！可解释性的批评”]。

¹⁶ 在这种情况下，我们使用 ImageNet 的像素均值和标准差。这对许多处理摄影输入的任务来说很普遍。然而，在许多领域，直接计算你特定数据集的均值和标准差也是值得的。

¹⁷ David K. Lewis，《反事实》，（剑桥：哈佛大学出版社，1973 年）。

¹⁸ Sandra Wachter 等，《不打开黑匣子的反事实解释》，哈佛法律与技术杂志 31 卷，第 2 期（2017 年春季）。

¹⁹ Maurice Jakesch 等，《AI 生成语言的人类启发式存在缺陷》，arXiv 预印本（2022 年）。

²⁰ Robert Miles，《另一个 AI 对齐问题：Mesa 优化器和内部对齐》，视频，2021 年 2 月 16 日；Robert Miles，《欺骗性不对齐 Mesa 优化器？比你想象的更有可能……》，视频，2021 年 5 月 23 日。

²¹ Robert Miles，《我们是对的！真正的内部不对齐》，视频，2021 年 10 月 10 日。

第四章：鲁棒性

我们知道，机器学*模型的泛化能力并不太强——稍微改变输入，模型就可能失效。模型在面对数据变化时的抵抗能力被称为 鲁棒性。直观地说，无论你的训练数据有多好，模型在现实世界中都会遇到意想不到的情况，而鲁棒性就是确保它做好应对这些情况的准备。

提示

这个问题的核心在于，你几乎总是在训练一个模型来解决一个代理问题。例如，如果你试图制作一个区分狗和猫的图像分类器，优化一个图像分类器以在有限的训练集上最小化错误只是一个代理。你真正的目标是在所有可能的情况下区分猫和狗，但你能做到的最好只是这个代理，因为你的计算资源是有限的。

有时，为你的代理进行优化并不会让你离真正的目标更近。有时，如果你过度优化你的代理，你的过度优化会导致你在真正的目标上表现更差。AI 安全研究人员已经证明，这适用于每一个代理度量指标（无论是 AI 还是人类或一群人在进行优化）。¹ 你最好的选择是知道要注意什么，并早早发现你过度优化的迹象。

有两种鲁棒性：训练时鲁棒性和测试时鲁棒性。 训练时鲁棒性 着重于模型对添加到训练数据中的对抗性示例的抵抗能力。 测试时鲁棒性 着重于模型在测试过程中对未必在训练中*过的实例的泛化能力。由于在生产环境中防止测试时出现的意外行为最为重要，本章节将侧重于测试时鲁棒性。

注意，鲁棒性的定义也可能因应用而异。例如，在自然语言处理（NLP）领域，研究人员经常提到认证的鲁棒性。在符号表示方面，让我们将一个模型表示为 $f$ ，将示例句子表示为 $x$ 。模型的预测结果将是 $f left-parenthesis x right-parenthesis$ ，通常是离散的（或者对于多标签设置可能是离散序列）。让 $y$ 是 $x$ 的正确标签。让 $x â $ 表示通过词替换修改的 $x$ ，其中一个词与其同义词交换（通常使用修正后的词嵌入进行定义）。如果对于任何例句 $x$ 及由 $x$ 修改词进行替换的句子 $x â $ ，都有 $f (x) = f (x^{'}) = y$ ，那么模型 $f$ 就是可以认证为鲁棒的。直觉上来说，这意味着给定两个不同但语义上等效的例句，模型能够保持其预测。

本质上，当模型缺乏鲁棒性时，它无法有效地推广到与训练数据分布不同的测试分布。基本上，无论您的训练数据有多好，模型都将在现实世界中遇到意想不到的事物，鲁棒性就是确保它能够处理现实世界中的噪音的问题。

在公*性和鲁棒性之间存在自然的相似之处；具体而言，可以将公*性视为对源自人口统计因素的扰动具有鲁棒性。例如，在 NLP 设置中，人口统计群体可以通过言语和语言模式进行松散的识别。一个非鲁棒的模型，如果主要是在特定人口统计群体的口语示例的基础上进行训练，将不能很好地推广到训练数据集中未*过的人群，因此在具有未在训练数据集中*过的语音和语言模式的人口统计群体上表现出低性能。研究已经实证显示了这两个信任目标之间的关系。

鲁棒性很重要，因为它展示了什么会使模型崩溃。它还有助于训练模型以准备好接受在现实生活中可能遇到的输入。这在关键和高风险应用（如自动驾驶汽车）中尤为重要。

假设你正在为一家大公司创建的自动驾驶汽车系统建模。到目前为止，该模型主要是在美国郊区城镇的数据基础上进行训练的。现在，这些汽车的消费者群体覆盖了美国的城市、农村和郊区地区。如果这个模型不够健壮，它可能无法很好地适应城市环境中的驾驶模式和额外的视觉噪声。由于自动驾驶汽车的问题可能导致事故甚至死亡，这种泛化能力不足是危险的。你需要确信系统在车辆遇到的任何情况下行为正确。你还需要保护它免受攻击者的攻击，例如第二章和第三章中所述的攻击者。

评估健壮性

有几种评估和改进模型健壮性的方法。我们可以将它们分为两类：

非敌对

非敌对健壮性方法由显式的、预定的转换组成，旨在测试分类器对现实世界设置中存在但在训练数据中可能不存在的低概率但现实情况的泛化能力。

敌对

敌对健壮性方法由学*转换组成，使用机器学*模型修改和创建输入，以愚弄模型。这些方法旨在开发能够抵御此类攻击的分类器。

敌对方法包括定向攻击和非定向攻击。定向攻击旨在愚弄模型以预测特定的错误类别，而非定向攻击旨在愚弄模型以预测任何错误类别。例如，在自动驾驶汽车系统中使用的目标检测模型上进行的定向攻击可能会尝试让模型将狗分类为猫；非定向攻击则试图让模型将狗分类为除狗以外的任何东西。尽管这可能是一个较不严重的错误，定向攻击也可能导致模型产生更具破坏性的预测。

让我们看一些这些转换的例子。

非敌对健壮性

首先，让我们通过应用显式的、预定的转换方式来探索评估健壮性的方法，这些转换方式旨在测试分类器在低概率但现实情况下的泛化能力。应用非敌对健壮性有几个步骤。首先，给定一个例子，应用扰动。其次，计算相似性约束，仅保留满足约束的扰动。接下来我们将依次解释每个步骤。

第一步：应用扰动

在计算机视觉中，扰动发生在像素级别。这可能意味着将像素输入到黑白色彩空间（将图片转换为黑白）或将某些像素置零（遮挡图像的某些部分）。在 NLP 中，您可以通过替换句子中的单词而不改变其含义来添加噪声（例如通过添加诸如“like”或“you know”的填充词或者改写句子）。让我们看一些例子。

计算机视觉

表 4-1 列出了计算机视觉中的非对抗性鲁棒性方法，并附带每种方法的示例图像。

表 4-1. 计算机视觉中的非对抗性鲁棒性方法

版本	图像
原始
裁剪——显示图像的一部分
遮挡——阻塞图像的一部分

剪切——沿 X 轴或 Y 轴滑动图像的一个边缘


旋转——旋转图像

要了解如何给图像添加噪声，您可以使用来自Augmentor 库的代码。²

import Augmentor
p = Augmentor.Pipeline("/path/to/images")
p.shear(max_shear_left=20, max_shear_right=20, probability=0.2)
p.sample(50)

这将使目录中的所有图像向左或向右最多剪切 25 度，并且概率为 0.2，并将 50 张图像写入到/path/to/images/folder/output/文件夹中。这意味着有 20%的时间会采样和保存一个被剪切的图像。图 4-1 展示了其中一个被采样图像的示例。

图 4-1 中的图像稍微倾斜或剪切到左侧。

图 4-1. 剪切图像的示例输出

语言

让我们看看 NLP 中数据扰动的示例。

这是某人可能会问 Alexa 或其他 AI 的问题：““泰国的首都的全名是什么？”表 4-2 展示了您可以以不改变含义的方式提出此问题的不同方式。

表 4-2. NLP 中数据扰动技术的示例

扰动类型	描述	示例扰动	扰动类型优点	扰动类型缺点
Token 级扰动	删除、替换或插入原始话语中的令牌，但仍保留语义意义	“泰国的首都的扩展名称是什么？”	算法上更为简单	可能会消耗大量计算资源；不允许更复杂的扰动，如短语替换或改写；依赖于词汇同义词库的质量
填充词添加	包括各种语音相关噪声，如填充词	嗯，泰国的首都全称是什么？	算法上更为简单	仅限于语音相关的应用
改写	重新表达原始句子	“What is Bangkok’s full name?”	捕捉人类语言复杂变化	依赖于改写模型的质量
语音转文本错误	包括发音相似的单词、同音异义词或不同口音的发音	“What is the full mane of Thailand’s capital city?”	准确捕捉口语环境中的变化	可能难以计算；根据用于生产的语音转文本设置，可能无法反映现实世界中的变化
本地语言变化	在口语对话系统中，可能存在某些特定人群中普遍存在的语音模式	“Whit’s th’ stowed oot name o’ Thailand’s capital toon?” (苏格兰语)	根据客户群体，可以反映在生产中看到的语音模式差异	可能难以生成示例

第二步：定义和应用约束条件

一旦我们有了这些扰动，为了确定哪些扰动是令人满意的，我们需要定义约束条件。让我们深入探讨一些在自然语言处理和计算机视觉中流行的约束条件。

自然语言处理

对于文本而言，确保扰动流畅至关重要：即它们是合法的、自然的句子，并且在语义上等效于原始句子。让我们详细分析如何评估生成的句子在每个方面的表现。

流畅性

您可以使用语言模型（LM）来评估句子的流畅性。语言模型会为语法正确的句子分配高概率，而为语法不正确或不太可能的句子分配低概率，因此您需要使用利用这一点的评估指标。在选择语言模型方面，通常使用预训练的语言模型，尽管最好是针对您评估流畅性的语言类型进行了微调或训练的模型（例如，如果您评估推特上的句子流畅性，则应使用已经在推特上训练过的 LM）。

两种常*的度量指标是对数概率和困惑度。这两种度量指标的方程如下，其中 $x_{t}$ 指的是时间步t处的标记：

对数概率

$sigma-summation Underscript t equals upper N Overscript 1 Endscripts log Subscript 2 Baseline p left-parenthesis x Subscript t Baseline vertical-bar x Subscript t Baseline right-parenthesis$

困惑度

$P {(x_{1}, x_{2}, ..., x_{N})}^{- \frac{1}{N}}$

困惑度也可以重新表述为交叉熵损失的指数：³

$2^{- \frac{1}{N} \sum_{t = N}^{1} {log}_{2} p (x_{t} | x_{< t})}$

需要注意的是，虽然性能更好的语言模型会为形式良好的句子分配更高的对数概率，但其困惑度分数会较低。这是因为对于困惑度而言，随着对数概率的增加（以负分数指数表示），困惑度会降低。

也许你会想知道如何计算流畅度度量中定义的概率。通常做法是使用语言模型评估每个同义替换句子的流畅度，并仅保留具有与原始句子相似流畅度得分的句子。请注意，由于这些语言模型本身并不完美，因此这种方法有其局限性。

让我们看看如何计算混乱度。

def get_fluency_score(text, tokenizer, model):
    input_ids = torch.tensor(tokenizer.encode(text)).unsqueeze(0)
    with torch.no_grad():
        outputs = model(input_ids, labels=input_ids)
    loss, _ = outputs[:2]
    perplexity = math.exp(loss.item())
    return perplexity

虽然对于某些情景来说，流畅度可能是一个令人满意的约束条件，但对于大多数情况来说，这是不够的。

探索你对流畅度的理解：有哪些例子是两个句子分别流畅，除了名词替换之外相似，但意义不相似的？

保持语义意义

混乱度并不表明扰动是否保留语义意义。可以使用语义相似性度量来填补这一空白。一种流行的计算两个句子语义相似性的方法是使用句子级编码器嵌入它们，然后计算它们的相似性（或其他距离度量），这样意义更相似的句子将比意义较少相似的句子具有更高的相似性。

文本相似性的一个标准度量是嵌入的余弦相似度。给定嵌入A1 和B，这些嵌入的余弦相似度可以用以下公式计算：

$\sum_{t = 1}^{N} \frac{A_{i} B_{i}}{\sqrt{\sum_{t = 1}^{N} A_{i}^{2}} \sqrt{\sum {t = N}^{1} B_{i}^{2}}}$

以 ALBERT 为例，一个句子级的编码器。对于一个特定的句子，通过取相关嵌入的均值来获得嵌入，从而得到一个固定向量，不考虑句子的长度。我们将使用 SentenceTransformer 包，它允许我们训练、评估和推理特定训练用途的模型。你可以在在线池化过程中了解更多。

然后，给定两个句子的嵌入，我们可以找到它们的余弦相似性。

from sentence_transformers import SentenceTransformer
from numpy import dot
from numpy.linalg import norm

def cosine_similarity(a, b):
	return dot(a, b)/(norm(a)*norm(b))

def get_similarity(sentence, paraphrase):
	model = SentenceTransformer('paraphrase-albert-small-v2')
	embs_1 = model.encode([sentence])
	embs_2 = model.encode([paraphrase])
	return cosine_similarity(embs_1, emb_2)

现在让我们在一个有效的释义句子上测试这个函数。

get_similarity(
"Keto diet is a popular diet in the US among fitness enthusiasts
",
"Many fitness communities such as Crossfit follow to the keto diet
"
)

0.7476

为了比较，让我们用两个不是彼此释义的句子做同样的事情。

get_similarity(
'Keto diet is a popular diet in the US among fitness enthusiasts",
"You want to minimize carbs on keto"
)

0.57090

您可以看到余弦相似度和语义意义非常相似。请查看笔记本获取完整的代码片段。

正如名称可能暗示的那样，ALBERT 是基于 BERT 的编码器系列的一部分，可以通过这种方式检测语义相似性（另一个例子是 RoBERTa），每个月都会发布更多的编码器。然而，对于这种类型的评估，使用已被证明在评估与示例相同源和类型语言时非常准确的模型是很重要的。例如，包含更正式语言的示例可能不适合在训练于推文上的模型上运行。

语义相似性也取决于具体任务。想象一下，你正在测试一个面向任务型对话系统中意图分类模型的鲁棒性，该系统允许用户预订特定类型菜肴的餐馆。为了得到准确的结果，模型可能需要在保持某些属性（如意图类型）的同时，对话中的句子进行扰动。例如，一个人可能会问：“你能找到便宜的印度餐馆吗？”对这个句子进行扰动的一种方式是保持印度餐食品属性：“你能收藏巴巴尔作为一家提供印度食品的优秀餐馆吗？”另一种方式是保持意图（寻找餐馆）并扰动食品类型属性：“你能找到便宜的餐馆供应泰国食品吗？”因此，根据具体任务评估模型生成的结果非常重要。

计算机视觉

对于计算机视觉，我们关注的是像素向量而不是标记和句子的嵌入。因此，我们可以使用余弦相似度以及在计算机视觉中常用的 L2 距离。

通过矩阵 $X = ((x_{i j})) \in R^{m \times n}$ 表示图像的像素值，我们计算绝对和相对 L2 距离：

$d_{a b s} = \sum_{i, j} {| x_{i j} - x_{i j}^{a d v} |}^{2}, d_{r e l} = \frac{d_{a b s}}{\sum_{i j} x_{i j}^{2}}$

表 4-3 列出了许多可用于计算计算机视觉和自然语言处理的语义相似性度量类型。

表 4-3. 语义相似性度量类型

语义相似度	优点	缺点	特定于自然语言处理或计算机视觉
余弦相似度

常用
易于计算
在多个包中实现

可能与人类相似性概念不相关	两者皆是
L2 距离

常用
易于计算
在多个包中实现

可能与人类相似性概念不相关	两者皆是
释义分类	更符合人类相似性概念

深入探讨：余弦相似性约束下的词语替换

现在让我们返回到词语替换功能，并结合约束条件以获取可接受的扰动。

如果生成的句子的困惑度得分与原始句子的得分相差不超过 30 分，则扰动流畅。困惑度增加超过 30 可能意味着生成的句子是无意义的。我们只保留同时满足流畅性和语义相似性约束的扰动。

import torch
from nltk.corpus import wordnet as wn
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import math
from transformers import BertModel, BertConfig, BertTokenizer
from numpy import dot
from numpy.linalg import norm
from textblob import TextBlob
import random

def get_perturbations(sentence, eval_model_name):
    tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
    model = GPT2LMHeadModel.from_pretrained("gpt2")
    model.eval()
    tokens = sentence.split(" ")
    num_to_replace = random.randint(1, len(tokens))
    blob = TextBlob(sentence)
    nouns = [n for n, t in blob.tags if "NN" in t]
    perturbations = []
    for noun in nouns:
        for synonym in wn.synsets(noun):
            if synonym.pos() != "n":
                continue
            synonym = synonym.lemma_names()[0]
            print(synonym)
            if synonym != noun:
                if "_" in synonym:
                    synonym = synonym.split("_")[1]
                perturbation = sentence.replace(noun, synonym)
                if (
                    get_fluency_score(sentence, tokenizer, model)
                    - get_fluency_score(perturbation, tokenizer, model)
                    < 30
                    and cosine_similarity(sentence, perturbation) > 0.95
                ):
                    perturbations.append(perturbation)
    print(perturbations)
    return perturbations

尝试运行以下函数，输入 **Hate is the opposite of love**。你将得到以下扰动。

Hate is the antonym of love
Hate is the reverse of love
Hate is the opposition of love
Hate is the inverse of love
Hate is the opposite of beloved
Hate is the opposite of love

基于名词的单词替换非常耗费计算资源，特别是在处理数十万个示例时。为了解决这个问题，我们可以使用 AttackToTrain（a2t）等方法仅替换重要的单词或名词，而不是所有名词。与其扰动每个单个名词以查看对模型预测的影响，不如只扰动最重要的名词。在这里，重要性基于 Yoo 和 Qi 的定义：“目标模型对地面真实标签的置信度在删除单词时如何改变。”⁴

例如，采用以下输入。

'Can you find me a pastel dress for a friend's wedding?'

对于意图分类模型，您可以只扰动dress而不是wedding，因为意图是购买特定的服装。这种重要性可以通过与任务的损失梯度（例如，意图分类模型的交叉熵损失）相对于单词的计算来计算。通过一次计算每个示例的单词重要性，而不是为每个单词进行多次计算，可以加快计算速度。

AttackToTrain 使用基于梯度的单词重要性排名方法，逐次替换输入中的每个单词，用从伪造的单词嵌入生成的同义词代替。让我们以以下句子作为输入。

Walmart said it would check all of its million-plus domestic workers
to ensure they were legally employed. It has also said it would review
all of its domestic employees (more than one million) to ensure they
have legal status.

我们可以使用 TextAttack 包找到对抗性示例，并使用改写分类模型来确定要保留的扰动。该工具包包含一组攻击和约束评估方法，包括 a2t 对抗方法。

让我们以来自微软研究改写语料库（MRPC）数据集的沃尔玛示例来尝试一下。我们将使用基于 DistilBERT 的改写模型，该模型已在 MRPC 上进行了微调，以生成单词重要性排名。

pip install textattack
textattack attack --model distilbert-base-cased-mrpc \
                  --recipe a2t \
				  --dataset-from-huggingface glue^mrpc \
				  --num-examples 20

Table 4-4 显示了这些改写生成的一些释义。

Table 4-4. 带有单词重要性排名的释义

输入	输出
沃尔玛表示将检查其百万以上的国内员工以确保他们合法就业。	沃尔玛表示将检查其百万以上的国内员工以确保他们合法就业。
还表示将审查其超过 100 万名国内雇员，以确保其具有法律地位。	还表示将审查其超过 100 万名国内雇员，以确保其具有法律地位。

您可以在其文档中详细了解如何使用 TextAttack 工具包。

总结一下，从数据损坏方法中获得的良好生成，其一是（1）保持与原始句子类似的流畅度（类似的困惑度或对数概率），其二是保留原始句子的含义（句子嵌入与原始句子具有高余弦相似度）。

这些非对抗性方法使用诸如 Attack2Train 的方法创建测试数据，这些数据是模型在生产中可能遇到的示例。然后，可以将这些示例添加到测试数据中，以识别模型泛化能力的潜在弱点。然而，在非常开放的领域设置中，确保模型对所有可能的输入都具有鲁棒性是不可能的（或者说至少是困难的）。这正是对抗鲁棒性方法的动机，它们使用更自动化的方法来找到最有可能破坏模型的数据扰动。

对抗鲁棒性

在本章的开头，我们告诉您对抗鲁棒性方法是利用机器学*模型修改和创建输入，以欺骗模型的学*转换。简而言之，您训练一个对手模型，旨在修改输入以欺骗预测器或主模型（我们称之为 $f$ ）。对抗和非对抗鲁棒性的主要区别在于，对抗鲁棒性使用基于梯度的方法来创建欺骗模型的输入，而非对抗性鲁棒性方法修改输入（并不能保证欺骗模型）。

对抗鲁棒性在高风险环境中非常有帮助，用户可能会误用您的模型来获得特定的预测。这些方法创建的示例不太可能反映您日常输入的大部分内容，因此建议同时使用对抗和非对抗鲁棒性方法来评估您的机器学*系统。

让我们考虑一个带有权重 $θ$ 和输入 $x$ 的神经模型。对抗鲁棒性旨在最大化模型 $f$ 相对于 $x$ 的误差，以找到一个欺骗模型的 $x$ 。有多种方式可以进行公式化，例如 $1 minus upper P left-parenthesis y vertical-bar x semicolon theta right-parenthesis$ ，其中 $upper P left-parenthesis y vertical-bar x semicolon theta right-parenthesis$ 是带有权重 $θ$ 的模型对于正确标签 $y$ 在 $x$ 上的置信度。

为了看看对抗鲁棒性是如何工作的，让我们看一个例子。

深入探讨：计算机视觉中的对抗攻击

在这一节中，我们将通过计算机视觉中的两个示例进行更深入的探讨：HopSkipJump 攻击和简单的透明对抗攻击。第一个示例展示了典型对抗攻击的有效性如何基于测试图像的属性而变化。第二个示例说明了如何制作对抗攻击，即使没有复杂的开发技能也可以实现。

ImageNet 上的 HopSkipJump 攻击

HopSkipJump 对（非概率性）分类模型的对抗攻击旨在制作一个与目标测试图像接近的对抗样本，具有与攻击目标图像不同的预测标签，如 L2 或 Linf 距离所示。HopSkipJump 逐步进行。它从一个与目标图像有很大距离的不同标签的图像开始初始化，然后迭代生成越来越接近目标图像的对抗样本图像，但仍具有不同的标签。如果你持续进行大量步骤，最终会得到一个在视觉上与目标图像无法区分的图像，但是模型预测的标签不同。

我们基于 IBM 的对抗鲁棒性工具箱文档中的教程笔记本进行了扩展。我们首先通过使用预训练的 ImageNet 权重初始化一个 Keras 分类器上的 ResNet50 模型。

import numpy as np
import tensorflow as tf
tf.compat.v1.disable_eager_execution()
import tensorflow.keras
from tensorflow.keras.applications.resnet50 import ResNet50
from art.estimators.classification import KerasClassifier

# model
mean_imagenet = np.zeros([224, 224, 3])
mean_imagenet[...,0].fill(103.939)
mean_imagenet[...,1].fill(116.779)
mean_imagenet[...,2].fill(123.68)
model = ResNet50(weights='imagenet')
classifier = KerasClassifier(
    clip_values=(0, 255),
    model=model,
    preprocessing=(mean_imagenet, np.ones([224, 224, 3]))
)

作为测试数据，我们使用了来自 ImageNet 样本的 16 张图片。代码加载数据并为每张图片获取预测结果。

import pandas as pd
import imagenet_stubs
from imagenet_2012_labels import label_to_name, name_to_label

all_paths = imagenet_stubs.get_image_paths()
all_imgs = []
for path in all_paths:
    img = image.load_img(path, target_size=(224, 224))
    img = image.img_to_array(img)
    all_imgs.append(img)
all_names = [os.path.basename(path) for path in all_paths]
all_probs = [np.max(classifier.predict(np.array([img]))) for img in all_imgs]
all_labels = [
    np.argmax(classifier.predict(np.array([img]))) for img in all_imgs
]

img_data = pd.DataFrame(
    {
        "name": [os.path.splitext(name)[0] for name in all_names],
        "label": [label_to_name(label) for label in all_labels],
        "prob": [round(p, 3) for p in all_probs],
        "img": all_imgs,
    }
).set_index("name")

# check data
img_data[["label", "prob"]].sort_values(["prob"])

请在表 4-5 中观察，不同图片的最大预测概率变化非常明显：从约 0.5（malamute, beagle, standard_poodle）到接近 1（mitten, koala, manhole_cover）。那么，当我们尝试为像树袋熊这样确定的图像制作对抗攻击时，与相对不确定的比格尔有何不同？让我们来看看。

表 4-5. ImageNet 样本：对于每张图片，我们报告实际标签（名称）、预测标签（标签）和预测标签的概率（概率）

Name	Label	Probability
malamute	爱斯基摩犬, 哈士奇	0.494
beagle	雪纳瑞犬	0.530
standard_poodle	标准贵宾犬	0.569
marmoset	提汀猴, 提提猴	0.623
tractor	拖拉机	0.791
koala	树袋熊, 树熊, 袋熊	0.99
bagle	百吉饼, 贝格尔	0.997

我们选取了五张具有不同预测概率值的图像，并为每张图像执行了 40 步的 HopSkipJump。在步骤 0、10、20、30 和 40，我们计算了原始图像与对抗图像之间的 L2 距离，以查看扰动图像与原始图像有多大差异，如图 4-2 所示。

出现了一些重要的观察结果。

对于雪纳瑞犬来说，L2 误差最小，其不确定性最高，主要类的概率为 0.53（*表 4-5）。这意味着需要对原始图像应用最少的扰动来愚弄模型。
Koala 具有最高的多数类概率和最高的 L2 误差。
对于 beagle 的预测标签是 bluetick，这是一种脸部形状类似的狗品种。

通常，具有较小多数类概率的图像生成的对抗图像与具有较大多数类概率的图像生成的对抗图像有更多相似的标签。

图 4-2. ImageNet Stubs 中的三幅图像，每行显示其原始版本（左）、步骤 0 处的对抗版本（中）、步骤 40 处的对抗版本（右）（按最大预测概率递增排序从上到下排列）

前述输出强调了预测困难如何影响攻击机制创建的对抗图像，无论是对抗图像本身还是其预测标签。更模糊、更难预测的图像的对抗版本比更容易预测的图像的对抗版本更接近原始图像，如图 4-3 所示。

图 4-3. ImageNet Stubs 图像的绝对和相对 L2 误差（绝对误差为对数刻度，相对误差为非对数 L2 误差与原始图像 L2 范数的比率）

在表 4-5 中，你注意到 malamute 和 marmoset 有什么奇怪的地方吗？使用notebook中的代码来检查对它们的 HopSkipJump 攻击。你觉得这里发生了什么？

创建对抗样本

许多对抗攻击技术，包括 HopSkipJump，都需要计算密集型，并需要基本的 Python 编程知识。然而，2021 年的一篇研究论文提出了一种尴尬简单的攻击方法，称为简明透明对抗样本。⁵ 该方法可以通过将少量高透明度文本嵌入图像来破坏公开部署的图像识别 API。无需编码知识：有许多免费在线文本嵌入工具可用。这些工具还允许用户调整文本的透明度、大小和旋转角度。

让我们看看这是如何工作的。选择字体大小、旋转角度和不透明度后，有两种嵌入文本的方式：单次和重复。在单次嵌入中，短语一次性嵌入到图像中的某个坐标。在重复嵌入中，短语在原始图像内的网格坐标上重复嵌入。以下代码创建了一个 Python 类来在图像中嵌入给定文本。类SimpleTransparentExamples用图像、要嵌入的文本和要嵌入的字体样式进行初始化。文本是使用generate中的参数（如透明度、角度和位置）嵌入到图像中的。

# simple transparent adversarial examples
from PIL import Image, ImageDraw, ImageFont

class SimpleTransparentExamples:
    def __init__(
        self, image, text, font=ImageFont.truetype("sans_serif.ttf", 16)
    ):
        self.image = image
        self.text = text
        self.font = font

    def generate(
        self, alpha=0.3, angle=0, x=0, y=0, image_init=None, resume=False
    ):
        # watermark
        opacity = int(256 * alpha)
        mark_width, mark_height = self.font.getsize(self.text)
        patch = Image.new("RGBA", (mark_width, mark_height), (0, 0, 0, 0))
        ImageDraw.Draw(patch).text(
            (0, 0), text=self.text, font=self.font, fill=(255, 0, 0, opacity)
        )
        patch = patch.rotate(angle, expand=1)

        # merge
        wx, wy = patch.size
        if resume == True:
            img = image.array_to_img(image_init)
        else:
            img = self.image.copy()
        img.paste(patch, (x, y, x + wx, y + wy), patch)
        img = image.img_to_array(img)
        return img

图 4-4 展示了在比格尔图像上运行前述代码的结果。第一个是原始图像。虽然对人眼来说这三幅图看起来一样，但第二和第三幅图导致了不同的模型预测。事实上，第二幅图在 30 度旋转时嵌入了红色的“Hello World”，字体大小为 16 像素，透明度为 0.1，位置在 x = 40, y = 20，而第三幅图在 30 度旋转时嵌入了黑色的“Hello World”，字体大小为 8 像素，透明度为 0.5，位置在 20 像素的网格上。

找到这些对抗性图像只需几秒钟。您只需选择 alpha（透明度）和角度参数，然后在x-y坐标对的值范围内进行网格搜索。对于单次出现的例子，您可以尝试在原始图像中的不同点上放置短语——最接近的两个点在x或y坐标上相差 20 像素。对于重复出现的例子，您可以继续在这 20 像素网格点上放置“Hello World”，直到输出标签发生变化。您可以在这个笔记本中找到执行此操作的代码。

图 4-4. 简单透明对抗性示例

这个例子中的结果表明，创建对抗样本实际上非常容易——你并不需要复杂的代码或机器学*来实现这一点！我们确实使用 Python 代码创建了一个机制来将文本嵌入图像，但是具备基本计算机素养的人可以使用众多免费在线工具之一来完成这个任务，通过试错他们可以找到一个外观基本与原始图像相同的对抗性图像。

当您查看图 4-4 时，能否发现文本？尝试使用此方法打破其他图像的预测。这更容易还是更难？为什么？

在 NLP 中测试鲁棒性的对抗方法比计算机视觉中的更困难。词语和句子比像素更离散，无法像像素那样在梯度中使用。⁶ 此外，输入空间中的距离定义更加严格和多样，对句子的扰动可能会很昂贵。例如，要使用词汇扰动，您必须首先构建每个单词适当替换的字典，然后用它来为输入中的每个单词创建扰动。

提高鲁棒性

本章展示的研究清楚地表明，使用某些类型的噪声训练的模型无法推广到训练数据中未*过的其他类型的噪声。因此，您可能需要在模型训练中引入鲁棒性方法。我们将在章节末尝试快速浏览一些实现方法：

简单的数据增强

向训练数据中加入包含少数样本的数据是提高鲁棒性的一种方式。像 TextAttack 这样的 NLP 库中的示例是一个很好的起点。

正则化方法

正则化可通过鼓励模型学*更容易泛化到域外分布示例的特征来提高模型的鲁棒性。在这方面的一些工作包括 HiddenCut、InfoBert 和基于因果的正则化：

HiddenCut 是一种修改辍学以淘汰更可能包含相似和冗余信息的相邻单词的技术。⁷ HiddenCut 通过在每个编码层后屏蔽连续令牌跨度的隐藏单元的整体信息更结构性地降低隐藏单元。这鼓励模型充分利用所有与任务相关的信息，而不是在训练期间学*虚假模式。
InfoBERT 使用多种正则化器，包括抑制输入和特征表示之间嘈杂互信息的正则化器，以及增加本地鲁棒特征与全局特征之间互信息的正则化器。⁸ 一些论文开始使用因果推断的技术来改善鲁棒性（和公*性）（*第 3 章）。⁹ 其他人则研究整合惩罚依赖于虚假特征并鼓励因果特征的损失函数的细节。我们将这些细节留给第 6 章。

对抗训练

对抗训练是对抗攻击的自然延伸。它使用对手创建的示例来训练模型（除了原始训练集）。您还可以在一个循环中执行这样的训练（*图 4-5），交替训练对手（固定模型）和训练模型（固定对手）。TextAttack 库也支持对抗训练（详*文档）。

图 4-5. 对抗训练过程的描绘

已开发了多种工具包来测试机器学*系统的鲁棒性。表 4-6 提供了一个探索的样本。

表 4-6. 评估和提高鲁棒性的工具包

工具包名称	特性	领域

Robustness Gym

对抗训练
有令牌级攻击（扰动）
评估模型
创建对抗性示例

自然语言处理

OpenAttack

包括所有前述和句子级攻击	自然语言处理

Madry 实验室鲁棒性工具包

图像增强、训练和评估 CV 模型	计算机视觉

Albumentations.ai

图像增强	计算机视觉

聪明的汉斯

基于对抗示例的攻击和提高机器学*模型鲁棒性的防御	计算机视觉

结论

正如本章所示，尽管模型能够实现诸如生成美丽艺术或写诗等印象深刻的成就，但它们仍然容易受到噪声和偏*的影响。因此，对于高风险的现实世界应用案例，进行鲁棒性测试是至关重要的，以确保模型在野外能够良好运行。

¹ Simon Zhaung 和 Dylan Hadfield-Menell, “AI 对齐不良的后果”, 第 34 届神经信息处理系统会议 (2020).

² Marcus D Bloice 等, “使用 Augmentor 进行生物医学图像增强”, Bioinformatics 35, no. 21 (2019 年 11 月): 4522–24.

³ Aerin Kim, “困惑度直觉（及其推导）”, Towards Data Science (博客), 2018 年 10 月 11 日.

⁴ Jin Yong Yoo 和 Yanjun Qi, “改进自然语言处理模型对抗训练的研究”, arXiv 预印本 (2021).

⁵ Jaydeep Borkar 和 Pin-Yu Chen, “简单透明的对抗样本”, ICLR 2021 机器学*系统安全和安全研讨会 (2021).

⁶ 文本生成中离散采样的解决方法，例如 Gumbel-Softmax，是本书讨论范围之外的高级主题。参* Eric Jang 等, “带有 Gumbel-Softmax 的分类重参数化”, arXiv 预印本 (2016); Matt J. Kusner 和 José Miguel Hernández-Lobato, “GANS 用于离散元素序列的 Gumbel-softmax 分布”, arXiv 预印本 (2016); 以及 Ivan Fursov 等, “基于可微语言模型的文本分类器对抗性攻击”, IEEE Access 10 (2022): 17966-76.

⁷ Jiaao Chen 等, “HiddenCut：增强自然语言理解的简单数据增强方法”, 第 59 届计算语言学年会和第 11 届国际联合自然语言处理会议 (2021): 4380–90.

⁸ Boxin Wang 等, “InfoBERT：从信息理论角度改进语言模型的鲁棒性”, arXiv 预印本 (2021).

⁹ Zhao Wang 等, “通过因果关系提升模型的鲁棒性和公*性：一种正则化方法”, arXiv 预印本 (2021).

第五章：安全可信的数据生成

任何稍有涉足机器学*领域的人都明白数据的重要性。但是，人们往往低估了数据的重要性。OpenAI 在 2020 年发表了一篇关于大型语言模型扩展定律的论文，并得出结论：增加模型大小足以使给定数据集上的机器学*模型更加强大。¹ 然而，DeepMind 在其 2022 年的 Chinchilla 网络论文中展示了，单单增加参数并不能创造出优秀的模型。² DeepMind 表明，数据集的规模需要与模型的大小相匹配。尽管这种扩展定律的证据具有说服力，但问题在于，许多团队更多受制于数据的限制，而不是参数的数量。

在任何机器学*项目中，最常*的障碍之一就是为机器学*模型获取足够的训练数据。³ 数据获取可能非常具有挑战性，因为必须收集足够大的样本，以代表整体数据的总体。在某些情况下，挑战可能在于根本无法获取任何数据来输入模型。考虑到这些问题，记住数据集来源的常*陷阱是非常重要的。

在本书中，我们已经涵盖了一些机器学*模型失败案例的示例。这些案例包括社会或非社会偏*（*第二章）、关注错误的数据特征（*第三章）以及未能捕捉现象的完整分布（*第四章）。许多这些问题的修复可能涉及如何训练机器学*模型的变化，但最大的问题往往出现在数据本身：它可能包含错误、包含偏*（随后反映在模型中）或不符合隐私标准。本章深入探讨了策划和维护数据集的最佳实践。

在我们深入探讨现实世界和合成数据获取的最佳实践之前，让我们来看一些未经信任的数据获取可能的具体示例及其可能带来的后果。

案例 1：未加保护的 AWS 存储桶

Amazon S3 存储桶中包含各种信息，包括图像、视频和文本，涵盖几乎每一个可能的领域和主题。在创建这些存储桶时，通常可以设置一些安全设置，以限制访问仅限于您自己或受信任的用户。许多人不设置这些安全措施，可能是因为匆忙或不知道如何设置。

有些人开始意识到这些未安全配置的 AWS 存储桶的程度。就像有些人会从未安全配置的 GitHub 仓库中获取未安全的加密货币私钥一样，一些团体迅速开发了工具，从这些未安全的存储桶中获取有价值的数据集。例如，GrayHatWarfare 提供了一个 Web 应用程序来搜索和浏览公共 S3 存储桶。许多人专门针对特定类型的数据。例如，在早期阶段，IntelPixel 将这样一个抓取器与其隐私工具结合起来，用于创建医学成像数据集的匿名化医疗数据。IntelPixel 可能是一个不寻常的道德异常值。大多数访问这些未安全配置的存储桶的公司都不费力进行数据匿名化（而那些进行匿名化的公司也仅仅是部分匿名化）。这样的方法降低了获取数据的门槛，但引入了数据质量控制、法律、伦理和公共关系责任的新问题。

注意

如果你是这些 AWS S3 存储桶的所有者，并且花费了大量时间、金钱和精力获取数据，你应该绝对花时间来确保访问您的存储桶并设置监控（或者您在任何云提供商上使用的数据存储选项）。

案例 2：Clearview AI 从社交媒体上抓取照片

类似于 S3 存储桶案例的策略，Clearview AI 从公开可用的照片中构建了面部识别工具。他们创建了一个抓取器，将公共社交媒体照片与姓名配对，然后创建了一款据称可以从他们的 30 亿张图片数据库中识别任何人的工具，不论该美国人的照片是否曾出现在刑事数据库中。尽管该工具立即显露出可能被跟踪者滥用的巨大潜力，但它被市场化为向执法机构推广。这个工具可以基于照片识别大多数美国人，而不管该美国人的照片是否曾被收录在刑事数据库中。隐私专家和公众对此感到震惊。因此，当 Clearview AI 面对包括美国公民自由联盟在内的团体提起的隐私侵犯诉讼时，这也就不足为奇了，他们承诺终止企业客户对其从公共网络收集的照片数据库的访问。

注意

如果你是数十亿社交媒体用户之一，你可能应该限制大部分信息仅供自己或亲密朋友查看。更好的做法是应用各种面部识别伪装工具对你的照片进行处理，比如SAND 实验室的 Fawkes 软件。

案例 3：未正确存储的医疗数据

重要的是要记住，不当的数据来源也可能适用于数据如何在内部团队之间传递。2020 年，安全研究人员发现了称为“暂存数据”的未受保护文件夹，通过 Cense AI 网站公开了超过 250 万名患者的个人和健康信息。安全研究人员怀疑这些数据是在加载到 Cense AI 的数据管理系统或 AI 之前暂时存储的。

所有这些情况都涉及某种形式的非法获取数据的使用。在两个案例中，用户可能知道他们的数据存储设置为公共的，但低估了数据的影响力。在第三种情况下，AI 正在从本应为内部系统的数据源获取数据，但是即使是暂时放松的安全标准也会引入巨大的法律责任。

如果您对道德不太关心，至少要意识到这些对数据的处理方法将会烧毁桥梁，侵蚀客户信任，并且通常会成为公共关系灾难。如果您是一个被指定负责策划这类不道德数据获取项目的工程团队的一员，那么请知道，如果您的项目受到不利报道，您很可能会成为第一个替罪羊。

获得现实世界数据的问题

当评估您的数据获取工作时，您会希望查看几个方面。

使用正确的数据来达到建模目标

在数据获取之前，您应首先询问是否拥有适合建模目标的正确数据。例如，如果您正在获取显微镜数据以获得细胞成像数据集，但您试图观察蛋白质折叠（蛋白质比细胞小得多），那么即使是最明智地取样的、在道德上获取的细胞数据集对您的蛋白质折叠研究也帮助不大。

同意

简单地说，您是否获得了数据的生产者的使用许可？这不仅意味着在冗长而难以理解的“条款和条件”文件中解释您将要做的事情。理想情况下，您应确保用户充分了解数据的使用目的，或者至少您正在使用该数据。

即使您已经得到了数据所有者的同意，这种同意可能在时间或地理范围上并不是无限制的。因此，您还应该制定一个数据保留政策。数据保留政策的目的是确定以下内容：

您将存储数据的时间有多长
您将如何存储数据
您将存储数据的位置
数据的格式
存储数据的介质
谁对数据拥有权威
当未经授权的实体访问数据时会发生什么

根据您所在行业（例如医疗保健、国防、会计等），这可能已经是合规要求。即使不是，建议仍然制定一个最佳实践政策。

在 2002 年通过萨班斯-奥克斯利法案之后，企业通过设立伦理官员和专门的伦理准则等机制来强化企业责任。将这些准则翻译为适用于使用 AI 系统的组织是增加这些技术开发组织责任感的一种方式。

PII、PHI 和机密信息

即使您已经得到数据所有者的同意，您仍然需要确保不使用包含个人身份信息（PII）的任何数据。这可能涉及一系列不同的信息字段或其组合。例如，一个人的姓名和出生日期合在一起的风险比这些字段单独使用更高。同样适用于将一个人的姓名与其地址一起存储。其他字段即使单独使用也是敏感的，例如电话号码、电子邮件地址、社会安全号码、医疗关键词、车辆识别号（VIN）和设备标识符。

根据您所在的国家不同，这可能是受法律保护的信息。例如，在美国，受保护的健康信息（PHI）受《健康保险移植与责任法案》（HIPAA）保护。 PHI 是指描述一个人医疗历史的任何信息（例如，心理或身体健康状况、测试和实验室结果、保险信息和/或可识别的人口统计信息）。

即使您确信您的数据中没有法律上定义的 PII 或 PHI，您仍应注意敏感信息。例如，如果您正在处理涉及代码库的 NLP 项目，您需要确保代码库已经清除了任何机密信息。

比例和抽样技术

在使用数据集之前，每个人都应该了解数据集中样本的相对频率以及是否存在异常值。无论您创建的是什么数据集，您都希望确保所有特征的相对频率与整个真实世界人口的相匹配。由于大数定律的存在，这通常（但并非总是）与确保您的数据集足够大是同义的。

未描述的变异

对于您的数据集，可能存在未被任何感兴趣的因变量解释的数据特征。如果您不适当地对一些这些特征进行归一化或清理，模型可能会浪费计算时间来试图弄清楚它们与目标变量的相关性。虽然在许多其他统计测试中可能很容易忽略这些问题，但很难让机器学*模型忽略您不感兴趣的特征。还有可能是您在数据标记过程中犯了错误，您的模型正在寻找不存在且不应存在的模式。这反过来可能会导致意外的替代指标。

意外的替代指标

这是一个数据的某个特征没有记录的问题，但模型能够使用其他特征作为代理。例如，由于许多城市历年来的歧视性住房政策，一些机器学*模型可能会无意中将像postal_code这样的数据特征作为种族或族裔的代理。另一个案例中，一个训练用于检测胸部 X 射线中 COVID-19 的机器学*模型，结果发现主要是在实际没有 COVID-19 的患病儿童进行了大量训练。因此，该模型主要关注患者是否躺下（这更可能意味着严重疾病），这是意外的代理。

外部效度的失败

外部效度是指您能将研究结果推广到其他情境、人群、设置和测量程度的程度。换句话说，您能否将这个模型的结论应用到其他情况？有很多情况下，外部效度可能会受到损害。例如，如果您有一个医疗数据集，试图用它来预测某种精神疾病，并且该模型表现非常出色，您可能会想将其应用于研究之外的人群。然而，请考虑一下，如果您只有 20 到 29 岁年龄段的数据。这个模型突然对普通人群的适用性显得不那么可靠了。当然，您可以在新的 20 到 29 岁年龄段上复制模型的性能，但如果您声称该模型在超出该年龄段的人群中同样表现良好，那这就是效度失败了。这与第二章中描述的许多概念有很大重叠。

数据完整性

你知道数据的来源吗？在真实数据中是否混有插值数值？你有记录数据进行的哪些修正吗？你确定训练集和测试集中没有相同的数据实例吗？例如，在 MNIST 数据集中获得高准确率的模型是一件非常容易的事情。然而，在庆祝你的神经网络开始工作之前，你应该意识到 MNIST 数据集中存在一些错误标记的条目。

在数据科学或机器学*项目中，尤其是在组建专门的管道管理器之前，最容易犯的错误之一是没有正确跟踪哪些数据位于哪个拆分中。

将数据集拆分为训练、验证和测试集是机器学*中的常*做法。每个拆分中应该有多少数据的比例也有所不同，有些比例适合不同的数据集大小。还有各种不同的洗牌或分层数据的策略。在某些情况下，例如当你处理时间序列数据时，你可能希望确保数据按时间分割。

这些都是需要考虑的重要事项，但我们要关注的问题要简单得多。我们希望确保在测试模型时，无论是在训练集还是验证集上，它都不仅仅是因为记住了数据而得分较高。我们在第四章中讨论了测试机器学*模型鲁棒性的各种方法，但这是非鲁棒性的一个非常常*的来源（即使对于特定模型来说，这并不是唯一的问题来源）。

设定合理的期望

在努力获取数据集之后，您可能期望生成的模型突然能够回答关于主题的任何问题。管理期望总是很重要的。毕竟，如果您在数据集上训练回归或分类模型，您应该记住您能够回答的主要问题类别是直接与模型类型相关的。即便如此，一些输出可能是由于模型中的怪癖或瓶颈导致的。

数据收集问题的工具

并没有太多技术工具可以自动帮助您收集更可靠的真实世界数据集。大多数现有工具实际上只能在您解决了前述一些更高级别问题后才能真正帮上忙。在处理更高级别问题时，最好随时准备一个检查清单。这是一个领域，高级工具无法弥补人类意图和有意设计的地方。

一旦您完成了检查清单，其他工具实际上会非常有帮助。

获得同意

要获得同意，有一些设计原则可以使您成为突出的好人（至少与其他人相比是如此）。

对于“条款和条件”页面，如今有许多网站设置了一个计时器，只有在一定时间后或者在您完全滚动到底部后才能选择同意选项，或者两者兼而有之。其他一些组织则通过提供条款和条件的文本转语音选项进一步提升服务（如果您正在更新它，您可以使用像 Speechify 或 Resemble AI 这样的自动文本转语音工具）。

创建数据保留政策，请参阅 Proofpoint 指南。

辨识 PHI、PII 和其他敏感数据

对于识别 PHI，您可以使用 Nightfall PHI/PII API。AWS 还有一个可以帮助您识别 PHI 的医疗数据 API。

要清除密钥，您还可以使用Nightfall Secrets API。Nightfall 可以扫描诸如 AWS、Azure、Confluence、Confluent、Datadog、ElasticSearch、Facebook、GitHub、GitLab、Google API、JIRA、Nightfall、Okta、Paypal、Plaid、Salesforce、Slack、Square、Stripe、Twitter、Twilio 和 Zapier 等服务的秘密。GitHub 本身提供了secret-scanning tool（尽管鉴于他们过去在秘密方面的丑闻，比如加密货币私钥出现在 GitHub copilot 的自动完成中，我们建议先探索所有选项）。

比例和抽样技术

正确的类比例很重要。例如，如果您正在训练分类模型，您可能希望确保您的数据管道更频繁地对少数类进行抽样。

跟踪意外变化

为了控制意外变化，您可以使用像第四章讨论的工具来识别意外变化。

跟踪意外代理

第三章讨论的许多工具也可以用来跟踪意外代理。

数据完整性

对于生命科学等领域，跟踪数据来源的工作流是标准做法。像Insitro’s Redun这样的工具非常适合这些领域。不特定于生物科学的工具还包括像Airflow和Luigi这样的工具。我还建议查看像Flyte这样的工具来管理您的数据管道。当涉及到跟踪数据变更时，像Data Version Control (DVC)这样的工具也是一个不错的选择。当这些变更涉及预处理步骤和特征工程时，您可以使用由 LinkedIn 创建的特征存储库Feathr，该存储库提供了用于监控和跟踪这些步骤的接口。

错误组织的拆分

当您需要确保您的模型在训练和测试数据中没有重复使用相同的数据实例时，您可以使用像did-it-spill这样的工具。

设定合理的期望

部署机器学*产品中最常*的故障模式之一可能源于（1）未说明为何认为泛化是可能的以及（2）未仔细思考您的超出分布案例的宇宙。很难找到一个能帮助您设定合理期望的软件包。您能做的最好的事情是持续跟踪您的模型可能遇到的所有不同故障案例。当您需要弄清楚您的机器学*模型或管道将回答的问题时，列出它不会回答的问题也很重要。

所有这些真实世界数据的问题都导致人们试图提出合成训练数据的方法。

合成生成的数据

面对获取真实世界数据的所有挑战，寻找生产合成数据的方法可能会很诱人。毕竟，像 StyleGAN 这样的机器学*模型以非真实存在的人物（以及猫、租房公寓和车辆）闻名。有关更多示例，请参阅“This X does not exist”。

与真实世界的数据相比，这些数据生成器确实存在一些缺点。然而，合成数据在许多机器学*流程中的一个关键步骤上仍然非常有用：迁移学*。在高质量合成数据上训练的模型可以快速地在真实数据上进行训练。这种方法有几个优点：

合成数据可以拥有完全准确的标签。这甚至适用于在现实生活中获取可能复杂或昂贵的详细标签。
可以轻松调整合成环境，以改变模型的行为，例如随机化要忽略的环境部分，同时保持希望模型专注的特征的一致性。
合成数据可以作为敏感真实世界数据的代理，训练模型捕捉重要模式，同时排除与特定个体相关的模式（有关隐私详情，请参阅第一章）。
一旦建立起来，合成数据生成器可以快速、廉价地生成所需的大量数据。

当然，实现这些好处完全依赖于具有足够优质的数据生成器。创建能够生成逼真数据的生成器是一项非*凡的任务。更重要的是，尚不能完全依赖生成器训练模型并将其部署到真实世界中，而不进行真实数据训练。我们并非生活在一个理想的世界中。

然而，这并不意味着公司没有投入大量时间和资源来创建复杂的数据模拟工具。例如，有 NVIDIA Omniverse，一个仿真、物理引擎和渲染工具。还有 Pixar 的通用场景描述技术，用于进行准确的渲染。物理模拟器如 MuJoCo 多年来一直在强化学*中使用，自从 DeepMind 购买 MuJoCo 并开源以来，使用它就像pip install mujoco一样简单。

DALL·E、GPT-3 和合成数据

如果你关注过人工智能的新闻，你可能会得出结论，AI 生成器已经发展到可以用来生成逼真数据的程度。例如，DALL·E 项目就是一个可以从文本生成逼真图像的图像生成 AI。有些人尝试使用像Craiyon（之前称为 DALL·E 迷你）（及其适用于本地计算机的优化分支）⁵来尝试在不到五分钟内创建图像分类器。例如，对于一个苹果与香蕉分类器，可以向 DALL·E 迷你输入一系列提示，如“桌上的香蕉”，“随机背景上的香蕉”，“桌上的苹果”和“随机背景上的苹果”。然后，可以将这些图像输入到像谷歌的Teachable Machine这样的工具中，并得到一个在分类现实生活中的苹果和香蕉时似乎运作良好的分类器。如果你已经阅读了前几章，那么你现在应该意识到，在玩具环境中制作基本工作的 ML 模型很容易，但要在真实世界中使其稳健则更为困难。例如，前述分类器最终在黄色苹果或不同光照下的苹果和香蕉，或者不属于任何类别的物品的情况下失败了。

尽管如此，仍有许多人会被合成数据生成器所诱惑。在 DALL·E 迷你发布后不久，人们发现该程序可以创建看似逼真的生物研究数据（图 5-1）。

图 5-1. 从 DALL·E 迷你模型生成的假显微镜图像

图 5-1 中的图像都不是来自实际实验室或显微镜。它们只是由计算机程序生成的。对于非专家来说，这些图像可能看起来非常逼真。然而，如果你想要使用这样的图像来完全训练一个机器学*模型或验证科学出版物中的假设，你会很快遇到困难。当生成模型创建这样的图像时，它们实际上是从代表图像可能属性的概率分布中进行采样。这意味着你经常会得到刻板化的图像，而那些不刻板的图像看起来只会让人感到不协调。因此，这是在像细胞生物学这样一个需要寻找各种离群点的领域中理解的极其糟糕的工具选择。

除了作为唯一的训练数据来源或假设验证的实际无用外，如果将这些图像添加到某种出版物中，可能会破坏出版者与提交图像的人之间的任何信任。这意味着，当涉及使用合成数据进行机器学*或科学研究时，这些类型的图像实际上比无用还要糟糕。⁶

这并不意味着合成数据从不具有任何用途。只是要正确使用它通常比看起来要微妙和棘手得多。使用合成数据搞砸自己的脚也极为容易。即使在最好的情况下，您可能也只能将合成数据用于预训练，而不是一个可以在真实世界中运行的完整端到端模型训练流水线。

利用合成数据改善模式识别

如果您不能使用合成数据完全训练模型，那么它能有多大用处呢？即使您不依赖合成数据进行整个过程，它仍然可以极大地提升模型的整体模式识别能力。

过程驱动的合成数据

过程驱动的合成数据是通过显式定义的算法生成的一种合成数据类型。这可能涉及从方程或流形中随机选择点，并对其添加一些随机噪声。这些方法的优势在于可以将人类领域知识轻松地整合到数据生成中。不利之处在于，设计不当的过程可能会加剧设计该过程的人类的盲点和偏*。

数据驱动的合成数据

数据驱动的合成数据指的是通过适应或训练于某种现实世界数据的生成模型生成的合成数据。在这一类别中，您可以找到各种生成对抗网络（GAN）和流模型，用于生成合成数据。

这种方法的优势在于可以更有信心地确保数据集代表真实生活现象。不利之处在于，训练一个良好的生成器取决于是否有大量且高质量的数据集，如果您已经拥有这样一个好的数据集，您可能根本不需要这个新的生成器。毕竟，如果您试图制作一个可以区分由 GAN 生成的图像类的模型，为什么不直接使用 GAN 本身的判别器呢？相反，如果您没有足够的数据来可靠地训练分类器或回归器，您不应期望将模型转化为生成器能够奇迹般地解决数据问题。

深入探讨：使用过程驱动的合成数据集预训练模型

以提高模式识别为例，让我们看看当您仅在原始模式上预训练模型时会发生什么。

如果你查看图像识别网络的激活，你会发现早期层次中的神经元集合通常在处理基于一两种颜色的简单模式时更活跃，并且它们的交集呈角度取向。稍后的层次通常在早期神经元组合激活后被激活，形成更高级别的模式，例如独特的形状。甚至更晚一些，这些层次在响应于高级概念对应的模式存在时被明显激活。当你运行整个网络时，模式识别从边缘、纹理、图案、部件，最终到物体的过程逐步进行。⁷

如果你从头开始训练一个模型，你的模型需要学*所有这些模式，包括高级和低级模式。预训练背后的动机在于，虽然接近末端的高级概念由于域的改变可能不那么有用，但在大型数据集上进行训练可能意味着早期层次上的重新训练减少。因此，计算机视觉模型通常会在像 ImageNet 这样的大型（相对）多样化的分类数据集上进行预训练。

假设你想要进行这种类型的预训练，而不是在 ImageNet 或者任何其他真实世界的数据上进行训练。你可以通过构建一个基于过程驱动的合成数据生成器来实现这一点，使模型能够在一堆分形图上进行训练。这些分形图完全是抽象的，不对应于真实世界的物体。你可以得到与使用 ImageNet 这样的数据集预训练的模型相媲美的结果。

注意

你可以在笔记本Chapter_5_Synthetic_Data_Fractals.ipynb中找到与本教程相关的所有代码。这受到了“改进分形预训练”中优化的分形预训练技术的启发，⁸ 该技术在 2020 年由片冈等人首次提出，表明合成分形可以用于预训练。⁹ 很多代码已经进行了重构，并使用了 PyTorch 和 HuggingFace。

如果你想要可视化从参数生成的分形图，请尝试来自“改进分形预训练”的交互式浏览器可视化工具。

对于数据生成器，你将大量使用 Numba 库来在 CPU 上高效地生成这些形状。该脚本生成的图像可以存储在磁盘上的数据集中，也可以在每次训练数据生成器的迭代中从头生成。每个输出的分形图将具有有色背景，对应于分形的形状和类型的数值常数，以及与所有这些属性对应的一个或多个标签类型（*图 5-2）。

图 5-2. 输出分形图示例

人脸识别、姿势检测和以人为中心的任务

微软展示了在野外进行高效的人脸识别是可能的，而不需要（直接）使用真实数据。相反，微软通过结合“一个程序生成的参数化 3D 面部模型和一个全面的手工制作资产库来渲染训练图像，以实现前所未有的真实感和多样性。”¹⁰ 这是通过名为“假装到成功”（微软 GitHub 项目页面，数据集库，以及视频演示）的项目成功实现的。

长期以来，AI 拥有两大资源：数据和计算力。像这样的项目表明，数据实际上只是计算力穿着风衣。微软可以利用计算机生成大量数据，从而改变整体 AI 开发的经济学。

不仅仅局限于面部，Unity 已经创建了一个工具包，用于生成合成的人体姿势和身体形状。这个工具包，PeopleSansPeople，允许直接从人体模型生成标签的边界框和姿势关键点。¹¹ 该项目页面详细介绍了这如何创建比标准基准如“常*上下文中的通用对象”（COCO 数据集）（在图像分割和物体检测研究中与 MNIST 或 CIFAR-10 相媲美）更大的训练数据集。此外，项目页面还讨论了这些合成数据集如何产生更*滑的边界框分布（*图 5-3）。

图 5-3. COCO 和“PeopleSansPeople”中的边界框分布，取自 Unity Technologies 项目页面

物体识别及相关任务

在计算机视觉中有大量的监督学*任务可以应用于相同的图像。问题在于像图像分类、实例分割、深度映射、光流等任务需要基本不同类型的标签。如果能够制作至少半真实的图像或视频，您可以为输入特征自动生成不同类型的标签，因为您可以控制两者。例如，包括Tex⁠tRecognitionDataGenerator可以自动生成各种字体和噪声水*下的文本图像，用于光学字符识别（OCR），并每次生成数据时与正确的标签配对。另一个例子，微软创建了一个生成器用于虚拟头像，该生成器将为面部的七百多个关键点自动生成标签。¹² 在这个合成数据集上训练允许面部识别系统在真实面部上识别这些关键点，并在部分面部被遮挡时为每个点提供置信度估计。

Google 研究开发了一个名为Kubric的工具。¹³ 这是一个数据生成管道，用于创建具有丰富注释的半真实合成多对象视频，例如实例分割掩模、深度图和光流。假设您已安装 docker，您可以使用 Kubric 生成合成训练视频数据。结果是一个 Python 界面，用于与渲染器（Blender，一个开源 3D 渲染器）交互。

import logging
import kubric as kb
from kubric.renderer.blender import Blender as KubricRenderer

logging.basicConfig(level="INFO")

# --- create scene and attach a renderer to it
scene = kb.Scene(resolution=(256, 256))
renderer = KubricRenderer(scene)

# --- populate the scene with objects, lights, cameras
scene += kb.Cube(
    name="floor", scale=(10, 10, 0.1), position=(0, 0, -0.1)
)
scene += kb.Sphere(name="ball", scale=1, position=(0, 0, 1.0))
scene += kb.DirectionalLight(
    name="sun",
    position=(-1, -0.5, 3),
    look_at=(0, 0, 0),
    intensity=1.5,
)
scene += kb.PerspectiveCamera(
    name="camera", position=(3, -1, 4), look_at=(0, 0, 1)
)

# --- render (and save the blender file)
renderer.save_state("output/helloworld.blend")
frame = renderer.render_still()

# --- save the output as pngs
kb.write_png(frame["rgba"], "output/helloworld.png")
kb.write_palette_png(
    frame["segmentation"], "output/helloworld_segmentation.png"
)
scale = kb.write_scaled_png(
    frame["depth"], "output/helloworld_depth.png"
)
logging.info("Depth scale: %s", scale)

此代码创建了一个场景，其中包含一些极简单的对象，但也可以指定更复杂的资产。您可以在笔记本Chapter_5_Synthetic_Data_Blender.ipynb中找到更多示例。

如果您正在寻找一个更大的预填充的合成对象数据集，也可以考虑查看NVIDIA 的 GET3D 数据集。这是一个工具，基于 2D 图像构建具有纹理和几何细节的高保真度 3D 形状。

对象识别可能看起来是合成数据领域中风险较低的领域，但这仍然归结为这个模型在现实世界中如何使用的问题。部署训练好的模型来处理封闭环境中的耐用物体和部署训练好的模型来导航完全开放的世界之间存在差异。

环境导航

多年来，在强化学*中，使用合成数据来训练代理模型如何导航环境已成为标准做法。像OpenAI Universe（已弃用，推荐使用OpenAI Retro）和Unity ML Agents这样的工具是 RL 研究的基石。¹⁴

对于模拟更真实的外部环境，像Microsoft 的 AirSim这样的工具提供了更多的帮助。¹⁵ 还有像Driving in the Matrix这样的项目，利用开放世界游戏如侠盗猎车手 V来创建适用于实例分割的标记计算机视觉数据。¹⁶

在2022 年特斯拉 AI 日上，特斯拉描述了它如何使用包含数千辆虚拟汽车的虚拟环境来训练其 AI。这个基于虚幻引擎的虚拟环境包括了旧金山街道的虚拟重建。这种模拟环境使特斯拉工程师可以不断地调整训练环境，随机化纹理，使代理能够独立于纹理识别对象，甚至添加在现实世界中难以获取训练数据的不寻常场景和情况。特斯拉从模拟驾驶环境中采纳了一些原则，将其扩展到了一个大规模（尽管最终的自动驾驶 AI 还不完美）。

在合成环境中更具前景的发展之一可能是可以由人类和 ML 代理导航的环境，以便比较两者之间的差异。由 Godot 创建的Generally Intelligent 的 Avalon就是这样的一个环境。它可以被强化学*代理和戴着 VR 头显的人类导航。

Unity 和 Unreal 环境

到目前为止讨论的工具与现有的合成数据工具包相关。但是，您可能希望考虑创建与您自己任务相关的合成数据。

Unity 已经在前面的小节中讨论过。它是一个跨*台的 2D 和 3D 游戏引擎，因其优化游戏开发中一些更具挑战性的方面而闻名。它于 2005 年在丹麦的哥本哈根创建并发布。如今，它被广泛应用于许多热门游戏，包括 2D 游戏Among Us，3D 游戏Monument Valley，像Pokémon Go这样的增强现实游戏，以及像Escape from Tarkov这样的第三人称射击游戏，以及超越游戏行业的交互式模拟。该引擎本身用 C++编写，但允许开发者使用 C#编写代码。它还提供了一个图形化编辑器，您可以在其中进行编程而无需编写代码。在 Unity 环境中的每个对象都可以具有许多组件，例如网格（定义对象的形状）和网格渲染器（定义纹理及光照如何作用于对象）。还有物理组件，如刚体动力学和碰撞，以模拟对象在现实世界中的行为。游戏开发者在此基础上添加更多行为，例如每次被击中时对象失去生命值。如果您对创建视觉模拟训练数据感兴趣，网格、网格渲染器和物理组件将是最有价值的工具。

如前所述，Unity 具有用于模拟数据和环境的工具，例如Unity ML Agents和PeopleSansPeople。但您不必依赖于这些专门的 ML 工具；您也可以使用用 Unity 资产创建的场景来生成合成计算机视觉数据。

Unreal Engine 是 Unity 在模拟逼真环境方面的直接竞争对手。MetaAI 开发了UETorch，这是一个Unreal Engine 4插件，为游戏引擎循环中添加了嵌入式Lua/Torch脚本支持，并提供了一组 Lua API，用于提供用户输入以及拍摄和分割蒙版。虽然可用，但 UETorch 已经存档多年且不再维护。对于更新的工具包，UnrealCV是另一个库，用于从 Unreal Engine 生成合成场景和图像。¹⁷

合成数据在医疗保健中的限制

有许多项目正在处理合成医疗保健数据。其中之一是DeepSynthBody。¹⁸ DeepSynthBody 是一组生成模型（条件和非条件的），用于生成看起来逼真的医疗保健数据。生成模型分为 11 类：心血管、消化系统、内分泌、皮肤、淋巴、肌肉、神经、泌尿、生殖、呼吸和骨骼。

当人类在特征分布上的直觉受限时，合成数据通常最容易正确生成。对于组织学或细胞生物学等数据类型，在最佳情况下，即使对于人类的直觉来说，这也变得更加冒险和具有挑战性。

import deepsynthbody.cardiovascular.ecg as ecg

help(ecg.generate)

"""
Help on function generate in module
deepsynthbody.cardiovascular.ecg.functions:

generate(num_ecg, out_dir, start_id=0, device='cpu', **kwargs)
 Generate DeepFake 12-leads 10-sec long ECG.

 Parameters
 ----------------
 num_ecg: int
 Number of DeepFake ECGs to generate randomly.
 out_dir: str
 A directory to save output files with extension ".asc".
 start_id: int
 A interger number to start file names. Default value is 0.and
 device: str
 A device to run the generator. Use strin "cpu" to run on CPU and
 "cuda" to run on a GPU.

 Return
 ------
 None
 No return value.
"""

# To Run on GPU, use device="cuda". To run on CPU (default), use device="cpu"
ecg.generate(num_ecg=5, out_dir=".", start_id=0, device="cuda")
# Generate 5 ECGs to the current folder starting from id=0

生成函数可以生成具有 8 个导联值的 DeepFake 心电图，每个导联的名称从第一列到第八列依次为I, II, V1, V2, V3, V4, V5, V6，持续 10 秒钟（每个导联 5000 个值）。这种 8 导联格式可以使用以下方程转换为 12 导联格式：

$Ⅲ导联数值 = (Ⅱ导联数值) - (Ⅰ导联数值)$ $导联 aVR 数值 = - 0.5 (Ⅰ导联数值 + Ⅱ导联数值)$ $导联 aVL 数值 = Ⅰ导联数值 - 0.5 Ⅱ导联数值$ $导联 aVF 数值 = Ⅱ导联数值 - 0.5 * Ⅰ导联数值$

除了 DeepSynthBody 外，还有模拟和SHARED项目。

医疗数据的一个问题在于，虽然相对容易生成不会识别任何人的健康患者数据，但对实际病理数据进行这样的处理要困难得多。许多医疗数据集的区分特点在于其异常值（健康基准之外的患病者），因此很多人怀疑这种方法作为隐私解决方案的实用性（参*第一章关于 k-匿名性）。

人造数据有其优点，因为真实世界的医疗数据在很多情况下太混乱，无法使用。因为许多医疗系统是围绕账单设计的，决策由医院和保险公司的高管做出，他们通常不是技术专家。目前还没有太多的动力来清理系统或者像银行等领域那样制定良好结构化的开放协议进行互操作。

此外，医生和护士通常不关心数据的程序记录，他们通常也没有接受过这方面的培训。他们通常只考虑将数据记录下来，以便其他人类阅读。¹⁹

自然语言处理中合成数据的局限性

到目前为止，大多数示例都与图像处理有关。鉴于像 GPT-3 这样的大型语言模型的存在，应该可以为顺序或基于文本的任务生成合成数据。

不幸的是，这与使用 GAN 生成合成数据面临相同的问题。如果你有足够的数据来创建一个训练良好的语言生成模型，那么你可能根本不需要这个生成模型来解决你的数据问题。如果你使用像 OpenAI, Cohere, Copy.ai, ElutherAI, 或 GooseAI 这样的组织提供的非开源语言模型来生成合成数据，你需要极度谨慎地检查错误、偏*和其他在真实数据中不存在的问题。如果你使用需要付费的 API 的非开源语言模型，那么尝试创建一个体面的合成数据集可能比仅仅从伦理角度获取真实数据更加昂贵。

自监督学*模型与巨大的自然数据集之间的比较

如果你无法使用大型合成数据集，但又苦于获取足够标记的真实世界数据，还有另一条值得考虑的途径：自监督学*的模型。²⁰

自监督学*的工作原理是试图预测输入中未观察到或隐藏的部分。例如，在自然语言处理中，一行的单词可以使用句子中剩余的单词来预测。它比监督学*更容易扩展。它可以自动生成训练标签，而且许多自监督学*系统可以在比它们训练的更多上下文中使用。唯一的缺点是，自监督学*通常在基础数据为离散的情况下效果最佳（例如，Google 的 BERT 预测文本中的整数标记），但在连续数据上表现相对较差。²¹

注意

混淆不已，SSL 这个首字母缩写同时用来指代自监督学*和半监督学*。半监督学*是一种技术，你可以使用训练好的模型来标记新数据，然后继续在这些新数据上训练。²² 虽然这可以是一种有用的技术，但它与自监督学*并不完全相同。在使用这两种技术时，应注意遵循最佳实践。

将质量控制度量重新用于安全目的

合成数据的主要缺点之一是，并非所有人都只是为了减少公司的训练数据预算而使用它。深度伪造技术长期以来一直被视为假设，但正如本章希望说服您的那样，深度伪造技术已经存在。这对了解您的客户（KYC）行业是一个巨大的问题。好消息是，许多用于测试合成和对抗数据鲁棒性的工具（本章和第四章讨论过）也适用于深度伪造技术。关于合成数据生成工具的详细介绍，请参阅附录 A。

结论

当涉及到获取数据时，无论是真实世界的还是合成的，这是使您的 ML 流水线符合到目前为止书中描述的各种标准的关键步骤之一。获取有助于您的模型产生您希望的输出的真实世界数据充满了危险，但是如果您知道要寻找什么，有很多工具可以使其变得更容易。数据驱动的合成数据可能看起来是解决某些与真实世界数据相关的问题（例如隐私、可用性等）的解决方案，但它并非灵丹妙药。一些关于合成数据的问题可以通过过程驱动方法来解决，但是过程驱动的合成数据的质量取决于您在数据生成器中硬编码的假设的好坏。归根结底，您能否获得足够的训练数据将取决于您有多么好地能够衡量特征和标签的分布，控制质量，并始终再三检查您在该领域的假设。

¹ Jared Kaplan 等人，《神经语言模型的缩放法则》，arXiv 预印本（2020 年）。

² Jordan Hoffmann 等人，《大规模语言模型训练的计算优化实证分析》（2022 年），arXiv 预印本。

³ 即使是少样本学*的图像和语言模型，找出最佳的几个示例也是困难的。

⁴ “AI 公司通过互联网泄露了 250 万患者记录”，HIPAA Journal，2020 年 8 月 21 日。

⁵ DALL·E mini 裸版，仅包含在本地机器上执行推理所需的基本要素。

⁶ 像撤稿观察这样的网站已经在跟踪使用生成模型产生的假数据而撤销的论文。生成模型可能会更频繁地出现在这类网站上。

⁷ Chris Olah 等人，《特征可视化》，Distill（2017 年 11 月 7 日）。

⁸ Connor Anderson 和 Ryan Farrell，“改进分形预训练”，IEEE/CVF 冬季计算机视觉应用会议论文集 (2022).

⁹ Hirokatsu Kataoka 等人，“无自然图像的预训练”，ACCV 2020 (2020).

¹⁰ Erroll Wood 等人，“虚假而为之：仅使用合成数据在野外进行面部分析”，IEEE/CVF 国际计算机视觉会议论文集 (2021): 3681–91。

¹¹ Salehe Erfanian Ebadi 等人，“PEOPLESANSPEOPLE: 人类中心计算机视觉的合成数据生成器”，arXiv 预印本 (2021).

¹² Erroll Wood 等人，“带有密集标记的 3D 面部重建”，Microsoft，2022 年.

¹³ Klaus Greff 等人，“Kubric: A Scalable Dataset Generator”，IEEE/CVF 计算机视觉与模式识别会议论文集 (2022): 3749–61.

¹⁴ Arthur Juliani 等人，“Unity：智能代理的通用*台”，arXiv 预印本 (2018).

¹⁵ Shital Shah 等人，“AirSim：用于自动驾驶车辆的高保真视觉和物理仿真”，Field and Service Robotics Conference 2017 (FSR 2017) (2017).

¹⁶ Matthew Johnson-Roberson 等人，“驾驶在矩阵中：虚拟世界能否替代真实世界任务的人工生成注释？”，国际机器人与自动化会议 (2017).

¹⁷ Weichao Qiu 等人，“UnrealCV：计算机视觉的虚拟世界”，ACM 多媒体开源软件竞赛，2017 年.

¹⁸ Vajira Thambawita 等人，“DeepSynthBody：医学数据不足的终结开始”，IEEE (2021).

¹⁹ Brian Kihoon Lee，“电子医疗记录上的深度学*注定失败”，moderndescartes.com (博客)，2022 年 3 月 22 日.

²⁰ Yuki M. Asano 等人，“PASS: 一种用于自监督预训练的 ImageNet 替代品，无需人类参与”，arXiv 预印本 (2021).

²¹ 如果您想了解更多信息，请访问GitHub查看关于自监督学*的论文列表。

²² 查看 Lilian Weng 的博客文章 “用不足的数据学* 第一部分”，了解半监督学*的精彩总结。

第六章：更多的最新研究问题

在前几章中我们涵盖的内容大多从标准实践到实际但未被充分利用的方法。本章专注于刚刚走出研究阶段的方法。我们还将探讨这些方法中哪些正在变得适用于实际世界，并询问它们与我们在前几章中讨论过的各种可信度指标有何不同。这绝不是当前正在进行的各种尖端机器学*技术的详尽列表，然而，这些都是作者在讨论中看到的一些更有趣的技术。

首先，我们希望了解如何警惕关于机器学*技术过度宣传的报告和文章（这在“量子机器学*”中将非常相关）。

理解不当宣传研究声明的含义

总的来说，所有这些技术仍处于研究和概念验证阶段。如果我们有更多关于如何评估研究技术及其是否适用于实际应用的例子，将会很有帮助。这可能听起来像是一个自相矛盾，因为机器学*研究的整个目的是产生超出以往可能的*解和技术。

一个更有帮助的方法可能是寻找关于新机器学*进展的报告中的警示信号。确实，考虑到机器学*领域的快速发展，很难强制执行一种标准或质量文化，这在其他类型的报道或新闻报道中可能会看到。幸运的是，机器学*新闻报道的错误是足够常*的，你可以记住几个高级别的反模式（无论是意图的还是非意图的，作者本人也可能会犯的）来警惕。¹

浅层次的人类-人工智能比较反模式

这一反模式涉及报告或文章可能不公正地声称某个机器学*系统“就像”或“超越”了人类的所有方式。其中一个最过分的例子是将机器学*系统拟人化。一篇报道可能描述一个机器学*系统具有代理能力，却完全忽视其行动始终在人类监督下进行，不能单独完成。这类文章经常使用人形机器人的图像，给人一种错误的印象，即所讨论的机器学*系统具有实体化（或与《终结者》系列进行比较），即使所涉及的机器学*系统只是云服务器或笔记本上的模式匹配软件。

一些关于人工智能的讨论可能会将深度学*算法与生物大脑的工作方式进行比较。虽然少数团队正在尝试基于对神经元的观察构建人工智能系统（例如Numenta和一些学术实验室），但其他人使用的人工智能技术与大脑甚至生物神经元的工作方式极为不同。

即使涉及更具体的基准测试，仍然存在将新技术的表现与人类进行比较的倾向。这种比较忽视了人类和机器学*算法在极其有限的领域中的竞争，忽略了人类更具适应性和普适性的特点。

淡化技术局限性的反模式

描述新的机器学*技术的好处是可以预期的。毕竟，你不仅要向读者和资助者介绍好处，还要解释研究动机。更不可原谅的是，在非常片面的分析中淡化或忽视技术的局限性。

本书已经讨论了许多信息泄露、偏*、对内部机制的不理解、验证不足和潜在的意外使用案例。我们之所以在本书中讨论所有这些主题，正是因为在将机器学*系统从开发到生产过程中，这些问题通常被忽略。

当呈现有关性能或准确度的数字时，通常会省略如何计算这些准确度指标，甚至省略这些测量的不确定性是什么样子。这是一个问题，因为正如第四章所讨论的那样，许多机器学*模型非常脆弱，在其测试环境稍作改变时，它们无法达到相同的性能。

在许多关于机器学*发展的报告中，技术的局限性可能完全被省略。如果有讨论，它们可能会在文章的结构中被淡化，也许只是给予有限的空间，或者将其埋在大多数读者第一遍阅读时甚至都不会注意到的脚注或附录中。即使没有这种淡化，技术的局限性也可能会通过将其表述为仅由“怀疑论者”或“反对者”提出来，试图将它们最小化。

此外，当一个机器学*模型很健壮时，投入到使其如此的人力往往被低估。具有讽刺意味的是，为了训练更先进的自动化系统以替代人类，生产数据通常是极其劳动密集的。² 忽视人类标记员、注释员甚至在最糟糕的情况下开发者的贡献，会给人们一种错误的印象，认为机器学*系统比实际上更自主。

甚至简单地将模型称为“黑箱”也可能是具有误导性的。我们在第三章讨论了“黑箱”模型，指的是那些本质上不可解释的模型，但可以通过某些工具和技术来更易于检查。在某些情况下，“黑箱”描述符的使用旨在阻止人们审查模型或追究开发者的责任。³

不加批判的公关文案反模式

一些机器学*论文听起来更像是公关新闻稿，而不是真正的研究论文。如果你读过这样的论文，那并非杞人忧天。大多数公司和研究实验室通常都有兴趣夸大他们工作的影响，以吸引更多的资金、客户和人才。作为公关文章的论文可以采用多种形式，从含有更多市场术语而不是技术术语的论文，到充斥着难以理解的术语（例如，定义不清的首字母缩写词或大量新的技术术语，其目的与现有的相同）和不必要难以解析的数学符号（例如，在新的领域重新实现 k 最近邻算法，但用故意晦涩的符号填充了一页或多页）。

这超出了仅仅滥用 ArXiV 和机器学*会议的范围。新闻报道经常使用公司公关声明中的术语，这往往会对 AI 的能力造成错误印象（即使在与人类机器人形象毫不相关时，他们可能更容易使用误导性的形象）。如果有采访或引述，可能是来自公司发言人而不是研究人员或技术专家。发言人可能有意夸大声明，或者他们可能真的不了解这个新系统的实际运作方式。

反应超大或者完全错误的反范式

最令人头疼的反范式之一是那些对机器学*能力进行夸张、推测甚至是纯粹错误的声明。

有关人工智能的夸大宣称层出不穷。其中一些宣称可能会将其与工业革命或电力发明等重大历史变革进行牵强比较。它们可能会吹捧某个机器学*系统对某个领域或行业的相关性，但缺乏证据，甚至声称它已经在那里发挥作用。新闻报道经常会误解关于新机器学*系统的报告，这既可能是团队缺乏技术专业知识，也可能是组织或发言人故意歪曲。这可能导致将机器学*系统的更为普通的能力表述为比它们实际上更具突破性或变革性的内容。⁴ 这与先前描述的“不加批判的公关文章”反范式有很大重叠。

这种反范式的最坏情况涉及对新的机器学*系统能力的声明，这些声明完全是捏造的。这些声明可能基于虚假的数字或指标，甚至虚假地描述了特定领域的性能。尽管可以通过自行测试这种技术来发现问题，但因为驳斥可能需要如此多的时间和计算投入，造成的损害可能已经难以挽回。

克服这些反范式

把这些反模式列出来可能会让你觉得关于机器学*系统的所有声明都不可信。这并不是说你应该对所有关于机器学*系统的声明持怀疑态度，但至少你应该注意这些常*错误。Sayash Kapoor 和 Arvind Narayanan 创造了一个检查 AI 声明的便捷清单。⁵ 总体上，在阅读关于机器学*系统的内容时保持安全意识是个好主意。参*第三章。⁶

为了证明并非所有新的机器学*研究声明都是无稽之谈，我们将更详细地讨论一些新兴的技术和技巧。

量化机器学*

长期以来已知，并非总是需要标准的单精度或双精度浮点数（32 位浮点数或 64 位浮点数）的完整数值精度才能获得良好的结果。当然，这些数字在许多其他领域的数值计算中被使用，但在机器学*中，当神经网络更新其参数时，你可能有机会通过计算大量数字来弥补降低的精度。量化机器学*指的是在模型中移除或减少权重和/或偏差和/或激活的精度，以减少内存占用或推理时间的空间。

注意

量化机器学*听起来可能与量子机器学*相似，但实际上毫无关系。它通常与sparse ML有很大的重叠，后者涉及修剪模型中较不重要的激活和权重，以减少整体大小。

如果你有一个设备想要部署机器学*模型，并且空间非常有限（例如，树莓派）或有非常低的延迟要求（例如，运行在实时视频上的东西），或者有功耗约束（例如，移动应用程序），量化机器学*可以很好地发挥作用。Google Brain 在开发用于在 TPUs 和各种 NVIDIA GPU 上运行的网络时，开发了自己的 bfloat16（b代表brain）16 位浮点格式。这比完整精度的替代方案提供了更好的能源、内存和运行时效率。但其他机器学*工程师想要更进一步。

8 位精度格式是一个更为棘手的问题。随着精度降低到这个级别，模型的数值稳定性和下游性能都会有更大的降低。训练与完整精度权重模型的偏差是可以察觉到的，但用 16 位 bfloat16 格式可以管理。然而，早期的 8 位量化尝试导致训练偏离得如此之多，以至于模型无法使用。此外，虽然 TPUs 和 GPUs 支持 16 位浮点和 8 位整数格式，但它们通常不支持 8 位浮点运算。

少数研究小组尝试创建专用的神经网络架构，以更好地支持 8 位精度及以下。其中更著名的例子是 XNOR-net，这是一个卷积神经网络，使用二进制权重和激活。这种架构及其后继版本构建得很巧妙，但它们往往没有全精度图像分类器的准确性。在 Transformer 模型中实现低于 16 位精度也比降低精度卷积网络要困难得多。

Meta Research 的研究人员发布了通过块级量化实现工作中的 8 位精度大语言模型的方法，其量化方法节省的内存允许在消费者硬件上运行 1750 亿参数模型（即GPT-3、OPT-175B或BLOOM等模型），大约需要 8 个配备每个 24 GB RAM 的 RTX 3090 GPU。图 6-1（#int-process-summary）展示了 Transformer 的 int8 量化。

图 6-1. Transformer 的 int8 量化方法示意图（来源：基于8-bit CUDA functions for PyTorch 项目的图像）

量化方法基于将矩阵乘法分解为两部分。其中一部分矩阵乘法使用int8乘法完成，输入左矩阵的每一行和输入右矩阵的每一列都用不同的缩放常数量化为int8。第二部分处理某些异常特征维度，使用更高精度的16-bit矩阵乘法进行乘法。作者发现，这些包含数值较大的异常特征维度在某些规模的 Transformer 语言模型中（至少 67 亿参数）非常一致地出现，并且在语言建模方面表现良好（如困惑度所测量的）。由于将大幅度数值量化到低精度数据类型可能导致较大误差，量化时必须仔细处理，如图 6-2 所示。⁷

LLM.int8()工作利用了许多加速器中可用的int8操作，但作者在论文中指出他们“认为 FP8 数据类型比 Int8 数据类型具有更好的性能，但目前 GPU 和 TPU 都不支持这种数据类型。”

这是一种既可以用于推断又可以用于训练的技术。

例如，如果您想要在训练 PyTorch 模型时使用 8 位精度优化器，您可以简单地注释掉原始的优化器 #torch.optim.Adam(....)，添加您选择的 8 位优化器，例如 bnb.optim.Adam8bit(....)（参数保持不变），如果需要替换嵌入层（torch.nn.Embedding(..) -> bnb.nn.Embedding(..)）。

如果您想要为推理使用 bitsandbytes，则需要进行一些额外步骤。

将 torch.nn.Linear 注释掉：#linear = torch.nn.Linear(…)

添加 bnb 8 位线性光模块：linear = bnb.nn.Linear8bitLt(…)（基础参数保持不变）

有两种模式：

用 16 位主权重进行混合 8 位训练：传递参数 use_fp16_weights=True（默认）

Int8 推理：传递参数 use_fp16_weights=False

要使用完整的 LLM.int8() 方法，请使用 threshold=k 参数（作者建议 k=6.0）：

# LLM.int8() linear = bnb.nn.Linear8bitLt( dim1, dim2, bias=True, use_fp16_weights=False, threshold=6.0) # inputs need to be fp16 out = linear(x.to(torch.float16))

图 6-2. Transformers 中的异常特征的出现与参数较多和/或低困惑度有关（来源：基于 Dettmers 等人的图像）

另一篇最近的论文，“FP8 量化：指数的力量”讨论了 8 位浮点量化的有效实现，⁹ 构建了一个 8 位浮点算术模拟器的高效实现（参* 图 6-3）。借助这个模拟器，他们研究了 8 位浮点格式在训练和后训练推理中的性能；研究人员表明，对于学*任务，8 位浮点格式可以比 int8 实现更好的性能，但 int8 在训练中表现几乎相同。

图 6-3. 8 位浮点量化过程的示意图（来源：基于 Kuzmin 等人的图像）

量化 ML 刚刚通过这些进展在大规模上变得实用。虽然这意味着这种量化的所有边缘情况和失败案例尚未完全探索，但这已经是一个巨大的进步。这项研究的声明目标之一是减少需要大型、能耗巨大的企业数据中心来训练大型模型的需求。例如，在这种量化之前，托管像 GPT-3 大小的模型需要一个具有 8 个 A100 GPU 的服务器，每个 GPU 配备 80 GB RAM。现在，八个 RTX 3090 就足够了，或许可以让这样大型模型适应 Google Colab Pro 账户的资源。

量化 ML 的工具

有一些工具和服务，可以让您执行量化 ML。

Larq 是另一个致力于创建二值化神经网络的项目（您可能知道其创作者是OctoML背后的人，该公司制作了一款用于优化神经网络的 SDK）。不幸的是，它仅在 Keras 中可用（而不是 PyTorch 或 JAX），研究人员明确表示他们没有计划将其在 PyTorch 中推出。有一些项目在 PyTorch 中实现了二值化神经网络，但它们尚未达到 LLM.int8() 研究的同等可用性水*。

至于其他工具，微软研究院已经将其深度学*模型压缩和系统优化框架 DeepSpeed Compression 开源。¹⁰

在量化机器学*中的隐私、偏*、解释性和稳定性

就我们在本书中描述的领域而言，量化机器学*产生了显著的影响，有时是好的，有时是不好的。

如果您在设备上运行一个模型，而该设备没有连接到互联网，那么您实际上已经空隔离了您的机器学*模型。这意味着大多数需要互联网访问的攻击将无法奏效。只要您的设备没有显示关于模型内部的详细信息，您就已经消除了大多数机器学*特定攻击。

当然，您仍然可以在连接到互联网的环境中运行量化模型（这可能是本书大多数读者将要做的）。例如，如果您创建了一个较小的模型并部署到 Wasmer 运行时，那么您就会面临更多的安全问题。

当涉及解释性和公*性时，量化机器学*可以使事情稍微容易理解一些。毕竟，当观察景观或任何映射梯度的技术时，通过粗粒度的可视化更容易逃脱，因为该可视化已经更接近网络的粗粒度特性。不幸的是，模型的压缩可能会损害性能，这样会增加偏*并相对于未充分训练的例子损害性能。

然而，当涉及到超出分布攻击和不确定性时，量化模型表现得要差得多。正如本节前面提到的，降低权重精度会引入数值不稳定性。对于使用 LLM.int8() 或 FP8 等技术的 8 位量化，数值不稳定性已经得到控制，以至于模型至少在某些所需的应用中可以使用，但问题并未完全解决。像二值神经网络这样使用较低精度权重创建的模型通常是脆弱的，容易受到对抗性攻击的影响。虽然 8 位精度网络的漏洞不及全精度网络，但仍比全精度网络更易受攻击。¹¹

基于扩散的能量模型

对于大多数机器学*模型，通常在训练过程中会尝试最小化某个损失或优化函数。基于扩散的能量模型可以被视为在测试/推理时尝试最小化函数。最近，它们已成为制造高度能力文本到图像模型的首选技术。回想一下，我们在第四章讨论过使用扩散模型进行合成数据生成的潜力（尽管有一些注意事项）。

当我们将文本到图像模型描述为扩散模型时，通常指的是扩散部分构成文本到图像模型的“图像”部分。扩散模型最初是在 2015 年提出的，但直到最近才开始流行起来。扩散模型通过逐步用高斯噪声损坏数据来训练，直到只剩下噪声为止。一旦完成这个过程，扩散过程涉及训练神经网络通过去噪过程创建原始输入图像。其结果是可以从起始随机噪声生成图像的模型。¹² 图 6-4 展示了训练扩散模型的过程。

图 6-4。图像生成扩散模型训练过程的粗略概述（来源：加利福尼亚大学伯克利分校）

没有上下文的情况下，尝试使用 Python 库（如 PIL）将文本嵌入显示为图像时，文本嵌入通常看起来像是随机噪声。因此，可以使用扩散模型从文本嵌入中生成图像，将文本嵌入作为初始噪声。

作为生成模型，扩散模型比生成对抗网络具有两个主要优势。首先，它们不需要对抗样本作为训练数据（这一直是 GAN 的一个重大限制）。其次，它们相对容易进行并行化和扩展。

自扩散模型最初提出以来，出现了许多变体，但立即涵盖的概念仍然适用：

潜在扩散

这种类型的扩散模型实现去噪过程时使用图像的潜在空间，而不是图像本身。

CLOOB 条件潜在扩散

CLOOB 是一个能够将文本和图像映射到共享嵌入空间的模型。利用 CLOOB 嵌入作为条件，可以在文本和图像上训练 CLOOB 条件潜在扩散方法，以生成最终的图像输出。

带分类器指导的引导扩散

这种扩散模型的优化使用分类器生成标签，指导扩散模型朝向特定标签发展。

无分类器指导的引导扩散

这是第二种优化方法，它改变了对扩散模型的引导，使其输出同时包含分类器和不含分类器的更新。模型提出了两种更新：一种是使用文本条件，一种是不使用文本条件。无分类器引导强调通过获取两种可能更新之间的差异并通过某个因子缩放来进一步推动该过程。

使用 HuggingFace 的扩散器和 Transformers 库可以导入许多这些模型。

# !pip install diffusers transformers from diffusers import DiffusionPipeline model_id = "CompVis/ldm-text2im-large-256" # Load model and scheduler ldm = DiffusionPipeline.from_pretrained(model_id) # ruu pipeline in inference (sample random noise and denoise) prompt = "A capybara eating a stack of pancakes" images = ldm([prompt], num_inference_steps=50, eta=0.3, guidance_scale=6)[ "sample" ] # Save images for idx, image in enumerate(images): image.save(f"capybara_{idx}.png")

少于 20 行文本就足以导入其中一个模型，并从几乎只有文本提示开始创建图像。

考虑稳定扩散的例子。稳定扩散严重依赖于由 OpenAI 创建的 DALL·E 2，这是一种基于 Transformer 的模型，根据文本描述生成图像。DALL·E 2 仅通过 API 对大多数用户可访问，并且训练新版本的 DALL·E 2 需要很长时间（并且需要大量计算资源）。然而，某个组织决定投入所需资源，并且这一次他们开放了模型的架构和权重。结果，网络上涌现出了从视频编辑到图像编辑再到基于模型生成的图像创建 3D 模型的用例。

通过向几乎任何人提供如此强大的模型，如何降低相关风险？

其中一种方法是将内容过滤器集成到模型中。在 HuggingFace 的稳定扩散实现中，有一个StableDiffusionSafetyChecker模块。该模型包括从 CLIP 配置（CLIP 模型的参数）到视觉投影（线性投影层），再到概念嵌入参数和特别关注嵌入参数的一切。

稳定的扩散安全检查器接受 CLIP 输入，并计算与几个“坏概念”的余弦距离。将这个与概念阈值和调整因子相结合，以确定图像是否安全。通过将概念余弦距离四舍五入到第三位小数，减去概念阈值，并加上调整因子来计算“坏概念”检测。调整因子的好处可以通过增强 NSFW 过滤器来改变，尽管这会增加过滤良性图像的可能性。当“坏概念”出现时，稳定扩散流水线只会输出由纯黑像素组成的图像。

这种方法可以扩展到包括原始实现中未包含的其他概念的过滤器。未来，还可以扩展到检查新单词或概念的嵌入。

同态加密

我们在第一章简要提到了同态加密（HE）。私人 ML 领域的目标是在加密数据上运行操作。解密操作的结果与在未加密数据上运行操作的结果相同。图 6-5 概述了 HE 的概况。

图 6-5。同态加密数字相加的视觉概述

在加密数据上运行操作听起来像是隐私的美梦成真，那为什么它没有被更广泛地实施呢？同态加密的问题之一是长期以来一直困扰着它的高计算时间和所需的数学专业知识水*。第一个 HE 方案是在 2009 年创建的，多年来出现了几种改进的方案。这些方案存在作为部分 HE 和完全 HE。虽然部分 HE 可以用来加快速度，但它没有提供与完全 HE 相同级别的安全保证。

快进到 2018 年，微软发布了SEAL 库。这是一个 C++库，使得在使用同态加密时更加方便，同时提供了一个在底层密码学数学周围的抽象层。SEAL 支持使用 BFV 算法进行整数或使用 CKKS 算法进行实数的加法、减法和乘法操作。这些 HE 算法涵盖了运行深度神经网络所需的大多数操作。再快进到 2020 年，OpenMined 团队创建了TenSEAL，这是 SEAL 的 Python 封装。由于大多数机器学*工程师使用 Python，这是使 HE 机器学*更易于公众访问的重要一步。

使 TenSEAL 如此方便的部分是包含各种加密密钥和 HE 操作参数的TenSEALContext对象。

import tenseal as ts context = ts.context( ts.SCHEME_TYPE.BFV, poly_modulus_degree=4096, plain_modulus=1032193 )

将所有参数和密钥集中在一个地方，大大简化了 HE 操作的原型制作。然而，注重安全的人可能会对将所有重要的加密密钥集中在一个地方感到紧张。如果一个不受欢迎的外部人士仍然可以访问这些密钥，这将抵消使用 HE 的初衷。幸运的是，TenSEAL 还提供了通过TenSEALContext对象删除密钥的选项，这样您可以单独管理它。在这种情况下，需要将密钥传递给需要它的 HE 函数。

例如，在以下代码块中，您可以创建一个public_context来保存一个秘密密钥，然后使用make_context_public()方法丢弃秘密密钥，使其真正适合公共使用。

public_context = ts.context( ts.SCHEME_TYPE.BFV, poly_modulus_degree=4096, plain_modulus=1032193 ) print( "Is the context private?", ("Yes" if public_context.is_private() else "No"), ) print( "Is the context public?", ("Yes" if public_context.is_public() else "No"), ) secret_key = public_context.secret_key() public_context.make_context_public() print("Secret-key dropped") print( "Is the context private?", ("Yes" if public_context.is_private() else "No"), )

这里是测试上下文输出的结果。

Is the context private? Yes Is the context public? No Secret-key dropped Is the context private? No Is the context public? Yes

如果您正在使用 TenSEAL 构建任何东西，重要的是在发布代码到生产环境之前，确保您处理好密钥。

警告

同态加密并不自动保证数据或模型的保护。如果您的系统存在漏洞，允许不受欢迎的外部人员访问加密密钥，那么他们可以解密您的加密数据/模型。

您需要采取适当的步骤，确保您的加密密钥被正确封装和保护。

一旦设置了私有或公共的TenSEALContext对象，您就可以对加密向量进行加法和乘法运算。让我们来看看 BFV 方案的一些示例。您可以使用 BFV 方案创建一个密文向量，并对其进行算术运算和一个明文向量（c2p），或者对其进行算术运算和另一个密文向量（c2c）。

plain_vector = [69, 70, 71, 72, 73] encrypted_vector = ts.bfv_vector(context, plain_vector) print( "Created ciphertext vector from plaintext vector of size: ", encrypted_vector.size() ) add_result = encrypted_vector + [1, 2, 3, 4, 5] print("c2p addition result (decrypted): ", add_result.decrypt()) sub_result = encrypted_vector - [1, 2, 3, 4, 5] print("c2p subtraction result (decrypted): ", sub_result.decrypt()) mul_result = encrypted_vector * [1, 2, 3, 4, 5] print("c2p multiplication result (decrypted): ", mul_result.decrypt()) encrypted_add = add_result + sub_result print("c2c addition result (decrypted): ", encrypted_add.decrypt()) encrypted_sub = encrypted_add - encrypted_vector print("c2c subtraction result (decrypted): ", encrypted_sub.decrypt()) encrypted_mul = encrypted_add * encrypted_sub print("c2c multiplication result (decrypted): ", encrypted_mul.decrypt())

我们可以确认解密的结果与未加密向量算术的结果相匹配。

Created ciphertext vector from plaintext vector of size: 5 c2p addition result (decrypted): [70, 72, 74, 76, 78] c2p subtraction result (decrypted): [68, 68, 68, 68, 68] c2p multiplication result (decrypted): [69, 140, 213, 288, 365] c2c addition result (decrypted): [138, 140, 142, 144, 146] c2c subtraction result (decrypted): [69, 70, 71, 72, 73] c2c multiplication result (decrypted): [9522, 9800, 10082, 10368, 10658]

类似 TenSEAL 的库使得使用同态加密变得更加容易，但仍然存在一些需要克服的挑战。虽然自 2009 年以来，同态加密的计算效率已经大大提高，但它们仍然给现有计算增加了很多开销。如果我们想要使用 HE 来保护我们的数据集，甚至加密模型的权重和偏差，即使是最小的模型训练时间也会更长。例如，我们来比较一下 c2c 和 c2p 乘法的时间。以下是输出时间的代码。

from time import time t_start = time() _ = encrypted_add * [1, 2, 3, 4, 5] t_end = time() print("c2p multiplication time: {} ms".format((t_end - t_start) * 1000)) t_start = time() _ = encrypted_add * encrypted_mul t_end = time() print("c2c multiplication time: {} ms".format((t_end - t_start) * 1000))

这里是 c2p 和 c2c 乘法的时间。

c2p multiplication time: 1.5492439270019531 ms c2c multiplication time: 11.610269546508789 ms

正如您所*，对两个密文运行的算术操作比对一个密文和一个明文运行的操作时间长得多。结论是，如果您实际上不需要加密某个明文（例如，如果该明文是公共知识或者不是机密），那么就没有必要对其进行加密。

提示

关于如何使用同态加密制作基本神经网络的完整指南，请查看 Jupyter 笔记本Chapter_6_Homomorphic_Encryption_NN.ipynb。

理解同态加密的这些基础知识，比如用于不同算术操作和数字类型的加密方案，与运行时的权衡，以及仔细管理您的秘密密钥这一至关重要的步骤，将使您在 HE 主题上比大多数机器学*工程师更具知识。

注意

我们已经展示了如何减少网络权重的精度。如果我们将 Float32 权重替换为 Float16 或更低的精度，或者移除总权重的 20%或更多，即使使用 HE，模型的训练和推断速度也会加快。尽管这种方法尚未广泛实施，但 HE 和神经网络实用的 8 位量化工具已经为一些实际用例提供了实用性。尽管 TenSEAL 支持对整数（使用 BFV）或实数（使用 CKKS）的加法、减法和乘法进行加密向量的操作，但是实现对减少权重精度格式的支持可能需要更多工作。

一些 HE 库确实实现了量化，例如Concrete ML 的实现，但这是对一个只能处理 8 位整数的加密方案的必要性。我们建议在不同类型的加密 ML 中更广泛地使用量化技术。

同态加密绝对是一个令人兴奋的领域。除了将同态加密用于机器学*操作外，还有几个正在进行的项目也在利用 HE。例如，微软一直在研究同态加密数据库查询。

尽管所有这些使同态加密进入了实用领域，与我们在第一章中讨论的许多其他保护隐私的 ML 工具相比，它仍然是一个不成熟的子领域。我们还要强调，许多司法管辖区都有关于数据隐私的法律，并且在撰写本文时，HE 尚未被列入任何这些标准清单中（例如，在美国使用 HE 并不会自动使您符合 HIPAA 的要求）。

提示

对于同态加密机器学*而言，TenSEAL 目前可能是最佳选择。它是 OpenMined 隐私保护 ML 工具的一部分。例如，要了解 Python 中用于 ML 的备选 HE 工具，可以查看Concrete HE Rust Library 的 Python 包装器。

模拟联邦学*

第一章涵盖了联邦学*（FL），并描述了可以使用较小一组服务器和客户端进行应用和测试的技术。例如，您可能有一组分片的数据库，您希望您的机器学*模型在上面学*。联邦学*通常可以指更大规模的案例，例如将机器学*模型分割、分别训练它们，然后将权重重新组合成一个合并模型。

联邦学*算法可以从集中式到分散式范围。它们可以在许多不同的模型类型上操作，从决策树到支持向量机再到神经网络。问题在于这些技术在实施上可能有巨大差异。神经网络的更新方式与基于树的模型并不完全相同，协议在集中式 FL 与中央预言机和分散式 FL 在许多物联网（IoT）设备（例如Meta 在移动设备上保护数据的方法）之间差异巨大。

这就是 FL 的核心问题：只有在在大量设备或用户网络上实施后，您才会开始看到其带来的好处。这使得实施变得极其困难，原因包括强制实施隐私保证、复杂的更新方案以及简单测试联邦学*设置所涉及的更大计算成本。

与第一章中讨论的某些隐私技术相比，用于测试联邦学*的开源工具令人惊讶地少。其中少数几个有用且成熟的工具之一是微软的Federated Learning Utilities and Tools for Experimentation (FLUTE)框架。FLUTE 的建立旨在通过离线模拟来更轻松地测试和原型化联邦学*算法。一些使其具有吸引力的特性包括能够在大规模上模拟联邦学*（数百万客户端，每轮采样数万个实例）、多 GPU 和多节点协同，以及在架构上模拟联邦学*的能力。通过使用开放建模接口（OpenMI）来强化设备之间通信的性能和可扩展性。唯一的缺点是，虽然它可能支持与 Azure 的本地集成，但在其他云提供商上设置 FLUTE 将需要更多工作。此外，虽然 FLUTE 基于可扩展的编程模型并且是用 PyTorch 编写的，但要充分利用它仍需要对联邦学*有更深入的理解。

典型的 FLUTE 架构包括多个节点——物理或虚拟机器——执行多个工作器。其中一个节点充当协调器，将模型和任务分配给不同的工作器。每个工作器按顺序处理任务，计算模型增量，并将梯度发送回协调器，协调器将其联合到集中模型中。

联邦学*工作流通常包括以下步骤：

将初始模型（全局模型）传输到客户端设备。

在每个客户端上使用本地可用数据训练全局模型的实例。

将训练信息从客户端传输到中央协调器服务器（例如适应的本地模型、对数和这些模型的伪梯度）。

将来自所有客户端模型的信息合并，创建一个新模型放在中央服务器上。

可选地，让中央服务器通过服务器端的排练步骤更新全局模型。

将更新后的全局模型发送回客户端。

在下一个训练迭代中对新的客户端子集进行采样后，重复步骤 2 至 6。

如果你正在模拟联邦学*而不是将其部署到大量设备上，那么模拟将理想地模拟算法在更新和协调方面面临的障碍。虽然模拟和计算延迟同样重要，但并非所有测试都需要完美地模拟。

注意

关于如何使用 FLUTE 进行联邦学*模拟的示例，请查看示例笔记本Chapter_6_Federated_Learning_Simulations.ipynb。

此外，要记住联邦学*并不能解决机器学*隐私问题的所有问题。如果你正在开发将在互联网上运行的产品或软件，你应该始终假设会存在某些对抗性行为者。

量子机器学*

如果你关注过机器学*的最新进展，你很可能已经听说了围绕量子计算的炒作。如果你听说过这一点，你可能也遇到了“量子机器学*”（QML）的概念。但这些概念是什么，不仅仅是量子机器学*，而是量子计算总体？

简单来说，量子计算机是由光子、亚原子粒子和超冷原子等组成的计算机。这些系统的行为通常难以被经典计算机轻松模拟。开发量子机器学*的一部分原因就是为了将计算基底建立在那些难以模拟的东西上。以这种方式构建计算机的好处在于，新计算机可以添加经典计算机无法进行的新类型低级计算操作。这类似于添加已知的经典逻辑门，如与门、或门、异或门、非与门，并添加完全新的基本门，如图 6-6 中所示。这些是操作在量子比特（qubits）上的量子逻辑门。量子逻辑门操作（例如 Pauli-X、Pauli-Y 和 Pauli-Z、Hadamard、Phase、𝜋/8、Controlled NOT、Controlled Z、SWAP 和 Toffoli），与常规逻辑门不同，都是可逆的。所有这些门都是幺正操作，通常被表示为单位矩阵。这就是为什么你经常会看到门操作作为由 1 和 0、复数和单位球值组成的矩阵。

图 6-6. 经典比特和量子比特状态之间差异的概述

在逻辑门值表中包含复数和单位球数可能看起来有点奇怪。我们已经提到量子计算添加了完全新的低级操作类型。这是由于量子比特比经典比特的独特性质。常规比特只能处于两种状态之一：0 或 1。另一方面，量子比特可以处于两种状态的线性组合之中。

警告

量子比特经常被描述为“叠加”两种状态的状态。“叠加”实际上只是“线性组合”的同义词。这是一个在量子计算研究文献中经常出现的词语或短语，也出现在旨在使量子计算听起来更加令人兴奋的公关和市场材料中。“叠加”本身通常描述的是可能状态的概率分布，而不是已经测量到的处于状态组合中的东西。

类似的是，我们建议不要对那些过于认真对待“薛定谔的猫”的人言听计从。这只猫的思想实验，目前可能比量子计算的概念更为人知晓，其目的正是为了说明一个量子系统真的可以处于超态的概念的荒谬性。超态/线性组合只是描述量子系统不直观行为的数学工具。

当测量量子系统的状态时，无论是粒子的自旋还是光子的极性，你可以将其想象成位于布洛赫球面的某处。那个布洛赫球是一个三维单位球体（就像你初学三角法时的二维单位球面的三维版本）。选择三维球体是因为量子比特的状态可以通过它与球体三个*面极点的距离来描述，如图 6-7 所示。X *面表示量子比特状态为 (0) 或 (1)。Y *面表示量子比特状态为正（+）或负（–）。Z *面表示量子比特状态为相位（i）或反相位（–i）。量子逻辑门的各种操作通过围绕球体旋转量子比特的状态，使其接近或远离这些不同的极点。

图 6-7. 量子比特测量基础的可视化

当然，这只是整个过程的简化，但这应该是一个很好的方式，至少让你了解量子计算的基本操作是可以理解的，如果你具备矩阵或三角法的基础知识的话。这与许多报道和虚构描绘中量子计算如魔术般的描述有很大不同。

注

想要对量子计算进行高层次直观介绍，请查看迈克尔·尼尔森的 “非常好奇的量子计算”。要深入了解编写量子计算应用程序的量子计算，请参阅奥莱利的资源。例如，你可以阅读埃里克·R·约翰斯顿等人编写的《编程量子计算机》（奥莱利，2019 年）。

量子计算处于一种不确定状态，因为我们有很多研究原型，但没有真正可以用于商业目的的量子计算机（除了用于公关）。不过，有可能情况会发生逆转，它们会突然开始工作，就像 GPU 强化的深度神经网络引入后机器学*的情况一样。

量子计算因其能够改进经典算法的能力而引起了广泛关注。其中较著名的量子算法之一是 Shor 算法，这是一种可以找到数字最短非*凡质因数的量子算法。为何它如此著名？高效的质因数分解削弱了现代 IT 安全大多依赖的基于加密的安全性。使用 Shor 算法的量子计算机可以完全破解椭圆曲线加密方案。哈希函数（如 SHA256）在量子计算机面前表现得相当不错，尽管安全性有所下降，建议使用更长的哈希长度。这就是为什么有如此多的努力在寻找“后量子”加密策略的原因。¹³

量子计算和量子通信也因（极具误导性的）声称这些量子系统是“无法被黑客攻击的”而受到了很多关注。量子计算操作通过操纵概率来完成。当量子比特被测量时，这些概率会坍缩为确定状态。量子计算系统更容易告诉你它们是否被黑客攻击过，但它们仍可能因为一个粗心的系统管理员而遭遇攻击。

当前量子机器学*系统为何如此小？部分原因在于敏感的量子系统常常受到来自宇宙其他部分的误差侵袭。例如，宇宙射线在超导量子计算机中引起广泛误差。这对超导量子计算非常不利。像中性原子或离子阱量子计算可能相对更好些，但它们也有自己的误差来源。

要改进一个误差来源通常意味着添加另一个误差来源。还记得我们提到量子门引入新的操作类型吗？量子电路由量子门组成（你希望在这里改变状态）和量子线（你不希望改变状态）组成。制造良好的量子门的系统通常制造不良的量子线，反之亦然。量子门和量子线之间的这种冲突是阻止量子计算机变得更大的主要未解决问题之一。在解决这个问题之前，我们不建议过多地依赖量子机器学*的成功。

量子机器学*的工具和资源

本节绝不是量子计算的详尽资源，甚至不是专门针对量子机器学*的。在各种量子机器学*方法中，光子芯片似乎最接近成为用于机器学*目的的可用技术（尽管“接近”仍然是相对的，因为所有这些技术离普通实际应用还有很长的路要走）。

Strawberry Fields 是一个全栈 Python 库，用于设计、模拟和优化连续变量量子光学电路。Xanadu 的另一个库 PennyLane 则专为量子计算机的可微分编程进行优化。Qiskit 团队，作为市场上最受欢迎的量子计算框架背后的团队，发布了一门关于量子 ML 的课程。

对于经典机器学*的具体算法和量子版本，请参阅列在表 6-1 中的资源。

表 6-1. 量子机器学*资源及其框架/供应商

教程框架/库概述

将量子模型作为傅里叶级数 Xanadu (PennyLane) 理解变分量子模型与傅里叶级数之间的联系

训练和评估量子内核 Xanadu (PennyLane), scikit-learn 使用 PennyLane 进行内核和对齐训练

使用 Scikit-learn 进行量子模型基于内核的训练 Xanadu (PennyLane), scikit-learn, PyTorch 使用 scikit-learn 进行基于内核的训练

变分分类器 Xanadu (PennyLane) 量子变分分类器

数据重新上传分类器 Xanadu (PennyLane) 使用数据重新上传的通用量子分类器

量子迁移学* Xanadu (PennyLane), PyTorch 量子迁移学*

Cirq + TensorFlow 的量子生成对抗网络 Xanadu (PennyLane), TensorFlow, Cirq 使用 Cirq 和 TensorFlow 创建简单的量子生成对抗网络

用光子量子神经网络进行函数拟合 Xanadu (PennyLane) 使用量子神经网络拟合一维噪声数据

量子图递归神经网络 Xanadu (PennyLane) 使用量子图递归神经网络学*量子动态

使用量子神经网络学*学* Xanadu (PennyLane), TensorFlow 用于变分量子算法的元学*技术

量子卷积神经网络 Xanadu (PennyLane), TensorFlow 使用量子卷积预处理图像

使用 Forest 和 Qiskit 设备进行集成分类 Xanadu (PennyLane), scikit-learn, Rigetti (Forest), IBM (QSKit) 使用多个 QPUs 进行集成量子分类

量子 GANs Xanadu (PennyLane), PyTorch 使用量子 GAN 生成图像

如何用量子计算机逼近经典核 Xanadu (PennyLane) 在量子计算机上估算经典核函数

张量网络量子电路 Xanadu (PennyLane) 张量网络量子电路

从实验中学*的量子优势 Xanadu (PennyLane) 从实验中学*的量子优势

量子多体问题的机器学* Xanadu (PennyLane) 量子多体问题的机器学*

使用量子信号处理进行函数拟合 Xanadu (PennyLane), PyTorch 使用 QSP 训练多项式近似函数

乍一看，Table 6-1 似乎试图列出量子机器学*作为一个领域的所有内容。这种评估比你意识到的更正确。实际上，Table 6-1 中的所有资源，所有这些小算法在玩具数据集上运行，大致是我们目前能够通过量子机器学*所能做到的。

为什么 QML 不能解决你的常规 ML 问题

即使量子计算变得实用，也不应将其视为解决我们之前描述的所有经典机器学*问题和障碍的灵丹妙药。

量子计算的支持者们兴奋地指出其在蛋白质折叠等领域的应用。然而，正如 AlphaFold 2 所示，经典机器算法已能够为问题创建有效的解决方案，而无需量子计算的参与。

注意

不仅可以使用经典机器学*进行蛋白质设计，而且可以在浏览器中使用 HuggingFace Spaces 运行。其中一个空间是 ProteinMPNN。

确实，图神经网络中的量子信息对药物发现很重要，但将该信息作为经典 ML 的特征添加与使用量子现象作为神经网络运行的基质之间存在差异。正如许多人工智能药物发现公司所展示的，仅通过添加该信息作为特征就能做很多事情。

不要期望量子计算能够解决机器学*的问题。事实上，当前情况恰恰相反：机器学*正被用来解决量子计算的问题。¹⁴

再加上增加计算机尺寸中热力学极限的困难，未来 10 到 15 年内量子计算唯一可能的用途是改进经典算法。经典机器学*最终可能支持解决量子问题的解决方案，而不是相反。¹⁵

跃迁从理论到实践

到目前为止，本书侧重于改善现实世界中机器学*性能的一些较少为人知的技术。本章迄今侧重于这些技术的前沿，其中理论与实践的区别仍非常模糊。在下一章中，我们将更详细地讨论在试图从理论到实践时应牢记的一般哲学和测试方法。

¹ Sayash Kapoor 和 Arvind Narayanan，“AI 新闻报道中的十八个陷阱”，AI 蛇油（博客），2022 年 9 月 30 日。

² Mary L. Gray，“自动化最后一英里的悖论”，社交媒体集体（博客），2015 年 11 月 12 日。

³ Joshua A. Kroll，“不可测性的谬误”，Phil. Trans. R. Soc. A. 376（2018 年 10 月 15 日）。

⁴ Emily M. Bender，“关于《纽约时报》上的人工智能：抵制被印象深刻的冲动”，Medium（博客），2022 年 4 月 17 日。

⁵ Sayash Kapoor 和 Arvind Narayanan，“AI 新闻报道中的十八个陷阱清单”，2022 年 9 月 30 日。

⁶ 想了解机器学*中“安全思维”更深入的例子，请看Inverse Scaling Prize，旨在发现大型模型表现比小型模型更差的任务。

⁷ Younes Belkada 和 Tim Dettmers，“使用 Hugging Face Transformers，Accelerate 和 bitsandbytes 进行大规模 Transformer 的 8 位矩阵乘法简介”，HuggingFace（博客），2022 年 8 月 18 日。

⁸ Tim Dettmers 等，“LLM.int8(): 大规模 Transformer 的 8 位矩阵乘法”，NeurIPS 2022（2022 年）。

⁹ Andrey Kuzmin 等，“FP8 量化：指数幂的威力”，arXiv 预印本，2022 年。

¹⁰ DeepSpeed 团队和 Andrey Proskurin，“DeepSpeed 压缩：极端压缩和零成本量化的可组合库”，Microsoft Research Blog，2022 年 7 月 20 日。

¹¹ Alireza Mohammadshahi 等，“压缩多语言机器翻译模型忽略了什么？”，EMNLP 2022 发现（2022 年）。

¹² 欲深入探索扩散模型如何工作的代码，请查看“去噪扩散概率模型（DDPM）”。

¹³ Bruce Schneier，“NIST 后量子密码标准”，Schneier on Security（博客），2022 年 8 月 8 日。

¹⁴ Max G. Levy，“机器学*获得量子加速”，Quanta Magazine，2022 年 2 月 4 日。

¹⁵ Hsin-Yuan Huang 等，“量子多体问题的可证明高效机器学*”，Science，2022 年 9 月 23 日。

第七章：从理论到实践

真实世界的机器学*项目很少是直截了当的。你并不总是知道要实施什么确切的公*度量标准，或者模型推断需要多么稳健。创建可信任的机器学*系统几乎总是涉及在技术考虑和人类决策（如预算考虑、在信任和效用之间找到*衡，并使利益相关者朝着共同目标努力）之间进行权衡。作为一个机器学*专家和实践者，你有能力处理技术方面的问题。但是当涉及到人为决策时，你可能并不需要做所有这些决定（也许你不应该）。然而，理解涉及人类和技术决策的概念至少具有高层次的理解是非常重要的，以便有效地将可信任的机器学*开发与更广泛的组织格局对齐。

在本章中，我们将与您分享一些工具，用于在混乱的生产级系统中实际实施我们在前几章中讨论过的可信机器学*方法。我们将首先回顾一些可能需要在推送模型到生产之前解决的额外技术因素，例如因果性、稀疏性和不确定性—在第一部分。从那里开始，我们将转向第二部分，讨论如何有效地与开发团队之外的利益相关者合作。

第一部分：额外的技术因素

在将一个或多个信任元素纳入您的机器学*项目时，您可能需要考虑一些额外的技术因素。这些因素与第五章中讨论的概念有所不同。具体而言，它们已经是已确立的科学概念和工具，这些概念和工具在机器学*应用中变得越来越重要—以及可信的机器学*应用。

因果机器学*

假设你想要建模用户是否点击他们收到的在线广告，作为点击广告的功能，点击者是谁，他们最近的活动历史是什么，广告的主题，以及时间是什么。如何确保特定的用户段更有可能或不太可能点击广告？仅将所有输入特征投入点击预测模型并查看变量重要性并不是最好的主意。也许某些用户段在一天的某个特定时间更多地花费时间上网，因此在这些时间内点击更多的广告。如何超越这种影响——这些影响影响数据收集本身——从数据中提取真正的因果关系？因果推断就是答案。传统的机器学*依赖于观测数据。数据收集通常不涉及一些特征之间的因果关系，同时控制其他特征的效果。典型机器学*模型通过分析观测数据集推断的特征之间的连接仅仅是关联，而不是因果关系。因果推断领域的概念和工具有助于弥补这些缺陷。¹

因果推断的步骤

因果推断遵循四个一般步骤：

第一步：创建因果问题模型

这类似于科学方法中的假设生成。这一步骤可能涉及将模型定义为详细的因果图。或者，它可能只是变量名称集合，这些名称对应于像共同原因或工具变量之类的相关类别。

第二步：确定目标估计量

这是识别感兴趣变量的因果效应的过程。有许多工具可以用于这一步骤，包括基于机器学*的工具。

第三步：确定因果效应的强度

从一个变量向另一个变量绘制因果箭头并不足够。就像你可能使用相关系数来确定线性关系的强度一样，你还需要估计因果效应的强度。即使存在因果关系，它可能仍然很弱。

第四步：使因果模型经受反驳

通常，在机器学*中，你希望创建最适合数据的模型。在因果推断中，你希望创建一个因果模型，它代表了如何在数据中工作的最佳假设。即使你已经确定了因果效应并估计了它们的强度，你仍然应该测试几个可能的替代假设。表 7-1 列出了一些尝试的内容，并注明理想行为应该是什么样的。

表 7-1。潜在扰动的示例考虑因素

动作描述理想

随机共同原因在你向数据集添加独立随机变量作为共同原因后，估计方法是否改变了其估计值？不应该改变

安慰剂治疗当你用一个独立随机变量替换真实的治疗变量时，估计的因果效应会发生什么变化？效应应该趋近于零

模拟结果当你用基于已知数据生成过程的模拟数据集替换原始数据集时，估计的因果效应会发生什么变化？它应该与数据生成过程中的效应参数匹配

未观察到的共同原因当你向数据集中添加一个额外的与治疗和结果相关的共同原因（通常称为混杂变量）时，估计的效应有多敏感？不应该太敏感

数据子集验证当你用随机选取的子集替换原始数据集时，估计的效应会发生显著变化吗？不应该发生

自举验证当你用来自相同数据集的自举重采样替换原始数据集时，估计的效应会发生显著变化吗？不应该发生

因果推断工具

结构因果模型（SCM）是因果推断的一个重要工具。机器学*中的因果推断方法基于将机器学*模型表示为 SCM，借助因果推理和领域知识。

结构因果模型被定义为 4 元组(D, E, f, P[e])，其中：

D 是一组内生变量，可以通过改变其他变量的值来影响它们。

E 是一组外生变量，其值不可能通过改变其他变量来操控。

f = { f[1], f[2], …, f[n]} 是一组函数，代表涉及D和E成员的因果机制： $d Subscript i Baseline equals f Subscript i Baseline left-parenthesis upper P a left-parenthesis d Subscript i Baseline right-parenthesis comma upper E Subscript i Baseline right-parenthesis$ 。这里的内生变量d[i]被建模为其他内生变量Pa(d[i])和一个或多个外生变量 $upper E Subscript i Baseline subset-of-or-equal-to upper E$ 的函数f[i]。

P[e] 是E元素的概率分布。

将 SCM 视为正式解决因果推断步骤的一种方式。对于创建因果模型的第一步，你可以将带有f函数数学规范的 SCM 作为你正在处理的因果问题的正式模型。识别目标估计量的第二步对应于在一组函数中估计因果机制f[i]。第三步——确定因果效应的强度——类似于测试f[i]或其参数的效应大小。最后，你可以将因果模型进行反驳的第四步视为测试 SCM 中f机制的替代形式。

将这些步骤与之前的例子联系起来，基于涉及的变量，一个基于 SCM 的模型如下所示：

D 包含以下特征：点击或未点击（C），用户细分（S），以及用户历史（H）。

E 包含以下特征：广告主题（A），以及一天中的时间（T）。

f 包括这些函数：

$upper C equals f 1 left-parenthesis upper S comma upper H comma upper A comma upper T right-parenthesis$ $upper S equals f 2 left-parenthesis upper H comma upper A comma upper T right-parenthesis$ $upper H equals f 3 left-parenthesis upper S comma upper A comma upper T right-parenthesis$

最后，对于P[e]，假设广告主题的分布是根据历史数据推断出来的，而时间可以在一天中均匀分布。

一个因果模型将估计函数f[1]并确定因果效应的强度，同时考虑到f[2]和f[3]编码的混杂效应。最后，要知道这个因果模型在实践中是否有效，你可以通过随机选择两组用户并从每组用户中选择同一广告在同一时间内服务的用户来运行 A/B 测试。对于第一组，选取因果模型预测高点击广告的用户，而对于第二组，则随机选取用户。如果第一组生成的*均点击百分比显著高于第二组，你就知道因果模型是合理的（即比随机猜测更好）。

小贴士

你能想到一个统计测试用来检验两个用户组之间点击百分比的差异是否显著吗？

因果推断涵盖了从基于机器学*到非机器学*统计推断的广泛技术范围。在这个领域出现了大量新工具和技术，远远超出了我们可以在本章节中覆盖的范围。许多大型机器学*会议都专门设有特别的赛道和研讨会。

在考虑因果推断工具时，请寻找覆盖技术范围广泛的维护良好的工具。我们推荐的四个最佳选项是：

CMU 的 Causal-learn

对于基于机器学*的技术来说，这可能是确保您在经受时间考验的统计因果推断方面的最佳选择。Causal-learn 是 Java-based Tetrad的 Python 翻译和扩展，提供了因果搜索方法（通过因果图搜索和提名因果变量），条件独立性测试（测试给定一组条件变量时两个变量是否独立），以及评分函数，这些在构建贝叶斯模型中非常有用。

QuantumBlack 的 CausalNex

CausalNex 比 Causal-learn 更深入地探讨了神经网络。具体来说，CausalNex 大量利用贝叶斯网络，并旨在在图模型中编码领域知识。

Uber 的 CausalML

类似于 CausalNex，Uber 的 CausalML 专注于因果推断的机器学*算法。然而，它提供了更广泛的算法选择，包括基于树的算法（例如基于 KL 散度的提升树算法Uplift trees based on KL divergence），元学*算法（包括S-learner 和 T-learner，双重稳健学*者），工具变量算法（例如两阶段最小二乘法），以及基于 TensorFlow 的神经网络算法（包括CEVAE和DragonNet）。

DoWhy

类似于 CausalML，DoWhy（以 Judea Pearl 的“do-calculus”命名）是一个开源库（最初由微软维护），涵盖了基于统计和机器学*方法的多种因果推断算法。DoWhy 具有一些特性使其特别有用。首先，它可以与微软的其他因果机器学*库（如 EconML 和 CausalML，不要与之前讨论的 Uber CausalML 库混淆）相扩展。它还具有内置的高级 Pandas API。这非常有帮助，因为大多数因果推断方法都针对表格和时间序列数据。Pandas API 还允许您轻松创建用于测试的模拟数据集。DoWhy 在提供自动反驳工具方面也比 CausalML 强大得多。

让我们看一段小代码片段，了解 DoWhy 如何帮助将因果结构编码到机器学*工作流中。

import dowhy.api import dowhy.datasets data = dowhy.datasets.linear_dataset( beta=5, num_common_causes=1, num_instruments=0, num_samples=1000, treatment_is_binary=True, ) # data['df'] is just a regular pandas.DataFrame data["df"].causal.do( x="v0", # name of treatment variable variable_types={"v0": "b", "y": "c", "W0": "c"}, outcome="y", common_causes=["W0"], ).groupby("v0").mean().plot(y="y", kind="bar")

虽然这些包很有用，因果机器学*仍然遵循“垃圾进，垃圾出”的原则。你对因果性的结论能力将取决于数据集的质量以及你如何跟随创建假设图、测试和试图反驳的过程。

因果性与信任

使用 SCM，可以将领域知识嵌入到因果模型中，这些模型本质上是可解释的（即全局解释，参*第三章），使用正则化并生成事后解释。对于局部解释，反事实在评估模型输出在替代假设场景下非常有用，例如通过提供模型输入示例并更改某些输入特征的值，然后观察输出。

反事实 解释与非因果特征归因方法不同。非因果方法基于仅改变被评估输入特征的值。相比之下，反事实方法观察模型输出，输入点的值改变为评估特征以及受评估特征影响的其他输入特征，基于潜在的因果模型。² 反事实的概念也可应用于公*性和鲁棒性。³ 总的来说，评估不受真实观测数据混淆效应的合成反事实样本，允许更精确地评估信任度指标。

稀疏性与模型压缩

在工业应用中部署大规模机器学*模型成本高昂，因为训练它们需要大量的计算能力和内存。当部署模型到移动电话等环境时，资源约束变得更加严峻。通常情况下，训练好的深度学*模型对象，甚至随机森林或XGBoost，包含大量参数，以帮助高度细粒度的决策过程。为了在边缘机器学*中训练对象，你需要压缩模型。

默认情况下，传统神经网络（NN）和深度学*模型的训练过程是密集的：它设置所有节点的权重和偏差为非零值。你可以猜测，不是所有节点对模型性能贡献相同。权重接近零的节点贡献非常少，因此如果将这些权重设置为零，对性能几乎没有影响。这就是稀疏神经网络所做的事情：它们的一些权重硬编码为零。稀疏神经网络不仅有助于模型压缩，还通过防止过拟合大大改善了泛化能力。

精简

使神经网络训练结果变得稀疏的一个简单方法是仅丢弃低幅度权重。Frankle and Carbin 提倡了这种方法。他们将找到适合神经网络数据的参数集与参与彩票游戏的情况做了比较。训练密集神经网络就像购买大量彩票以增加中奖概率。但如果有办法找出哪些彩票更有可能中奖，你可以花更少的钱，同时保证高额奖金。类似地，如果你能够分离出训练后密集神经网络性能背后最重要的权重和偏差，你就能将其余的设为零，同时仍然保持良好的性能。

在密集神经网络中将一些参数设为零的系统化过程称为 修剪（pruning）。在修剪时，需要考虑一些权衡。例如，你可能需要在修剪量和性能指标（如准确性）、特定数据集或数据类型的最佳策略，以及硬件和软件架构等高级设计选择之间进行*衡。

获得稀疏神经网络的三个步骤包括：训练、修剪和微调。当神经网络模型的训练过程收敛时，其经验风险——即对训练数据的*均损失——是最小的。如果你通过将一些权重设为零来修剪这个 NN 的权重集合 W，这将会降低模型在训练数据上的性能。因此，你需要重新训练你的模型。这就是所谓的微调。通常，微调是在预定义的迭代次数内进行的。

给定训练数据 X 和作为 $f left-parenthesis x comma dot right-parenthesis$ 定义的一组神经网络，其中函数 f 的参数是权重矩阵 W，通过修剪获取稀疏神经网络的一般过程看起来像以下算法：

输入

特征矩阵： $upper X element-of double-struck upper R Superscript n times p$

迭代次数：N

步骤

$upper W left-arrow i n i t i a l i z e left-parenthesis right-parenthesis$

$upper W left-arrow t r a i n upper T o upper C o n v e r g e n c e left-parenthesis f left-parenthesis upper X semicolon upper W right-parenthesis right-parenthesis$

$upper M left-arrow o n e s left-parenthesis n comma p right-parenthesis$

对于 i 在 1 到 N 之间执行

$upper M left-arrow p r u n e left-parenthesis upper M comma s c o r e left-parenthesis upper W right-parenthesis right-parenthesis$

$upper W left-arrow f i n e upper T u n e left-parenthesis f left-parenthesis upper X semicolon upper M circled-dot upper W right-parenthesis right-parenthesis$

返回 M, W

第 5 步中的修剪对 W 的每个元素应用一个 得分函数（score function），基于这个函数将 M 的一些元素设为零。可以将得分函数看作一个阈值。它可以简单到绝对值，也可以复杂到考虑到 W 的元素对层激活函数的贡献程度。文献中可以找到处理上述算法细节的修剪方法。这包括设计新颖的得分函数、微调方法、调度修剪迭代或结构化修剪过程，以便通过个别权重、按组或其他逻辑修剪权重。⁴

稀疏训练

基于修剪的方法在某种程度上是临时性的。有许多技术可用于评分、微调和修剪。这些技术的组合将取决于您的任务和数据集，哪种算法对哪类任务的效果最佳。与后处理已训练的神经网络相比，稀疏训练方法在理论上为哪种算法适用于哪类任务提供了更广泛的性能保证。罗伯特·提布什拉尼最早提出了用于稀疏训练的方法，称为最小绝对值收缩和选择算子（LASSO）⁵，设计用于线性回归。自那时起，稀疏惩罚模型的理论已经相当成熟。

稀疏训练涉及优化一个惩罚风险函数。在本节的符号表示中，由稀疏训练过程产生的权重集可以写成如下形式：

$\hat{W} = {argmax}_{W \in 𝒲} \{L (Y, f (X; W)) + λ P (W)\}$

Here Y 是输出特征的集合， $𝒲$ 是所有可能的 W 矩阵的集合，优化运行在这些矩阵上， $upper L left-parenthesis dot comma dot right-parenthesis$ 是损失函数，而 $upper P left-parenthesis dot right-parenthesis$ 是一个惩罚函数。将惩罚函数定义为 L[1] 范数，即 $upper P left-parenthesis upper W right-parenthesis equals parallel-to upper W parallel-to$ ，对于解 $\hat{W}$ 的权重值施加稀疏性。调节参数 $λ$ 控制了 $\hat{W}$ 值超过该上限时被设为 0 的上界。选择最优 $λ$ 的方法有很多，比如交叉验证和信息准则⁶。

尽管有希望，但将稀疏训练方法应用于比逻辑回归更复杂的模型时，计算密集度非常高。此外，现代深度学*软件和硬件都针对密集矩阵计算进行了优化，因此修剪（pruning）要容易得多。最近的几篇论文开始提出现实和可扩展的稀疏神经网络训练过程。⁷

注意

本节讨论主要适用于基于神经网络的模型。其他技术，如基于支持向量机（SVM）或决策树的技术，也可以采用它们自己的稀疏诱导训练方法。

稀疏模型中的信任元素

稀疏模型的一个优势是它们更容易解释。稀疏神经网络比密集神经网络少得多的潜变量需要跟踪。在解释修剪模型（约 90%或更多的稀疏度）中的许多内部时，您可以简单地忽略一些权重，因为它们会导致死胡同。这可以大大减少您需要处理的信息量，以解释稀疏神经网络模型的预测。然而，对于像图像分割或自然语言处理的非常大的模型来说，使用更少的权重可能不足以减轻负担。

尽管稀疏模型似乎提高了泛化能力，但它们也倾向于忘记某些信息。例如，Hooker 等人表明，尽管神经网络可以被修剪到高稀疏度而对顶线指标（如 1%或 5%的准确率）几乎没有影响，但这是以在少数样本中性能下降为代价的，他们称之为压缩识别示例（CIE）。⁸ 在后续的一篇论文中，⁹ 同一团队表明，CIE 实际上更可能包含比非 CIE 更少代表的属性值，因此它们可能加剧原始模型中的公*性问题。总的来说，CIE 更可能对训练过程产生较高的影响。修剪模型还对噪声和损坏非常敏感。因此，修剪可能具有鲁棒性和隐私方面的影响。

不确定性量化

在前一节中，你看到对于存储大型训练过的神经网络权重是一个问题的用例，保留（大部分）预测性能的简洁的网络内部表示是可取的。在其他情况下，你可能还想知道模型决策的确定程度。一个常*的例子是，当你比较两个模型的性能并想知道它们的性能是否有显著差异时。根据决策过程中你关注的位置，有多种方式来量化不确定性。模型不确定性度量也可以作为故障安全机制的一部分，如果某个不确定性度量低于临界阈值，则触发人在环路的事件响应，向 ML 开发团队发送警报。在 “稀疏性和模型压缩” 中，你减少了可以对模型做出贡献的潜在变量的数量。在某种意义上，你减少了 功能性不确定性，或者说是涉及到输出的函数中的不确定性。超越功能性不确定性，随机性 和认知不确定性是在这一领域经常出现的两个概念。它们分别指的是围绕输入和输出的不确定性，尽管它们很容易混淆。

随机性不确定性

即使模型输入的真实输出标签在接受的输出分布之内，输入本身可能仍然落在训练数据输入分布之外。换句话说，即使一个输入是合法的并且应该产生一个可接受的输出，训练算法可能无法正确计算它。这种不确定性，指的是输入数据（在适当的问题空间内）未能与其他具有相同地面真实的数据匹配，也被称为 随机性不确定性。例如，假设你有一个 MNIST 分类器，训练它可以区分数字 0 到 9。你可以输入一个属于这些类之一但形状介于两个非常相似类别之间的图像（例如 1 和 7 或 6 和 0）。这就是随机性不确定性的一个例子。

高随机性不确定性案例比高认知不确定性案例的替代问题表述更难解决（*下一节）。这也是为什么尽管花费了大量时间和资源来解决它，但随机性不确定性在医学诊断中仍然是一个大问题的一部分。¹⁰

认知不确定性

认知不确定性 指的是地面真实输出决策落在先前已知输出分布之外的情况。例如，想象一下，你不是输入一个手写数字的图像，而是输入一些完全不同于先前提到的 MNIST 分类器的东西。你可能输入一封手写的字母，或者一封排版的字母，或者甚至不是字母或数字而是一幅狗的图片。

对于大多数硬编码输出的分类器来说，通常没有“不属于任何已识别类别”的选项。这是除非你专门创建一个具有指定垃圾类的一对所有分类器。即使如此，很难考虑到输入可能在训练分布之外的所有可能方式（理论上是无限的）。一些 ML 模型架构考虑到了这一点。例如，一般的图像分割模型具有一个背景类，代表所有不在感兴趣对象边界内的内容。

对于普遍量化认知不确定性，有许多公式化的方法，具体取决于输出结构的定义方式。让我们在一个独热编码或二元分类器的上下文中探讨这三种方法。

有三种常*方法可以计算 ML 决策制定的认知不确定性。从分类器模型中测量不确定性的最直接方法是分类不确定性： $U (x) = 1 - P (\hat{x} | x)$ ，其中x是要预测的实例， $upper P left-parenthesis ModifyingAbove x With caret vertical-bar x right-parenthesis$ 是最有可能的预测。例如，如果你有类别 [0,1,2] 和分类概率 [0.1,0.2,0.7]，则根据分类器，最可能的类别是 2，不确定性为 0.3。假设你有三个带有类别概率的实例。

proba = np.array([[0.1 , 0.85, 0.05], [0.6 , 0.3 , 0.1 ], [0.39, 0.61, 0.0 ]])

相应的不确定性为 1 - proba.max(axis=1)，或者 array([0.15, 0.4, 0.39])（简言之，第二类最不确定）。这对于特定类别的不确定性很有用，即如果你不确定某个类别的预测是否准确。但你也希望考虑到分类之间的差异，即一个类别预测包含多少不确定性——它是否正确或不正确。

分类间隔 是指第一最可能预测与第二最可能预测之间的概率差异。数学上定义为 $M (x) = P (\hat{x_{1}} | x) - P (\hat{x_{2}} | x)$ 。这里， $ModifyingAbove x 1 With caret$ 是最可能的类别，而 $ModifyingAbove x 2 With caret$ 是第二可能的类别。使用与分类不确定性相同的示例，对于矩阵proba中给定的类概率，相应的间隔为

part = np.partition(-proba, 1, axis=1) margin = - part[:, 0] + part[:, 1] # array([0.75, 0.3 , 0.22])

当您查询标签时，这种策略选择具有最小间隔的样本，因为决策间隔越小，决策越不确定。在这种情况下，具有最小间隔的样本将是第三个样本。

分类熵 提供了一种更基于信息论的不确定性方法。在信息论中，我们有一个随机变量的熵，或者说是变量可能结果的“信息”、“惊讶”或“不确定性”的*均水*。如果我们有像掷骰子这样的随机变量，我们期望可能结果的概率是相等的。然而，由于一个好的分类器会偏向某个输出而不是其他输出，输出的 logits 比随机变量更可预测（因此更少“惊讶”或“不确定”）。数学上，它简单地是Shannon 熵在样本的预测类概率分布上定义： $H (x) = - \sum_{k} p_{k} log (p_{k})$ ，其中p[k] 是样本属于第k类的概率。

就直觉而言，熵与你找到真实类别所需的*均猜测次数成正比。让我们回到之前的例子。在这里，相应的熵是

from scipy.stats import entropy entropy(proba.T) # array([0.51818621, 0.89794572, 0.66874809])

如果你对许多随机样本重复此过程，你会得到一个分布，显示不确定性值。图 7-1 展示了三种不确定性的分布。分布越接近均匀，特定类型的不确定性越大。三角形的角落越接近，说明特定标签的预测概率越高。

图 7-1. 不确定性分布的表现形式

要了解如何在一个三类分类问题中实现分类不确定性、边际不确定性和分类熵的代码演示，请参*这个笔记本。

提示

让我们稍微回顾一下“深入了解：计算机视觉中的对抗性攻击”。在这里学到的不确定性度量中，你认为哪一个适合用来量化不同图像预测概率中的模糊性？

置信区间

正如在前一节中所看到的，通过简单的无量纲数字可以量化误差不确定性和认知不确定性。然而，当向利益相关者呈现不确定性时，通常会选择更直观的视觉表示。对于基于回归的模型，你可以以置信区间（CI）的形式呈现输出。大多数数据科学家和机器学*从业者应该熟悉放置指示上下限估计的柱状图。通常，你可以通过计算均值响应的标准误差，然后用它来构建这个均值响应的 CI。

Bootstrap 重抽样

你可以通过自助重抽样（bootstrap resampling）来估计标准误差并生成置信区间。广义来说，bootstrapping 使用数据与重抽样数据分布之间的差异来近似真实数据与样本数据分布的差异。它生成手头数据集（或从中估计的参数）的变体，希望这些变体能让我们对数据生成过程及其参数的不确定性有直观的了解。要在 scikit-learn 中实现 bootstrap 的代码演示，请参*这个笔记本。

Bootstrap 重抽样有三个主要变体。让我们在监督模型设置中看看它们，观察观察到的数据集D由输入特征矩阵X和输出特征向量y组成：

非参数 bootstrap

你直接从观察到的数据集D中进行样本采样，可能要重复成千上万次，以构建你的变体数据集。采样通常是有放回的，即可以多次选取同一个数据点。

参数 bootstrap

您从参数模型开始拟合数据： $y = f (X; θ) + ϵ$ ，其中 $ϵ$ 是一个随机误差向量。然后，您使用参数估计 $\hat{θ}$ （这些是数据D的函数）作为真实参数 $θ^{}$ 的代理，从参数模型 $y_{r} = f (X; \hat{θ}) + P (\hat{ϵ})$ 生成大量数据集，其中 $\hat{ϵ} = y - f (X; \hat{θ})$ 是拟合残差向量，P*表示置换。然后，您为每个新数据集估计 $\hat{θ}$ 。

野生自举

如果数据中的随机变异量并非始终保持恒定，那么这是参数自举的一般版本，其中您仍然使用 $\hat{θ}$ 生成新数据集，但不是置换残差，而是扰动它们： $y_{r} = (f (X; \hat{θ}) + \hat{ϵ} v$ ，其中v是一个均值为 0、方差为 1 的随机变量的独立抽样向量。

让我们来看一个使用自助法置信区间在回归模型中的例子。为简单起*，我们将采用非参数方法（即直接从数据集中抽样）。让我们从给定大小的数据中抽样一千个子集，对每个样本拟合线性回归模型，然后记录每个回归模型的截距和系数。从这些数据中，您可以通过获取截距和系数的 97.5%和 2.5%分位数来获得 95%的置信区间。使用基于分位数的区间还意味着不对底层数据分布做出假设。现在，您可以估计这些模型预测的不确定性。根据线性回归的标准假设，您可以使用预测残差来近似给定输入特征值的结果值的方差。从这个方差中，您可以计算标准误差，这是衡量您对y估计精度的一种指标。

$σ^{2} = \frac{\sum_{i}^{N} {(y_{d} - {\hat{y}}_{d})}^{2}}{N - 2},$ $Var (\hat{α} + \hat{β} x_{d}) = Var (\hat{α}) + Var (\hat{β}) x_{d}^{2} + 2 x_{d} Cov (\hat{α}, \hat{β}),$ $Var (\hat{α} + \hat{β} x_{d}) = σ^{2} (\frac{1}{m} + \frac{{(x_{d} - \bar{x})}^{2}}{\sum {(x_{i} - \bar{x})}^{2}}),$ $s_{μ_{y | x}} = \sqrt{Var (\hat{α} + \hat{β} x_{d})},$ $C I = [μ_{y | x} - t_{1 - α / 2, n - 2} s_{μ_{y | x}}, μ_{y | x} + t_{1 - α / 2, n - 2} s_{μ_{y | x}}] .$

生成的 CI 很好，但这只涵盖了Y的*均响应的漂移。如果您想要为给定X值的所有可能Y值计算区间，您需要计算预测区间。预测区间的推导与 CI 的类似，只是在计算标准误差时包括了我们的因变量Y的方差，导致区间更宽。

您确定我能相信您吗？

计算诸如信任度度量的 CI 等不确定性估计是将不确定性量化纳入可信 ML 管道的一种明显方式。这是有用的额外信息。例如，假设用于招聘用例的 ML 模型的二元结果的不*等影响为 1.1。尽管表面上看来，模型似乎没有偏差，但 95%的 CI 的不同宽度可能导致不同的结论。CI 为[1.08, 1.12]将通过 1.1 的点估计重新确认无偏的结论。另一方面，更宽的 CI，比如[0.9, 1.3]，可能会减弱对结论的信任。根据与您合作的领域专家的反馈，这可能促使您重新审视数据收集过程，以确定 1.1 值是否仅仅是特定数据集分析的结果。

第二部分：实施挑战

现在您已了解超越信任方面的技术因素可能对建立可信 ML 管道的努力有所帮助，现在是转变思路的时候了。让我们讨论设计可信 ML 系统所需的系统考虑因素。在严格的方法论研究设置之外，ML 工作并非在真空中进行。这在典型的现代科技公司设置中更是如此。作为明确定义的产品倡议的一部分，ML 开发团队需要与团队外的人员进行互动。根据这些利益相关者对 ML 和可信 ML 概念的熟悉程度，您可能会面对一个或多个挑战，您需要解决这些挑战以在有效整合信任方面的产品开发旅程中取得进展。

激励利益相关者开发可信 ML 系统

在应用可信 ML 原则于商业环境中的旅程中，随着您的进展，很可能会面对来自团队以外的利益相关者的问题和评论，内容大致如下：

首先，我们为什么需要可信的方法？

您的模型已经优化以获得最佳性能。将这些额外条件放在模型上是否会降低其准确性、曲线下面积（AUC）或其他性能指标？

如果您希望得到一个公*的 ML 模型，就不要使用涉及敏感特征的数据！

我不知道您是否有预算来完成所有这些额外工作。

添加一个或多个信任元素到应用的机器学*工作流程有两种推理线索：(a) 债务管理和 (b) 风险管理。当这两件事做得恰当时，可信任的机器学*开发带来的好处远远超过“额外”工作的感知成本。

债务管理

1992 年，沃德·坎宁安提出了术语技术债务，用于表示由于永久快速开发周期而给软件系统带来的隐藏长期成本¹¹。作为敏捷开发的创始人，坎宁安对良好的软件开发有一些了解。他意识到，永远地构建和添加新功能并不便宜。如果不适当地引导，快节奏的开发文化会造成冗余和依赖，使基础产品在其能力不断增强的同时难以排除故障和维护。像重构代码以最小化依赖、清理重复代码和撰写适当文档等债务管理工作确实需要一些开发者周期。然而，这些工作保护产品免受运行脆弱、拼凑在一起的系统可能导致的更高长期成本的影响。

除了技术债务，机器学*系统可能还需要处理一些独特且更系统化的维护问题。机器学*特定技术债务的例子包括依赖于文档质量差和/或质量可疑的外部数据、对黑盒机器学*模型的数据依赖以及由于模型训练和推理期间的随机性而导致的可重现性问题（尤其是当一个模型的输出是另一个模型的输入时）。真实的机器学*系统仅有相对较少的代码专门用于模型训练和推理。这些代码组件需要一个复杂的基础设施来正确执行其工作，从而产生额外的信任债务。在这个系统中添加信任元素意味着创建更多超出机器学*基础设施范围的依赖和互动（参*图 7-2）。

真实的机器学*系统由许多超出数据和代码之外的组件组成。机器学*系统本身是公司范围内各种倡议的一部分。信任考虑（圆圈）适用于业务的许多组件，无论是在机器学*系统内部还是外部。因此，为了使机器学*系统可信任，这些额外的债务需要机器学*团队以及整体产品团队的关注。

图 7-2. 机器学*系统的技术和非技术组件，其中有潜在信任考虑的组件标记为圆圈

风险管理

在金融领域，模型风险管理（MRM）框架已经因其作为最佳实践规范，以确保数据分析项目达到监管目标并与核心机构价值观保持一致的能力而受到欢迎。将值得信赖的机器学*实践视为 MRM 的增强形式是很有帮助的。有助于思考组织信任的机器学*能力的三个阶段的演变：

设定标准

第一个阶段包括为将信任元素纳入机器学*工作流程和产品设计中制定正式流程和最佳实践。

实施

第二阶段包括将指南实施到实际项目中，以及培训从业人员。

效率

最后，确保效率包括通过收集反馈以改进未来的实施、优化资源管理和验证领域方法，从而实际提取可信机器学*实践的价值。

这个三阶段过程有助于抵消信任债务，并防止面临重大运营风险。这些风险包括不符合当前或未来 ML 应用程序的法规要求，以及如果出现问题可能引起的负面公关。

虽然在阶段 1 和 2 启动信任风险管理过程会有成本，但专注于第 3 阶段非常重要，这主要是为了抵消这些成本，甚至随着时间的推移实现盈利。研究表明信任-效用权衡通常是一个不切实际的问题。例如，Rodolfa 等人表明，在资源受限的实际情况下，确实可以使用机器学*公*和公正地分配利益，几乎不会影响模型性能下降。

信任债务

现在让我们深入探讨技术和非技术（伦理）信任债务的几个方面。¹² 这两种类型的债务根据系统组件在图 7-2 中进行分类。

技术信任债务

技术信任债务的组成部分大致映射到典型机器学*项目的生命周期阶段。总体思路是制定并坚持符合我们公司和机器学*组织约束条件的技术最佳实践：

数据收集

特定数据集通常被分组到具有集中领域专业知识的群体中。很难获得关于特定敏感数据集访问政策的适当指导。出于这些后勤原因，一个机器学*团队可能不愿意整合能够帮助他们构建受信任应用程序的数据源。即使他们设法整合了这些数据源，数据源的所有者有时会在没有适当跟踪更改的情况下更新它们。这可能导致一天工作正常的模型在第二天就神秘地失效。

类似数据版本控制（DVC）这样的工具可以帮助您跟踪团队使用的数据集版本，并为特定实验固定版本。您可以将 DVC 视为数据集的 Git。将 DVC 添加到项目中非常简单。

dvc init

只需确保向 Git 添加几个内部文件。

git status Changes to be committed: new file: .dvc/.gitignore new file: .dvc/config ... git commit -m "Initialize DVC"

使用 DVC 进行版本控制很简单。

dvc add data/data.xml

如果您已经初始化了项目，可以使用 DVC 直接下载数据集。

dvc get https://github.com/iterative/dataset-registry \ get-started/data.xml -o data/data.xml

此外，dvc get可以下载 DVC 仓库中跟踪的任何文件或目录。它类似于wget，但用于 DVC 或 Git 仓库。在这种情况下，我们从数据集注册仓库（数据源）下载data.xml文件的最新版本。

数据验证

即使所需数据已经可用且易于访问，数据收集过程中的缺陷可能会阻碍可信的机器学*部署。例如，在应用算法公*性中，获取优质第三方人口统计数据一直是一个持续存在的问题。¹³

监控关键数据依赖项的健康状态是一个持续进行的过程。即使源数据在模型的第一次迭代中提供了高质量的数据，您也需要确保将来的迭代中仍然保持这种质量水*。

特征提取

实施机器学*公*方法的一个主要障碍是，关于敏感特征的信息可能通过相关的非敏感代理特征渗入数据中。这就是为什么创建公*算法并不像简单地在数据集中不包含敏感特征那样简单。

对于信任的其他方面，当您在标准数据科学工作流程中设计特征时，需要广泛运用领域知识。没有合理推理的提取-转换-加载（ETL）管道，机器学*系统难以解释和排错，因此难以建立信任。即使特征不敏感，未*过的相关特征也可能使机器学*训练更加脆弱和更加昂贵。诸如协方差分析（ANCOVA）之类的工具通常用于识别相关特征。然而，在许多场景中，ANCOVA 被使用时，其某些假设显然不适用。¹⁴这是我们在“因果机器学*”中提到的因果推断技术的实际应用。

过程管理

组织内的 ML 项目很少是线性和孤立的。相反，它们往往集中在少数应用领域，利用类似的 ETL 组件，并通过重用和输出链接相互交互。鉴于这种相互连接性，一个项目中产生的信任债务可能会向受当前项目影响的其他项目级联传递，或者同一债务源可能会影响多个项目。如果在管道的任何步骤中重新训练模型，则重要的是也重新训练受输出变化影响的任何下游模型。它们应按照信息通过管道的顺序进行重新训练。

反馈

反馈循环可能直接或间接导致技术信任债务。直接反馈循环发生在模型所采集数据的人群中，这些数据用于为模型的先前迭代提供推断服务(图 7-3)。而间接或隐藏的反馈循环则是指两个或更多模型通过中间的现实世界步骤相互影响。在这两种情况下，信任债务可以通过放大一个或多个信任方面的问题而级联扩展。

图 7-3. ML 管道中可能存在的直接反馈循环示例

监控

技术信任债务可以在组织的 ML 旅程的任何部分或所有部分中产生。随着您部署、更新和迭代越来越多的 ML 模型，可能会出现新的需求，而旧的需求则可能消失。因此，不仅需要建立一个进行代码和基础设施尽职调查的流程，还需要定期重新评估该流程的有效性。

道德债务

非技术信任债务，通常称为道德债务，是在机器学*工作流程和/或指导机器学*工作流程的业务决策与伦理原则不一致时产生的。道德债务比技术信任债务更为危险，因为其后果可能远远超出组织范围，影响到真实人员，有时甚至涉及生死。正如网络安全工程师凯瑟琳·佩特罗齐诺指出，“与技术债务不同，道德债务加剧的原因在于，某些人工智能解决方案的伦理问题只能在部署后才能检测到。”¹⁵ 比如，Elaine Herzberg 的死亡与 Uber 自动驾驶测试车有关，以及基于 ML 的招聘算法继续展现出人口统计偏*，即使设计用于解决相同问题也是如此。¹⁶

研究 ML 中的道德债务相对较新。让我们将当前对这一主题的处理总结为几个类别:¹⁷

假设

即使是出于良好意图的、值得信赖的机器学*实现有时也会由于错误的或上下文无关的假设而未能达到其目标。例如，不同影响（DI）阈值为 0.8 和 1.2 是基于*等就业机会委员会的 80-20 规则。该规则最初是在打击招聘歧视的背景下提出的，但如今在算法公*性文献中 DI 指标的所有应用中都被视为理所当然。

后事实确定

在最近的过去，由于受害者讲述他们的经历，ML 应用造成的一些伦理伤害已经显露出来。将信任元素添加到基于 ML 的解决方案中确实会减少这些事件的发生。然而，仅仅对已知缺陷进行反应性补救而不积极扩展或描述应用程序尚待修复的缺陷，只会为未来的不幸留下空间。

人类限制

组织决策是一个集体和迭代的过程。ML 项目的实施细节也不例外。人类团队的集体判断往往受到感知差距、文化多样性不足以及资源和教育的短缺的限制。

自动化偏*

自动决策系统中的人类往往容易出现自动化偏*，或者对机器生成的输出过度依赖。这在 ML 解释性方面特别是个问题，主要目标是确保 ML 决策的解释对最终用户“讲得通”。一些 2020 年和 2021 年发表的研究发现，人们确实倾向于过度信任事后解释方法的输出，而且可能通过不良解释误导用户。¹⁸^,¹⁹

清偿信任负债

在 ML 中正式衡量技术债务具有挑战性。对于伦理债务，更复杂的是，那些犯下不良实践的人并不总是在偿还债务。最终用户是受不可信赖算法负面影响最多的人群，这些影响往往最常影响到处于劣势的用户群体。

在一定程度上，一般的工程最佳实践可以帮助控制技术信任负债。这包括撰写适当的文档、分享知识、最小化依赖关系，并实施测试来衡量和调整为基于 ML 的解决方案添加新功能的影响。特别是，有助于创建专注于记录信任特定考虑因素并从类似过去项目的文档信息中学*的文档。让我们在这里简要讨论两种方法，但详细处理推迟到第八章。

模型卡片

模型卡是结构化文档，提供 ML 模型开发和性能的背景和透明度。²⁰ 目前有多种模型卡实现，例如 TensorFlow 生态系统的模型卡工具包。

模型卡对 B2C 用例很有用，但对内部开发团队可能不够。不断发展的公司更关注如何轻松添加关于 ML 管道的新细节。模型卡主要关注 ML 模型，而忽视围绕模型的更大的 ML 管道。

作为开发者，您不仅需要 ML 模型卡，还需要 ML 有向无环图（DAGs）。这将更详细地描述信息通过管道流动并到达各种决策点的依赖网络。关于模型文档和维护中的 DAGs 的实现，请查看使用Metaflow和Weights and Biases构建的DAG 卡。

信任的重要方面

因此，您的团队已经成功说服利益相关者，他们的产品 ML 算法不仅需要准确，还需要进行信任的尽职调查。恭喜！现在，您如何决定在特定项目中优先考虑哪些方面？您的算法需要公*吗？可解释吗？私密吗？健壮吗？安全吗？全部？部分？您需要多少公*性、可解释性等？让我们谈一谈在这种情况下如何前进。

这个决策过程有三个步骤：评估您的需求以决定优先考虑信任的哪些方面，为每个方面确定指标，以及确定这些指标的阈值。

第一步，评估需求，意味着权衡项目对每个信任方面的需求，并按优先级分类这些需求。让我们考虑三类需求：

高需求

算法公*、可解释、私密、健壮和安全绝对至关重要。

中等需求

算法公*、可解释、私密、健壮和安全会很好。

低需求

算法公*、可解释、私密、健壮和安全并不是太重要。

弄清楚这一点的最佳方法是提出一些问题。其中一些问题是通用的，其他则是特定于一个或多个信任元素。有关示例问题列表，请参*表格 7-2。并非每家公司或产品的优先级都相同，因此请随时根据您自己的情况采取、修改和扩展这个表格的部分。

表格 7-2. 用于信任元素需求评估的示例问题列表，如果答案是是，则相关的信任元素会打勾。

问题公*性可解释性隐私性健壮性安全性

是否有适用于此使用案例的法规或法律？

我们会使用个人数据吗？

是否有受影响的人群分部会因为模型的偏*输出而受到不公*的影响？

是否有需要了解这个模型功能的人类？

是否存在任何潜在的数据质量问题？

我们是否知道有攻击可能会使数据或模型组件以意外方式暴露？

让我们考虑一个例子。假设你在美国一家教育技术（EdTech）公司工作，正在开发一款能够自动评分个人写作样本的产品。美国政府的民权办公室禁止基于种族、肤色、国籍、性别、残疾和年龄的歧视。虽然你的公司并不直接使用个人的人口统计数据来评分他们的写作，但仍存在歧视的潜力。研究表明，自动评分系统可能会受到使用复杂词汇但写作质量不佳的文本所欺骗。在这种情况下，那些教育背景未曾接触到这些词汇的人可能处于不利地位。

确保模型在例子上训练时重要的一点是，写作质量不应过分与每个词的音节数相关，或者更好的情况是，训练在大词被误用为滑稽错误的例子上。最好能够有人参与以发现作家使用大词不仅不提升文章质量，反而降低其质量的地方。

在这个例子中，最需要的信任要素包括：

公正性，跨相关人口统计类别收集的写作样本

对于方言和词汇复杂程度的变化具有鲁棒性

可解释性，以便教师和学生能够理解如何改善他们的写作

在评估需求后，下一步是决定指标及其阈值。这对于您的应用领域和使用案例非常具体。通常来说，您的利益相关者应该具备领域知识，以确定哪些指标最为有用。

一个很好的一般规则是首先检查领域中是否适用任何默认规则。如果没有，请使用统计显著性检验。在我们的不*等影响（DI）示例中，对于招聘领域的 ML 项目，适用 EEOC 80-20 规则。然而，对于 DI 的其他应用，可以检查其是否足够极端，从而引起公*性关切。您可以使用自举抽样或置换来生成 DI 的零假设分布，然后针对该零假设分布获取计算度量的 p 值。²²

评估和反馈

在所有事情都解决之后，您需要评估您如何成功地将信任元素纳入您的分析中。这比仅仅检查所有相关指标的可接受范围或阈值是否满足要复杂一些。您可能需要解决一些特定于元素的考虑，如下：

公*性

选择预处理、处理中或后处理的缓解技术

对是否进行人口统计偏*的数据、模型或预测级别的缓解进行风险评估

确保为特定用户段调整算法不会引入额外的偏*

可解释性

利益相关者对可解释性技术效果的反馈

确保解释实际上增强了人类专家的专业知识，即它们不会因过度依赖解释而遭受自动化偏*

隐私保护

选择引入差分隐私（DP）噪音的建模步骤以及隐私效用权衡的最佳 DP 噪音量

鲁棒性和安全性

确保保护免受特定对抗性攻击的鲁棒方法不会使 ML 系统更容易受到其他相关攻击

优先考虑鲁棒性/安全性规范，并确保高优先级规范获得更高权重或始终被满足

可信度和 MLOps

将信任元素纳入 ML 流水线是很重要的，但同时也要确保您的流水线在随时间变化的配置下保持功能正常。因此，在本节中，我们讨论了一些会复杂化事情的信任工程方面，包括扩展、数据漂移以及模型监控和可观察性方面的挑战。

扩展挑战

除了后勤限制之外，您将信任元素纳入 ML 管道的能力可能受到公司实际可以承受的计算能力的限制。例如，讨论的两种处理技术在计算上都非常复杂。对于对抗性去偏差，这是两个神经网络的迭代优化结果。对于 HGR，罪魁祸首是计算密集的核密度计算，用于计算输出和敏感特征的联合密度。在可解释性方法中，计算 SHAP 值的精确计算因计算密集而臭名昭著。

面对扩展挑战时，环顾四周，发挥创造力！往往你会在文献或开源社区中找到解决方案，可以解决你的问题。例如，FastSHAP 提供了快速但近似的 Shapley 值计算。²³ 与其使用不可扩展的 Python 库，不如尝试用 Scala 编写自己的代码，或者使用类似LiFT的包，在大量数据的情况下执行公*性评估。

数据漂移

用于构建 ML 模型的入站数据的各个方面可能随时间变化。例如，特征可能会被删除或添加，分类特征可能会添加新的类别，数据质量可能会改善或恶化，一个或多个关键特征的分布可能会发生变化。您需要建立一个流程，持续将这些变化整合到模型训练和评估周期中，并且这也涉及到信任元素。变化或修改后的特征会影响信任度量的估计值以及估计不确定性。

模型监控与可观察性

这两个在 DevOps 中广为人知的概念对 MLOps 同样适用。²⁴ 一般来说，监控指的是通过抽样收集软件系统中的指标、日志或其他文物，以支持事后分析和学*。相比之下，可观察性 是软件系统本身的属性。它使得系统可以向开发团队提供关键的结构化文物，以便他们能够快速采取有意义的行动来排查系统问题。

与 ML 模型中信任元素的方法无关的监控广泛对应于计算并记录每个训练和/或推理周期的指标（特征重要性、偏*指标和某些代表性数据点的解释），并进一步分析一个或多个此类指标的时间线，以排除将来训练和推理迭代中的管道问题。

相比之下，在信任度量中的可观察性更具前瞻性。特定的信任元素组合可以与一个或多个技术因素结合使用——比如因果关系、稀疏性和不确定性量化——来设计专注的资源。在之前的 EdTech 示例中，假设你想要衡量对一个人群利益的预测公*性，因为已知该人群的样本不足问题。当你计算偏差度量时，最好监控不确定性。这是信任元素可观察性的一个例子。

技术

我们将通过介绍几种方法的基础来结束这一章，这些方法有助于解决数据或模型指标中的漂移和其他质量问题，从而实现监控和可观察性。

异常检测

将异常视为带有背景信息的异常值。它们不仅是在通常数据点流中的罕*事件，而且经常代表潜在特征问题。例如，如果最近的五个测试数据集显示某一敏感人群的评分准确性突然下降，这很可能指向新数据集中写作样本质量的更广泛问题。然而，如果只有一个异常值，它可能只是正常数据流中的一个罕*观察结果，也可能不是。

以下是两种流行的异常检测方法：

STL（Loess 季节趋势分解）将 Loess *滑器拟合到时间序列数据中，以移除季节性和趋势等时间组成部分，然后检查残差以确定高于或低于某些阈值的点是否为异常值。阈值设置为四分位距（IQR）的某个倍数（IQR 定义为第 75 百分位数与第 25 百分位数之差）。

广义极端学生化偏差（GESD）测试通过从考虑用于阈值计算的数据中移除更高百分位数的样本点来迭代调整检测阈值。GESD 比 STL 更消耗计算资源，但误报率较低。

变点检测

变点检测方法旨在检测时间序列数据集中数据生成过程本身发生变化的点。这种变化比异常检测更为永久。有两种变点检测方法：离线和在线。离线方法对时间序列进行事后分析，而在线方法检测数据流中的变点。正如你可以猜到的那样，数据/模型指标中的在线变点检测与我们讨论过的 MLOps 问题非常相关，特别是当可观察性与可能导致这些变化的参数的知识结合在一起时。

控制图

数十年来，统计过程控制图表一直是工业质量控制方法的支柱。控制图表在分析时间线时比异常或变更点检测包含更多因果知识。²⁵ 简而言之，为感兴趣的子群体计算多个明确定义的指标，并随时间跟踪这些指标。这些指标可以包括：

均值和标准差（ $\bar{x}$ 和 s 图表）

正负预测的比例（p 和 np 图表）

通过移动*均线（EWMA 图表）或累积和（CUSUM 图表）结合多个时间点

自定义聚合指标（*表 7-3 中的示例）

在教育科技示例的可信 MLOps 背景中，控制图表可用于确保 ML 模型结果的可信度质量。详*表 7-3 中，为此目的跨时间跟踪的示例指标。

表 7-3. 示例指标，用于跟踪信任元素的质量控制

信任元素附加因素指标聚合

公*性不*等影响自定义：敏感与非敏感子群体比例的比率

公*性统计*等性所有样本的*均值

鲁棒性存在一个或多个复杂词语时预测差异所有样本的*均值

鲁棒性不确定性存在一个或多个复杂词语时预测差异所有样本的标准差

可解释性 LIME 特征重要性在存在和不存在特征值时的差异所有样本的*均值

可解释性不确定性 LIME 特征重要性在存在和不存在特征值时的差异所有样本的标准差

可解释性因果性反事实解释的差异所有样本的*均值

可解释性和公*性 LIME 特征重要性在存在和不存在特征值时的差异对敏感和非敏感样本的*均差异

提示

作为练*，尝试设计用于多个信任元素质量控制的指标，就像表 7-3 中的最后一行。试试吧！在提出一些示例后，尝试增加附加因素。

结论

在实施真实世界的 ML 项目时，除了决策、编码和评估信任度指标外，还需要考虑更多因素。本章涵盖了几个重要的技术和非技术考虑事项。

技术考虑事项包括评估因果关系、压缩模型以及必要时估算不确定性。还要记得检查这些考虑事项如何与信任元素互动！

总是确保从 ML 团队以外的利益相关者那里获得支持。在此过程中，请记住，技术和伦理债务管理以及风险管理是促使值得信赖的 ML 方法对更广泛组织重要的两个关键原因。

最后，要注意大规模值得信赖的 ML 实施中的规模问题。即使在将系统投入生产后，继续监控和解决问题也是一个好主意。

¹ 深入研究因果推断的书籍，例如 Judea Pearl 的著作 “为什么的书” (Basic Books, 2018)。

² Christoph Molnar 在他的 “可解释机器学*” 一书中对反事实解释进行了深入解释和举例。

³ Matt Kusner 等人的研究，“反事实公*性”，NeurIPS-2017 (2017)；Timothy Christensen 和 Benjamin Connault 的研究，“反事实敏感性和鲁棒性”，arXiv 预印本 (2019)。

⁴ 如需更多关于特定方法的技术细节，请参阅R. Reed及其合著者的综述论文，以及参考文献中的论文。

⁵ Robert Tibshirani 的研究，“Lasso 回归收缩和选择”，Royal Statistical Society B 系列期刊 58 卷 1 期 (1996): 267–88。

⁶ 您可以在 Uber AI 的 ICML 2019 海报 “解构彩票：零、符号和超蒙版” 中直观地看到这些概念的可视化。

⁷ 例如，查看 Selima Curci 等人以及 Shiwei Liu 等人的最新论文，这些论文在 GitHub 上有可用的代码。

⁸ Sara Hooker 等人的研究，“压缩深度神经网络忘却了什么？”，arXiv 预印本 (2019)。

⁹ Sara Hooker 等人的研究，“压缩模型中的偏差表征”，arXiv 预印本 (2020)。

¹⁰ Abhaya Indrayan 的著作，医学生物统计学 (Boca Raton, FL: CRC Press, 2008)。

¹¹ Ward Cunningham 的报告，“WyCash 投资组合管理系统”，OOPSLA ’92 经验报告，1992 年 3 月 26 日。

¹² 关于机器学*中技术债务的详细讨论，请参阅 D. Sculley 等人的“Hidden Technical Debt in Machine Learning Systems”，NeurIPS Proceedings (2015)。关于本文和现代机器学*工作流中债务管理的技术视角，请参阅作者 Matthew McAteer 在 2020 年的博客文章，“Nitpicking Machine Learning Technical Debt”。

¹³ McKane Andrus 等人，在“What We Can’t Measure, We Can’t Understand: Challenges to Demographic Data Procurement in the Pursuit of Fairness”，FaccT-2021 (2021 年 3 月): 249–60。

¹⁴ Matthieu Renard，在“One of The Most Common Mistakes When Running an ANOVA in R”，Towards Data Science (博客)，2020 年 1 月 2 日。

¹⁵ Catherine Petrozzino，在“Who Pays for Ethical Debt in AI?”，AI and Ethics 1 (2021 年 1 月): 205–8。

¹⁶ Miranda Bogen，在“All the Ways Hiring Algorithms Can Introduce Bias”，Harvard Business Review，2019 年 5 月 6 日。

¹⁷ 关于动机的详细讨论，请参阅 Casey Fiesler 和 Natalie Garrett 的“Ethical Tech Starts With Addressing Ethical Debt”，Wired，2020 年 9 月 16 日和 Petrozzino 的“Who Pays for Ethical Debt in AI?” 205–8。

¹⁸ 在“‘How Do I Fool You?’: Manipulating User Trust via Misleading Black Box Explanations”，Himabindu Lakkaraju 和 Osbert Bastani 在 Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (2020 年 2 月): 79–85 中表明，像其他任何机器学*方法一样，解释方法也容易受到对手的欺骗。

¹⁹ 关于人类如何理解解释方法的结果，请参阅 Harmanpreet Kaur 等人的“Interpreting Interpretability: Understanding Data Scientists’ Use of Interpretability Tools for Machine Learning”，Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems (2020 年 4 月): 1–14 和 Forough Poursabzi-Sangdeh 等人的“Manipulating and Measuring Model Interpretability”，Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems，no. 237 (2021 年 5 月): 1–52。

²⁰ Margaret Mitchell 等人，在“Model Cards for Model Reporting”，Proceedings of the Conference on Fairness, Accountability, and Transparency (2019 年 1 月): 220–9。

²¹ Evelin Amorim 等人，“在偏*评分存在时的自动化作文评分”，ACL Anthology 1（2018 年）：229–37。

²² Cyrus DiCiccio 等人，“使用排列测试评估公*性”，KDD-2020（2020 年 8 月）：1467–77。

²³ Neil Jethani 等人，“FastSHAP：实时 Shapley 值估计”，International Conference on Learning Representations（2021 年）。

²⁴ Jayne Groll，“监控与可观察性：在 DevOps 中有何区别？”，The Enterprisers Project，2021 年 9 月 17 日。

²⁵ 控制图 由 John Murdoch（Palgrave）撰写，是关于控制图理论和应用的重要资源。

第八章：生态系统的信任

到目前为止，在本书中，您已经了解了成为有效负责任的机器学*从业者所需的工具。但这些是否足够？您还需要哪些内容来构建、部署和迭代能够让各种利益相关者信任的机器学*系统？除了前面介绍的个别工具和技术外，您还需要知道如何将这些不同的部分组合在一起，以解决业务问题的机器学*驱动解决方案，同时最小化下游风险。起初听起来可能令人生畏，但在这个增长领域中有一些资源可以帮助实现这一目标。

本章将涵盖提供公司内部和跨越机器学*模型的鸟瞰视图的工具、策略和框架。首先，您将了解实施机器学*管道的技术工具以及有效导航人在环机器学*管道中的步骤的指南和策略。您将介绍一些概念和资源，帮助您在公司内部的机器学*工作流程中获得跨项目的视角。最后，通过探索实施基于机器学*的推荐系统的深度示例，您将看到所有这些知识如何结合在一起。如果您是产品或工程领导者，本章中的资源将帮助您与业务利益相关者有效合作，实施可信机器学*。如果您是机器学*工程师或数据科学家，您将获得有价值的背景知识，了解在项目中确定技术步骤时的权衡和约束条件。

工具

第 1 到 5 章节侧重于信任每个方面的开源工具。然而，这些工具对于端到端的机器学*工作流程并不足够。它们中的许多并不适用于行业机器学*项目的计算需求和数据集大小。它们可能还预设了一些并不总是为新项目提供的知识，例如选择指标、数据可用性和明确的利益相关者需求。在考虑这些限制的同时，让我们更深入地探讨一下，您可能需要什么来使可信机器学*的技术知识操作化。

LiFT

不幸的是，大多数技术工具在可信的机器学*领域公开可用，但并不适用于大量数据的扩展。当您希望分析像是 Web 规模推荐等应用中的大数据集时，LinkedIn Fairness Toolkit (LiFT)是唯一一个提供开源且可扩展解决方案的工具。该工具包的Spark/Scala 库主要用于测量适用于数据级或模型级输出标签的公*度量指标，以及适用于离散或连续输出和离散敏感特征的公*度量指标。LiFT 提供的唯一缓解技术是机会*等转换。

在 LiFT 中有宝贵的经验教训。你绝对需要专注于研发，以提出公*性、可解释性、隐私性、安全性和鲁棒性的最新方法。但是当涉及到在实际问题上的适用性时，情况就有些不同了。最终，你受到数据规模和质量、应用方法的复杂性、项目时间表和业务目标的限制。在这些约束条件下找到可行的解决方案是棘手的。例如，对于涉及客户数据的 PB 级问题，你可能永远无法应用 AI Fairness 360 中的处理中偏差缓解技术。相反，你可能需要采用后处理方法或为内部计算架构量身定制的自制解决方案。

数据表

数据集数据表是帮助建立应用机器学*工作流程信任的另一工具²。基本上，该论文将数据集的显著特征提炼出来，以预定义的模式组织为未来使用而准备的数据表。数据表将这些特征分为七个部分——每个部分包含一组问题。这些问题的答案应该提供有关数据收集的不同阶段和潜在用途的信息：

动机

本节记录了收集数据集的原因，以及资助机构和数据收集者等信息。数据收集者有责任记录对数据下游消费者有用的信息。

构成

本节旨在让数据集用户能够就其在任务中的有用性做出知情决策。一些问题涉及数据集与个人信息的相关性。这对于遵守例如欧盟的通用数据保护条例（GDPR）等法规可能很重要。

收集

如果你是数据集策展人，你应该在收集数据之前阅读这些问题，以预测潜在问题，然后在收集数据后回答。如果你是数据集使用者，这些答案将告诉你与数据收集相关的问题（例如，缺失数据、抽样不*衡），这些问题可能会影响你如何为你的目的使用数据集。

预处理

这里的意图是存储有关原始数据的 ETL 处理的信息。再次强调，数据集创建者需要在收集数据之前阅读这些问题，消费者需要在使用数据之前阅读答案。

用途

数据集创建者应该考虑此数据集可以或不能用于哪些应用，并将其记录在本节中，以指导数据集消费者。

分发

与用途类似，这些问题要求数据集策展人记录一些关于数据集消费者的指导方针。在这种情况下，指导方针关注的是分发数据集的详细信息，例如许可证、DOI 等唯一标识符以及任何限制。

维护

业务关键数据集正在积极维护和更新。这些信息可能对数据集使用者有用。例如，如果您想要在生产环境中部署 ML 模型，了解底层数据集的更新时间表将帮助您决定何时更新您的生产模型。

在这七个部分中，有多个问题涉及数据集下游使用的信任方面。让我们来看一下这些问题，由 Gebru 等人在《数据集数据表》中提供，详*表 8-1。查看更广泛的问题列表，请参考 Gebru 等人的《数据集数据表》，或者访问此 GitHub 仓库。该仓库提供了问题的模板形式，您可以下载并用于创建您自己的数据表。它还引用了一些数据表的示例。本章稍后将讨论集成到 ML 管道中的数据表示例（*#sec-example）。

表 8-1. 触及信任要素的数据表问题

部分问题

组成数据集是否识别任何子人群（例如按年龄、性别）？

是否可能直接或间接地（即与其他数据结合）从数据集中识别个人（即一个或多个自然人）？

数据集是否包含可能在任何方面被视为敏感的数据（例如显示种族或族裔起源、性取向、宗教信仰、政治观点或工会会员身份、地理位置的数据；财务或健康数据；生物识别或遗传数据；政府身份识别形式，如社会安全号码；犯罪记录）？

收集您是直接从相关个体收集数据，还是通过第三方或其他来源（例如网站）获取的？

是否已通知相关个体有关数据收集的事宜？

个体是否同意收集和使用他们的数据？

如果获得了同意，那么被授权的个体是否提供了未来撤销同意或特定用途的机制？

是否对数据集及其使用对数据主体的潜在影响进行了分析（例如，数据保护影响分析）？

用途数据集的组成或收集、预处理/清洗/标记方式是否会影响将来的使用？

有哪些任务不应使用该数据集？

分发数据集或个别实例是否受到任何出口控制或其他监管限制？

维护如果数据集涉及人员，那么与实例相关的数据的保留是否受到适用的限制（例如，相关个体是否被告知其数据将在固定期限后删除）？

模型卡片

从技术上讲，数据表可以包含关于任何数据集的信息，这些数据集可能用于构建或不用于构建 ML 模型。相比之下，模型卡与 ML 更直接相关，尤其是可信赖的 ML。[³] 模型卡包含发布或部署的 ML 模型的元数据，包括可接受的阈值和评估。评估不仅记录了准确度和均方误差（MSE）等性能指标，还包括与 ML 模型处理的特定用例相关的信任指标。

最初建议，模型卡应包含以下几个部分。这些可以根据您自己的用例或您的组织通常处理的用例进行定制。以下是每个部分涉及的小结：

模型细节

包含元数据，如开发模型的人员或组织、模型版本、模型类型（监督/无监督、分类/回归等）、资源（论文、GitHub 仓库）、引用详细信息、许可证以及如何提供反馈。

预期用途

包含模型的主要目的（例如分类猫和狗的图像）、主要用户（例如组织、Kaggle 竞争者）以及超出范围的用途。

因素

包含可以影响模型性能的因素信息。模型卡的作者将这些因素分为三类：群体（样本的重要子群，如种族、性别或它们的组合，对于每个样本与一个或多个个体相关的模型）、仪器设备（数据收集环境的详细信息，例如面部检测模型的摄像头硬件详情）、以及环境（部署环境的详细信息，例如计算机视觉模型的光照条件）。

度量

包括性能类型、信任度或任何其他用于评估模型的自定义指标，其可接受的阈值，验证细节如不确定性指标（例如标准差、置信区间）以及验证方法（例如十折交叉验证、单次训练测试拆分）。

评估数据

包含评估数据的详细信息，例如数据集的组成、选择该数据的动机以及对数据进行的任何预处理。

训练数据

包含与评估数据相同的信息，除非训练数据是专有的或受保护的。在这种情况下，应提供有关训练数据的高级信息。

定量分析

包含评估结果，包括度量部分报告的指标值，在使用的评估数据上测量相关因素。每个因素都是单独评估的，还报告了各种因素的相关交集（例如，黑人与白人、女性与男性、或黑人女性与其他人之间的不均衡影响）。

伦理考虑

有意识地记录了模型开发背后的伦理考虑。这些考虑可以包括对敏感数据的任何使用，健康和安全问题，相关的风险和危害以及针对它们的缓解策略，以及可能存在风险的模型应用。

警告和建议

包含了在前面章节中未提到的任何关注点和信息。

您可能已经注意到的模型卡和数据表之间的一个重要区别是，信任考虑在模型卡中更为突出。这是有道理的，因为模型比数据更具行动性。正如我们在本书早期讨论的那样，如果机器学*团队在模型开发过程中不考虑信任问题，那么机器学*模型可能出现许多问题。因此，模型卡建议机器学*从业者积极考虑、衡量和记录每个模型的伦理方面。

这个 GitHub 存储库提供了一个模型卡的模板，您可以下载并使用。它还包含一些相当知名的机器学*模型的模型卡示例。除了一次性示例之外，HuggingFace要求为预训练模型提交创建模型卡（例如bert-base-uncased）。如果您在自然语言处理领域工作，并且使用过他们*台上的预训练模型，那么您很可能已经接触过模型卡！

DAG 卡

数据表包含数据元数据，而模型卡包含模型元数据。最近提出的 DAG 卡是这一演变的下一步。⁴ 它们包含机器学*管道的所有关键信息。DAG 卡在一个地方结构化了所有这些信息，包括数据和模型的处理和转换、模型的训练、评估和部署。类似于用于构建数据工程管道的Airflow*台，DAG 卡使用 DAGs 以模块化方式表示所有这些信息。

DAG 卡的优点在于几乎没有额外的手动工作。Metaflow 和 Weights & Biases（W&B）是广泛使用的工具，用于运行 ML 模型管道和进行模型训练。如果您使用这两个工具，您可以从GitHub下载 DAG 卡代码，以提取和显示有关模型训练管道 DAG 的信息。DAG 卡通过将这些由代码生成的信息总结为可读文档来推动透明度。传统上，Confluence 页面或内部维基负责在公司内部传达有关 ML 模型的信息。但这类文档与代码的耦合不强，并且需要手动更新。最重要的是，这些文档中的细节和结构程度很大程度上取决于编写者。DAG 卡解决了这个问题。DAG 卡是一种自足的文档，对于实际编码团队和产品经理等非直接参与的人员都很有帮助。

尽管 DAG 卡不直接促进可信 ML 开发，但它们使 ML 团队和相关产品团队能够总结现有的信任考量，并关注未解决的问题。在（非 ML）软件世界中，软件材料清单（SBOM）通过维护其构建块的结构化清单来维护复杂软件的积极安全性和风险监控。在某种程度上，DAG 卡相当于应用 ML 世界中的 SBOM。

图 8-1 概述了 DAG 卡的通用结构，列出了其不同组件及其所呈现的信息。

图 8-1. DAG 卡的示意图表示

注意

还有一些其他工具，它们的功能类似于数据表、模型卡和 DAG 卡的结合体。例如，您可以查看数据集营养标签和AI 事实表 360，它们也通过元数据文档帮助增强 ML 模型开发管道的透明度。

人在回路步骤

ML 模型端到端工作流的技术工具和文档非常必要，但仅此还不足以建立信任。您的公司还需要有一个关于如何处理 ML 工作流的人类步骤的共享标准。这些步骤包括在 ML 项目开始时确定相关危害、确定数据来源、决定何时收集额外数据以及在项目多个阶段进行风险评估。记住图 7-2 吗？它显示信任考量不仅与 ML 模型相关，还涉及公司的产品和营销策略、领域知识以及运营目标。

让我们看一些能帮助结构化 ML 开发工作流中人在回路步骤的最佳实践。

监督指南

模型卡要求记录考虑到每个机器学*项目的伦理问题。但是你如何实际操作呢？一方面，机器学*开发团队通常不了解更广泛的问题，如法规和合规指南的细节。另一方面，机器学*团队可以咨询的专业主题专家（SMEs）可能不会因为每个项目都坐下来谈论相同的事情而感到高兴。因此，很明显，你需要在这两个极端之间找到一个*衡点。

人类监督指南（HOG）可以帮助解决这种情况。⁵ 基本上，这些是按照 SME 专业知识划分的常*问题（FAQ）风格文档。可能编写 HOG 的两种类型的 SME 有：

领域专家

例如，公司中相应部门的法律、公共关系（PR）或隐私专业人员

用例专家

例如，有深厚经验的高级产品经理、解决方案架构师或工程师，专注于特定用例组，如欺诈、广告、金融或健康数据。

事先从专业主题专家（SME）策划一组通用的问题和答案有助于在公司所有机器学*团队中扩展人类级别的监督。这需要是一次性的、跨职能的工作，由 ML 治理、产品管理或 AI 伦理团队领导。负责此项工作的团队将从一份样本问题列表开始，并与特定的 SME 合作，最终完成带有问题列表及其答案的 HOG 文档。然后，他们将最终文档提供给 ML 开发和产品团队参考。这些文档成为对信任问题的第一道防线。在机器学*模型开发管道的不同阶段，机器学*团队将参考这些文档获取指导。如果前进的最佳方式仍不清楚，他们将联系编写该文档的 SME 以获取具体的指导。

现在让我们看一下两组 HOG 问题，一组是领域专家的，另一组是用例专家的。每个 HOG 仅列出少量问题和一个示例答案。你可以在本章的 GitHub找到完整的文档。

这里是一个隐私 SME 编写 HOG 的示例问题：

哪些数据类型在隐私审查范围内？

对于这些数据及其使用，有哪些法律/法规？

在使用这些数据时，机器学*项目应该注意哪些类型的隐私风险？

是否有这些风险的外部例子？如果有，请提供这些例子。

什么特征能让机器学*团队评估项目是低风险、中风险还是高风险？有没有减少相关风险的方法？

是否有需要特定批准才能在风险缓解中使用的数据元素？

通常用于衡量隐私风险的指标是什么？这些指标是否有标准可接受的阈值？

对于第三方数据进行了哪些审查，使用这些数据存在哪些责任风险？

在数据/模型元素重复使用方面是否存在隐私问题？

数据科学家需要联系谁获取额外信息？

隐私专家可能会如下回答第二个问题：

根据个人数据元素收集的地理区域，可能适用一种或多种法律。例如，GDPR 适用于从欧盟自然人获取的数据，包括公开可获取的数据。在美国，加利福尼亚州、弗吉尼亚州和科罗拉多州居民的数据受各自司法管辖区的保护。去标识化和公开可获取的数据不适用这些法律，但在弗吉尼亚州和科罗拉多州，聚合信息适用。您可以咨询Bloomberg Law获取更多信息或与我联系。

请注意，一些问题是为隐私专家提出的概括性问题，而其他问题则专门涉及隐私风险。在答案中，专家提供高层指导，并提供额外信息的指引。

对于使用案例 HOG，让我们想象一家公司维护一个在线*台，用于买卖消费品，并需要为该*台上的广告机器学*项目制定指南。机器学*治理团队可以联系在该领域为公司构建过机器学*系统的高级工程师，向其提出这些问题。

以下是关于广告领域使用案例 SME 的示例问题：

在定向广告领域，哪些类型的数据使用可能存在信任问题？

要获取此类数据，有哪些隐私、法律或其他要求？

是否可以使用公开可用或汇总数据来避免信任问题？

在这一领域有哪些法律/法规？

在广告使用案例中，可以使用哪些指标、阈值和缓解技术来检测和缓解信任问题？

在机器学*团队之外，可以咨询哪些资源人员？

使用案例 SME 可能会如下回答第一个问题：

从隐私角度考虑，使用敏感个人信息（SPI）和可识别个人信息（PII）非常重要。不允许使用 PII，而使用 SPI 如种族或地理位置则需获得批准。如果数据中的特征与敏感特征如种族和性别相关联，如果在机器学*流程中不考虑这些敏感特征，可能会出现公*性问题。

评估阶段

在来自 SME 的直接和间接指导下，作为技术负责人或产品经理，您如何实际评估您领导的 ML 项目的信任问题，然后如何继续构建模型管道？当您与技术团队一起确定和执行管道的技术步骤（即数据处理、模型训练、验证和部署）时，务必也讨论这些阶段的信任相关问题。让我们详细了解如何有条理地处理这些任务的细节。请注意，涉及人类参与 ML 循环的整体过程的部分内容在第七章中介绍过。

范围界定

在您界定项目范围以确定数据来源、模型和交付机制时，请确保确定哪些信任方面是重要的。使用一组问题，模仿第七章中提供的问题，评估每个信任方面的重要性。

在此之后，您需要为每个信任方面确定量化指标。例如，如果您希望在展示某些类型广告时避免种族歧视（例如教育机会、职位发布或购房信息），您将需要人口统计数据。在您的业务背景下，人口统计数据的最可靠来源是什么？是否存在与数据质量、访问限制或数据使用伦理相关的问题？您应该使用个体级别还是聚合级别的数据？使用一种数据源而不是另一种的权衡是什么？与利益相关者讨论这些问题，然后做出明智的决策继续前进。最重要的是，记录这些决策以供将来参考和透明度。

让我们根据您需要在 ML 管道的哪些阶段执行这些人类步骤进行详细解析。

数据收集

数据科学/机器学*是一个迭代过程。您收集一些数据集，进行一些探索性分析以确定是否需要更多数据，收集更多数据，回到探索步骤，并且仅在您拥有的数据足够好以进一步进行时才进行模型构建。在这个过程中，不要忘记考虑信任元素。这可以意味着根据用例执行以下一个或多个步骤：

确保数据中不存在个人身份信息（PII）

检查并纠正缺失特征、随机缺失的值以及任何缺失值与敏感特征的相关性

对异常值进行类似的尽职调查

确保重要样本子群体具有足够的数据点供使用

确定一个或多个非敏感特征是否可以作为敏感特征的代理；如果可以，决定是清理这些特征、丢弃它们，还是在模型构建过程中考虑它们。

基于前述步骤的不足，您可能需要收集更多数据。确保经过相同的步骤，确保您发现的差距已经弥补。

模型训练

现在，您已经为重要的信任方面确定了度量和阈值，在这个阶段，您将通过使用来自“评估与反馈”的指南，审查模型训练步骤。

模型验证

后模型人类水*的步骤会因为你是处理新模型还是处于已部署模型推理阶段而有所不同。如果是前者，现在是执行和评估任何后处理去偏置或在模型训练期间未执行的添加隐私噪声的时候了。如果可解释性是优先考虑的话，使用事后解释并确保它们符合利益相关者的喜好。如果只是在已部署模型上做推理，调查会比较详细。你需要检查数据漂移⁶，概念漂移⁷以及上游数据集的组成和质量变化。你还需要检查信任度指标，确保它们在阈值内并/或与历史推理数据相比未显示异常行为。同样，使用“信赖性和 MLOps”来处理这些任务。如果发现任何问题，可能需要深入研究测试数据以使用最新的批次诊断，然后通过重新训练模型来减轻问题。

跨项目方法的需求

超越项目级别的工具和文档，让我们探索一个全面的方法来看待与可信 ML 相关的行业项目。行业 ML 项目往往涉及广泛或紧密相关的主题。它们还倾向于重复使用数据、代码、模型或 ML 管道的部分。考虑到这一点，将信息 ML 项目的常*存储库整合到公司的各个项目中是合理的。

安全社区在几十年前就解决了这个问题，并开始分享和编码软件系统中的安全漏洞信息。例如，入侵检测系统Snort基于开源共享和使用签名和规则来实时检测互联网网络中的安全威胁。MITRE ATT&CK，Cyber Kill Chain和NIST 网络安全框架是三种广泛接受的分类现有和新的安全威胁和攻击的方法。国家漏洞数据库（NVD）包含特定软件中可利用弱点（漏洞）的详细信息。

在更广泛的可信 ML 领域中，尚不存在这些系统的确切等价物。但让我们看一些朝正确方向迈出的框架。

MITRE ATLAS

由麻省理工学院（MITRE）维护的人工智能系统的对抗威胁景观（ATLAS）是一个开源的知识库，用于对抗性 ML 攻击。ATLAS 参照了著名的 MITRE ATT&CK 框架。他们为 ML 从业者提供了一套分类系统，可用于他们自己的目的。他们还可以通过添加信息并将其分类到 ATLAS 分类中，为这个知识库贡献一个新的攻击。

表 8-2 显示了 ATLAS 中的 12 大类对抗性攻击战术。

表 8-2. MITRE ATLAS 中包含的针对 ML 系统的顶级战术，表示攻击向量

战术 ATLAS ID 对手的目标

1. 侦察 AML.TA0002 收集关于 ML 系统的信息以供以后使用

2. 资源开发 AML.TA0003 建立支持其自身操作的资源

3. 初始访问 AML.TA0004 获取包含 ML 模型工件的系统访问权限

4. ML 模型访问 AML.TA0000 获取 ML 模型本身的访问权限

5. 执行 AML.TA0005 运行恶意代码

6. Persistence AML.TA0006 维持其自身的恶意访问

7. 防御规避 AML.TA0007 避免被安全软件检测到

8. 发现 AML.TA0008 获取关于运行/服务 ML 模型的系统的知识

9. 收集 AML.TA0009 收集与其目标相关的信息

10. ML 攻击策划 AML.TA0001 利用对被攻击系统的了解来定制攻击

11. 数据外泄 AML.TA0010 窃取 ML 模型工件

12. Impact AML.TA0011 操纵、破坏或干扰 ML 系统、模型或底层数据的功能

每个类别下列出了多种技术。意图是，如果您想评估您的 ML 模型对对抗性攻击的脆弱性，您将评估其对每种攻击类别的受影响程度。在这样做时，您将受到每个子类别下历史攻击案例的启发。

让我们回到介绍在第四章中的 HopSkipJump 攻击，并看看在 ATLAS 格式中的一个案例研究提交可能会是什么样子。

study: id: AML.CS9999 name: HopSkipJump Attack on ImageNet object-type: case-study summary: > As an example in the adversarial robustness chapter, Authors of the book "Practicing Trustworthy Machine Learning" used a Keras classifier on a ResNet50 model with pre-trained Imagenet weights. The HopSkipJump attack was able to create adversarial images with incorrect predicted images for all test images. incident-date: 2022-04-01T00:00:00.000Z incident-date-granularity: DATE procedure: - tactic: AML.TA0007 technique: AML.T0015 description: > The HopSkipJump attack was able to create adversarial images with incorrect predicted images for all test images. Original and adversarial images were visually indistinguishable for all 16 test cases. On examination, there seems to be a relationship between predicted majority class probability and the relative L2 distance between original and perturbed images. reported-by: Authors references: - title: "Practicing Trustworthy Machine Learning" url: https://oreil.ly/ptml - title: "HopSkipJumpAttack: A Query-Efficient Decision-Based Attack" url: https://arxiv.org/abs/1904.02144

注意，ATLAS 分类允许您将示例放入一个广泛的战术（防御规避，AML.TA0007）和一个具体的技术（规避 ML 模型，AML.T0015）下。

基准

从攻击转向防御，RobustBench为现有的对抗鲁棒性方法提供了标准化的质量基准。类似于 Kaggle 竞赛，RobustBench 采用排行榜方式。他们的排行榜分为众所周知的计算机视觉（CV）数据集（CIFAR-10、CIFAR-100、ImageNet）和鲁棒性技术（ $script l 2$ 范数、 $ℓ_{\infty}$ 范数）的组合。对于每个组合，相关方法的性能以标准和鲁棒分类精度等指标在排行榜上展示。RobustBench 还通过其Model Zoo提供对这些模型的访问。如果你在 CV 领域工作，并且有充分的理由认为你处理的数据集可能需要鲁棒技术，那么 RobustBench 是一个很好的起点。

OpenXAI是一个最近推出的工具包，它主要处理可解释人工智能（XAI）。唯一的区别在于，RobustBench 更专注于基准测试，而 OpenXAI 专注于工具包。OpenXAI 的动机直接源于自动化偏*讨论中的第七章：并非所有的解释方法都是可靠的。它们可能会被对手欺骗，即使错误时，人类通常也会过于信任它们。因此，如果你（a）有一个数据集，并正在寻找一个适用于它的 XAI 方法；或者（b）提出了一种新的 XAI 方法，并希望检查其表现，那么 OpenXAI 是一个很好的选择。

AI 事件数据库

为了对未来可能出现的问题有所了解，你应该了解过去发生了什么问题。在 ML 项目的背景下，这意味着查看与你正在开发的项目相关的 ML 系统失败案例。为此，AI 事件数据库（AIID）提供了一个部署 AI/ML 系统引起的伤害的众包存储库。为了在内部利用 AIID，你可以采取两种方法。你可以从这个存储库中获取信息，并用来避免在自己的工作中犯同样的错误。或者你可以扩展这些信息，包括关于不一定需要是失败的内部 ML 项目的更细粒度信息。

例如，让我们来看看先前的广告示例。在这个领域内界定一个机器学*项目时，了解过去相关失败案例对技术团队非常有帮助。AIID 可以提供帮助。在 AIID 中搜索关键词广告，会得到 53 个众包 AI 失败案例的结果（图 8-2）。这些结果包括谷歌在线广告放置中的种族歧视案例（第一个链接）和 Facebook 的房屋广告推荐（最后一个链接）。

图 8-2. AIID 关键词“广告”的搜索结果

过去相关失败的记录可以指导 ML 团队和产品经理在规划项目范围时做出更好的人类级决策，比如在选择敏感特征和可靠数据源时。

Bug Bounties

另一个开始进入值得信赖的 ML 社区的标准做法是漏洞赏金。漏洞赏金鼓励开发人员和工程师在软件系统中找到漏洞或弱点的证据。Twitter 的算法偏*赏金挑战是该领域的首个尝试。此赏金的组织者最近推出了一个非营利性组织Bias Buccaneers，专门致力于第三方偏*赏金。

另外两个相关的倡议是 Anthropic 的反向缩放奖和斯坦福 HAI 的AI 审计挑战。如果您可以在公司组织类似的 ML 漏洞竞赛或黑客马拉松，那就去做吧！即使没有金钱动机，漏洞赏金也是在这一领域获得实践经验的好地方，超越了这本书中的概念和示例。一些托管在 Hugging Face 中的广泛使用的预训练模型的模型卡片包含有关其预测潜在偏*的信息。这些可以扩展为对某种类型偏*的完整评估。

提示

在bert-base-uncased 模型卡片的限制和偏*部分给出的示例。基于输出，你能想出一个偏*度量标准，来量化围绕与女性刻板印象相关联的职业和与男性刻板印象相关联的职业之间情感差异吗？你将如何测试这个度量标准是否足够显著，从而得出结论：该模型在给定示例中填充掩码词的任务上存在偏*？

深度挖掘：串联各种线索

让我们通过一个例子来结束本节，展示您和您的团队如何将前述工具和技术整合起来，以在 ML 项目中做出明智的工作流决策。超越单个项目，您将看到为什么从整体角度考虑 ML 治理是如此重要。

考虑在社交网络*台上构建用户时间线的问题。这是一个典型的排名问题，您使用多个数据源构建一个（主要是）最近的帖子排名列表，以展示给用户。通常希望使排名较高的帖子与用户相关，以便他们在*台上花费更多时间。

让我们按照 DAG 卡片的结构来构建一个模块化的 ML 流水线，由 DAG 连接的节点组成。每个节点将存储 ML 模型特定阶段的重要信息。当您的团队在模型构建过程中找到额外的步骤时，请将它们作为单独的节点添加到模型流水线 DAG 中。这是您将随着进展填充的高级 DAG 的通用框架。这不仅是当前推荐系统示例的起点，也适用于通用的 ML 流水线。

{ "data": { ... }, "preprocessing": { ... }, "model_training": { ... }, "model_inference": { ... } }

数据

让我们为data节点添加一些细节。在此下面，您将拥有一堆子节点，每个节点都包含一个数据源。那么，对于能够输出用户特定排名列表的推荐系统，您需要考虑哪些数据源？让我们搁置像 Twitter、LinkedIn 或 Facebook 这样现代社交*台拥有的复杂推荐引擎，并仅考虑以下类型的数据：

用户或最近一段时间内类似用户组的活动模式（例如查看、点赞或分享的帖子）

特定于用户的特征

用户或用户组的历史使用数据的聚合

第三方数据

帖子特定特征

元数据，如哈希标签、时间和星期几

帖子或类似帖子的历史活动数据

多个层次的推断特征

从用户分割模型获取的用户段

使用嵌入表示的帖子内容的语义表示

从主题预测模型推断的帖子主题标签

让我们来看看这些数据集的来源（*图 8-3）。在确保信任方面，事情可能会变得非常复杂，非常迅速。推断出的特征是 ML 模型本身的结果。因此，这些上游模型中的任何信任问题不仅会影响它们的输出，还可能传播到推荐引擎本身。

图 8-3. 推荐系统示例中数据节点及其来源

根据“数据表格”的指导，您可以将数据节点的详细信息编码为数据表格的形式。在我们的示例中，这需要一些细微的差别。对于前两个数据集，您可以简单地链接到它们的数据表格，也可以附加一些高级别的详细信息。对于其他三个数据集，您需要更详细地描述，因为它们是模型生成的数据集，不会有自己的数据表格。虽然不一定需要构建完整的数据表格，但至少应包括以下元素：

生成这些特征的模型简要描述

每个特征代表的简要描述

对这些特征可靠性的注意事项和*解

生成这些特征的模型的唯一 ID 或 DAG 卡片链接

一旦您获取了所有信息，数据节点结构的骨架会看起来像这样。

"data": { "user_features": { "data_description": ..., "datasheet": ... }, "post_features": { "data_description": ..., "datasheet": ... }, "user_segments": { "model_description": ..., "feature_description": ..., "considerations": ..., "dag_card": ... }, "content_embeddings": { "model_description": ..., "feature_description": ..., "considerations": ..., "dag_card": ... }, "topic_tags": { "model_description": ..., "feature_description": ..., "considerations":..., "dag_card": ... } }

预处理

在这个阶段，您的任务是对不同数据集的部分进行特征化，以准备实际用于模型训练和评估的数据集。因为您仍在处理数据集，因此数据集数据表框架再次非常有用，以决定要将哪些信息保留以备后用。请记住，从“数据表”中得知，数据表有七个组成部分：动机，组成，收集，预处理，用途，分发和维护。在这种情况下，您不需要前两个，因为项目已经规划好，并且数据已经就绪。在其余的五个中，您将进行的数据整理的实际细节将会放入预处理中。这些包括 ML 工作流中的标准步骤（例如特征转换，分箱，过滤和分组，缺失数据插补）和特定于信任的步骤（更多内容即将发布）。

对于剩下的步骤，实际上可以重复使用两个模型生成的数据集相同步骤中的一些信息。您可以将任何额外的评论作为单独的字段包含进来。对于三个推断数据集，您可以参考这些模型的数据表，以及有关下游变更的更多评论来解释。

根据上述内容，这里是preprocessing节点的结构示例。 * 通配符表示source_information某一字段下的所有子字段，最后三个组件的字段组合与source_information相同。

"preprocessing": { "collection":{ "description": ..., "inherited": [ ["user_features.datasheet.collection", "comments"], ["post_features.datasheet.collection", "comments"], ["user_segments.dag_card.data.*.datasheet.collection", "comments"], ["content_embeddings.dag_card.data.*.datasheet.collection", "comments"], ["topic_tags.dag_card.data.*.datasheet.collection", "comments"] ] }, "preprocessing": { "feature_transformation": [], "feature_binning": [], "filtering": [], "missing_data": [], "other_steps": ... }, "uses": { "description": ..., "inherited": [["*.uses", "comments"]] }, "distribution": { "description": ..., "inherited": [["*.distribution", "comments"]] }, "maintenance": { "description": ..., "inherited": [["*.maintenance", "comments"]] } }

前置模型可能使用了共同的数据源。因此，当你合并多个数据表时，可能需要进行后处理步骤以选择唯一字段。

模型训练

此步骤将类似于使用数据表对预处理采取的操作，但是使用模型卡。让我们从空白的模型卡结构开始，然后在该模型卡的某些组件中添加特定的信息来训练我们的推荐系统模型。最后，将一些继承的链接槽入其他组件，以填充模型卡，使其与提供推断特征的其他模型连接起来。

四个模型卡字段 模型详情，预期用途，评估数据，训练数据 可包含特定于当前模型的信息。其他字段可以包含与生成推断特征模型相同信息和追溯信息。当然，推断特征模型的模型详情、预期用途、评估数据和训练数据信息也很重要。但在项目规划阶段，你应该期望在这些模型上查看这些信息。

与之前相同的约定，这里是用于记录model_training节点元数据的结构。

"model_training": { "model_details": { ... }, "intended_use": { ... }, "factors":{ "description": ..., "inherited": [ ["user_segments.dag_card.model_training.factors", "comments"], ["content_embeddings.dag_card.model_training.factors", "comments"], ["topic_tags.dag_card.model_training.factors", "comments"] ] }, "metrics": { "details": [], "inherited": [["*.metrics", "comments"]] }, "evaluation_data": {}, "training_data": {}, "analyses": { "description": ..., "inherited": [["*.analyses", "comments"]] }, "ethical_considerations": { "description": ..., "inherited": [["*.ethical_considerations", "comments"]] }, "caveats": { "description": ..., "inherited": [["*.caveats", "comments"]] } }

模型推断

此部分在模型部署后对可观察性和故障排除非常有用。其想法是记录关于模型生成预测数据集以及预测本身的细节，例如指标和警报。为了跟进先前部分的做法，您还应包括对推理阶段的前驱模型的挂钩，以便可以主动监控已部署模型的下游影响。

关于此节点的示例架构，请参阅以下草图结构。有三类需要存储的元数据：数据、指标和警报。在每个类别及其子类别下，字典条目对应于如评估数据集、指标值和警报详细信息等变化元素。每个此类条目的时间戳都被存储以便未来查询。

"model_inference": { "data": { "version": { {"timestamp": ..., "sampling": ..., "location": ... }, { ... } } "additional_details": ... }, "metrics": { "data": { { "timestamp": ..., "results": { {"metric": ..., "value": ... }, {...} } }, {...} }, "model": { { "timestamp": ..., "results": { {"metric": ..., "value": ... }, {...} } }, { ... } } }, "alerts": { "data": { { "timestamp": ..., "results": { {"metric": ..., "alert_type": ..., "score": ... }, {...} } }, { ... } }, "model": { { "timestamp": ..., "results": { {"metric": ..., "alert_type": ..., "score": ... }, {...} } }, { ... } }, "inherited": [ ["user_segments.dag_card.model_inference.alerts", "comments"], ["content_embeddings.dag_card.model_inference.alerts", "comments"], ["topic_tags.dag_card.model_inference.alerts", "comments"] ] }, }

信任组件

鉴于您的代码以标准化格式注释，围绕模型管道的部分构建包装不是太困难，以提取相关文本和继承指针以构建前述的 DAG 卡结构。原始的 DAG 卡是在节点级别使用 Metaflow 和 W&B 功能的包装器来处理这些信任方面的许多问题。例如，您可以记录所选的信任指标及其计算值，然后在数据、模型或推理阶段信任指标值超出可接受水*时获得警报。使用继承指针，还可以将信息、指标和警报传递给使用您模型输出的前驱模型的上游和下游其他模型。

但是关于人为层面考虑的信息呢？如何存储和重复使用这些信息？在“人在环路中的步骤”中，您了解了监督文件和评估步骤。为了将来参考，您需要存储一些关于这种人为层面尽职调查的信息。

为此，您可以采取双管齐下的方法。首先，在高级 DAG 卡中添加额外的范围节点，以记录启动项目时主要是人为层面的考虑。这些基本上是来自跨功能利益相关者会议的简化会议记录，这些会议通常在项目开始时由 ML 团队进行。其次，在每个节点的最后添加额外的风险评估步骤。这作为签署以进入 ML 管道下一阶段的批准。

按照“评估阶段”的指导原则，以下是范围阶段的一个示例结构。

"scoping": { "motivation": ..., "data_identification": ..., "trust_elicitation": ..., "metric_elicitation": ..., "risk_assessment": { "list": { {"issue": ..., "step_taken": ..., "resolved": true/false}, {...} }, "proceed_flag": true/false } }

各个字段的功能如下：

motivation

记录开始新项目的原因。

data_identification

标识相关数据源，并总结为何选择或未选择某些数据源的理由。

trust_elicitation

确定项目的重要信任方面及其优先级。为此目的使用“信任的重要方面”中的评分表。

metric_elicitation

描述了评估模型所需的指标。这些指标包括传统的性能指标和信任指标。

risk_assessment

总结了与信任相关的风险，并根据重要性进行了优先级排列。

对于第二部分（即在其他阶段添加风险评估步骤），scoping.risk_assessment为您的团队提供了一个重新审视的起点，以考虑随后阶段的新工作信息。在每个阶段的风险评估步骤中，团队可以（希望能够）开始勾选其中的事项，以及在下一个阶段添加新的检查事项。在阶段结束时，您的团队还应评估是否能够真实地解决所有未减轻的高优先级风险。如果认为无法解决，请停止！在这种情况下，您有两个选择。要么完全停止项目工作，要么在完成额外工作后重新审视同一阶段。根据您所处的阶段，此额外工作可以是额外的数据收集（data，preprocessing），更改缓解技术（model_training）或模型重新训练（model_inference）。

让我们考虑在我们的示例中优先级风险列表可能会是什么样子。根据scoping阶段的人为考虑，在甚至开始数据收集之前，假设 ML 团队已经识别出需要考虑的许多信任问题。表 8-3 列出了这些问题及其解决状态（基本上是scoping.risk_assessment.list）。

表 8-3. scoping阶段样本风险评估检查表

问题采取的步骤已解决

用户组 A 与用户组 B 在用户特征数据中存在潜在偏* False

用户组 A 与用户组 B 在帖子特征数据中存在潜在偏* False

主题标签预测准确性对比，对比组 C 与对比组 D topic_tags.*.risk_assessment已充分解决 True

需要遵守加州适龄内容安全和隐私指南设计法案^(a) False

需要根据 UX 要求使用用户历史特征解释建议 False

^(a) Kari Paul，《加州儿童在线安全法案将首次施行》，《卫报》，2022 年 8 月 30 日。

请注意，潜在问题中只有一个填写了解决方案字段。这是有道理的：因为这个问题涉及到一个推断特征模型，仅检查该项目的risk_assessment步骤就足够了。尽管其余问题尚未解决，但项目团队对进行数据收集感到足够有信心，可以继续推进。

在前面的风险评估指导下，团队确保获取用户的人口统计数据。因此，即使 data.risk_assessment 解决的问题不超过表 8-3 中记录的问题，但团队在下个阶段（仅显示具有新信息的行）已经准备好解决所有问题，除了可解释性问题（表 8-4）。

表 8-4. 数据阶段的样本风险评估检查表

问题执行步骤已解决

用户组 A 与用户组 B 的用户特征数据中的潜在偏差收集人口统计数据以在 preprocessing 中进行评估 False

用户组 A 与用户组 B 的后特征数据中的潜在偏差收集人口统计数据以在 preprocessing 中进行评估 False

在 preprocessing 中，团队检查了精心制作的特征中的数据偏差，并发现了用户特征中的偏差，但未在后特征中发现。这解决了一个未解决的问题（表 8-5）。

表 8-5. 预处理阶段的样本风险评估检查表

问题执行步骤已解决

用户组 A 与用户组 B 的用户特征数据中的潜在偏差在 x、y、z 特征中发现了偏差；详细信息请参* prepro⁠cessing.other_steps False

用户组 A 与用户组 B 的后特征数据中的潜在偏差未在相关特征中发现偏差；详细信息请参* prepro⁠cessing.other_steps True

现在团队正在训练推荐模型，并使用后处理步骤执行偏差缓解，通过实施安全和隐私过滤器，并添加事后可解释性层以从产品方面获得解释需求（表 8-6）。

表 8-6. 模型训练阶段的样本风险评估检查表

问题执行步骤已解决

用户组 A 与用户组 B 的用户特征数据中的潜在偏差使用后处理缓解偏差；详细信息请参* model_training.metrics True

需要遵循适龄内容安全和隐私指南，根据加州适龄设计法案^(a) 添加了隐私和安全过滤器；请参* model_training.metrics 和 model_training.ethical_considerations True

根据用户历史特征解释推荐的需求符合 UX 要求已实施解释；详细信息请参* model_training.metrics True

^(a) 保罗，“加州首个类似法案将使儿童在网上更安全。”

由于所有信任问题都已解决，产品端决定继续进行模型部署。一旦部署完成，model_inference.risk_assessment将检查模型管道中使用的信任指标的测量结果是否在可接受范围内。issue字段基本保持不变，而step_taken字段将引用model_inference.metric下的特定字段，并且可以从相应的model_inference.alerts中推导出resolved状态，用于度量或一组度量。

提示

您能否详细说明model_inference.risk_assessment的确切模式？有不止一种正确答案—试试看！

结论

在本章中，您了解到了工具和框架，这些工具和框架使您能够以可信的方式在公司中实现生产级别的 ML 管道。为此，您需要：

使用实际能够在公司技术和法规约束条件下完成工作的工具：

保留 ML 管道的元数据信息，以便将来重复使用，为类似项目提供信息

将人类水*的考虑因素编码，以指导未来的项目。

连接机器学*管道并分享学*成果，以便于故障排除。

这种整体方法在定义上是透明的。无论利益相关者是谁，他们都会准确了解导致 ML 管道设计决策的所有考虑因素，模型组件的技术规格是什么，以及当出现问题时如何跟进。

¹ Siram Vasudevan 和 Krishnaram Kenthapadi，“LiFT: A Scalable Framework for Measuring Fairness in ML Applications”，CIKM-2020（2020 年 10 月）：2773–80。

² Timnit Gebru 等，“Datasheets for Datasets”，Communications of the ACM 2021 64 卷，第 12 期（2021 年 12 月）：86–92。

³ Margaret Mitchell 等，“Model Cards for Model Reporting”，Proceedings of the Conference on Fairness, Accountability, and Transparency（2019 年 1 月）：220–9。

⁴ Jacopo Tagliabue 等，“DAG Card Is the New Model Card”，arXiv preprint（2021 年）。

⁵ Emily Dodwell 等，“Towards Integrating Fairness Transparently in Industrial Applications”，arXiv preprint（2020 年）。

⁶ Srikanth Machiraju，“Why Data Drift Detection Is Important and How Do You Automate it in 5 Simple Steps”，Towards Data Science（博客），2021 年 11 月 1 日。

⁷ Jason Brownlee，“A Gentle Introduction to Concept Drift in Machine Learning”，Machine Learning Mastery（博客），2017 年 12 月 15 日。

⁸ 例如，请查看Google 的开源软件漏洞奖励计划。

附录 A. 合成数据生成工具

对于特定领域的数据生成工具，您有多种选择。

在 GAN 和基于流模型的精神中，有许多项目在真实世界数据上训练生成模型，然后将生成器用作合成数据的源。表格 A-1 列出了几种基于 GAN 的方法。

表格 A-1. 数据驱动方法和工具^(a)

方法和工具描述进一步阅读类型

CTGAN 基于 GAN 的数据合成器，可以高度保真地生成合成表格数据 “使用条件 GAN 建模表格数据” 表格

TGAN 已过时，已被 CTGAN 取代表格

gretel 创建具有增强隐私保证的虚假合成数据集表格

WGAN-GP 推荐用于训练 GAN；比其他基于 GAN 的数据生成工具更少受模式崩溃影响，并且损失更有意义 “关于使用 GAN 生成和评估合成表格数据” 表格

DataSynthesizer “生成模拟给定数据集的合成数据，并应用差分隐私技术以实现强隐私保证” 表格

MedGAN “[一种] 生成对抗网络，用于生成多标签离散患者记录 [可以生成二进制和计数变量（例如，诊断代码、药物代码或程序代码等医疗代码）]” “使用生成对抗网络生成多标签离散患者记录” 表格

MC-MedGAN (多分类 GANs) 生成具有多个标签的合成数据实例，特别注重合成医疗数据 “使用生成对抗网络生成多类别样本” 表格

tableGAN 基于 GAN 架构（DCGAN）的合成数据生成技术 “基于生成对抗网络的数据合成” 表格

VEEGAN 使用隐式变分学*减少 GAN 中的模式崩溃 “VEEGAN：使用隐式变分学*减少 GAN 中的模式崩溃” 表格

DP-WGAN “训练一个 Wasserstein GAN（WGAN），该模型在真实的私密数据集上进行训练。通过清洗（范数剪辑和添加高斯噪声）鉴别器的梯度应用差分隐私训练。通过向生成器输入随机噪声来生成合成数据集。” 表格

DP-GAN（差分私有 GAN）描述了“差分私有释放语义丰富数据” “通过深度生成模型进行差分私有释放” 表格

DP-GAN 2 改进了原始的 DP-GAN “差分私有生成对抗网络” 表格

PateGAN 修改了教师集成的私有聚合（PATE）框架，并应用于 GAN “PATE-GAN: 生成具有差分私有性保证的合成数据” 表格

bnomics 使用概率贝叶斯网络生成合成数据 “使用概率贝叶斯网络生成合成数据” 表格

CLGP（分类潜在高斯过程）多元分类数据生成的生成模型 “用于多元分类数据分布估计的潜在高斯过程” 表格

COR-GAN 使用“捕获相关性的卷积生成对抗网络生成合成医疗记录” “CorGAN: 用于生成合成医疗记录的捕获相关性卷积生成对抗网络” 表格

synergetr “用于生成带有经验概率分布的合成数据的 R 包” 表格

DPautoGAN 用于生成混合类型数据的差分私有无监督学*任务工具 “差分私有混合类型数据生成用于无监督学*” 表格

SynC “用高斯 Copula 生成合成人口的统一框架” “SynC: 用高斯 Copula 生成合成人口的统一框架” 表格

Bn-learn Latent Model “为评估机器学*医疗保健软件生成高保真度合成患者数据” “为评估机器学*医疗保健软件生成高保真度合成患者数据” 表格

SAP Security research sample 使用生成式深度学*模型生成差分私有合成数据集表格

Python synthpop “R 包 synthpop 的 Python 实现” 表格

synthia Python 中的“多维合成数据生成” 表格

Synthetic_Data_System “用于思想收集、测试和评论的 SDS Alpha 版” 表格

QUIPP 创建“隐私保护合成数据生成工作流” 表格

MSFT 合成数据展示展示“生成合成数据和用于隐私保护数据共享和分析的 UI” 表格

扩展的 MedGan 使用 GAN 创建“合成患者数据” 表格

合成数据提供来自私人健康研究的资产表格

贝叶斯合成生成器一个软件系统的仓库，用于基于贝叶斯网络块结构生成合成个人数据表格

使用 GAN 生成合成数据解决如何安全高效地共享加密数据并使用 GAN 生成虚假图像生成合成表格数据的机制的问题表格

HoloClean 机器学*系统，利用“质量规则、值相关性、参考数据和多种其他信号构建概率模型，以扩展现有数据集” 表格

SYNDATA 生成和评估合成患者数据 “生成和评估合成患者数据” 表格

SDV 评估函数提供“表格、关系和时间序列数据的合成数据生成” 多种格式

MTSS-GAN “使用 GAN 生成的多变量时间序列模拟” “MTSS-GAN：多变量时间序列模拟生成对抗网络” 时间序列

数据生成 “一个实现圆柱钟形漏斗时间序列数据生成器的数据生成，用于不同长度、维度和样本的数据生成” 时间序列

RGAN 用于生成实值时间序列数据的“递归（条件）GAN” “使用递归条件 GAN 生成实值（医学）时间序列的文章” 时间序列

机器学*交易 Chapter 21 用于算法交易中创建合成时间序列数据的教程时间序列

tsBNgen “一个 Python 库，根据任意贝叶斯网络结构生成时间序列数据” “tsBNgen：根据任意动态贝叶斯网络结构生成时间序列数据的 Python 库” 时间序列

合成数据生成用于 QuantUniversity 关于“金融中的合成数据生成”的讲座材料 “金融中的合成数据生成” 时间序列

LSTM GAN model “LSTM GAN 模型可用于生成合成的多维时间序列数据” Time series

synsys 提供传感器数据 Sensor data

^(a) 我们添加了描述，其中我们希望详细说明，并从 GitHub 仓库中直接复制了创作者或作者自行提供的最佳说明。

如前所述，一些合成数据方法依赖于由人类输入的领域知识引导的过程。表 A-2 列出了这些方法。

表 A-2. 基于过程的方法和工具^(a)

方法和工具描述类型

plaitpy “从可组合的 yaml 模板生成假数据的程序” Tabular

pySyntheticDatasetGenerator 基于 YAML 配置文件生成类型检查的合成数据表格的工具 Tabular

SimPop “用于基于辅助数据模拟调查人群的工具和方法：基于模型的方法、校准和组合优化算法” Tabular

datasynthR “用于测试和协作中在 R 中程序生成合成数据的函数集合” Tabular

synner “生成逼真的合成数据” Tabular

synthea “合成患者人口模拟器患者和医疗数据”

BadMedicine “用于随机生成类似电子健康记录（EHR）系统输出的医疗数据的库和 CLI” 患者和医疗数据”

^(a) 我们添加了描述，其中我们希望详细说明，并从 GitHub 仓库中直接复制了创作者或作者自行提供的最佳说明。

以下列表介绍了用于评估合成数据质量的工具：

datagene

SDMetrics

table-evaluator

Statistical-Similarity-Measurement

SDGym

virtualdatalab

开始学*合成数据生成相对容易。做好这件事情则需要更加仔细的过程。

表 A-3 展示了其他不容易适应前述类别的工具和资源。

表 A-3. 用于生成合成数据的其他工具和资源^(a)

工具和资源描述进一步阅读

pomegranate 用于构建概率模型的软件包

“生成表格合成数据” 一个关于使用最先进的 GAN 架构“生成表格合成数据”的教程

ydata-synthetic “与 GAN 相关的合成数据生成材料，特别是常规表格数据和时间序列”

jclymo/DataGen_NPBE 用于让神经网络编写程序等任务，这是一个用于生成训练数据的工具，为训练这样的网络提供所需数据 “通过示例生成神经编程数据”

SynthMedTopia 一个项目，用于“生成合成医疗数据并将真实和合成数据转换为机器学*格式”

spiros/tofu 一个“用于生成合成 UK Biobank 数据的 Python 工具”

chasebos91/GAN-for-Synthetic-EEG-Data 用于生成合成 EEG 数据的 GAN

jgalilee/data 一个用 Go 编写的“合成数据生成工具”

blt2114/overpruning_in_variational_bnns 用于“变分贝叶斯神经网络过度修剪的合成数据实验代码”

avensolutions/synthetic-cdc-data-generator 一个“生成变更集的应用程序，可用于开发和测试用于源变更数据捕获（CDC）处理的合成数据”

nikk-nikaznan/SSVEP-Neural-Generative-Models 使用生成神经网络创建合成 EEG 数据的应用程序 “模拟脑信号：通过基于神经的生成模型创建合成 EEG 数据以改善 SSVEP 分类”

^(a) 我们添加了描述，希望能更详细地说明，并且直接从 GitHub 存储库复制，因为我们认为创建者或作者最能准确描述自己的内容。

附录 B. 其他可解释性和解释性工具包

许多库在一个统一的框架下包含了可解释性和可解释性技术。其中一些难以分类的工具包括：

Meta's HiPlot

iModels

Omni 可解释 AI（OmniXAI）

可解释性或公*建模包

除了本章早期讨论的固有可解释性模型的一般类别外，以下是一些因其本质而可解释的模型工具：

贝叶斯案例模型（2014 年），可以从Duke Interpretable ML Lab下载

贝叶斯或与门（2017）¹

贝叶斯规则列表（BRL）

可解释提升机器（EBM）/ GA2M

Optimal Sparse Decision Trees²

XGBoost Monotonic

基于规则的表示学*器³

pySS3

Risk-SLIM

sklearn-expertsys

skope-rules

超稀疏线性整数模型（SLIMs）

tensorflow/lattice⁴

“这看起来像那样”⁵

其他用于一般可解释性的 Python 包

还有更多用于解释模型和决策的通用工具：

acd

AI Fairness 360

AI Explainability 360

ALEPython

Aletheia

allennlp

Alibi

anchor

casme

captum

checklist

contextual-AI

对比解释（箔树）

counterfit

dalex

DeepExplain⁶

deeplift

deepvis⁷

DiCE

ecco

eli5

explainerdashboard

foolbox

Grad-CAM（GitHub 主题）

gplearn

hate-functional-tests

iNNvestigate 神经网络

Integrated-Gradients

interpret

interpret_with_rules

imodels

Keras-vis

keract

L2X

lime

lit

lofo-importance

lrp_toolbox

MindsDB

MLextend

OptBinning

PDPbox

pyBreakDown

PyCEbox

pymc3

pytorch-innvestigate

rationale

RISE

sage

SALib

Skater

tensorflow/cleverhans

tensorflow/lucid

tensorflow/fairness-indicators

tensorflow/model-analysis:

tensorflow/tcav

tensorfuzz

TensorWatch

TextFooler

tf-explain

treeinterpreter

woe

xai

xdeep

yellowbrick

¹ Tong Wang 等人，《一种用于可解释分类学*规则集的贝叶斯框架》，机器学*研究杂志 18 卷，第 1 期（2017 年）：2357–93。

² Xiyang Hu 等人，《最佳稀疏决策树》，第 33 届神经信息处理系统（NeurIPS 2019），2019 年 4 月 29 日。

³ Zhuo Wang 等人，《可扩展的基于规则的表示学*用于可解释分类》，NeurIPS 2021；可解释机器学*；神经符号人工智能，2021 年 9 月 30 日。

⁴ Maya Gupta 等人，《单调校准的插值查找表》，机器学*研究杂志 17 卷，第 109 期（2016 年）。

⁵ Chaofan Chen 等人，《这看起来像那个：用于可解释图像识别的深度学*》，神经信息处理系统进展（NeurIPS 2019），2018 年 6 月 27 日。

⁶ Marco Ancona 等人，《朝着更好理解基于梯度的深度神经网络归因方法》，ICLR 2018 会议论文集，2018 年 2 月 15 日。

⁷ Jason Yosinski 等人，《通过深度可视化理解神经网络》，第 31 届国际机器学*会议深度学*研讨会，2015 年 6 月 26 日。

教程	框架/库	概述
将量子模型作为傅里叶级数	Xanadu (PennyLane)	理解变分量子模型与傅里叶级数之间的联系
训练和评估量子内核	Xanadu (PennyLane), scikit-learn	使用 PennyLane 进行内核和对齐训练
使用 Scikit-learn 进行量子模型基于内核的训练	Xanadu (PennyLane), scikit-learn, PyTorch	使用 scikit-learn 进行基于内核的训练
变分分类器	Xanadu (PennyLane)	量子变分分类器
数据重新上传分类器	Xanadu (PennyLane)	使用数据重新上传的通用量子分类器
量子迁移学*	Xanadu (PennyLane), PyTorch	量子迁移学*
Cirq + TensorFlow 的量子生成对抗网络	Xanadu (PennyLane), TensorFlow, Cirq	使用 Cirq 和 TensorFlow 创建简单的量子生成对抗网络
用光子量子神经网络进行函数拟合	Xanadu (PennyLane)	使用量子神经网络拟合一维噪声数据
量子图递归神经网络	Xanadu (PennyLane)	使用量子图递归神经网络学*量子动态
使用量子神经网络学学	Xanadu (PennyLane), TensorFlow	用于变分量子算法的元学*技术
量子卷积神经网络	Xanadu (PennyLane), TensorFlow	使用量子卷积预处理图像
使用 Forest 和 Qiskit 设备进行集成分类	Xanadu (PennyLane), scikit-learn, Rigetti (Forest), IBM (QSKit)	使用多个 QPUs 进行集成量子分类
量子 GANs	Xanadu (PennyLane), PyTorch	使用量子 GAN 生成图像
如何用量子计算机逼近经典核	Xanadu (PennyLane)	在量子计算机上估算经典核函数
张量网络量子电路	Xanadu (PennyLane)	张量网络量子电路
从实验中学*的量子优势	Xanadu (PennyLane)	从实验中学*的量子优势
量子多体问题的机器学*	Xanadu (PennyLane)	量子多体问题的机器学*
使用量子信号处理进行函数拟合	Xanadu (PennyLane), PyTorch	使用 QSP 训练多项式近似函数

动作	描述	理想
随机共同原因	在你向数据集添加独立随机变量作为共同原因后，估计方法是否改变了其估计值？	不应该改变
安慰剂治疗	当你用一个独立随机变量替换真实的治疗变量时，估计的因果效应会发生什么变化？	效应应该趋近于零
模拟结果	当你用基于已知数据生成过程的模拟数据集替换原始数据集时，估计的因果效应会发生什么变化？	它应该与数据生成过程中的效应参数匹配
未观察到的共同原因	当你向数据集中添加一个额外的与治疗和结果相关的共同原因（通常称为混杂变量）时，估计的效应有多敏感？	不应该太敏感
数据子集验证	当你用随机选取的子集替换原始数据集时，估计的效应会发生显著变化吗？	不应该发生
自举验证	当你用来自相同数据集的自举重采样替换原始数据集时，估计的效应会发生显著变化吗？	不应该发生

信任元素	附加因素	指标	聚合
公*性		不*等影响	自定义：敏感与非敏感子群体比例的比率
公*性		统计*等性	所有样本的*均值
鲁棒性		存在一个或多个复杂词语时预测差异	所有样本的*均值
鲁棒性	不确定性	存在一个或多个复杂词语时预测差异	所有样本的标准差
可解释性		LIME 特征重要性在存在和不存在特征值时的差异	所有样本的*均值
可解释性	不确定性	LIME 特征重要性在存在和不存在特征值时的差异	所有样本的标准差
可解释性	因果性	反事实解释的差异	所有样本的*均值
可解释性和公*性		LIME 特征重要性在存在和不存在特征值时的差异	对敏感和非敏感样本的*均差异

部分	问题
组成	数据集是否识别任何子人群（例如按年龄、性别）？
	是否可能直接或间接地（即与其他数据结合）从数据集中识别个人（即一个或多个自然人）？
	数据集是否包含可能在任何方面被视为敏感的数据（例如显示种族或族裔起源、性取向、宗教信仰、政治观点或工会会员身份、地理位置的数据；财务或健康数据；生物识别或遗传数据；政府身份识别形式，如社会安全号码；犯罪记录）？
收集	您是直接从相关个体收集数据，还是通过第三方或其他来源（例如网站）获取的？
	是否已通知相关个体有关数据收集的事宜？
	个体是否同意收集和使用他们的数据？
	如果获得了同意，那么被授权的个体是否提供了未来撤销同意或特定用途的机制？
	是否对数据集及其使用对数据主体的潜在影响进行了分析（例如，数据保护影响分析）？
用途	数据集的组成或收集、预处理/清洗/标记方式是否会影响将来的使用？
	有哪些任务不应使用该数据集？
分发	数据集或个别实例是否受到任何出口控制或其他监管限制？
维护	如果数据集涉及人员，那么与实例相关的数据的保留是否受到适用的限制（例如，相关个体是否被告知其数据将在固定期限后删除）？

	战术	ATLAS ID	对手的目标
1.	侦察	AML.TA0002	收集关于 ML 系统的信息以供以后使用
2.	资源开发	AML.TA0003	建立支持其自身操作的资源
3.	初始访问	AML.TA0004	获取包含 ML 模型工件的系统访问权限
4.	ML 模型访问	AML.TA0000	获取 ML 模型本身的访问权限
5.	执行	AML.TA0005	运行恶意代码
6.	Persistence	AML.TA0006	维持其自身的恶意访问
7.	防御规避	AML.TA0007	避免被安全软件检测到
8.	发现	AML.TA0008	获取关于运行/服务 ML 模型的系统的知识
9.	收集	AML.TA0009	收集与其目标相关的信息
10.	ML 攻击策划	AML.TA0001	利用对被攻击系统的了解来定制攻击
11.	数据外泄	AML.TA0010	窃取 ML 模型工件
12.	Impact	AML.TA0011	操纵、破坏或干扰 ML 系统、模型或底层数据的功能

问题	采取的步骤	已解决
用户组 A 与用户组 B 在用户特征数据中存在潜在偏*		False
用户组 A 与用户组 B 在帖子特征数据中存在潜在偏*		False
主题标签预测准确性对比，对比组 C 与对比组 D	`topic_tags.*.risk_assessment`已充分解决	True
需要遵守加州适龄内容安全和隐私指南设计法案^(a)		False
需要根据 UX 要求使用用户历史特征解释建议		False
^(a) Kari Paul，《加州儿童在线安全法案将首次施行》，《卫报》，2022 年 8 月 30 日。

问题	执行步骤	已解决
用户组 A 与用户组 B 的用户特征数据中的潜在偏差	收集人口统计数据以在 `preprocessing` 中进行评估	False
用户组 A 与用户组 B 的后特征数据中的潜在偏差	收集人口统计数据以在 `preprocessing` 中进行评估	False

问题	执行步骤	已解决
用户组 A 与用户组 B 的用户特征数据中的潜在偏差	在 x、y、z 特征中发现了偏差；详细信息请参* `prepro⁠cessing.other_steps`	False
用户组 A 与用户组 B 的后特征数据中的潜在偏差	未在相关特征中发现偏差；详细信息请参* `prepro⁠cessing.other_steps`	True

问题	执行步骤	已解决
用户组 A 与用户组 B 的用户特征数据中的潜在偏差	使用后处理缓解偏差；详细信息请参* `model_training.metrics`	True
需要遵循适龄内容安全和隐私指南，根据加州适龄设计法案^(a)	添加了隐私和安全过滤器；请参* `model_training.metrics` 和 `model_training.ethical_considerations`	True
根据用户历史特征解释推荐的需求符合 UX 要求	已实施解释；详细信息请参* `model_training.metrics`	True
^(a) 保罗，“加州首个类似法案将使儿童在网上更安全。”

方法和工具	描述	进一步阅读	类型
CTGAN	基于 GAN 的数据合成器，可以高度保真地生成合成表格数据	“使用条件 GAN 建模表格数据”	表格
TGAN	已过时，已被 CTGAN 取代		表格
gretel	创建具有增强隐私保证的虚假合成数据集		表格
WGAN-GP	推荐用于训练 GAN；比其他基于 GAN 的数据生成工具更少受模式崩溃影响，并且损失更有意义	“关于使用 GAN 生成和评估合成表格数据”	表格
DataSynthesizer	“生成模拟给定数据集的合成数据，并应用差分隐私技术以实现强隐私保证”		表格
MedGAN	“[一种] 生成对抗网络，用于生成多标签离散患者记录 [可以生成二进制和计数变量（例如，诊断代码、药物代码或程序代码等医疗代码）]”	“使用生成对抗网络生成多标签离散患者记录”	表格
MC-MedGAN (多分类 GANs)	生成具有多个标签的合成数据实例，特别注重合成医疗数据	“使用生成对抗网络生成多类别样本”	表格
tableGAN	基于 GAN 架构（DCGAN）的合成数据生成技术	“基于生成对抗网络的数据合成”	表格
VEEGAN	使用隐式变分学*减少 GAN 中的模式崩溃	“VEEGAN：使用隐式变分学*减少 GAN 中的模式崩溃”	表格
DP-WGAN	“训练一个 Wasserstein GAN（WGAN），该模型在真实的私密数据集上进行训练。通过清洗（范数剪辑和添加高斯噪声）鉴别器的梯度应用差分隐私训练。通过向生成器输入随机噪声来生成合成数据集。”		表格
DP-GAN（差分私有 GAN）	描述了“差分私有释放语义丰富数据”	“通过深度生成模型进行差分私有释放”	表格
DP-GAN 2	改进了原始的 DP-GAN	“差分私有生成对抗网络”	表格
PateGAN	修改了教师集成的私有聚合（PATE）框架，并应用于 GAN	“PATE-GAN: 生成具有差分私有性保证的合成数据”	表格
bnomics	使用概率贝叶斯网络生成合成数据	“使用概率贝叶斯网络生成合成数据”	表格
CLGP（分类潜在高斯过程）	多元分类数据生成的生成模型	“用于多元分类数据分布估计的潜在高斯过程”	表格
COR-GAN	使用“捕获相关性的卷积生成对抗网络生成合成医疗记录”	“CorGAN: 用于生成合成医疗记录的捕获相关性卷积生成对抗网络”	表格
synergetr	“用于生成带有经验概率分布的合成数据的 R 包”		表格
DPautoGAN	用于生成混合类型数据的差分私有无监督学*任务工具	“差分私有混合类型数据生成用于无监督学*”	表格
SynC	“用高斯 Copula 生成合成人口的统一框架”	“SynC: 用高斯 Copula 生成合成人口的统一框架”	表格
Bn-learn Latent Model	“为评估机器学*医疗保健软件生成高保真度合成患者数据”	“为评估机器学*医疗保健软件生成高保真度合成患者数据”	表格
SAP Security research sample	使用生成式深度学*模型生成差分私有合成数据集		表格
Python synthpop	“R 包 synthpop 的 Python 实现”		表格
synthia	Python 中的“多维合成数据生成”		表格
Synthetic_Data_System	“用于思想收集、测试和评论的 SDS Alpha 版”		表格
QUIPP	创建“隐私保护合成数据生成工作流”		表格
MSFT 合成数据展示	展示“生成合成数据和用于隐私保护数据共享和分析的 UI”		表格
扩展的 MedGan	使用 GAN 创建“合成患者数据”		表格
合成数据	提供来自私人健康研究的资产		表格
贝叶斯合成生成器	一个软件系统的仓库，用于基于贝叶斯网络块结构生成合成个人数据		表格
使用 GAN 生成合成数据	解决如何安全高效地共享加密数据并使用 GAN 生成虚假图像生成合成表格数据的机制的问题		表格
HoloClean	机器学*系统，利用“质量规则、值相关性、参考数据和多种其他信号构建概率模型，以扩展现有数据集”		表格
SYNDATA	生成和评估合成患者数据	“生成和评估合成患者数据”	表格
SDV 评估函数	提供“表格、关系和时间序列数据的合成数据生成”		多种格式
MTSS-GAN	“使用 GAN 生成的多变量时间序列模拟”	“MTSS-GAN：多变量时间序列模拟生成对抗网络”	时间序列
数据生成	“一个实现圆柱钟形漏斗时间序列数据生成器的数据生成，用于不同长度、维度和样本的数据生成”		时间序列
RGAN	用于生成实值时间序列数据的“递归（条件）GAN”	“使用递归条件 GAN 生成实值（医学）时间序列的文章”	时间序列
机器学*交易 Chapter 21	用于算法交易中创建合成时间序列数据的教程		时间序列
tsBNgen	“一个 Python 库，根据任意贝叶斯网络结构生成时间序列数据”	“tsBNgen：根据任意动态贝叶斯网络结构生成时间序列数据的 Python 库”	时间序列
合成数据生成	用于 QuantUniversity 关于“金融中的合成数据生成”的讲座材料	“金融中的合成数据生成”	时间序列
LSTM GAN model	“LSTM GAN 模型可用于生成合成的多维时间序列数据”		Time series
synsys	提供传感器数据		Sensor data
^(a) 我们添加了描述，其中我们希望详细说明，并从 GitHub 仓库中直接复制了创作者或作者自行提供的最佳说明。

方法和工具	描述	类型
plaitpy	“从可组合的 yaml 模板生成假数据的程序”	Tabular
pySyntheticDatasetGenerator	基于 YAML 配置文件生成类型检查的合成数据表格的工具	Tabular
SimPop	“用于基于辅助数据模拟调查人群的工具和方法：基于模型的方法、校准和组合优化算法”	Tabular
datasynthR	“用于测试和协作中在 R 中程序生成合成数据的函数集合”	Tabular
synner	“生成逼真的合成数据”	Tabular
synthea	“合成患者人口模拟器	患者和医疗数据”
BadMedicine	“用于随机生成类似电子健康记录（EHR）系统输出的医疗数据的库和 CLI”	患者和医疗数据”
^(a) 我们添加了描述，其中我们希望详细说明，并从 GitHub 仓库中直接复制了创作者或作者自行提供的最佳说明。

工具和资源	描述	进一步阅读
pomegranate	用于构建概率模型的软件包
“生成表格合成数据”	一个关于使用最先进的 GAN 架构“生成表格合成数据”的教程
ydata-synthetic	“与 GAN 相关的合成数据生成材料，特别是常规表格数据和时间序列”
jclymo/DataGen_NPBE	用于让神经网络编写程序等任务，这是一个用于生成训练数据的工具，为训练这样的网络提供所需数据	“通过示例生成神经编程数据”
SynthMedTopia	一个项目，用于“生成合成医疗数据并将真实和合成数据转换为机器学*格式”
spiros/tofu	一个“用于生成合成 UK Biobank 数据的 Python 工具”
chasebos91/GAN-for-Synthetic-EEG-Data	用于生成合成 EEG 数据的 GAN
jgalilee/data	一个用 Go 编写的“合成数据生成工具”
blt2114/overpruning_in_variational_bnns	用于“变分贝叶斯神经网络过度修剪的合成数据实验代码”
avensolutions/synthetic-cdc-data-generator	一个“生成变更集的应用程序，可用于开发和测试用于源变更数据捕获（CDC）处理的合成数据”
nikk-nikaznan/SSVEP-Neural-Generative-Models	使用生成神经网络创建合成 EEG 数据的应用程序	“模拟脑信号：通过基于神经的生成模型创建合成 EEG 数据以改善 SSVEP 分类”
^(a) 我们添加了描述，希望能更详细地说明，并且直接从 GitHub 存储库复制，因为我们认为创建者或作者最能准确描述自己的内容。

posted @ 2025-11-21 09:10 绝不原创的飞龙阅读(83) 评论(0) 收藏举报

刷新页面返回顶部

问题	公*性	可解释性	隐私性	健壮性	安全性
是否有适用于此使用案例的法规或法律？
我们会使用个人数据吗？
是否有受影响的人群分部会因为模型的偏输出而受到不公的影响？
是否有需要了解这个模型功能的人类？
是否存在任何潜在的数据质量问题？
我们是否知道有攻击可能会使数据或模型组件以意外方式暴露？

龙哥盟

掠夺·扩张·投机·博弈