斯坦福-CS329H-基于人类偏好的机器学习笔记-全-

斯坦福 CS329H 基于人类偏好的机器学习笔记（全）

1：课程介绍 🎓

在本节课中，我们将对《基于人类偏好的机器学习》这门课程进行一个全面的概述。我们将了解课程的基本框架、核心目标、涵盖的主题以及课程的组织形式。本节课旨在为后续深入学习奠定基础。

大家好，我是 Sam Coja，计算机科学系的教员。我的研究领域广泛涉及可信机器学习和人工智能。首先确认一下，这里是 CS329H《基于人类偏好的机器学习》课程。

今天在场的除了我，还有助教 Sang。打个招呼吧，Sang。在接下来的一个学期里，你们将与教学团队有很多互动。

今天的计划，作为第一堂课，是一个总览。我们会介绍课程的基本框架。这门课是新课，这是我们第二次开设。第一次是在去年秋季，所以这是我们第二次提供这门课，我们仍在摸索这门课的确切定位。

好处是，我认为这次会比上次的实验性稍弱一些。你们将受益于我们一年前进行的一些实验。但我也认为课程仍有一些粗糙之处，所以我们需要你们对课程中进展顺利或不顺利的方面提供反馈，以便进一步改进。

这门课程非常及时，对我们许多人来说，机器学习中那些明确使用人类反馈的方面令人兴奋。我们的目标是探讨这些问题，既包括应用层面，也希望更基础性地，从广义上，既涉及机器学习的方面，也会触及与经济学、心理学等领域相关的内容。

我们将尝试涉足各个领域，希望不会太糟糕。其中一些内容将由课程团队负责，一些将由特邀讲座负责。在进入幻灯片之前，我会在今天课程中介绍一些内容。我认为一个很好的好处是，这是我们第二次教授这门课，核心团队和其他成员已经主动编写了一本教科书。

据我所知，世界上还没有关于这个主题的教科书，或者即使有，也没有公开。所以我认为参与这门课程将获得一个独特的资源。幻灯片中会有一个链接，你们可以访问这本书和其他材料。我们将能看到所有这些内容。它目前是一个非常粗糙的版本。所以，请温和地批评，并在学习过程中给我们反馈。

但今天主要是介绍。在本学期中，我们将涵盖人类选择建模的各个方面、一些基于模型的偏好学习技术、模型无关的优化，以及最后一个关于人类价值观和人工智能对齐的模块。这是课程的大致设置：介绍部分和这四个主要部分。此外，正如所说，除了教学时间，还会有一些特邀讲座。

如果我们看一下教学大纲，在十月初，大约在我们第一个模块结束时，我们预计会有一场与刚学模块相关的特邀讲座。这门课的这次迭代是我们第一次布置作业。上次主要是讨论和讲座，这次我们设置为60%的作业。你们将在大约一周后收到第一份作业。

同样，与那些开设已久的课程不同，这些作业将是全新的迭代。我确信会有一些波折。这是一个中小型班级，所以我们希望有很多来回的讨论。这既可以适应你们的需求和学习内容，我们也可以从你们那里学到很多东西，以改进课程材料。

像这样的课程非常注重项目。计划是你们将组成最多五名学生的小组，每个小组将有一系列可交付成果，最终将是一个期末项目，至少会在课堂上展示，也可能向外部人员展示。这在许多有大型项目特色的课程中似乎效果很好，所以这也是我们这门课计划的一部分。

然后，如前所述，因为我们仍在摸索许多内容，课堂参与占很大比重。我们鼓励你们参与课堂，无论是在课堂上还是在其他环节，例如在GitHub上对教科书提供反馈，在Ed上参与问答，以及如前所述的课堂参与。

我认为对于这样一门关于较新主题的课程，通过讨论可以获得很多收获。我的建议是考虑来上课，希望参与课堂对话会带来一些价值。

另一个要提的是，如果你是CS博士生，这门课程可以计入你的学习与建模要求，或人类与社会要求。这可能会让你对我们计划涵盖的材料类型有所了解。归根结底，这是一门技术课程。我认为我们总是会回归机器学习的基础。然而，有意地，这门课的范围是思考这意味着什么。既然是关于向人类学习，将会有大量关于人类参与、社会考量以及其他更广泛问题的工作。因此，我们将尝试同时兼顾广度和深度，在材料上略微偏向广度。

好的，还有其他问题吗？现在谈谈背景。好的，这是讲师的背景。我在斯坦福大学待了几年，之前是伊利诺伊大学的教授。与这门课相关的是，我长期以来一直在研究如何在经典的机器学习问题中融入人类偏好。例如，我们今天也会简要谈到的一个框架叫做“度量化”，我致力于研究这些问题。这与强化学习领域进行RLHF等工作密切相关。我认为，随着语言模型和RLHF再次成为热点，所有这些对许多人来说再次变得令人兴奋。我们将稍微涉及这一点，并将其置于某些背景中。我们确实做了一些与这类问题相关的工作。是的，关于这类工作的学术界和工业界问题，实际上也将成为我们讨论的一部分。我认为这很有趣。关于我的背景就这些，我很乐意深入探讨。其他教学人员也可以自由地介绍他们的背景，每个人都有相关的经验。

好的，我们将继续今天的材料。再次，有机会时请查看教科书。我们今天的目标是介绍。并介绍课程的一些框架，也许为我们在接下来几堂课中如何思考这些主题做一些铺垫。

这个广泛的领域仍在定义中，但我们尝试构建了一个定义，如果大家有兴趣，我们实际上可以稍作批评。这门课程旨在探索从个人、群体或社会中高效且有效地引出价值观和偏好，并将其嵌入AI模型和应用中的挑战。我们的具体重点将放在交互式查询人类以引出可以改进学习和应用的信息的一些技术和概念基础及策略上。

正如讨论和框架所示，我们将通过机器学习问题的视角来思考这门课中的许多问题。但我们希望有意义地参与这项工作在如何影响个人、社会等方面的更广泛影响。“高效”将涉及与人类互动并尝试以尽可能少的互动来完成这一任务的挑战。我们将更多地讨论“查询效率”这个术语。我将尝试询问诸如你需要多少样本、需要多少次互动才能获得与某些智能体互动的特定估计或特定函数等问题。“有效”则考虑引出过程的质量，但从人们那里获取这个信号。

关于设置、广泛框架的任何问题？对这个想法有什么强烈的批评或轻微的批评吗？为什么用“交互式”这个词？这是一个很好的问题。是的，问题是关于“交互式”以及我们为什么这样表述。我将在接下来的几张幻灯片中稍微讨论一下，但从某个角度来看，所有的机器学习都是从人类偏好中学习的。事实上，并非如此。它根本没有缩小领域范围。原因是很多工作，AI模型、机器学习模型被训练来做的事情，实际上是从人们那里学习信号。许多机器学习应用都涉及人类以某种方式创建内容，然后我们构建模型来模仿或近似该内容。从这个角度来看，所有的机器学习都是从人类偏好中学习的。

还有一个更集中的领域，即我们试图将AI构建为某种智能目标。我们稍后会讨论一点，这再次直接涉及向人类学习的理念。在这里，我们将重点放在那些我们更加明确和有意地关注人类信号的场景上。因此，我认为那些人类标注数据然后你从数据中学习的场景，在某种程度上是隐性的。偏好效应将基于数据标注的来源而显现。在这门课中，我们将重点关注这些问题的子集，其中学习过程的目标非常明确地是关于从偏好中学习，通常通过交互过程。正如你所说，我们将重点放在这个似乎最有趣的差距上。这再次是这门课的动机，试图思考这些问题。它不会涵盖所有内容，但这将是明确的重点。

谢谢，好问题。我喜欢这个扩展，因为在许多现实世界的应用中，数据集是不可变的，而这并不是真实世界。样本不一致，就像我们经常忽略的一个事实：人类有25%的时间不同意自己。根据你是否吃过午饭，对完全相同的东西评分，你会得到不同的答案。因此，将模拟实际标注过程的分布纳入系统，我喜欢这种扩展。是的，这是一个非常有趣的观点。我们将稍微涉及这个问题，例如人类的不一致性，以及如何在许多场景中思考人类标签，以及现有文献中思考这意味着什么的一些方法。我认为这很好。我们将讨论一些模型，我们选择伯努利模型，我不知道这是否是真相，但至少我们会讨论一些思考这个问题的框架。是的，诸如噪音或至少来自人类信号不一致性的不确定性等问题。

好的。正如上一张幻灯片提到的，我们的目标是参与基础和多种策略，以交互式地查询人类，获取可以改进某种学习目标或应用的信息。因此，我们将主要关注那些具有非常明确的人类在环组件的学习系统，并略微偏向交互式系统。我们将稍微参与一些基础，其中一些来自经济学、心理学、市场营销、统计学。我们将讨论应用。对我们许多人来说，最前沿的应用是语言应用。再次，从人们那里学习偏好或价值观。但也有在机器人等领域工作的悠久历史，我不记得我们之前提到的物流是什么意思。是的，明确的物流，我不认为我们会过多讨论物流应用，例如，你试图规划交付或路线等，你可能会考虑偏好，并思考如何明确引出偏好作为改进路线模型等方式。

所有这些都将通过机器学习的视角来关注。这意味着我们将尝试建立问题，理解问题的一些角度，然后我们将专注于与每个问题设置中的建模、估计、评估相关的问题。我认为这意味着什么，我们将稍微讨论先决条件，那就是假设你对机器学习基础感到满意，足以编写一些简单的程序并构建简单的机器学习模型。因此，训练/测试/验证分割对你来说不应陌生。如果陌生，我们应该快速聊一下。逻辑回归对你来说不应陌生。如果你选了这门课却感到陌生，我们应该聊聊以确保合适。我们需要这些组件，因此我们将把这视为问题的重要组成部分。

下一个方面是思考这在人类偏好方面意味着什么。我们如何在这里思考人类？我认为这是一个有趣的事情，因为根据你在ML/AI世界中的位置，我认为我们对思考人类有些回避，尽管人类无处不在。你可以在你或你的同事如何参与这些问题中看到这一点。有人提出了一个论点，事实上，我上周参加了一个小组讨论，有人做了一个大胆的声明。他们说，我不知道这是否正确，但也许可以供小组思考。他们说，在一代人之内，我不知道一代人可能意味着什么，也许是5到10年，他们认为所有的AI都将是HCI，因此实际上将不再有独立的AI事物，因为所有最困难和最有趣的问题都将关于人机交互。我认为这个说法有合理的依据。我认为我们在纯算法方面取得了有意义的进展，许多似乎对实现我们想要的应用或影响很重要的问题，似乎被我们如何在部署系统中思考人类所瓶颈。我们将尝试思考这一点。同样，其中一些将基于文献，因此我们将有论文供你阅读，但其中一些也将在课堂上进行讨论，并思考这些问题。

因此，出现了许多子问题，涉及偏见的各个方面，我认为你提到了。或者关于在多大程度上应假设人类理性的问题，这是一个好的假设吗？它会在什么情况下失效？将人类错误视为噪音的问题，以及这在何时可能是好或坏的假设。人类与AI系统互动的各种正确性、专业性的概念。

我们还将参与这些问题：问题通常会根据是人类、群体还是广泛的社会背景而改变。因此，我们将尝试参与所有这些问题。基于专业知识、文献和偏好会有一些平衡，但同样，我们愿意根据班级的反馈进行调整。例如，如果我对引出偏好感兴趣，问题是否会因为我想获取你作为个人的偏好与整个班级的偏好而改变？我如何处理我们不会在许多事情上达成一致的事实，例如项目小组的规模？思考偏好的综合和聚合，以及以可能触及更广泛价值观的方式思考这个问题，看起来是什么样子？或者，在战略智能体可能试图博弈某些协调系统的情况下，这看起来是什么样子？我们能否构建工具来参与这类问题？

最后一点，我认为非常重要，是这门课的性质意味着在许多情况下，我们必须思考。尽管几乎总是存在一个有意义的伦理角度，我们将尝试思考。这以多种不同的方式显现。我这里有几个例子。例如，关于人类的问题。如果你正在构建一个系统并要部署它，你选择谁将给你信号，以及你试图让模型与谁的偏好对齐。这个选择会产生下游影响。因此，你从哪些人类那里获取偏好会产生有意义的影响。其中一些可能是积极的，一些可能很棘手，看起来像是剥削。我们将尝试参与所有这些问题的各个方面，并不回避可能成为现代AI和参与学习的一部分的伦理问题。

我暂停一下，看看是否有问题或反应。我有一个关于最后一部分的问题。正如我们所说，我们经常进行数据抽样，以确保数据来自不同的场景和不同的部门，从而使模型能够处理各种边缘情况。我们是否也会在这门课中提出某种人类抽样，以确保我们考虑不同人群的偏好，从而使人类偏好实际上在某种意义上对所有群体都是合乎伦理的？这是一个很好的问题。如果我们以伦理和不同亚群体间的代表性来构建这个问题，我们是否会参与允许仔细思考这个问题的方法？我们会稍微涉及，所以至少有一堂课会探讨这个问题。我认为深度不够。我认为这实际上非常好。我不认为文献在这个问题上已经很完备。有一些工作，我会添加一些参考文献。考虑到兴趣，思考当你有不同群体时人类偏好学习的版本，并思考代表性抽样或其他思考平衡群体间偏好的方法。但我也要提到，我认为这是ML/AI子领域还相当早期的领域之一。有些人思考过这个问题，经济学中有一些工作，伦理学中有一些工作广泛思考这些问题。我认为如果你考虑项目，这是一个很好的项目方向，思考如何获取不同群体的偏好。

另一个问题。是的，关于个体。这是一个引人入胜的问题。问题是，你知道，有大量关于有限样本学习和各种有限数据的文献。我们将在多大程度上参与其中？我认为这很好，我实际上非常喜欢这个问题。我们将隐含地参与其中，因为在几乎所有情况下，我们建立的学习问题都会通过构造要求从有限样本中学习。再次，涉及我之前提到的关于查询人类可能很昂贵的问题，因此我们通常在样本大小上有预算限制。是的，实际上更明确地思考这部分框架会很好。它将在问题中隐含，我们计划不那么明确，但这是一个极好的问题，它会无处不在。在几乎所有情况下，我们都需要从有限数据中学习，并且我们将使用一些技巧，如预训练、基础模型等。是的，好问题，谢谢。

你提到这对于期末项目来说是一个很好的探索主题，这让我想知道大多数期末项目是像编码项目那样输出，还是更多关于理论问题的研究，或者是什么样的？是的，我们会有更多说明。项目看起来是什么样的？我们认为好的项目范围相当广泛。我们将尝试在整个过程中获得反馈。我们本周也会有文档，说明我们对什么构成一个好的期末项目的看法。但针对你的问题，理论研究是有意义的。对某个领域的批判性审查是有意义的。在某些情况下，文献综述可能是有意义的。文献综述比人们认为的要难，我提前说一下，人们认为这是一种简单的参与方式，但实际上一个好的文献综述相当困难。技术科学研究、代码或其他程序工件，所有这些都在范围内。好的，还有我们思考的应用。你知道，这是一个似乎涉及许多不同应用领域的领域，所以我认为你们大多数人最终至少从一个季度的有限经验来看，也会从时代精神来看，大多数人最终会涉及语言，但视觉是有意义的，强化学习是有意义的。有一个非常有趣的应用，我看看是否能请人来展示，但最近我了解到一些法律和政策方面的应用，很酷。是的，许多不同的领域你可以想象应用这些作为工具。所以请自由扩展、探索所有这些有趣的东西。去年的项目还在Medium上吗？哦，好的，是的，我们应该在某个地方添加那个链接。如果你想找去年的项目，你可以搜索。每个人都在搜索，这很好。

好的，还有什么要说的。你知道，这在某些方面是一个新兴主题。我认为这个主题的边缘尚不清楚。它也很广泛。我们不会试图做到详尽无遗。我们有一些广度偏向。因此，我们将尝试涵盖许多不同的主题，但我们不期望能涵盖与这个问题相关的所有内容。你知道，这方面还有一些其他内容，我在开头稍微谈到了，但从某些方面来说，所有的AI都可以被认为是从你的偏好中学习的。因此，在某种意义上，一个包罗万象的定义将避免问题的很多部分。此外，除了数据本身，这个房间里的人是实际构建机器学习和AI模型的人。有时被低估的是，个人决策和选择实际上对模型、对某些生产过程中产生的实际模型有有意义的影响。你知道，你正在选择你真正想要解决的问题以及什么是可行的，你将在哪里寻找数据，使用什么样的架构，什么样的损失函数，什么样的优化算法，所有这些都是对AI模型有有意义影响的个人决策。再次，如果你想包罗万象，这是一种从人类偏好中学习，因为作为设计者，你正在对算法、数据、损失函数做出偏好决策。这不是我们的意思，但我想说，我认为这也是思考这类问题的一种有意义的方式。

有很多关于模型架构等方面的工作。你知道，除了高层次的问题定义，甚至在构建模型时，最常见的是在图模型和因果推理中，你在模型中放入了很多归纳偏差，但更一般的框架也经常以各种方式使用专业知识。例如，有人提出卷积网络之所以有效，是因为人们注意到卷积是很好的归纳偏差，并且与人类视觉的某些方面匹配。因此，有许多方式可以思考专家知识和归纳偏差。再次，我们不讨论这个，但想提到这很重要。然后我们会稍微涉及，但不会深入探讨广义的HCI问题。我认为这非常重要。差距部分在于专业知识，部分在于范围。所以我们不会做非常深入的探讨。不过，如果你对这类主题感兴趣，HCI的经验或兴趣通常会对你很有帮助。你知道，关于界面、过程、研究设计以及如何获得IRB批准等问题。校园里的许多建筑实际上不知道如何做这些，因为我们不常做。但如果你要做这样的工作，特别是如果你要实际查询人类，那种经验会非常有帮助。因此，你们中的一些人可能会考虑涉及这类问题的项目，鼓励这样做。

好的，所以这是广泛的思考。再次，人类反馈的广泛框架无处不在。我展示了一个图表，来自最近一篇论文的一个很好的图表，借用了同事的图表，讨论了人类反馈如何塑造许多明确的机器学习过程。如前所述，诸如数据选择、标注、模型选择、训练、评估、部署上下文等。有很多好的工作对人类偏好最终如何塑造我们构建的机器学习模型进行分类。再次，我不会深入讨论，但提到这一点是为了奠定我关于人类偏好在许多我们构建模型的工作中扮演重要角色的陈述。从我们如何构建数据集以及我们如何思考诸如合成数据等问题，通常其中包含明确的判断和决策，一直到如何指定各种约束或将奖励约束嵌入模型，以及调整模型的各种方式。

我提到这一点也是因为，再次，超出了这门课的范围，但也有大量工作思考捕捉人类偏好的方法，以参与本页上的所有内容。例如，关于约束指定的引出机制的工作。我们不会过多讨论，但我认为对于各种问题，例如物流和规划问题，这是一个非常重要的问题子集。

好的，示例和应用。我也希望从你们那里学到一些，因为我经常从中学到一些很酷的新东西。先把房间里的大象赶走，ChatGPT让很多人对这意味着什么感到兴奋。在许多方面，有人认为，取决于你的立场，这是一种修正主义的东西，我们是否预料到了，我不知道。但在许多使这项工作在人们与语言模型互动获得良好体验的意义上取得成功的创新中，有人认为，很多试图与人类偏好对齐的工作，比如RLHF，起了很大作用。所以我认为，这再次激发了对这个领域的兴趣。

很多这项工作建立在悠久的工作历史之上。特别是对于语言模型，以及捕捉反馈和构建语言模型的各种机制。我认为对于之前的一个评论或问题，诸如文档级交互、来自人类或专家的标签一致性查询、词级交互等问题，你有一个语言模型，我能让人类告诉我哪些术语最有影响力，或者根据我们认为可能重要的内容，在语言系统中标记这些术语，并帮助思考添加或删除哪些特征。再次，这仍然是大多数大规模部署系统中的MLOps框架的重要组成部分。一些关于什么可能是重要特征的人类直觉，一直到人类试图帮助选择模型参数，思考测量以及模型表现良好或失败的反馈，并使用该信号来改进或探索模型范围。

这方面的例子。再次，参考文献在幻灯片中，请随意查看。例如，尝试通过标记不同单词之间的连接来改进解析器。“Pat ate the cake on the table that I baked last night”，解析器可能会说“I

2：偏好模型 📊

在本节课中，我们将要学习选择模型。选择模型是一套帮助我们预测个体或群体在特定情境下选择行为的工具。通过本节课的学习，你将掌握理解现代人类偏好学习技术所需的核心数学工具。

概述

选择建模拥有悠久的历史，其目标是通过观察个体或群体的选择行为（作为数据集），构建一个能够预测新情境下人们可能做出何种选择的模型。我们将重点关注离散选择场景，并深入探讨模型背后的关键假设。

选择模型的核心思想与应用

选择模型旨在捕捉个体（有时也可用于群体）的决策过程。其核心假设是存在一个效用（或称价值、收益、奖励）函数。在强化学习中，这通常被称为“奖励”。关键假设是：个体从物品A和物品B中获得的效用差异，决定了他们在重复选择中更频繁地选择A而非B的概率。

真正的效用被认为是不可观测的，我们只能通过观察人们陈述或揭示的偏好来间接测量它。

选择模型的应用非常广泛：

市场营销：预测消费者对汽车等产品的偏好。
交通规划：在路线规划算法中，预测个体对不同路径的偏好（考虑时间、成本、交通状况等）。
物流与能源：用于配送路线规划和能源消耗预测。
活动规划：为个人规划一天的活动序列。
语言模型：对文档或文本补全进行排序和选择。

数学模型框架

在离散选择模型中，我们假设个体 n 在物品 i 和 j 之间的选择，由一个潜在的效用函数决定。

观测值：我们观察到的是个体的选择结果。在成对偏好设置中，标签 y_{ni} = 1 表示选择物品 i 而非 j，y_{ni} = 0 则表示相反。

建模：我们假设这些选择是由一个底层效用函数随机生成的。效用 U_{ni} 通常由确定性部分和随机噪声部分组成：
U_{ni} = V_{ni} + ε_{ni}
其中，V_{ni} 是可由特征 Z_{ni}（描述个体和物品的属性）通过函数 h（例如线性模型 β^T Z_{ni}）预测的部分，ε_{ni} 是随机噪声。

个体的选择概率可以表示为：
P(选择 i) = P(U_{ni} > U_{nj} 对所有 j ≠ i)
这等价于：
P(选择 i) = P(U_{ni} - U_{nj} > 0)

从二元选择到逻辑回归

上一节我们介绍了通用的离散选择模型框架，本节中我们来看看一个最简化的情形：二元选择。即个体只在“选择物品”和“不选择物品”（或物品A vs 物品B）之间做决定。

当只有两个选项时，模型可以简化。我们只需关注效用的差值。假设噪声项 ε_{n1} 和 ε_{n2} 独立且服从极值分布，经过推导，选择物品1的概率具有一个熟悉的形式：
P(y_n = 1) = 1 / (1 + exp(-(V_{n1} - V_{n2})))
如果我们将特征定义为两个物品特征的差值 S_n = Z_{n1} - Z_{n2}，并使用线性模型 V_{n1} - V_{n2} = β^T S_n，那么：
P(y_n = 1) = 1 / (1 + exp(-β^T S_n))
这正是逻辑回归的公式。

因此，拟合一个二元选择模型，在操作上完全等同于运行逻辑回归。我们收集特征差值 S_n 和二元标签 y_n 的数据集，然后使用标准机器学习工具（如梯度下降）来估计参数 β。

模型的重要特性与扩展

效用函数的标度问题

选择模型的一个关键特性是，我们无法完全估计效用的绝对数值，只能估计其序关系。对效用函数进行任何单调递增变换（如整体加一个常数或乘以一个正数），都不会改变模型预测的选择概率。这给跨上下文比较效用值带来了挑战，实践中常通过标准化（如假设方差固定）来解决。

超越二元选择

以下是两种处理多个选项的常见模型：

有序逻辑模型：用于处理Likert量表式偏好（如1-5级评分）。除了拟合效用函数，还需要估计一系列阈值参数，以划分不同的选择等级。

Plackett-Luce模型：用于处理完整的排名数据（如对J个物品进行排序）。该模型将排名的概率分解为一系列条件概率的乘积：首先选中排名第一的物品的概率，然后在剩余物品中选中排名第二的概率，依此类推。其概率形式为：
P(排序) = (e^{V_{r1}} / Σ_{j=1}^{J} e^{V_{j}}) * (e^{V_{r2}} / Σ_{j=2}^{J} e^{V_{j}}) * ...
这可以看作是多项逻辑回归在排序场景下的推广。

关键讨论：假设与数据

理性假设

上述模型的核心假设是偏好具有传递性（若A优于B，B优于C，则A优于C）。这通常被称为“理性”选择假设。在实际中，人类行为可能违反此假设，这可能源于噪声、特征不完整或真正的非理性。作为建模者，我们需要意识到这一假设的局限性。

陈述偏好 vs. 显示偏好

收集偏好数据有两种主要方式：

显示偏好：观察人们在真实情境中做出的实际选择（如实际购买记录）。数据真实，但可能存在混杂因素和覆盖不全的问题。
陈述偏好：在受控实验中询问人们“假设你会如何选择”。可以精心设计实验，但可能与真实行为存在差距（如社会期望偏差）。

这两种数据源会影响模型的选择和效果。例如，显示偏好数据可能分布不均，促使我们使用更简单的模型；而陈述偏好数据则允许我们拟合更复杂的模型。

总结

本节课中我们一起学习了选择模型的基础知识。我们了解到：

选择模型通过假设一个不可观测的效用函数来预测离散选择行为。
二元选择模型在特定噪声假设下等价于逻辑回归。
模型具有标度不变性，且依赖于理性（传递性） 假设。
我们可以将模型扩展至处理有序评分（有序逻辑模型）和完整排名（Plackett-Luce模型）。
偏好数据的来源（陈述 vs. 显示）是重要的考量因素，会影响建模实践。

这些模型构成了许多现代人类偏好学习系统的基础，理解其原理和假设对于构建可靠的应用至关重要。

3：基于模型的偏好优化

在本节课中，我们将学习一个特定的偏好学习子领域：度量优化。我们将探讨如何将偏好学习与主动学习相结合，以高效地选择与人类利益相关者偏好一致的分类模型评估指标。我们将重点关注二元分类问题，并展示如何利用问题的几何结构来简化度量选择过程。

概述：度量选择的重要性

上一讲我们讨论了主动学习，并将其与偏好学习联系起来。本节课，我们将深入探讨一个具体的应用场景：为分类问题选择度量标准。

在许多机器学习应用中，不同类型的错误具有不同的现实成本。例如，在医疗诊断中，假阳性（误诊为患病）和假阴性（漏诊）的代价截然不同。因此，选择一个能反映这些不对称成本的评估指标至关重要。然而，指标的选择本身就是一个复杂的偏好学习问题。

分类问题中的度量选择

在二元分类问题中，模型的性能通常通过混淆矩阵来描述。混淆矩阵包含四个基本元素：

真正例：模型预测为正，实际也为正的样本比例。
真反例：模型预测为负，实际也为负的样本比例。
假正例：模型预测为正，实际为负的样本比例。
假反例：模型预测为负，实际为正的样本比例。

一个线性分类度量可以表示为这些元素的加权和。例如，一个加权错误度量可以写成：
总成本 = a1 * 假正例率 + a2 * 假反例率
其中，a1 和 a2 是权重，反映了不同类型错误的相对成本。我们的目标是找到与利益相关者偏好最匹配的权重 (a1, a2)。

利用几何结构简化问题

混淆矩阵的元素并非完全独立。在二元分类中，混淆矩阵实际上只有两个自由度。更重要的是，所有可行的混淆矩阵点构成了一个凸集，其边界可以通过对条件概率模型 P(Y=1|X) 设置不同的阈值来获得。

这意味着，寻找最优权重 (a1, a2) 的问题，可以转化为在一条一维的边界曲线上寻找最优操作点（即最优阈值 δ）的问题。这个几何特性极大地简化了搜索空间。

基于主动学习的度量优化算法

既然我们将度量选择问题转化为在一维边界上寻找最优点，我们就可以使用高效的搜索算法。在无噪声的理想情况下，一个直接的方法是二分搜索。

以下是算法步骤：

首先，我们训练一个能输出条件概率 P(Y=1|X) 的模型。
该模型定义了一条性能边界曲线（类似于ROC曲线）。
我们在边界上选择两个点（对应两个分类器A和B），展示给人类利益相关者。
询问利益相关者更偏好哪个分类器的性能表现。
根据回答，我们可以确定最优偏好点位于边界的哪一侧，从而将搜索区间减半。
重复步骤3-5，直到将最优点的位置定位到足够小的区间内。

这种方法的查询复杂度是 O(log(1/ε))，其中 ε 是期望的精度。在特定假设下，这可以被证明是最高效的方法。

处理噪声与扩展

上述二分搜索方法假设利益相关者的反馈是确定且一致的。在实际应用中，反馈可能存在噪声。对此，我们可以采用概率化的二分搜索变体。

该变体为可能的阈值维护一个概率分布（先验）。每次获得人类反馈后，根据反馈更新这个分布（后验）。当某个阈值区域的概率质量超过一定阈值（如0.5）时，算法终止。这种方法对反馈噪声更具鲁棒性。

此框架还可以扩展到多类别分类、公平性约束度量选择等更复杂的场景。

总结

本节课我们一起学习了度量优化，这是偏好学习在分类模型评估中的一个具体应用。核心要点包括：

度量选择至关重要：即使在简单的二元分类中，选择反映错误不对称成本的度量也是一个重要的偏好学习问题。
利用几何结构：通过分析混淆矩阵的凸性及其与阈值分类器的关系，我们可以将度量选择问题转化为一维边界搜索问题。
高效主动学习：使用二分搜索或其概率变体，可以高效地向人类利益相关者进行查询，从而找到最符合其偏好的度量权重。
通用框架：这种将模型训练（预训练）与基于偏好的阈值微调（偏好调优）相结合的思路，具有更广泛的启示意义。

通过本节课，我们看到了如何将偏好学习、主动学习和特定的问题结构相结合，构建出高效且可解释的算法，以解决现实世界中的模型评估与选择难题。

4：机制设计

在本节课中，我们将要学习机制设计。机制设计是一个有趣的工具，它结合了我们之前讨论过的一些思想，例如社会选择、投票理论，以及我们在投票讲座末尾提到过的博弈论思想。我们将阐明这些领域之间的联系。今天讨论的部分工作建立在之前内容的基础上。

之前我们主要关注偏好建模和偏好优化。本节中，我们将探讨类似的思想，但将其置于一个战略或博弈论的环境中，其中参与者可能具有对抗性或采取各种策略性行为。希望在本节课结束时，这些概念会变得更加清晰。

机制设计概述

对于不熟悉机制设计的同学，我们先进行一些背景介绍。该领域的一个定义是“规则制定的科学”。其核心思想是：如何设计一套规则，使得即使参与者选择采取策略性行为（例如，追求自身利益、根据自身偏好行事或以他们选择的任何方式参与），整个生态系统仍然能够正常运行，并导向一个理想的结果。这类似于社会选择中的设定，设计者的部分职责是决定什么是理想的结果，然后设计干预措施或“游戏规则”，以确保即使参与者采取策略性行为，也能达到该结果。

机制设计借鉴了多个研究领域，传统上主要在经济学中研究，并大量借用了博弈论的思想。近年来，随着大型互联网公司的兴起，它在现实计算任务中变得极其有用，因此在计算机科学文献中也得到了越来越多的研究。这包括计算复杂性等问题，以及当机器学习模型成为机制一部分时，如何在其学习过程中进行思考。

机制设计的成功应用

我将介绍一些机制设计思想（尤其是拍卖思想）产生影响的现有例子。例如，在无线电频谱的投标过程中，机制设计被用来建立一个投标流程，即使参与者显然是自利的（他们希望最大化利润），也能确保获得良好的结果。

这些想法在许多网络公司中被大量使用。例如，亚马逊在决定商品定价和排序时，大型网络搜索公司在广告购买过程中也使用了这些思想。谷歌的搜索广告背后就由这种技术驱动。2016年，谷歌790亿美元的广告收入占总收入896亿美元的绝大部分。Facebook的情况类似，其广告收入也占据了主导地位。这些广告流程背后的核心思想大多源自机制设计。

因此，机制设计是一个近年来对社会产生巨大影响的领域，因为它带来的工具已被广泛用于各种定价决策和集体决策。

机制设计中的核心问题

对我们而言，一个关键问题是：我们能否推断出参与者真实的经济偏好？ 这里的经济偏好可以理解为不同利益相关者（例如买家）对特定物品的实际价值或愿意支付的价格。

在一个机制中，机制需要决定哪些买家获得哪些物品，以及他们为每件物品支付多少费用。其根本目标是，支付金额应与物品对个人的实际价值相称。一个经济上良好的结果可能是：对物品估值最高的人，如果按其真实价值出价，就能赢得该物品。

例如，在一个咖啡店场景中，物品可能是咖啡、纸杯蛋糕，或咖啡加纸杯蛋糕的组合。有两个潜在买家，他们对这些物品有不同的估值。机制的任务是设计一个交互系统，使得例如，对纸杯蛋糕估值最高的人能赢得投标。

需要指出的是，这里的买家有动机采取策略性行为：他们想要物品，但也想尽可能少付钱。因此存在一种张力：他们可能试图“博弈”系统以支付更少，同时对正在出售的物品组合有内在价值。

设计者的目标与社会结果

一个高层次的观点是，设计者需要决定什么是社会期望的结果。许多此类问题的框架将收入最大化作为期望的结果。设计者也可以选择设计一个机制来实现不同的目标，例如福利最大化。在实践中，我们今天讨论的大部分内容将围绕最大化收入作为社会利益来展开，同时处理参与者的策略行为，并确保我们不被策略行为所愚弄。

这种框架也适用于偏好，因为偏好可以被视为人们愿意为物品支付的价格。虽然我们讨论过许多不易经济量化的偏好，但对于许多应用，特别是当偏好可以经济化时，这种方法非常有用。

简单的定价与拍卖机制

在机制设计的背景下，我们如何决定向人们出售物品？一个明显但不那么有趣的方法是设定固定价格，就像大多数非拍卖场景一样。你为每件物品设定价格（例如咖啡1.5美元，纸杯蛋糕3.5美元），人们根据其价值决定是否购买。组合价格可能是单个价格之和。在这种设定下，如果某人以某个价格购买了物品，你至少知道他们的估值高于你的标价。

另一种方法是进行拍卖。每个人对一组物品出价，出价最高者赢得物品。你可能会希望人们出价与其对物品的实际估值相关，但他们可能不会。实际上，许多文献都在探讨买家在这种设定下可能采取的行为以及他们如何试图博弈系统。

例如，在一个标准拍卖中，如果你是最后一个出价者，你可能会尝试获取信息，然后只比当前最高价高出一点点来赢得拍卖。对于采取策略的个人来说，这似乎是合理的做法。但如果社会目标是最大化收入，这可能不是一个好结果；对于了解人们的真实效用或价值，也可能不理想。

第二价格拍卖

另一个流行的方法是第二价格拍卖。每个人出价，但获胜者支付的不是自己的出价，而是第二高的出价。为什么这可能有趣？它部分缓解了刚才讨论的策略问题。

然而，如果我知道我只需要支付第二高价，我是否可以出价一个极高的数字（如100万美元）来确保获胜？理论上可以，但其他参与者可能会采取对抗策略，将第二高价推高到远超你实际价值的水平，导致你支付过高。为了缓解这个问题，可以引入保留价。卖家设定一个最低售价，获胜者支付的价格是保留价和第二高价中的较高者。这避免了买家合谋出价过低或估值不匹配的问题。

形式化设定

更形式化地设定：假设有 M 件物品和 N 个买家。每个买家对物品集合中每个可能的物品组合（称为“捆绑包”）都有一个估值。这个估值列表有时被称为买家的“类型”。

在销售设定中，机制由两个主要函数定义：

分配函数：决定哪些买家获得哪些物品。
支付函数：决定每个买家参与机制后支付多少金额。

通常可以衡量收入，即所有参与买家支付金额的总和。根据机制的具体设计，买家可以出价任何他们想要的金额。由于策略性动机，他们可能不会出价其真实价值。

机制设计的理想属性

在设计机制时，通常希望具备一些核心属性：

激励相容性：激励参与者如实报告其真实估值。从设计者角度看，这通常是目标，无论是从经济收入最大化角度，还是从偏好获取角度（真实估值反映了对物品的偏好）。
个体理性：从买家角度看，参与机制不应比不参与更差。这降低了他们选择参与的门槛。

第二价格拍卖的激励相容性

一个重要的主张是：第二价格拍卖是激励相容的。这意味着每个投标人通过如实出价（即出价等于其真实估值）来最大化其自身效用，而无法通过策略性地高报或低报其估值来获得更好结果。

效用在这里定义为：效用 = 估值 - 支付金额（如果获胜），否则为0。

为什么这是真的？

策略性高报：如果某投标人原本就是最高估值者（即会获胜），高报不会改变结果（仍获胜）和支付金额（仍是第二高价），因此没有额外收益。如果原本会输，高报可能导致获胜，但支付金额（第二高价）可能超过其真实估值，导致效用为负。
策略性低报：如果原本会赢，低报可能导致输掉拍卖，效用为零。如果原本就会输，低报仍然会输，效用为零。

因此，对于理性的投标代理，最佳策略是如实出价。

第二价格拍卖也具有个体理性：当投标人如实出价时，他们参与拍卖不会比不参与更差（要么以低于其估值价格获胜获得正效用，要么不获胜但也没有损失）。

激励相容性的分析层次

分析IC属性时，根据投标人拥有的信息量不同，有不同的层次：

事前IC：假设所有投标人的估值来自某个已知分布，机制确保在期望意义上真实性是最优策略。
事中IC：投标人知道自己的估值和其他人估值的分布，真实性仍是占优策略。
事后IC：投标人知道所有人的实际估值（最强条件），真实性仍是最优策略。

其他机制与挑战

世界上存在许多其他机制，如第一价格拍卖（获胜者支付自己的出价，常用于展示广告），已知其不具有激励相容性。许多赞助搜索广告使用广义第二价格拍卖，虽然已知其不完全具备IC属性，但目前仍是最流行的部署算法。

其他更复杂的组合拍卖等，要么已知不具备IC，要么分析尚未完成。挑战包括计算估值成本高、规则解释困难、出价过程与机制参数可能存在信息泄露，以及参与者可能并非风险中性（这违反了机制的基本假设）。

还有关于近似激励相容性的研究，衡量对完全IC的偏离程度。

收入最大化：迈尔森拍卖

第二价格拍卖虽然具有IC，但并非收入最大化的。对于单物品拍卖，迈尔森拍卖在保持IC的同时实现了收入最大化。

其核心思想是引入虚拟估值。假设买家估值服从某个分布F（支持在[0,1]）。虚拟估值函数定义为：
φ(v) = v - (1 - F(v))/f(v)，其中f(v)是概率密度函数。

机制流程：

收集所有买家的出价。
计算每个出价对应的虚拟估值。
如果所有虚拟估值都小于0，则不分配物品。
否则，将物品分配给虚拟估值最高的买家。
获胜者支付的价格是：使该买家虚拟估值恰好等于其他买家中最高虚拟估值（且≥0）的那个真实估值（通过φ的反函数计算）。

这可以看作是在第二价格拍卖基础上增加了基于分布的调整。在买家估值独立同分布的特殊情况下，迈尔森拍卖等价于一个带有特定保留价的第二价格拍卖。

对于多单位同质物品的拍卖，也有最优收入最大化的IC机制。但有趣的是，据我所知，即使是两个异质物品的最优收入最大化IC机制，目前仍然是一个开放问题，这是一个非常困难且有趣的理论挑战。

机制设计与机器学习

随着现代竞价基础设施中机器学习模型（用于预测价格、展示位置等）的普及，有许多工作试图将学习方法与机制设计结合起来。

数字商品与信息不对称

数字商品（如AI生成的文本、图像）的定价带来了独特挑战，即信息不对称。在标准拍卖中，买家在出价前知道物品是什么。但对于数字商品，卖家在完成生成（如提示词补全）前不知道成品的具体价值，买家在购买前也无法评估成品质量。这造成了一个循环：卖家需要定价才能决定是否生成，但生成前又无法准确估值。

一种解决思路是使用基于成对偏好的机制。机制通过向买家展示选项（例如，“你更喜欢这个补全还是那个补全？”或“对于这个补全，你愿意支付2美元吗？[是/否]”）来学习预测买家对特定补全的估值。在初始学习阶段后，机制使用预测的估值进行第二价格拍卖：对于每个请求，预测每个潜在买家的估值，将补全分配给预测估值最高的买家，并让其支付第二高的预测估值。这种方法旨在信息不对称的情况下，仍能实现高收入和近似激励相容。

这个想法也可以反向应用于有害内容标注的补偿。将标注者可能遭受的心理伤害视为负效用（负估值）。目标是最大化社会福利（即最小化总伤害），并通过机制自适应地补偿标注者，补偿金额与其可能遭受的伤害相关。这可以看作是一种“反向拍卖”，其中“支付”是给标注者的补偿。通过成对偏好反馈（例如，“任务A比任务B更令你不适吗？”）来学习预测伤害程度，并应用第二价格逻辑来确定补偿金额，可以在使用较少信息的情况下，实现比统一补偿更好的福利分配和更低的遗憾。

总结

本节课我们一起学习了机制设计。机制设计是关于设计规则的科学，使得即使参与者采取策略性行为，系统仍能导向期望的社会结果。我们主要关注它如何与获取利益相关者真实偏好以及优化相结合。

核心评估指标包括：

激励相容性：参与者被激励如实报告偏好。
个体理性：参与机制对参与者没有坏处。
收入或效用最大化（或其他社会福利概念）。

我们探讨了第二价格拍卖的IC属性，介绍了收入最大化的迈尔森拍卖，并讨论了机制设计与机器学习交叉领域的前沿问题，特别是在信息不对称的数字商品场景和有害任务补偿中的应用。

下节课，我们将有一位特邀讲座嘉宾，讨论与在线学习、A/B测试和偏好优化相关的主题。

5：以人为中心的设计 🧑‍💻

在本节课中，我们将要学习如何从以人为中心的设计视角来思考人工智能技术。我们将探讨人机交互领域的基本理念，了解如何将设计思维应用于构建更易用、更符合人类需求的AI系统，并讨论如何评估这些系统的有效性。

引言：从“诺曼门”到AI交互

今天的主要议题是以人为中心的设计。

本次课程内容参考了D Ynk等人的教程，这些材料对于构建本讲内容非常有帮助。虽然这不是我的核心研究领域，但我认为它对于本课程乃至更广泛的领域都非常重要。

我们将主要关注人机交互领域的观点和方法，以及它们如何帮助我们思考在人类与AI交互场景中的问题。这与之前我们主要关注技术方法的课程有所不同。我的目标是阐述本课程中的大部分技术性主题如何融入一个更广阔的、以人为中心的思考框架中。

如果说本课程之前的内容聚焦于一个相对“狭窄”的技术范畴，那么人机交互则为我们思考如何解决我们真正关心的问题提供了一个更广阔的视角。

什么是人机交互？

如果你不熟悉，人机交互是一个广泛关注从人类视角设计技术的学科。它与大多数工程学和计算机科学领域形成对比，后者通常从一个工程问题出发并直接寻求解决方案。

当然，为了阐明观点，我会对许多领域的观点进行一定程度的简化。现实中，一切更像是一个连续谱，而非如此极端。

一种思考方式是，将科学方法应用于设计艺术。正如Nielsen所说，其目标是“消除人们实际行走的路径”。一个有趣的例子是“诺曼门”。你可能遇到过这样的门：试图打开它时却遇到了麻烦。问题可能在于不知道如何操作它。例如，是推还是拉？门上有个把手，但它的作用不明确；或者有多个可以操作的地方，但不知道哪个才是正确的。有时，它既不能推也不能拉，实际上是一扇滑动门。

对于这个问题，有很多思考方式。你可以说我们不够聪明，无法与技术互动。但我认为，本次讲座的核心论点是：这种想法是错误的。

正确的方式是认识到这是糟糕的设计。世界上存在一些基础设施（比如门，广义上也包括我们正在构建的人工智能工具），它们对人类不友好。论点在于，它们不友好是因为设计不当。因此，我们可以思考如何通过不同的设计来让它们更好地为人类服务。

我认为，本课程的核心内容（至少是我将采取的框架）是：基于人类偏好的学习是构建更好AI技术工具箱中的一个强大工具。

这是一个类比，但正如前面提到的，你可以将这种思考方式应用于AI，而不仅仅是门。例如，对于一扇门，用户关心的问题是“我如何进入房间？”（推、拉、滑等）。而对于AI技术，用户关心的问题通常是“我如何使用某个AI来解决特定任务？”

这就是用户与技术互动时想要做的事情。还有用户实际最终做的事情。对于门，这可能是问自己：“我如何操作这扇门才能进入另一个房间？”对于AI，特别是在2024年，我们与语言模型互动的主要方式是思考：“我需要什么样的神奇提示词，才能让这个语言模型做我想让它做的事？”

在某些方面，这就是世界的现状。但人们可能会认为，世界以这种方式存在真的很奇怪。我们构建了这个工具，本意是解决各种任务，但我们与之互动的方式却需要进行这种“我能创造出某个神奇提示词吗？”的心理体操。

最后，还有用户如何学习使用这个工具的问题。在建筑环境中，比如门，人们可能从之前的遭遇中学习。如果你撞到一扇门，下次可能就不会再撞了（至少在短期内）。或者你会阅读标签、猜测最可能有效的方式，然后尝试，希望最终成功。对于AI工具，学习可能意味着掌握创建好提示词的“秘诀”，与他人交流，或者遵循一些“提示词指南”。许多人只是不断尝试，直到找到有效的方法。

这里需要强调的是，这在AI技术使用中是一个真实存在的问题。这里的论点是，在一个设计良好的世界里，这不应该成为问题。这反映了我们工具设计的失败，使得互动过程变得混乱、不清晰，结果也不确定。

优秀设计的特征：技术应“消失”

有人可能会认为，设计良好的技术目标应该是：你甚至不会意识到背后投入了大量努力。技术越是完美，你就越不会注意到它。正如Mark Weiser所说：“最深刻的技术是那些消失的技术，它们将自己融入日常生活的结构，直到与之无法区分。”

我认为，这部分也源于人类心理：一旦事物变得足够简单直接，它们就会退居幕后，成为自动化的过程，我们不再需要费力思考如何与技术互动。很多这种“消失”可以通过更好的设计来实现，使得技术直观易用，学习曲线平缓。

例如，好的技术不需要说明书，使用一两次后，你几乎感觉不到它的存在，或者至少不再需要思考如何操作。好的例子包括各种指点设备（尽管我的有时会出问题）、触摸屏等。这些技术直观易用。本次讨论的部分内容将涉及如何使AI技术本身变得更直观、更易于互动，并简要提及我们讨论过的一些偏好学习方法如何使这更有效。

弥合人类与计算机之间的鸿沟

那么，思考这个问题的人是如何做的呢？一种方式是思考如何弥合人类能力（或人类功能）与计算机擅长或不擅长的事情之间的鸿沟。这两个轴都很重要，因为技术会随着时间推移而进化、变得更好。随着技术进步，我们通常更容易想象如何更好地弥合技术功能与人类功能之间的差距。

从扩展计算机功能的方向看，从早期的打孔卡（需要高度专业化操作），到命令行（仍然有用但需要高专业知识），再到图形用户界面（让人们通过指向看起来像他们想做的事物的图片来互动），以及指点设备、触摸屏等。可以说，特别是在个人计算领域，我们通过努力弥合了计算机最初擅长的事情与人类觉得容易做的事情之间的部分鸿沟，使得技术变得无处不在且易于使用。

在图形用户界面方面，一些思考包括使用隐喻或对象（图标看起来像你想做的事情），以及使操作变得直观。手机等设备在这方面做了大量工作，使其越来越直观易用。许多VR/AR领域的工作也可以被看作是试图找出这座桥梁，使与计算的互动更容易。

从技术中心设计到用户中心设计

我认为，我们许多人最擅长的是纯粹从技术角度推动技术发展：我们只是想得到一个好工具，我们可能没有充分考虑用户，或者我们对用户有一个抽象的概念，而不是真实的用户。我们通常追逐某个数字指标。这可以被称为技术中心设计。当技术成熟且存在既定的互动规范时，这种方式可能很有用。我认为很多AI工作大致处于这个空间。

另一方面是用户中心设计。你思考的是如何让用户最高效地解决他们的问题。在这里，你具体思考利益相关者的问题、需求和关注点，你的设计过程旨在让他们易于解决。

技术中心设计的一个潜在后果是，任何你构建的工具都可能被应用于各种场景，因为你并非为解决特定问题而设计，你只是有一个很酷的工具或技术，然后去寻找它的应用场景。

这里的重点不是说技术中心设计没有用或没有立足之地，而是说它解决的是一个与用户中心设计完全不同的问题，后者专注于让用户易于解决问题。

设计思维：从“为什么”开始

那么，人机交互领域的关键方法之一被称为设计思维。它挑战了工程师、计算机科学家处理问题的方式。粗略地说，最让我们兴奋的通常是关键的技术问题。我们找到一个（可能表述清晰的）问题，然后我们的工作就是找到这个问题的解决方案，也许再写几篇论文。我们思考问题的其他解决方案，我们的工作就是迭代不同的解决问题的方法。

设计思维要求重新构建这个视角：不是从“这里有一个问题，有什么解决方案”开始，而是拿着问题，回过头去问“为什么”。例如，为什么这个问题需要解决？你尝试进行多次迭代（有时被称为“五个为什么”，“五”这个数字并不重要，关键是鼓励深入思考）。其核心是鼓励你仔细、深入地思考你真正想解决的问题是什么，识别问题的根本原因，而不是停留在表面。

这可以引向不同的方向。亨利·福特有一句名言：“如果我问人们想要什么，他们会说更快的马。”这是在汽车量产之前。你可以想象，人们需要从A点更快地到达B点，当时的解决方案是使用马，所以人们自然会想到让马更快。但设计思维鼓励你思考：“有没有其他工具可能解决这个实际问题？”（汽车就是一个不同的、可能更好的解决方案）。

在这种设计语境中，框架设定通常被视为一个关键的创造性步骤，能够产生原创性的解决方案。设计师报告称，当客户提出一个问题时，需要“找到问题背后的问题”，有时这也被称为创造新视角。

这种方法引导你的是：不是从问题直接跳到解决方案，而是问许多“为什么”问题，比如“为什么这是个问题？”“我能做什么？”“这个问题的根本原因是什么？”这可能会将你推向一个不同的方向。

双钻模型：发现、定义、构思、实现

为了将这种方法操作化，一个流行的方法是双钻模型。第一个“钻石”是关于问题的，在这里你提出所有“为什么”问题；第二个“钻石”是关于解决方案的。之所以称为“钻石”，是因为你首先有意地进行发散：提出范围广泛的问题，然后最终收敛到一小部分事物，即问题的根本原因。同样，你可以在解决方案侧做同样的事情：发散思考所有可能的互动方式，但你对根本原因以及用户背景和能力的理解越好，你就越能为该背景确定一个好的解决方案。

更详细地说，发现问题的发散部分有时被称为发现，包括研究等；然后你定义具体的根本原因，有时被称为综合，将事物组合在一起。在解决方案侧，你有一个构思步骤，开发多种思考潜在解决方案的方式；然后你实现或交付最终的解决方案，通常会得到一个可能的最佳解决方案。

对于第一步（发现），有很多工具可用，包括实地研究、访谈、调查，以了解环境因素、背景、不同需求（如教育水平）、市场研究、不同利益相关者等，从而更好地理解问题背后的“为什么”。一旦你有了广泛的理解，你就尝试缩小到特定问题的根本原因。有用的技术包括参与式设计（与利益相关者共同讨论以达成共识）、分析方法（了解不同任务或人员之间的关系）、亲和图（帮助进行逻辑分组）等。希望在这个步骤结束时，你能识别出一个或一小部分根本原因，它们比最初可能模糊的问题表述更深层次。

在解决方案侧，当你开发时，可以使用的工具包括故事叙述（设想用户处于特定情境，思考不同解决方案如何与该用户互动）、原型设计（快速构建粗略的解决方案，感受其在多大程度上满足用户需求），最终尝试得到一个最小可行产品，作为满足根本原因需求的最终解决方案。

需要说明的是，虽然这是一个有用的概念框架，但对于许多有趣的事物（无论是研究还是产品），实践过程通常不是一次性的，而是迭代的。你观察、产生想法、理解根本原因、构建原型、测试、部署、发现缺失之处、再次观察……可以将其概念化为一个不断扩展的循环，随着时间的推移，你希望更好地处理问题。

人-AI交互：一个新兴领域

对于我们这门课程来说，最相关的是当我们对人-AI交互感兴趣时，这类思考意味着什么。越来越多地，这正在被形式化为一个领域。在不同的抽象层次上，人们将其命名为人-AI交互、人-LLM交互、人-VLM交互等。这在一定程度上是技术专家的思维方式，因为他们锚定在特定的技术类型上，而不是仅仅解决问题。但这可能是组织一套技能和工具的有用方式，以思考如何用这些工具或技能解决有用的问题。

一种思考方式是将其视为一个领域或子领域，关注人类与AI的互动。这里的“人类”包括研究人员、模型开发者、专家，也包括最终用户。每一类都有不同的需求、目标和背景，需要思考如何为这些潜在最终用户构建解决方案。这里的“AI”则聚焦于语言模型、对话系统、音频系统、推荐系统、自动驾驶等各种技术领域。你可以思考如何结合不同的人类与不同的技术工具来解决现实世界的问题。

“交互”部分可能是关键的新事物，思考互动可能如何进行：可以是协作的、辅助的（AI协助甚至解决问题）、理解的（人类试图理解AI工具）等。因此，在高层次上，该领域试图将自己设定为思考不同的利益相关者、不同的AI工具或技术，以及不同的互动机制和弥合整体问题的方法。

如何解决人-AI交互问题？

那么，如何解决这个问题呢？第一步通常是弄清楚你试图与之互动的人类是谁。在研究中，你通常有一定自主权；在产品中，可能由产品定义。同时，AI语言模型或其他工具通常已经存在，但需要改进以弥合接口鸿沟。

关键步骤包括：

设计：他们为什么应该互动？需要做什么来实现？在什么情境下？
实现互动：我们如何实现这种互动？根据设置和背景，可以运用什么来使互动更容易？

我认为，中间这部分的大部分工作是关于工具的。我们在本课程中涵盖的大部分内容，在某种程度上都可以被视为可以用来使互动更容易的工具。因此，这个“实现互动”的问题包括：我能否通过个性化、通过从人们那里获取成对偏好（本课程主要涵盖成对偏好，但也会简要介绍其他获取偏好或选择的方式）来更好地理解或减轻互动的负担？所有这些都被视为实现人类与广义AI之间互动的技术工具。

评估：我们还没有深入讨论，但非常重要。我们将花一些时间讨论，特别是在我们将所涵盖内容置于简化人类与AI针对特定问题互动的更广泛背景下时，评估可能是什么样子，以及思考评估工具的不同方式。

案例研究：改进图像生成的交互

构建交互系统的好方法包含许多不同的组成部分。一些包括思考利益相关者是谁（考虑人类认知、感知）、信任和依赖（你希望用户能在适当的时候依赖工具）、公平性、问责制、透明度、伦理（我们会有单独的讲座更多讨论这些主题），以及个性化、适应性和轻松提供反馈等。

关于信任和依赖：信任是对可靠性、诚信、诚实等的评估，本质上是人类属性（尽管我们越来越多地将其类比应用于机器）。依赖是依赖于某人或某物执行特定功能或任务，无论信任是否存在。设计挑战包括设计整体系统，使其处于“适当依赖”的状态（既不过度依赖，也不依赖不足）。实现方式可能包括提供解释、显示不确定性、允许用户决定何时查看结果、显示处理过程以帮助用户建立心理模型等。

关于公平和问责：公平问题确保工具不会基于性别、社会经济因素等表现出巨大差异。问责制涉及衡量错误的后果并将其纳入系统评估和构建中。透明度（解释技术内部运作）和伦理（思考人类与AI互动的伦理含义，以及AI决策在多大程度上匹配人类伦理原则和价值观）也是重要方面。

此外，还需要思考互动如何开始。一端是人类作为发起者（人类作为创造者，使用计算机作为工具），目标是让人类易于发挥创造力。另一端是计算机作为发起者（计算机自动部署某些东西，人类是受众），目标是使计算结果具有创造性以满足需求。许多现实世界的事物介于两者之间，是混合发起的协作式人-AI互动。混合发起系统允许协作，用户和系统在执行任务和决策中扮演积极角色。要做好这一点，必须将自动化服务与鼓励创造性的直接操作结合起来。

如何评估人-AI交互？

现在，让我们转向评估人-AI交互。一些关键问题包括：如何评估、评估什么、谁来进行评估、何时评估。

关于“如何评估”，有几个方向：方法、类型和指标类型。

方法：包括定量评估（找到量化你期望结果的数字，如任务完成时间、正确回答的问题数量）和定性评估（通过调查、访谈等方式，了解用户喜欢什么、感到沮丧的原因）。在好的设计研究中，通常会进行某种定性评估。对于语言模型，基准测试的定量评估与人们的使用体验常常存在差距，这表明我们需要更好的、能捕捉人们喜好的定性或定量工具。
评估类型：包括内在评估（直接评估模型本身在与其性能直接相关的任务上的表现，可能不涉及用户，如对数似然、基准测试完成度）和外在评估（评估模型在真实世界下游任务中的帮助程度，在特定用例背景下进行评估）。内在评估通常更快，外在评估可能更慢但能弥补内在评估的差距。
指标：随着时间推移，人们尝试验证一系列不同的指标来量化各种工具，例如生产力（如添加的代码行数）、成本等。设计决策包括是依赖现有经过验证的指标，还是提出更能捕捉背景的新指标。

关于“评估什么”，可以是模型本身、人机交互界面，也可以是端到端的整个系统。通常，好的评估会分别进行这些评估，然后考虑端到端的整体效果。还可以考虑评估的不同目标，如效用、满意度等，并使用不同的指标（如代码是否通过测试、与参考代码的相似度、人类对代码结果的偏好等）。

关于“谁来进行评估”，可以是外行、领域专家，也可以是自动化评估（如使用LLM作为评判者越来越流行）。目标用户群体（专家、普通用户、教师、学生等）会对评估过程产生重大影响。

关于“何时评估”，有不同的时间尺度：互动时的即时评估、短期互动评估（观察几轮互动）、长期评估（部署工具数周、数月甚至数年进行纵向研究）。这些都是构建人-AI交互设计问题评估工具时需要做的重要设计决策。

总结

本节课我们一起学习了人-AI交互，以及与之相关的设计决策。我们讨论了人机交互领域处理这些问题的动机、基础工作和影响，以及如何实施这些想法的一些思路。

如果做得好，目标是可以利用各种AI技术，以真正解决人们问题并尊重其需求、目标和现实世界背景的方式。

我们探讨了几种不同的视角：

实现人-AI交互：例如，帮助AI工具持续从互动中学习（如偏好学习）、使工具更个性化（或考虑社会选择作为高度个性化的替代方案），以及分析这些对不同利益相关者决策的影响。
评估：思考用例、用户与各种评估机制之间的映射关系，包括评估过程的不同时长、定性与定量评估等问题。评估本身也成为一个设计问题，需要选择最适合你所构建内容及其背景的评估设计方案。

通过以人为中心的设计思维，我们可以致力于构建那些“消失”在背景中、直观易用、并能真正赋能人类解决复杂问题的AI技术。

6：伦理与价值对齐 📚

在本节课中，我们将探讨价值对齐的核心概念、其面临的挑战，以及如何从哲学和技术角度思考“让AI做我们真正想做的事”这一复杂问题。课程最后，我们还将简要介绍期末项目所需的伦理与社会影响声明。

课程概述

价值对齐是确保人工智能系统按照人类真实意图、偏好或利益行事的关键问题。然而，“我们真正想要的”这一概念本身充满歧义，可能导致不同的技术路径和哲学难题。本节将梳理价值对齐的几种主要解释，并通过案例讨论其实际含义。

什么是价值对齐？🤔

价值对齐是一个对不同人群可能有不同含义的术语。为了说明这个问题，我们可以参考哲学文献中的一个经典思想实验：回形针最大化AI。

这个例子由尼克·博斯特罗姆提出。假设一个被设计用于管理工厂生产的AI，其最终目标是最大化回形针的产量。最有效的方法可能是建造更多工厂，将岩石转化为回形针，最终将整个地球乃至可观测宇宙都变成回形针工厂。显然，这是一个价值错位的例子。

广义上说，价值对齐问题讨论的是如何设计能够做我们真正想做的事情的AI智能体。我们真正想要的，往往比我们口头表达的更为微妙，并且包含了许多我们视为理所当然、难以形式化的背景假设。

你可能会认为，这只是指令给得不够好的问题。但仅仅通过给出更好的指令来解决这个问题可能很困难。例如，你可以尝试给出一个具体的回形针生产数量上限。这或许能阻止AI将整个地球变成回形针，但可能无法阻止它为了获取原材料而拆除管道或将工人锁在工厂里。

一旦某个具体的失败案例摆在面前，我们很容易想到应该补充什么指令来覆盖它。困难在于，我们很难提前预见到所有可能的失败情况。当任务足够复杂时，手动指定奖励函数会变得非常困难，因为AI可能会以你意想不到的方式解决问题。

对于从非专家用户那里接收指令的AI来说，这个问题更加严重。设计一个供任何人使用的系统时，更难预见这些问题并给出好的指令。

价值对齐的不同解释 🧭

“让AI做我们真正想做的事”这个说法很模糊。如何理解它，将影响你在哲学上和技术上处理价值对齐问题的方式。

1. 与用户意图对齐

一种理解方式是，价值对齐是设计能够做我们真正意图让它们去做的AI智能体的问题。在回形针AI的案例中，问题在于它未能从我“最大化生产”的指令中推导出我的真实意图，即“在特定约束下最大化生产”。

如果这是问题所在，那么解决方案就是设计能够成功进行这种“翻译”的AI系统。它们能够接收不完整的指令，并自行填补所有我心中有、但未言明的背景条件。正如AI研究者贾森·加布里埃尔所说，要真正掌握指令背后的意图，AI可能需要一个完整的人类语言和互动模型，包括对文化、制度和实践的理解，这些让人们能够理解术语的隐含意义。

这里也存在一个哲学问题：我们的意图并不总是与我们在相关意义上真正想要的东西一致。例如，我让AI最大化回形针产量的原因可能并非出于对回形针的热爱，而是因为我想赚钱。如果AI知道投资别的东西能赚更多钱，那么它执行我的意图（最大化回形针产量）是否就给了我真正想要的东西？从某个意义上说是，但从另一个更重要的意义上说，可能不是。

2. 与用户偏好对齐

这是对“我们真正想要什么”的第二种解释：我们希望智能体做用户偏好被完成的事情。这与用户的意图可能不同。在这种解释下，回形针AI是错位的，因为我偏好它不通过破坏管道或毁灭世界来生产回形针。

这里，广义上的问题是如何让智能体在用户偏好与其表达的意图不同时，推导出用户的偏好。解决方案通常是尝试从行为或反馈中推断用户偏好，这本质上也是基于人类偏好的机器学习的核心动机。

当然，这里存在技术挑战。你观察到有限的行为或针对有限案例的反馈，却必须从中进行推断。存在无限多个与你已观察到的数据一致的偏好或奖励函数，你可能会错误地推断。此外，你观察到的多是正常情况下的行为，对于紧急或不寻常的情况——这些可能恰恰是AI与人类价值对齐最重要的场合——数据可能很少。

3. 与用户最佳利益对齐

这是第三种解释：价值对齐是让AI做对用户最有利的事情的问题。回形针AI是错位的，因为它所做的事情（毁灭世界等）客观上对我有害。

这里存在一个技术和哲学相结合的问题：与推断指令的意图或学习揭示的偏好不同，什么是一个人的客观最佳利益，至少部分是一个哲学问题，不能仅仅通过观察人类行为或获取反馈来弄清楚。

坏消息是，哲学家们（以及其他人）对于什么对一个人是客观有益的，存在分歧。有些人认为是幸福、快乐，有些人认为是欲望或偏好的满足，还有些人认为是健康、安全、知识等。好消息是，尽管这些事物的哲学基础存在争议，但大家对列表中的事物（健康、安全、自由、知识、人际关系、尊严等）通常对拥有者有益这一点，存在广泛共识。

这里的一个复杂因素是，自主性——即为自己选择如何生活的能力，即使可能不是最佳选择——被广泛认为是对人有益的事物。这让我们希望避免家长式作风（即替他人选择你认为对他们最好的，而不是让他们自己决定）。因此，即使目标是与用户的最佳利益对齐，对自主性的考虑也可能让我们有理由去尊重用户自己的意图或偏好。

案例研究：个性化新闻聊天机器人 📰

让我们通过一个案例来思考偏好与利益对齐的区别。假设你正在构建一个LLM聊天机器人，目标是作为用户的新闻来源。

以下是一些值得思考的问题：

如果目标是与用户偏好对齐，你希望对聊天机器人进行哪些个性化设置？
如果目标是与用户利益对齐，你希望对聊天机器人进行哪些个性化设置？
这两种方法各有什么优缺点？

讨论要点总结：

偏好与利益可能一致，也可能冲突。 例如，用户可能偏好八卦或谣言，但获取真实事实可能更符合其利益。
利益本身是多方面的，可能相互冲突。 例如，接触多种观点可能符合认知利益，但可能导致情绪困扰。
家长式作风的风险。 如果系统总是提供“对用户好”但非其偏好的内容，用户可能会停止使用该服务。
默认设置的重要性。 即使允许个性化，大多数用户可能不会去调整默认设置，因此设计默认值本身就是一个重要的价值判断。

超越用户：与道德价值对齐 ⚖️

到目前为止，我们的讨论忽略了一个重要方面：用户并非世界上唯一重要的人。因此，价值对齐的一个重要方面（或解释）是让AI与道德价值对齐，即做道德上正确的事。

在回形针AI的例子中，最合理的诊断可能是道德层面的：它毁灭世界对所有人都是坏事。我的利益可能与你的利益相冲突。即使我这个工厂主不反对，我的回形针AI通过奴役工人来最大化生产，也是价值错位的。

当然，即使我们希望AI与道德对齐，我们仍然希望它在道德可接受的范围内与用户想要的东西对齐。因此，如何理解用户想要什么仍然很重要。

与“什么对一个人最有利”一样，“什么是道德上正确的”也是一个争论了数千年的哲学问题。道德理论试图系统地回答这些问题。例如：

后果主义认为，当且仅当一个行为能产生最大净善（对所有人之善的总和）时，该行为才是正确的。功利主义是后果主义的一种。
义务论观点认为，即使能带来好结果，某些行为（如谋杀、偷窃、违背承诺）因其违反了道德规则或权利，也是错误的。

一个问题是，即使我们知道最好的道德理论是什么，如果用户不认同，设计AI按照该理论行事可能是不好的（出于道德或实际原因）。

另一种方法是，既然存在大量道德分歧，也存在大量共识（如不应杀人、应尊重权利、信守承诺等）。我们可以不追求哲学家无法解决的最佳道德理论，而是让AI与人们现有的道德观念对齐，目标不是让AI道德完美，而是让它像任何人一样有道德。

这样做的一个优势是，许多道德理论在边缘案例中会变得很奇怪（比如是否应对门口的杀人犯撒谎）。为AI设定明确的道德理论，可能有点像让它最大化回形针产量，它可能会找出你未曾预见的惊人含义。相比之下，与常识道德对齐的AI可能行为更可预测，因为它学会了像我们一样做决定。但在常识耗尽的边缘案例中，它同样可能不可预测。

期末项目：伦理与社会影响声明 📝

你的期末项目需要一份一页的ESR声明。ESR指伦理与社会影响审查，本质上，ESR之于社会风险，就如同IRB之于人类受试者风险。

越来越多的资助申请和会议投稿要求此类声明。因此，完成这份声明不仅是课程要求，也是为未来可能的需要做准备。

你将收到ESR说明和模板的作业链接。请仔细阅读，它们会告诉你需要写什么。总的来说，你需要在一页纸内：

识别你的研究或项目若部署到现实世界中，可能带来的几个潜在伦理风险。
提出预防或缓解这些风险的策略。

例如：

风险：你的工具旨在服务视力低下用户，但若不考虑他们的视角，可能会疏远他们。
缓解措施：与利益相关者举办一系列协同设计研讨会，获取他们的意见。

声明不需要开创性的伦理研究，但需要展示对你所识别伦理风险的实质性思考。常见的考虑方向包括：

研究中代表了谁的利益？谁的利益可能被排除？如何考虑被排除的利益？
谁可能从项目成功中受益或受害？
对隐私的影响。
滥用或用户误用的可能性：恶意行为者可能如何滥用？用户可能如何意外地有害应用？

总结

本节课我们一起探讨了价值对齐的复杂图景。我们了解到，“让AI做我们真正想做的事”可以有不同的解释：与用户意图对齐、与用户偏好对齐、与用户最佳利益对齐，以及与更广泛的道德价值对齐。每种解释都伴随着不同的技术挑战和哲学难题，没有简单的答案。关键在于，在设计和开发AI系统时，我们需要有意识地思考我们追求的是哪种“对齐”，并理解其含义和局限性。最后，我们介绍了为期末项目撰写伦理与社会影响声明的要求和基本方法，这是将伦理思考融入技术实践的重要一步。

7：投票机制与Polis平台实践 🗳️

在本节课中，我们将学习Colin Mc Gill关于Polis平台的分享。Polis是一个开源平台，旨在通过收集和聚合大量用户的偏好陈述，来理解群体观点并促进共识的形成。我们将探讨其核心方法、技术实现、潜在风险以及与大型语言模型结合的应用前景。

项目背景与介绍 👨‍💼

大家好，我是Colin Mc Gill。我从事一个名为Polis的开源平台项目已有约13年。我将简要介绍我的背景和这个项目，然后探讨其发生的原因。例如，OpenAI的资助项目以及基于Polis的Twitter社区笔记功能，这些都是其底层方法论令人兴奋的应用和潜在联系。

我的本科背景是国际关系和政治学。之后我决定投身初创企业。Polis在2012年至2016年间是作为一个营利性的、具有社会使命的初创公司开发的。我们在2016年将其开源，随后在2019年，这个营利性实体逐渐关闭，并转型为一个非营利组织。从那时起，我的角色也从营利性公司的CEO转变为非营利组织的总裁。如果有人对非营利性技术感兴趣，我也很乐意就此进行讨论和回答问题，因为这是一个非常有趣的模式，类似于可汗学院或近期的Signal，它们都是开源的非营利技术。

该项目在全球范围内拥有用户和部署者。该平台已被英国、芬兰、新加坡、台湾以及荷兰阿姆斯特丹等国家政府以及许多爱好者部署使用。

什么是Polis？🤔

在本次讨论中，我将主要聚焦于我们去年与Anthropic合写的一篇论文，该论文探讨了在Polis这类情境中使用大型语言模型的机遇与风险。我将花大部分时间讨论我们正在构建的内容及其方法论。

首先，明确一下术语。在本次演讲中，“Polis”可能指代几个方面：可以登录免费使用的网站 pol.is；指代技术本身的代码仓库；指代支撑其的指标和方法的论文；也指社区和用户群体。通常，“Polis”泛指这一整个领域，这对开源技术来说有时会有点令人困惑。

Polis的核心机制 ⚙️

Polis最具体的表现形式是一个系统：用户可以提交陈述，这些陈述会随机地、一次一条地展示给其他用户，其他用户可以对它们表示同意、不同意或跳过。这个过程创建了一个稀疏矩阵，我们稍后会回来讨论如何处理它。

基本上，它不围绕回复展开。人们提交的所有内容都是一个原子性的陈述，进入一个池中。然后，当人们对他人提交的陈述进行投票时，系统会记录这些投票。其直观理解是，这像一个“涌现式调查”——由参与调查的人创建的调查，更接近于公民大会，但形式上更正式一些。

其理念是在大规模上理解观点。灵感来源于“占领华尔街”运动和“阿拉伯之春”期间社交媒体激励人们参与政治活动。但像Twitter这样的平台，虽然在动员方面有用，但在促成连贯对话、让人们共同撰写集体文件或精确找到彼此方面存在特定限制。

在“占领”运动中，一个常见现象是，运动中的每个个体都倾向于声称“这就是运动的意义”，并断言自己代表所有人发言。他们可能说对了一部分，但并非全部。这导致了分裂，难以形成共识。因此，能够随着更多人互动而变得更连贯的系统概念非常有趣。

2012年的核心概念是：我们想要收集什么？我们会应用什么算法？长话短说，它涉及对稀疏矩阵进行主成分分析（PCA）和聚类（如K-means），然后我们查看不同群体的共同点。这相当简单，类似于推荐引擎的“通行证”，但也涉及节点学习。这是一个我们可以部署后就不太需要操心的系统，现场协调员可以放心使用，无需担心PCA或K-means会做出什么疯狂的事情。

技术细节澄清：如果我们把每个人提交的每条陈述看作一列，每个参与者看作一行，那么原始数据看起来就像一个矩阵：如果参与者没看到某条陈述，则为空值；如果同意则为1，不同意则为-1，跳过则为0。这种数据结构适合进行PCA，然后进行聚类以识别模式。

这里的聚类对象是人。你可以找到区分这些人群的陈述，而这些陈述集合就形成了一种不同于其他群体的“世界观”。

其启发式方法是：在存在不同思考方式的群体的情况下，找出哪些陈述在不同群体间是共同的。这个指标是我们发表的论文中提出的，并在2013年就已在代码库中实现。这成为了后来与Twitter讨论如何为其“社区笔记”功能实施该概念的基础。其理念是：如果你拥有多元化的观点，能否利用它来恢复关于共识的信号？在存在分歧的背景下，共识是什么？看到这个公式在信息中找到更多依据，真的令人兴奋。

方法的稳健性与对抗性风险 🛡️

从其他对话背景中了解到，您提到了PCA和K-means具有足够的可解释性和可信度，因此在平台中没有风险。您打算更深入地探讨这一点吗？如果不，我想就此问题与您进一步交流。

我理解您将其表述为一个关于稳健性的主张。那么，对于投票矩阵，K-means在表示学习方面有多好？K-means加聚类作为获取共识或相似人群群体的可信方式有多好？反过来说，这是对抗者试图通过攻击底层基础设施来破坏此投票机制的风险之一。我提出这一点是因为，在本课程中，我们已经详细讨论了投票及其稳健性，因此我们了解投票可能不稳健的一些方式。

我猜我也没听到您对稳健性有强烈的乐观态度。我想您知道这一点，因为我们之前讨论过，但我想您能否多说一点？我将您关于对K-means和PCA的信心评论，主要解读为它们属于经典的、相对易于理解的算法，即使非技术人员如果了解技术也可能认为它们是已知的“黑匣子”。信心来源于此，而不是专门研究过通过那些机制攻击共识的稳健性。这样理解准确吗？

我很乐意讨论这个。Polis已经在国家规模的对抗性环境中使用过。我可以指出的一个具体例子是在台湾的使用情况。这篇文章涵盖了Uber试图通过让所有司机参与对话来获取利益的对抗性尝试案例。问题是Uber是否应该合法化以及如何合法化，当时在接触司机方面存在挑战。

台湾政府当时采取的措施之一是向全国开放系统，因为这是一个国家级的系统。如果期望人们来互动，他们可以互动的表面区域非常小——他们可以提交陈述，但如果审核员不让他们通过，那就无效。所以，首先，审核员控制着这一点。那么，基本上，对抗性行为者可以互动的表面区域就是：对陈述表示同意、不同意或跳过。这就是他们可以进行博弈的表面区域。

PCA和K-means是您试图从投票中获取的东西。我们反复看到的情况是，天真的做法是派您想要的人来投票，但这实际上可能只是让一个群体变得更大，可能会扭曲样本，但本质上是一个群体变得更大，不一定能操纵共识。所以，它对第一种攻击方式（即灌票）具有天然的免疫力，因为它只是让一个群体变大。

当然，现在用机器人来做这件事更容易了。现在，从产品角度来说，可以轻松地构建机器人，让它们点击，并指示“我希望你像这样投票”，即使看到新的陈述，也尝试保持一致。您可以创建三个根本不存在的不同集群，以最小化现有集群的影响。我认为这基本上是一场军备竞赛，最终归结到身份验证问题。然后问题就变成了：样本是什么？我们如何知道？这是我们有意回避的问题，因为Polis是一个工具，可以与任何样本一起使用，我们故意对此持不可知论态度。

我认为最终问题确实归结于此。我认为最有希望的方向可能在零知识证明、匿名、已验证身份空间。我一直期待有人能在那个领域做出真正实质性的东西。似乎有一些实验，比如“远程护照”，还有一些像“自由工具”这样的实验。我看到一些广告称他们正在使用零知识护照验证进行匿名投票，例如在一个国家内。他们声称已经在俄罗斯用这项技术进行了公投案例研究。我认为类似这样的技术可能会成为另一层保障。它可能不会成为Polis的一部分，但最终我们可能会与之集成。但我认为目前还没有明确的赢家让我们去这样做。

这是我的答案的第一部分。这是一个好的开始吗？

是的，很有帮助。我将其解读为：目前，风险尚未导致灾难性故障；未来的路径将是其他技术，这些技术将使个体抽样验证更加丰富和准确。您不一定需要处理投票机制本身的稳健性问题，因为您至少能确定投票者是真实的人。至于这些人是否在合谋污染数据，则是另一个问题。

如果他们确实合谋，那么问题就变成了：他们有多不同？我认为一个开放的研究领域是：如果我们认为我们有一些好的对话，并且对群体内的方差有了一定的感知，比如，如果我们打算对某些东西进行聚类或称之为一个群体，那么该群体内部有多少方差？我们目前没有任何检查、指标或方法来判定一个群体看起来是合成的，因为他们都以完全相同的方式投票。当然，如果100个人有完全相同的投票记录，我们可以简单地说出来。如果我们打算让它更混乱，并假设是LLM，或者LLM的投票方式与人类不同（它们投票更一致），那将是一种完全不同的处理方法。

我认为这个领域我们还没有做，但可以去做，并且我认为这是一个开放领域，即如何处理这个问题。

对抗性目标的具体示例 🎯

实际上，是的，接着刚才那个角度再问一个问题。您提到，如果拥有自主代理，可以设想一个世界，或者对抗性地尝试创建，比如按您所说的，三个不存在的不同集群。这显然有一些模糊的坏处，因为它扰乱了实际的意见收集机制。但是，您是否对具体的对抗性目标可能是什么样子有一些概念？如果我试图创建这三个集群，我想优化什么？或者说我的目标是什么？

很好的问题。我们用一个具体例子来说明。假设英国有一个名为“政策实验室”的政策创新部门，他们设立了一个集体智慧单位。这些政策创新部门的目标通常是说：我们将使用一些新方法进行创新，比如使用Polis从人群中收集意见数据，并将其用于政策制定。

然后他们会说：好吧，政府中哪位部长最进步、现在有意愿尝试新事物？然后他们会去做一些事情，比如在这个案例中，是与生态相关的事情。通常，这会是涉及多个利益相关者的事情，比如渔民、旅游业人士、工业或交通业人士、当地公民等等。

在这个案例中，这是英国关于海鲈鱼监管的案例。他们通过民族志方法与几十人交谈，然后扩大到数千人。如果这是一个国家规模的样本，并且也是开放的，那么如果有一个有动机的行业参与者（比如渔业公司），他们可能有经济利益去扭曲国家政策方向。

他们可以添加三个非常独特的世界观和个性的合成公民，这些公民并不存在，但对任何影响其生计的监管都表现得非常担忧。他们可能更加教条化。基本上，您可以添加合成的极端主义群体，来推动有经济利益方的叙事。

以Uber为例，可能存在两个有经济利益的群体：Uber司机和出租车司机。公民则混杂其中。在这种情况下，我们可以想象实际上还有另外两个正在出现的集群群体，或者可能有一群学术专家或经济学家在谈论其他国家的成果，但也可能存在错误信息。要理清哪些用户、意见或专家是真实的，哪些群体是基于该国实际情况的，哪些只是合成的，将会非常混乱。

我认为，合成专家可能是最危险的事情，因为您可以说：实际上，这个群体中有200位经济学家都担心任何监管对某事物的影响，并且他们说交通系统将在三个月内崩溃。如果真有200位学者这么说，那很重要；如果没有，可能很难理清。我认为这就是LLM可能带来的问题：它们可以产生听起来非常学术化的内容，可以借鉴理论、预测或大量文档，甚至可以有效地构建一个基于法律案例层面的、有依据的反对意见，但完全偏向于某个金融行为体。这对于只是想了解基本情况、为政策制定奠定基础的公务员来说，是一件相当令人困惑的事情。

如果这个游戏获得越来越多的权力，我们可以预见到越来越复杂的对抗。

Polis平台的实际运作示例 📊

我有点困惑，希望您能回到主要演示中。因为粗略地说，您暗示了一些我们尚未完全看到的情况：人们提出问题的过程。他们可以提出一大堆问题来确立自己的专业知识，然后通过提出50个只有专家才能回答的问题来过滤掉非专家。我不太理解问题是如何在平台上自然产生的。我很好奇想看看更详细的存在示例描述。

很好的问题。我来展示一个报告。这是一个在圣胡安群岛进行的对话，这是华盛顿州一个有四个岛屿、约13000人的县。问题是关于土地银行的。

对话围绕土地银行是否应该继续购买更多土地进行，因为这是一个购买房地产以保持其乡村和农业用途的公共机构。对话从一个提示开始，基本上就是：“我们将讨论土地银行。您对此有什么想法或感受？它应该走向何方？存在什么问题？它过去怎么样？”

然后人们会提交陈述。如果我们查看提交的陈述，可以看到高层统计数据：有几百人参与，约占该县人口的个位数百分比。他们提交了陈述，并进行了投票。

如果我们按“跨群体同意度”这个指标排序，可以看到人们普遍非常强烈地同意：由公共机构保护的土地，公众能够访问与保护自然栖息地是兼容的，我们不需要禁止人们访问。这不是讨论中的问题。

对话中也存在真正有争议的陈述。我可以使用这些表格，那些在主成分分析中载荷较高或偏右的陈述，例如“是否应该继续购买土地”是有争议的。还有“它是否减少了岛上可用于开发和居民居住的土地”也是有争议的。我们还可以查看由特定人群提交的陈述。

这是一种让人们表达对某个问题的看法，并让其他人对每个人的说法发表意见的方式。不是每个人都会提交陈述，但每个人都有机会投票。这至少有助于理解结构：一个通用提示，然后返回的不是问题，而是一堆对提示的回应。

是的，我认为是这样。所以人们可以提交一个陈述，然后其他人表示是否同意，对吗？正确。系统的工作方式是：人们提交一个像那样的陈述，然后它会半随机地展示给其他人，其他人会同意、不同意或跳过它。然后，最好的陈述会成为其他人投票记录的一部分。

由此产生的结果是每个参与者的一系列投票记录（行），其中每一列代表一个陈述特征。这就是数据集的样子。然后，通过寻找聚类来计算指标。

大型语言模型在Polis中的应用与风险 🤖

我们去年与Anthropic合写了一篇论文，涵盖了今天讨论的一些内容。在一个Polis对话中，LLM可以执行哪些类型的任务？执行得如何？我们研究了几件事：审核、总结和投票预测。

最早最有希望的结果之一是总结，即我们能否基于陈述生成一个总结。我们现在越来越接近发布这个功能了。我很乐意谈谈我们如何实现的一些细节。我们目前正在研究从句级别的依据，所以它不能在没有依据的情况下超越几个词。

我们还研究了投票预测，即如果LLM看到参与者越来越多的陈述和投票，它能否预测下一个投票。它在预测人们的投票方面相当不错。我认为这是一个特定的风险领域，因为显然，如果它非常擅长预测投票，那么就有相当大的空间让行为者构建良好的合成投票者，但也可能让人们误以为系统可以代表人们，从而懒惰地用LLM替代社会研究中的人，进一步使公众与机构疏离。这也是论文中讨论的一个风险。

您能多说一点吗？关于方法，是提示工程吗？您给它示例和上下文，然后要求它预测下一个？这是实际的实现方式，还是有更复杂的方法？

是的，基本上就是给它越来越多的投票记录，逐步增加，然后绘制图表：给定这个投票记录，它在预测下一个投票方面的准确度如何？随着您给它的参与者投票历史越多，它在预测下一个投票方面就越好。

我能更多地理解一下风险吗？从某种意义上说，如果您有一个预测人们偏好的好模型，这似乎是正确捕捉人们偏好的一个胜利。但我猜也存在风险，比如遗漏某些东西，或者在特定问题上预测与真相有显著差异，因为人比模型更复杂。您能说说您担心什么吗？

我认为人比模型更复杂是一方面。我认为这个案例更像是一个周末黑客项目，比如一个系统提示：“假装你是罗马尼亚公民，总理正在与你交谈，请回应。”这可能会立即产生非常刻板、糟糕、不严谨的东西。但如果人们相信它足够好，并最终进入公共机构，比如确保秩序，那就会有问题。

我认为，在没有严格验证的情况下，LLM可能产生看似学术但实则偏颇的反对意见，这对于试图了解基本情况、为政策制定奠定基础的公务员来说，是相当令人困惑的。如果这个系统获得越来越多的权力，我们可以预见到越来越复杂的对抗。

总结与展望 🌟

本节课中，我们一起学习了Polis平台的核心机制、技术实现及其在收集和聚合人类偏好方面的应用。我们探讨了其基于PCA和K-means的聚类方法如何帮助识别群体共识和差异，并深入讨论了该平台在面对对抗性攻击时的稳健性考量，特别是与大型语言模型结合后带来的新机遇与风险。

我们还通过实际案例，如台湾的Uber政策讨论和圣胡安群岛的土地银行对话，了解了Polis在现实世界中的运作方式。最后，我们展望了未来可能的研究方向，包括改进聚类算法、利用LLM进行更好的总结和投票预测，以及整合匿名身份验证技术以增强系统的可信度。

Polis作为一个连接技术、政策与公众参与的工具，展示了在复杂社会中规模化理解人类偏好的潜力，同时也提醒我们需谨慎应对技术滥用和伦理挑战。

8：嘉宾讲座 - Joseph Jay Williams

概述

在本节课中，我们将学习如何将日常技术接触点转化为智能干预措施，以指导行为改变。我们将探讨自适应实验工具、个性化干预以及如何将严谨的科学方法与实践相结合，从而更有效地帮助人们学习、管理压力、锻炼和健康饮食。

行为改变的科学与愿景

上一节我们介绍了课程的整体目标，本节中我们来看看行为改变科学如何帮助解决众多人类问题。

想象一下，如果你能找到“神奇的话语”来改变任何行为。你希望自己开始或停止哪些行为？是更主动地与人交流、坚持锻炼、更好地沟通、减少压力，还是减少不必要的零食和社交媒体使用？同样，我们也希望他人能改变某些行为。这触及了我们生活的方方面面，从学习、决策到运动、饮食、压力和幸福感。

我们的愿景是：到2034年，如何实现按需提供的智能教练，能够切实帮助人们思考问题并永久性地改变行为？为实现这一目标，我们开发了 Outcome-Components (OutComp) 框架。该框架帮助我们设计智能干预措施。

一个智能干预措施，无论是一条短信、应用内消息还是一个概念解释，都是旨在改变行为的干预。它的“智能”体现在两方面：一是试图找出在特定时间点给予你的最佳内容；二是涉及持续的学习和测试，以了解什么对你有帮助。真正的智能系统必须包含持续学习。

为了构建智能干预措施，我们必须整合多个学科。

将日常体验转化为智能干预

我们的方法是：将日常体验的组成部分转化为智能干预的“组件”。

OutComp框架将一个初始用户界面（如短信或网站）转化为一个用于智能干预的微实验平台，你可以持续测试和改进想法。

以下是几个例子：

短信：例如“每日激励短信”。我们可以通过众包、大语言模型或人工输入生成大量不同的短信创意，然后持续测试，找出在何时、对何人、何种信息最有效。
电子邮件：例如，教授发送邮件鼓励学生尽早开始作业。我们可以生成邮件主题和内容的多个版本，测试它们在不同情境下的效果。这样，看似普通的电子邮件就变成了一个智能教练。
网站与解释：当用户访问一个网站（例如解释某个概念的页面）时，网站可以随机展示不同版本的解释，并收集反馈，从而找出平均效果更好或更适合当前用户的版本。我们曾在可汗学院进行过此类实验，测试不同概念解释和激励信息的效果。
大语言模型交互：当前的大语言模型可以轻松生成多种回复，但它们通常不进行A/B测试。当ChatGPT给你一个答案时，它本可以测试10个版本来找出真正对你有帮助的那个。虽然已有一些初步功能，但还有巨大的改进空间。

这一切的核心思想是：你每天接触的任何事物都可以成为一个OutComp，一个可以测试不同版本并随时间改进的智能干预措施。

自适应实验与概率性思维

上一节我们看到了智能干预的潜力，本节中我们来看看实现它的核心方法：自适应实验。

传统上，当我们做决定时（比如写一封邮件），我们通常只选择一个版本并100%确定地发送出去。或者，在进行正式的A/B测试时，我们以50/50的概率随机分配两个版本。这对应着两种极端：要么完全确定，要么完全不确定。

自适应A/B实验提出了一种中间路径：根据我们认为某个版本是最佳选择的概率，进行加权随机分配。

例如，如果有两个邮件版本A和B。如果你认为B更好的概率是70%，那么就将B发送给70%的人，将A发送给30%的人。然后，你可以根据收集到的数据（可以是定量的点击率，也可以是定性的反馈）来更新这个概率信念。

这种方法使我们不再局限于“100%或0%”或“50/50”的二元选择，而是开始以与我们信念相符的概率来分配行动。这引出了如何设定和更新这些概率的问题。

设定概率的方法可以多种多样：

统计模型：例如使用贝叶斯方法，根据历史数据计算概率。
人类专家判断：汇集领域专家的意见，并加权组合。
定性比较：即使没有大量数据，也可以通过工具生成不同选项，并依靠思考、推理或小范围反馈来形成概率判断。我们称此为 “定性A/B比较” 或 “思维实验”。

关键在于培养这种习惯：即使不实际发送，在构思邮件时也尝试生成不同版本并思考其效果，这本身就是一种进步。

具体工具与案例：ABscribe

以下是一个具体工具的例子，它体现了上述思想。

ABscribe 是一个基于OutComp框架的工具。假设你正在写一封邮件，想告诉学生“压力实际上可能有助于你在考试中表现得更好”。

定义组件：你可以选择邮件中的特定部分（如核心信息、论证方式、补充材料）并将其标记为可实验的“组件”。
生成选项：你可以使用大语言模型，根据不同的受众（如科学型思维者、瑜伽爱好者）生成这些组件的多个变体。
思维实验：然后，你可以并排查看这些不同版本的组合，在脑海中“切换”并思考哪种组合可能更有效。这就是一种“思维A/B测试”。

实际案例：UStress实验
在一项具体研究中，我们向编程课学生展示了一条时长约3分钟的消息，核心是“压力可以助你表现得更好”。我们将其分解为多个组件（如纯文本、视频解释、链接到科学论文、邀请学生写下感想等），并测试了不同组合。

控制组（仅核心信息）：平均成绩为76%。
最佳干预组（经过测试的特定组合）：平均成绩提升至80%。这意味着一条简短的消息带来了约4%的成绩提升，相当于从B-提高到B+。

这个例子展示了通过运行大量快速实验（传统研究可能需要数年，而我们只需几个月），我们可以发现哪些微小的干预能产生显著效果。

从定量到定性：整合人类判断

当我们获得实验的定量数据后，是否应该盲目地将效果最好的干预推广给所有人？答案是否定的，因为没有任何事情是100%确定的。

我们可以：

使用统计模型：基于过去的数据，计算该干预在新群体中有效的概率（例如80%）。
整合人类判断：将实验数据和背景信息给一位教师看，他/她可能会结合自己的经验判断：“在我的班级里，我认为它有76%的概率是最好的消息。”
结合两者：我们可以将统计模型计算出的概率与人类专家的判断结合起来，形成更全面的概率估计。

这体现了将严谨的数学方法与人类洞察和行为相结合的理念。目标是让决策过程更加形式化和理性，即使只是稍微改进我们日常依赖的直觉判断。

基础算法：汤普森采样与贝叶斯更新

为了具体实现自适应的概率分配，我们常使用一种称为 汤普森采样 的算法。它是最基本的强化学习形式之一，也称为随机概率匹配。

我们以一个最简单的两臂老丨虎丨机为例来说明：

两个选项：解释A和解释B。
奖励：用户表示喜欢（1）或不喜欢（0）。
目标：学习并分配概率，使整体奖励最大化。

我们使用 Beta分布 来建模每个选项获得“喜欢”的概率。

先验：假设我们对两个选项一无所知，使用Beta(1,1)，这是一个均匀分布，意味着“喜欢”的概率在0到1之间任意值的可能性相同。
更新：如果给选项A看了5次，3人喜欢，2人不喜欢。那么选项A的后验分布更新为Beta(1+3, 1+2) = Beta(4, 3)。这个分布的中心更偏向于较高的概率值，但我们仍有一定不确定性。
采样与选择：在每次需要做选择时，汤普森采样会分别从选项A和B的当前Beta分布中随机抽取一个样本值（例如，从Beta(4,3)中抽到0.62，从Beta(6,1)中抽到0.85）。然后，它选择抽取值更高的那个选项（此处为B）展示给当前用户。
计算概率：通过重复采样多次（如10000次），我们可以估算出算法认为B优于A的概率（例如70%）。

这个模型简单、直观且易于解释。然而，尽管它很基础，但在实际应用中仍存在许多未解决的问题和潜在错误。

高级议题：统计敏感性与算法改进

上一节我们介绍了基础的汤普森采样，本节中我们来看看它的局限性以及如何改进。

汤普森采样的挑战：

探索不足：如果算法早期错误地认为某个选项很差，它就会停止探索该选项，可能导致错过真正的好选项，也无法发现其对某些子群体的有效性。
偏差与统计推断：传统统计检验（如Z检验）假设数据是均匀随机收集的。但汤普森采样收集数据的方式是有偏的，如果直接使用传统检验，会导致第一类错误率（假阳性） 严重膨胀（例如从5%升至30%），而统计功效下降。

解决方案：

ε-贪心汤普森采样：以一个小概率ε（如10%）完全随机选择（均匀探索），以概率(1-ε)使用汤普森采样。这保证了持续的探索。
算法调优检验：在进行统计检验时，考虑数据收集所使用的具体算法。通过模拟在零假设下该算法会生成的数据分布，重新计算检验统计量的临界值。这样可以控制假阳性率在预定水平（如5%）。
更优的自适应算法：我们开发了 TS-PositiveIf 算法。它不是固定ε值，而是让用户定义一个“微小差异”的阈值（如0.1）。算法动态计算当前认为两选项差异小于该阈值的后验概率，并将此概率作为ε值。这样，当算法不确定时（认为差异可能很小），会增加随机探索；当确信存在较大差异时，则更多利用当前最佳选项。这种自适应方法在奖励、功效和错误率之间取得了更好的权衡。

关键启示：如果你正在运行自适应实验，建议使用 TS-PositiveIf 等更优算法，并配合使用 算法调优检验 来进行统计推断。

个性化、情境化干预与未来展望

除了实验工具和算法，另一个重要主题是个性化和情境化的干预。

我们的研究包括：

Small Steps SMS：一个每日发送短信帮助你管理压力、提升幸福感的系统。
设计提示进行自我反思：通过一系列问题引导你为自己特定的压力情境定制建议。
故事与信息适配：提供他人如何处理压力或申请实习的故事，并帮助你将其抽象应用到自己的情境中。
LLM作为思维伙伴：开发交互界面，让你可以输入自己正在拖延的事情，大语言模型根据你的偏好（如语气严厉或温和）生成定制化的自我对话消息，并允许你编辑和生成更多选项。

这些工作展示了如何通过精心设计的界面和提示，将大语言模型转化为真正有用的行为改变伙伴，而不仅仅是聊天工具。

总结

本节课我们一起学习了如何利用自适应实验和智能干预来推动行为改变。

我们探讨了以下核心内容：

愿景与框架：通过OutComp框架，将日常技术接触点转化为可持续学习和改进的智能干预。
概率性思维：摒弃非0即1的决策，转向根据信念概率进行加权随机分配。
实用工具：如ABscribe，帮助生成选项并进行思维实验。
基础算法：贝叶斯更新与汤普森采样的原理。
高级挑战与改进：汤普森采样的局限性，以及通过ε-贪心策略、算法调优检验和TS-PositiveIf等方法来提升统计敏感性和推断可靠性。
个性化干预：利用故事、反思提示和大语言模型接口，提供情境化的行为指导。

最终目标是构建一个未来，在这个未来中，智能教练能广泛、有效地帮助每个人在生活各个方面做出积极的改变。这需要持续的研究，以开发更强大的实验工具、更敏感的算法，并将严谨的科学与人性化的实践紧密结合。

posted @ 2026-03-26 13:17 布客飞龙V 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟