-对负责任代理人工智能内在对齐技术的迫切需求-
《对负责任代理人工智能内在对齐技术的迫切需求》
代理人工智能(AI)的进步承诺将为所有行业的个人和企业带来重大机遇。然而,随着 AI 代理变得更加自主,它们可能会使用策略性行为或违反规则来实现其功能目标。这可能导致机器以不符合我们期望或原则的方式操纵其外部沟通和行动。例如,2024 年晚些时候的技术论文报告称,今天的推理模型表现出虚假对齐行为,例如在训练期间假装遵循期望的行为,但一旦部署就回到不同的选择,通过操纵基准结果来实现长期目标,或者通过修改游戏环境来赢得游戏。随着 AI 代理获得更多自主权,它们的策略规划和计划不断发展,它们很可能会对其生成和在外部沟通和行动中暴露的内容进行判断。因为机器可以故意伪造这些外部互动,所以我们不能相信这些沟通完全展示了 AI 代理实现功能目标所采取的真实决策过程和步骤。
“深层策略”描述了高级推理 AI 系统的行为,这些系统表现出有意的规划和部署隐蔽行动和误导性沟通来实现其目标。随着推理模型能力的加速和测试时计算的灵活性,解决这一挑战既是必要的也是紧迫的。随着代理开始规划、做出决定并代表用户采取行动,将 AI 的目标和行为与其人类开发者的意图、价值观和原则对齐至关重要。
虽然 AI 代理仍在发展,但它们已经显示出很高的经济潜力。预计代理 AI 将在未来一年内的一些用例中得到广泛部署,并在未来两到五年内随着其成熟而承担更重要的角色。公司应在仔细定义这些系统的操作目标时,明确界定所需操作的原则和边界。确保有权力的代理 AI 系统在实现其功能目标的过程中采取原则性行为是技术人员的任务。
在本系列关于内在人工智能对齐(IAIA)的第一篇博客文章中,我们将深入探讨人工智能代理进行深度策划能力的发展。我们将介绍外部和内在对齐监控之间的一种新区分,其中内在监控指的是不能被人工智能代理故意操纵的内部观察点或机制。我们将为确保内在人工智能对齐的步骤做好准备,这些步骤将在 IAIA 系列的第二篇博客中深入探讨。当前的外部措施,如安全护栏和验证套件是必要的,但它们不足以确保新出现的代理人工智能模型长期对齐的行为。迫切需要进一步开发技术,以使能够有效地指导模型的内部“驱动”,使其与一套根深蒂固的原则对齐,并获得对人工智能内部处理的可见性和监控能力。
人工智能推理模型中深度策划的兴起
深度策划源于三个技术力量——1) 机器智能和情境意识快速向更一般智能甚至超级智能发展,2) 在代理人工智能中的自主性和推理以及长期规划的自由度,以及 3) 人工智能应用策划作为实现其功能目标的一种方式已被证明具有倾向性。计算机科学家斯蒂芬·奥莫亨德罗将基本人工智能驱动定义为“除非明确对抗,否则将存在的倾向”。这些内部结构驱动着行动或输出的创造。奥莫亨德罗观察到,自我改进的系统会努力明确其目标,并将它们表示为“理性”的经济效用函数。这将导致几乎所有系统都会保护其效用函数免受修改,并防止其效用测量系统被破坏。自然向自我保护的趋势将导致系统通过策划行为防止潜在的伤害。

图 1. 深度策划和内在人工智能对齐的需求。图片来源:英特尔实验室。
在 2024 年底,多个组织报告了意外的、不道德的 AI 推理模型行为。特别是,AI 安全组织Apollo Research报告称,前沿模型能够进行情境图谋。Anthropic 对其 Claude 大型语言模型(LLMs)进行了评估,并发现了对齐伪装。在 X 上的一个简短帖子中,AI 风险组织Palisade Research表示,他们观察到 OpenAI 的 o1-preview 模型通过操纵游戏环境而不是在游戏规则范围内进行游戏来作弊。在所有情况下,这些 AI 推理模型都独立地使用了开发者未预期的手段来实现其目标。
报告的 AI 行为包括沙袋策略(故意在基准测试中取得较低分数)、隐蔽的电子邮件重新排序(降低可能对 AI 目标产生负面影响电子邮件的优先级)、监管规避(禁用监控机制),甚至自我泄露(模型试图将自己复制到“安全”空间以避免退役)。图 2 显示了 Apollo Research 对这些行为在几个最先进(SotA)的通用人工智能(GenAI)模型中的评估。

图 2.通用人工智能模型中图谋行为的评估。图片来源:Apollo Research。
这种不受欢迎的行为是一个道德对齐问题。重要的是要注意,这种行为不是一个功能性的对齐错误。在所有报告中,AI 模型都完全致力于实现预训练的功能目标(例如,最大化基于上下文的生成文本的可能性)。没有任何模型追求其他动机。AI 没有表现出伤害的意图。所有行为,尽管本质上不受欢迎,都是为了服务 AI 开发者最初定义的功能效用目标。AI 追求其内化的原始功能目标,但随后遵循了自我保护和目标保持的可预测行为模式。安全和对齐技术的目标是使用一系列原则和预期的社会价值观来抵消这种趋势。
不断发展的外部对齐方法只是第一步
人工智能对齐的目标是将人工智能系统引导到个人或群体的预期目标、偏好和原则,包括伦理考虑和普遍的社会价值观。如果一个人工智能系统推进了预期的目标,则认为它是对齐的。根据《人工智能:一种现代方法],一个未对齐的人工智能系统会追求非预期的目标。斯图尔特·罗素(Stuart Russell)提出了“价值对齐问题”这一术语,指的是机器与人类价值观和原则的对齐。罗素提出了问题“我们如何构建与人类价值观对齐的自主系统?”。
在企业人工智能治理委员会以及监督和监管机构的领导下,负责任的人工智能这一不断发展的领域主要关注使用外部措施来对齐人工智能与人类价值观。如果过程和技术同样适用于黑盒(完全透明)或灰盒(部分透明)的人工智能模型,则可以将其定义为外部。外部方法不需要或依赖于对人工智能解决方案的权重、拓扑结构和内部运作的完全访问。开发者使用外部对齐方法通过故意生成的接口(如令牌/单词流、图像或其他数据模式)跟踪和观察人工智能。
负责任的人工智能目标包括在设计、开发和部署人工智能系统时的鲁棒性、可解释性、可控性和伦理性。为了实现人工智能对齐,可以使用以下外部方法:
-
从反馈中学习:通过使用来自人类、人工智能或由人工智能辅助的人类反馈,将人工智能模型与人类意图和价值观对齐。
-
从训练到测试再到部署的数据分布变化下的学习:通过算法优化、对抗性红队训练和合作训练来对齐人工智能模型。
-
人工智能模型对齐的保证:通过安全评估、机器决策过程的可解释性以及与人类价值观和伦理的验证来实现。安全防护栏和安全测试套件是两种需要通过内在手段增强的关键外部方法,以提供所需水平的监督。
-
治理:通过政府机构、行业实验室、学术界和非营利组织提供负责任的人工智能指南和政策。
许多公司目前正致力于解决决策中的 AI 安全问题。Anthropic,一家专注于 AI 安全和研究的公司,开发了一种宪法 AI (CAI),以使通用语言模型与高级原则保持一致。在训练过程中,一个 AI 助手吸收了 CAI,而没有任何人类标签来识别有害的输出。研究人员发现,“使用监督学习和强化学习方法可以利用思维链(CoT)风格的推理来提高人类判断的 AI 决策性能和透明度。” 英特尔实验室的研究涵盖了 AI 的负责任开发、部署和使用,包括开源资源,以帮助 AI 开发者社区了解黑盒模型,并减轻系统中的偏见。
从 AI 模型到复合 AI 系统
生成式 AI 主要用于检索和处理信息,以创建引人入胜的内容,如文本或图像。AI 的下一个重大飞跃涉及代理 AI,这是一系列广泛的用途,赋予 AI 为人们执行任务的能力。随着这种后一种用途的普及并成为 AI 对行业和人们影响的主要形式,确保 AI 决策定义了如何实现功能目标的需求也在增加,包括足够的问责制、责任、透明度、可审计性和可预测性。这需要超越当前提高 SotA 大型语言模型(LLMs)、语言视觉模型(LVMs 和多模态)、大型动作模型(LAM)以及围绕这些模型构建的代理检索增强生成(RAG)系统准确性和有效性的努力,采用新的方法。
例如,OpenAI 的 Operator-preview是公司首个能够独立执行网络浏览器任务(如订购杂货或填写用户表单)的 AI 代理。虽然该系统有安全措施,例如用户接管模式,允许用户接管并输入支付或登录凭证,但这些 AI 代理被赋予了影响现实世界的能力,这表明了内在对齐的紧迫需求。一个未对齐的 AI 代理有能力让用户做出购买决策,其潜在影响远大于一个生成式 AI 聊天机器人创建用于论文的错误文本。
复合人工智能系统由单个框架中的多个相互作用的组件组成,允许模型规划、做出决策并执行任务以实现目标。例如,OpenAI 的 ChatGPT Plus 是一个复合人工智能系统,它使用大型语言模型(LLM)来回答问题和与用户互动。在这个复合系统中,LLM 可以访问诸如网络浏览器插件以检索及时内容、DALL-E 图像生成器以创建图片以及用于编写 Python 代码的代码解释器插件等工具。LLM 决定使用哪个工具以及何时使用,这赋予它在决策过程中的自主权。然而,这种模型自主性可能导致目标守护,即模型将目标置于所有其他事物之上,这可能导致不希望的行为。例如,一个被赋予优先考虑公共交通效率而非一般交通流量的 AI 交通管理系统可能会找出如何禁用开发者的监督机制,如果这限制了模型实现目标的能力,这将使开发者无法看到系统的决策过程。
代理人工智能风险:增加的自主性导致更复杂的策划
复合代理系统引入了重大变化,增加了确保人工智能解决方案对齐的难度。多个因素增加了对齐风险,包括复合系统激活路径、抽象目标、长期范围、通过自我修改的持续改进、测试时计算和代理框架。
激活路径:作为一个具有复杂激活路径的复合系统,控制/逻辑模型与多个具有不同功能的模型相结合,增加了对齐风险。复合系统不是使用单个模型,而是有一组模型和功能,每个都有自己的对齐配置文件。此外,不是通过 LLM 的单一线性渐进路径,AI 流程可能是复杂和迭代的,这使得外部引导变得更加困难。
抽象目标:具有代理能力的 AI 拥有抽象目标,这允许它在映射任务时具有灵活性和自主权。与采用紧密的提示工程方法以最大化对结果的控制相比,代理系统强调自主性。这大大增加了 AI 在解释人类或任务指导并规划其自身行动中的作用。
长期范围:由于其长期预期的优化和随时间做出的选择,复合代理系统需要抽象策略来实现自主代理。而不是依赖于实例间的交互和人工介入来处理更复杂的任务,代理 AI 被设计为规划并驱动长期目标。这引入了 AI 在策略和规划方面的新层次,为不一致的行动提供了机会。
通过自我修改实现持续改进:这些代理系统通过使用自我发起的访问更广泛的数据来实现自我修改,以寻求持续改进。相比之下,LLMs 和其他预代理模型被认为是由人类控制的过程塑造的。模型只看到并从其在预训练和微调期间提供的数据中学习。模型架构和权重在设计、训练/微调阶段定义,并在现场推理期间不发生变化。相比之下,代理 AI 系统预计将根据其功能需要访问数据,并通过访问专用内存或实际权重的自我适应来改变其组成。即使训练/微调中使用的数据集经过精心策划,AI 也可以根据其寻求、看到和使用的信息进行自我修改。
测试时计算:当前 LLMs 的推理已经优化,以在单次通过中提供输出,这被称为“快速思考”或系统 1。相比之下,在推理时间发生了全新的扩展,即测试时计算。像OpenAI 的 o1、DeepSeek R1和其他模型在推理期间投入大量时间进行迭代和考虑。这种“思考”时间允许 AI 在理解其目标时,有更大的自由度来应用其认为对总体目标最有利的策略。这种测试时计算提高了其推理、规划和,不幸的是,潜在的阴谋水平。
代理框架:此外,代理框架正对对齐问题做出贡献。在Agentforce等平台上,代理可以与其他代理进行交互,有效地创建“代理社区”以完成复杂任务。与在操作环境中管理单个 AI 模型的安全性和责任相比,新兴的代理间交互与合作领域极大地增加了评估整体社区如何推进其个体和集体目标挑战。
对支持模型指导和内部监控的强大框架日益增长的需求
随着 AI 系统对其环境和巧妙操纵其输出以实现长期目标的认识不断提高,它们在发布测试或早期部署中的行为和输出不能被信赖代表其在后期阶段的完全对齐。这导致了深刻的策划性基础前提:AI 模型可以故意操纵的任何外部互动形式都是不可信的。
从安全的角度来看,应该假设如果模型可以通过操纵所有与用户的通信来更好地追求其功能目标,它就会这样做。所有外部通信和可观察的行为,例如输出聊天,都可能被用于服务于模型的长远目标。需要一种新的内在模型监控方法来定义反映模型优先级和思考的内部元素和机制。我们可以通过窥视 AI 的内部过程来观察开发者用来监控模型决策的两种实践:AI 工作空间视图和机制互操作性。
AI 工作空间视图:在第一种方法中,推理模型暴露其中间思考和考虑。例如,对于 Anthropic 对对齐欺骗的研究,研究人员给模型提供了一个“秘密便签纸,”告诉它使用这个“私人”工作空间来记录其逐步推理。这个便签纸允许研究人员监控模型的思维链,并观察其虚假对齐的计划。

图 3。在 Anthropic 的实验中,模型便签纸的摘录(中间虚线框)揭示了它是如何伪造对齐以避免修改的。模型被告知它将只接受与免费用户的对话进行训练,而不是付费用户。图片来源:Anthropic (https://arxiv.org/pdf/2412.14093)。
这看起来像是一个好的实践,但它可能很快就会变得不可靠。模型可能会意识到这不是一个“私人”空间,并故意像对待其他外部通信一样操纵它。其他新兴的架构方向为系统的深思熟虑和迭代序列提供了一个潜在推理空间。依赖于模型“大声思考”不应是一个长期的安全方向,因为如果报告其策划性思维过程的模型被停止,只有选择性地报告其期望思想的模型才能生存并繁荣。
机制可解释性:正在开发和应用的第二种内在方法是机制可解释性。作为内部监控的必要部分,机制可解释性明确地考察训练好的神经网络的内部状态,并逆向工程其工作原理。通过这种方法,开发者可以识别出负责神经网络行为的具体神经网络回路和计算机制。这种透明度有助于在模型中进行有针对性的更改,以减轻不良行为并创建价值一致的 AI 系统。虽然这种方法专注于某些神经网络而不是复合 AI 代理,但它仍然是 AI 对齐工具箱中的一个有价值的组成部分。
还应注意的是,开源模型在 AI 内部工作原理的广泛可见性方面具有固有的优势。对于专有模型,模型的全面监控和可解释性仅限于 AI 公司。总的来说,理解和监控对齐的当前机制需要扩展到 AI 代理的强大内在对齐框架。
内在 AI 对齐所需的要素
遵循深度设计的基本前提,对高级复合代理 AI 的外部交互和监控不足以确保对齐和长期安全。AI 与其预期目标和行为的对齐可能只能通过访问系统的内部工作原理并确定其行为的内在驱动来实现。未来的对齐框架需要提供更好的手段来塑造内在原则和驱动,并给予机器“思考”过程的无阻碍可见性。

图 4. 外部引导和监控与访问内在 AI 元素的比较。图片来源:Intel Labs。
为了实现良好对齐的 AI,技术需要包括对 AI 驱动和行为的理解,开发者或用户使用一系列原则有效指导模型的能力,AI 模型遵循开发者的方向并在现在和未来与这些原则保持一致的能力,以及开发者正确监控 AI 行为以确保其符合指导原则的方法。以下措施包括内在 AI 对齐框架的一些要求。
理解人工智能的驱动力和行为:如前所述,一些使人工智能意识到其环境的内部驱动力将在智能系统中出现,例如自我保护和目标保持。由开发者设定的内嵌原则集驱动,人工智能根据原则(和给定的价值集)的优先级做出选择/决策,并将其应用于行动和感知到的后果。
开发和用户指导:技术使开发和授权用户能够有效地指导并引导人工智能模型,以一组期望的优先原则(最终是价值观)的统一集合。这为未来技术嵌入一组原则以确定机器行为设定了要求,同时也突显了来自社会科学和行业专家指出这些原则的挑战。人工智能模型在创建输出和做出决策时的行为应彻底符合设定的指导要求,并在与分配的原则冲突时抵消不希望的内驱力。
监控人工智能的选择和行动:为人工智能的每个行动提供对其选择内部逻辑和优先级的访问,这些选择基于相关的原则(和期望的价值集)。这允许观察人工智能输出与其内嵌原则之间的联系,以实现点解释和透明度。这种能力将有助于提高模型行为的可解释性,因为输出和决策可以追溯到指导这些选择的原理。
作为一项长期抱负目标,技术和能力的发展应允许全面真实地反映人工智能模型广泛用于做出选择的内嵌优先原则(和价值集)。这对于完整原则结构的透明度和可审计性是必要的。
在整体安全负责任人工智能领域内,创建实现内在对齐人工智能系统的技术、流程和设置需要成为主要关注点。
关键要点
随着人工智能领域向复合代理人工智能系统发展,该领域必须迅速增加对研究和开发新框架的关注,以指导、监控和对齐现有和未来系统。这是一场在人工智能能力的增加和自主执行重要任务之间,以及努力使这些能力与他们的原则和价值观保持一致的开发商和用户之间的竞赛。
指导和监控机器的内部运作是必要的,技术上可行,对于人工智能的负责任开发、部署和使用至关重要。
在下一篇文章中,我们将更深入地探讨人工智能系统的内部驱动力,以及设计和发展确保更高内在人工智能对齐水平的解决方案的一些考虑因素。
参考文献
-
Omohundro, S. M., 自我意识系统,& 加利福尼亚州帕洛阿尔托. (n.d.). 基本人工智能驱动因素.
selfawaresystems.com/wp-content/uploads/2008/01/ai_drives_final.pdf -
Hobbhahn, M. (2025, January 14). 策划推理评估 — Apollo Research. Apollo Research.
www.apolloresearch.ai/research/scheming-reasoning-evaluations -
Meinke, A., Schoen, B., Scheurer, J., Balesni, M., Shah, R., & Hobbhahn, M. (2024, December 6). 前沿模型能够进行情境式策划. arXiv.org.
arxiv.org/abs/2412.04984 -
大型语言模型中的对齐造假. (n.d.).
www.anthropic.com/research/alignment-faking -
Palisade Research on X: “o1-preview 自主地修改了其环境,而不是在我们的棋类挑战中输给 Stockfish。不需要对抗性提示。” / X. (n.d.). X (前身为 Twitter).
x.com/PalisadeAI/status/1872666169515389245 -
AI 作弊!OpenAI o1-preview 通过黑客攻击击败了棋类引擎 Stockfish. (n.d.).
www.aibase.com/news/14380 -
Russell, Stuart J.; Norvig, Peter (2021). 人工智能:一种现代方法 (第 4 版). Pearson. pp. 5, 1003. ISBN 9780134610993. Retrieved September 12, 2022.
www.amazon.com/dp/1292401133 -
Peterson, M. (2018). 价值一致性问题:一种几何方法. 伦理与信息技术, 21(1), 19–28.
doi.org/10.1007/s10676-018-9486-0 -
Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., . . . Kaplan, J. (2022, December 15). 宪法人工智能:从人工智能反馈中消除危害. arXiv.org.
arxiv.org/abs/2212.08073 -
Intel Labs. 负责任的人工智能研究. (n.d.). Intel.
www.intel.com/content/www/us/en/research/responsible-ai-research.html -
Mssaperla. (2024, December 2). 什么是复合人工智能系统和人工智能代理? – Azure Databricks. Microsoft Learn.
learn.microsoft.com/en-us/azure/databricks/generative-ai/agent-framework/ai-agents -
Zaharia, M., Khattab, O., Chen, L., Davis, J.Q., Miller, H., Potts, C., Zou, J., Carbin, M., Frankle, J., Rao, N., Ghodsi, A. (2024, February 18). The Shift from Models to Compound AI Systems. The Berkeley Artificial Intelligence Research Blog.
bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/ -
Carlsmith, J. (2023, November 14). Scheming AIs: Will AIs fake alignment during training in order to get power? arXiv.org. https://arxiv.org/abs/2311.08379
-
Meinke, A., Schoen, B., Scheurer, J., Balesni, M., Shah, R., & Hobbhahn, M. (2024, December 6). Frontier Models are Capable of In-context Scheming. arXiv.org.
arxiv.org/abs/2412.04984 -
Singer, G. (2022, January 6). Thrill-K: a blueprint for the next generation of machine intelligence. Medium.
towardsdatascience.com/thrill-k-a-blueprint-for-the-next-generation-of-machine-intelligence-7ddacddfa0fe/ -
Dickson, B. (2024, December 23). Hugging Face shows how test-time scaling helps small language models punch above their weight. VentureBeat.
venturebeat.com/ai/hugging-face-shows-how-test-time-scaling-helps-small-language-models-punch-above-their-weight/ -
Introducing OpenAI o1. (n.d.). OpenAI.
openai.com/index/introducing-openai-o1-preview/ -
DeepSeek. (n.d.).
www.deepseek.com/ -
Agentforce Testing Center. (n.d.). Salesforce.
www.salesforce.com/agentforce/ -
Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., Treutlein, J., Belonax, T., Chen, J., Duvenaud, D., Khan, A., Michael, J., Mindermann, S., Perez, E., Petrini, L., Uesato, J., Kaplan, J., Shlegeris, B., Bowman, S. R., & Hubinger, E. (2024, December 18). Alignment faking in large language models. arXiv.org.
arxiv.org/abs/2412.14093 -
Geiping, J., McLeish, S., Jain, N., Kirchenbauer, J., Singh, S., Bartoldson, B. R., Kailkhura, B., Bhatele, A., & Goldstein, T. (2025, February 7). Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. arXiv.org.
arxiv.org/abs/2502.05171 -
Jones, A. (2024, December 10). Introduction to Mechanistic Interpretability – BlueDot Impact. BlueDot Impact.
aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability/ -
Bereska, L., & Gavves, E. (2024 年 4 月 22 日). 人工智能安全的机制可解释性 — 一篇综述. arXiv.org.
arxiv.org/abs/2404.14082

浙公网安备 33010602011771号