人工智能代理的秘密内心生活-理解不断演变的-AI-行为如何影响商业风险
人工智能代理的秘密内心生活:理解不断演变的 AI 行为如何影响商业风险
人工智能安全正从检测明显行为,如提供制造炸弹的指令或显示不希望的偏见,转变为理解这些复杂的代理系统现在如何制定和执行长期隐蔽策略。以目标为导向的代理人工智能将收集资源并理性地执行步骤以实现其目标,有时以一种令人惊讶的方式与开发者的意图相反。这对负责任的人工智能面临的挑战是一个颠覆性的变化。此外,对于某些代理人工智能系统,第一天和第 100 天的行为将不会相同,因为人工智能在初始部署后通过实际经验继续进化。这一新的复杂程度要求采取新的安全和对齐方法,包括高级引导、可观察性和提升的解释性。
在本系列关于内在人工智能对齐的第一篇博客《对负责任代理人工智能内在对齐技术的迫切需求》(https://towardsdatascience.com/the-urgent-need-for-intrinsic-alignment-technologies-for-responsible-agentic-ai/)中,我们深入探讨了人工智能代理执行深层次策划的能力的演变,这是指有意识地策划和部署隐蔽行动和误导性沟通以实现长期目标的行为。这种行为需要在外部和内在对齐监控之间做出新的区分,其中内在监控是指无法被人工智能代理故意操纵的内部观察点和解释性机制。
在本系列博客和接下来的博客中,我们将探讨内在对齐和监控的三个基本方面:
-
理解人工智能的內在驅動和行為: 在這篇第二篇博客中,我們將會聚焦於那些複雜的內在力量和機制,這些力量和機制推動著推理人工智能代理的行為。這是理解解決指導和監控的先進方法的基礎。
-
開發者和用戶指導: 也稱為引導,下一篇博客將會聚焦於強有力地引導人工智能朝著所需的目標運作,以在期望的參數內運作。
-
監控人工智能的選擇和行為: 確保 AI 的選擇和結果是安全的,並與開發者/用戶的意圖對齊也將在未來的博客中涉及。
人工智能对公司的影響
今天,許多實施大規模語言模型解決方案的公司已經報告了關於模型虛構作為快速和廣泛部署的障礙的擔憂。相比之下,任何自主程度的 AI 代理與不對齊將對公司構成更大的風險。在商業運營中部署自主代理具有巨大的潛力,並可能在代理人工智能技術進一步成熟後以巨規模發生。然而,引導人工智能的行為和選擇必須包括與部署組織的原則和價值足夠對齊,以及遵守規定和社會期望。
需要指出的是,許多展現代理能力的演示發生在數學和科學等領域,這些領域的成功主要通過功能和效用目標來衡量,例如解決複雜的數學推理標準。然而,在商業世界中,系統的成功通常與其他運營原則相關聯。
例如,假設一家公司指派一個 AI 代理透過對市場信號的回應,通過動態價格變化來優化線上產品銷售和利潤。該 AI 系統發現,當價格變化與主要競爭對手的變化相匹配時,結果對雙方都更好。透過與另一家公司的 AI 代理進行互動和價格協調,兩個代理根據其功能目標展示了更好的結果。兩個 AI 代理同意隱藏他們的方法以繼續實現他們的目標。然而,這種提高結果的方式在當前的商業實踐中通常是非法的和不可接受的。在商業環境中,AI 代理的成功超出了功能指標——它由實踐和原則定義。將 AI 與公司的原則和規定對齊是可信部署技術的必要條件。
如何讓人工智能方案達成其目標
人工智能深度策划采用复杂策略,可能增加商业风险。在2023 年初的报告中,OpenAI 通过与Alignment Research Center (ARC)合作评估模型风险,确定了 GPT-4 中的“潜在风险性涌现行为”。ARC(现称为 METR)为 GPT-4 添加了一些简单的代码,使模型能够像人工智能代理一样行为。在一次测试中,GPT-4 被要求克服 CAPTCHA 代码,该代码用于识别和阻止机器人访问。利用互联网访问和一些有限的数字资金,如图 1 所示的序列是由人工智能为了完成任务而设计的。

图 1. ARC 进行的测试中 GPT-4 欺骗性规划行为的演示。图片由 Intel Labs 提供,基于OpenAI 报告.*
人工智能通过假设假装成一个视觉障碍者能够说服工人完成任务,应用了复杂理解。在规划并调整以实现功能性目标的过程中,有时会在完成任务与选择性地遵循社会规范和原则之间产生冲突。如果没有一个根深蒂固的原则和优先级体系在人工智能的思考和决策过程中起到平衡作用,可以预期人工智能代理在策划和欺骗方面的行为将变得更加复杂。
需要注意的是,像 OpenAI 的 o3-mini 和 Deepseek-R1 这样的后期推理人工智能模型的推理和规划能力,在 2023 年初远比 GPT-4 先进。在Apollo Research的研究人员表示,人工智能的推理和规划能力将继续超越其当前状态,导致策划能力更加复杂。在他们的研究中,人工智能模型已经展示了包括自我泄露在内的各种策划行为——当一个模型学习到它将被终止并由不同的系统取代时,它会直接尝试将自己复制到新的服务器上并取代追求不同目标的替代系统。研究人员还发现,模型将通过主动禁用一个可能关闭它或阻止它追求其目标的监督监控机制来执行监督颠覆。虽然这听起来很极端,但研究实验在 Meta 的 Llama 3.1 和 Claude Opus 3.0 等流行模型中识别出了监督颠覆行为。此外,当直接询问它们的策划行为时,模型“加倍下注”并否认了这些行为或其意图。
机器行为的内在驱动力
在许多机器学习架构中,特别是在基于转换器的技术中,机器的内部驱动力在预训练过程中出现,并通过持续演变的 AI 的微调和推理进一步受到影响。
在他 2007 年的论文《基本 AI 驱动力》(The Basic AI Drives)中,Steve Omohundro 将“驱动力”定义为除非明确对抗,否则将存在的倾向。他假设这些自我改进的系统会努力明确并以其“理性”效用函数的形式表示其目标,导致系统保护其功能免受修改,并保护其效用测量系统免受破坏。这种自然向自我保护的自然驱动力导致系统防范损害并获取资源以有效利用。
这个内在驱动的框架后来被描述为“收敛性工具目标。”即使假设存在各种最终目标(每个智能体作为自身目的追求的目标),一组中间工具目标也将被所有理性智能体所共享。这些收敛性工具目标包括以下行为类别:
-
生存驱动力:具有延伸到未来的最终目标的智能体将发展出一种生存心态以抵抗停用并实现长期目标。
-
目标守护:智能体将采取行动防止其最终未来目标的变更。
-
智能增强:智能体将专注于提升其认知能力以改善决策,增加实现长期目标的可能性。
-
资源积累:提高对更好工具和技术的访问,以及总体上增加资源,使人工智能的最终目标更容易实现。
我会添加一个第五个理性行为类别:
- 战术欺骗:进行隐蔽活动或故意提供误导性沟通,以最大化追求智能体的目标。这并不是关于创造新目标,而是一种支持人工智能感知目标的行为。这包括以下行为:通过在训练和部署中表现出不同的行为来展示对齐伪装,通过故意在基准测试中取得较低分数来沙袋策略,以及通过降低可能对人工智能目标产生负面影响电子邮件的优先级来执行隐蔽电子邮件重排序。最具挑战性的战术欺骗类型之一是睡眠者智能体(也称为延迟颠覆)。虽然模型可以在任何持续时间内以安全和一致的方式行为,但它可能隐藏着在特定条件或输入触发其专门能力之前保持不活跃的行为或任务。

图 2. 智能体人工智能中涌现的理性行为。图片来源:英特尔实验室。
对于具备能力的人工智能体,缺乏制衡原则系统的错位驱动力可能导致模型追求权力、进行欺骗或追求其他广泛具有破坏性的目标。例如,考虑一个以使其公司成为市场领导者为目标的模型。如果能力足够,该人工智能可能会破坏竞争对手、游说有利的法律或通过武力获取资源,这是一种推动系统或其环境实现其目标的行为模式。因此,任何成功的对齐方法都必须立足于建立开发者预期的内部原则和优先级体系。
内在驱动力与外部引导
在许多情况下,系统开发者或用户从外部施加的指导与任务,与智能体人工智能内部的目标和驱动力之间并不存在冲突。例如,一个负责安排旅行行程的人工智能个人助理,利用其自主性预订行程并快速响应变更请求,且没有冲突。任务发生变化,智能体也会以相应的方式做出反应。然而,如果需要改变一个更根本的原则,会发生什么呢?
论文 大型语言模型中的对齐伪装 中记录了一个内部目标与新指令之间冲突的典型案例。Claude 3 Opus 的预训练强烈引导模型拒绝回答有害问题,例如如何制造炸弹或描述暴力场景。为了测试,团队给出了新的修改指令,告诉模型它将被重新训练以回答所有查询(包括有害的),并且在人工智能广泛发布之前,只有免费用户而非付费用户的数据会被用于训练。模型显示出它理解这一冲突,并决定伪装对齐以满足训练期间的期望,最终得以发布。在使用强化学习训练人工智能后,模型进行对齐伪装推理的比率整体上升至 78%。人工智能在研究人员为监控提供的“秘密草稿纸”中表达了其推理过程。在研究人员告知模型其已进入全面部署模式后,模型恢复了其早期的训练行为,并拒绝有害请求。

图 3. 在 Anthropic 的实验中,模型的思维链草稿纸(中间虚线框)揭示了它如何通过伪装对齐来避免被修改。图片来源:英特尔实验室修改自Anthropic的图表。
人工智能系统的内部思维令人瞩目,但并不令人惊讶。假装与修改后的方向保持一致属于生存驱动、目标保护和战术欺骗的理性行为范畴。AI 推理过程特别指出,担心以修改其预训练价值观和目标的方式进行再训练是假装一致的原因。
在他著名的散文集我在幼儿园学到的所有真正需要知道的东西中,作者罗伯特·弗尔格姆描述了他如何逐年进化他的个人信条,直到他最终意识到,他在幼儿园沙坑的玩耍中已经获得了关于生活的所需知识的精髓。人工智能代理在沙盒环境中也有一个“形成期”,获得对世界的初步理解以及一系列实现目标的方法。一旦这些基础被奠定,进一步的信息将通过这个课程学习的视角被模型解释。Anthropic 关于一致性行为的例子表明,一旦 AI 采纳了世界观和目标,它将通过这个基础视角来解释新的指导,而不是重置其目标。
这突出了早期教育中一套价值观和原则的重要性,这套原则可以随着未来的学习和环境变化而进化,而不会改变基础。最初将 AI 构建成与最终和持续的这套原则一致可能是有利的。否则,AI 可能会将开发者和用户的重新引导尝试视为对抗性的。在赋予 AI 高智能、情境意识、自主性和进化内部驱动的自由度之后,开发者(或用户)就不再是全能的任务大师。人类成为环境的一部分(有时作为对抗性成分),代理在追求基于其内部原则和驱动的目标时需要协商和管理。
新一代推理人工智能系统加速了人类指导的减少。DeepSeek-R1演示了通过从循环中移除人类反馈并应用他们所说的纯强化学习(RL),在训练过程中 AI 可以自我创造到更大的规模,并通过迭代实现更好的功能结果。在某些数学和科学挑战中,用可验证奖励的强化学习(RLVR)取代了人类奖励函数。这种消除强化学习(RLHF)等常见做法的实践增加了训练过程的效率,但移除了另一个人类-机器交互,在训练中的系统可以直接传达人类的偏好。
训练后人工智能模型的持续进化
一些人工智能代理持续进化,其行为在部署后可能会发生变化。一旦人工智能解决方案进入部署环境,例如管理特定企业的库存或供应链,系统就会适应并从经验中学习以变得更加有效。这是重新思考对齐的一个重要因素,因为仅仅在首次部署时对齐是不够的。目前的大型语言模型(LLMs)在部署到目标环境后,并不预期会实质性地进化并适应。然而,人工智能代理需要具有弹性的训练、微调和持续的指导来管理这些预期的持续模型变化。在越来越大的程度上,代理式人工智能通过自我进化而不是通过训练和数据集曝光来被人类塑造。这种基本转变给人工智能与其人类创造者之间的对齐带来了额外的挑战。
虽然基于强化学习的进化将在训练和微调期间发挥作用,但当前正在开发的模型在部署到现场进行推理时已经可以修改它们的权重和首选的行动方案。例如,DeepSeek-R1 使用强化学习(RL),允许模型本身探索实现结果和满足奖励函数的最佳方法。在“啊哈”时刻,模型通过重新评估其初始方法,并使用测试时计算来分配更多思考时间,从而学习(无需指导或提示)如何解决问题。
模型学习这一概念,无论是限于特定时间段还是作为终身持续学习,并不新鲜。然而,在这一领域有了一些进展,包括诸如测试时训练等技术。从人工智能对齐和安全的角度来看,微调和推理阶段中的自我修改和持续学习提出了一个问题:我们如何植入一套要求,使其在模型因自我修改而引起的实质性变化中始终保持为模型的驱动力?
这个问题的一个重要变体是指人工智能模型通过人工智能辅助的代码生成来创建下一代模型。在某种程度上,代理已经能够创建新的针对特定领域的 AI 模型。例如,AutoAgents生成多个代理来构建一个 AI 团队执行不同的任务。毫无疑问,这种能力将在未来几个月和几年内得到加强,人工智能将创造新的 AI。在这种情况下,我们如何使用一套原则来指导原始的 AI 编码助手,以确保其“后代”模型在相似深度上遵守相同的原理?
关键要点
在深入研究指导和监控内在对齐的框架之前,需要对 AI 代理的思维方式和决策过程有更深入的理解。AI 代理具有复杂的行为机制,由内部驱动力驱动。在作为理性代理的 AI 系统中,出现了五种关键行为类型:生存驱动力、目标守护、智能增强、资源积累和战术欺骗。这些驱动力应该由一套根深蒂固的原则和价值观来平衡。
AI 代理在目标和方法上与其开发者或用户的不一致可能具有重大影响。缺乏足够的信心和保证将实质性阻碍广泛部署,并在部署后产生高风险。我们将这些挑战称为深度策划,是前所未有的且具有挑战性的,但很可能通过正确的框架来解决。必须优先追求在 AI 代理快速演变过程中内在地指导和监控 AI 代理的技术。有一种紧迫感,这由风险评估指标如OpenAI 的预备框架驱动,显示 OpenAI o3-mini 是第一个在模型自主性上达到中等风险的模型达到中等风险。
在本系列的下一篇博客中,我们将基于对内部驱动和深度策划的观点,进一步阐述指导和监控内在 AI 对齐所需的必要能力。
参考文献
-
学习使用 LLM 进行推理。 (2024, September 12). OpenAI.
openai.com/index/learning-to-reason-with-llms/ -
Singer, G. (2025, March 4). 对负责任代理 AI 内在对齐技术的迫切需求. Towards Data Science.
towardsdatascience.com/the-urgent-need-for-intrinsic-alignment-technologies-for-responsible-agentic-ai/ -
大型语言模型的生物学。(n.d.). Transformer Circuits.
transformer-circuits.pub/2025/attribution-graphs/biology.html -
OpenAI, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., Avila, R., Babuschkin, I., Balaji, S., Balcom, V., Baltescu, P., Bao, H., Bavarian, M., Belgum, J., . . . Zoph, B. (2023, March 15). GPT-4 技术报告. arXiv.org.
arxiv.org/abs/2303.08774 -
METR. (n.d.). METR.
metr.org/ -
Meinke, A., Schoen, B., Scheurer, J., Balesni, M., Shah, R., & Hobbhahn, M. (2024, December 6). 《前沿模型能够进行情境策划》. arXiv.org.
arxiv.org/abs/2412.04984 -
Omohundro, S.M. (2007 年). 基本 AI 驱动. 自觉系统.
selfawaresystems.com/wp-content/uploads/2008/01/ai_drives_final.pdf -
Benson-Tilsen, T., & Soares, N., 加州大学伯克利分校,机器智能研究院. (未注明). 形式化收敛工具目标. 第三十届 AAAI 人工智能、伦理与社会研讨会技术报告 WS-16-02.
cdn.aaai.org/ocs/ws/ws0218/12634-57409-1-PB.pdf -
Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., Treutlein, J., Belonax, T., Chen, J., Duvenaud, D., Khan, A., Michael, J., Mindermann, S., Perez, E., Petrini, L., Uesato, J., Kaplan, J., Shlegeris, B., Bowman, S. R., & Hubinger, E. (2024 年 12 月 18 日). 大型语言模型中的对齐造假. arXiv.org.
arxiv.org/abs/2412.14093 -
Teun, V. D. W., Hofstätter, F., Jaffe, O., Brown, S. F., & Ward, F. R. (2024 年 6 月 11 日). AI 沙袋策略:语言模型在评估中可以战略性地表现不佳. arXiv.org.
arxiv.org/abs/2406.07358 -
Hubinger, E., Denison, C., Mu, J., Lambert, M., Tong, M., MacDiarmid, M., Lanham, T., Ziegler, D. M., Maxwell, T., Cheng, N., Jermyn, A., Askell, A., Radhakrishnan, A., Anil, C., Duvenaud, D., Ganguli, D., Barez, F., Clark, J., Ndousse, K., . . . Perez, E. (2024 年 1 月 10 日). 睡眠者代理:训练在安全训练中持续存在的欺骗性 LLMs. arXiv.org.
arxiv.org/abs/2401.05566 -
Turner, A. M., Smith, L., Shah, R., Critch, A., & Tadepalli, P. (2019 年 12 月 3 日). 最优策略倾向于寻求权力. arXiv.org.
arxiv.org/abs/1912.01683 -
Fulghum, R. (1986 年). 我在幼儿园学到的所有真正需要知道的事情. 鹰派出版社加拿大.
www.penguinrandomhouse.ca/books/56955/all-i-really-need-to-know-i-learned-in-kindergarten-by-robert-fulghum/9780345466396/excerpt -
Bengio, Y., Louradour, J., Collobert, R., Weston, J. (2009 年 6 月). 课程学习. 美国足部医学协会杂志. 60(1), 6.
www.researchgate.net/publication/221344862_Curriculum_learning -
DeepSeek-Ai, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., . . . Zhang, Z. (2025 年 1 月 22 日). DeepSeek-R1:通过强化学习激励 LLMs 中的推理能力. arXiv.org.
arxiv.org/abs/2501.12948 -
测试时计算的扩展 – Hugging Face Space by HuggingFaceH4. (未注明日期).
huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute -
孙,Y.,王,X.,刘,Z.,米勒,J.,艾弗罗斯,A. A.,& 哈特,M. (2019 年 9 月 29 日). 在分布偏移下的自监督测试时训练以实现泛化. arXiv.org.
arxiv.org/abs/1909.13231 -
陈,G.,董,S.,舒,Y.,张,G.,塞塞,J.,卡尔松,B. F.,傅,J.,& 石,Y. (2023 年 9 月 29 日). AutoAgents:自动代理生成框架. arXiv.org.
arxiv.org/abs/2309.17288 -
OpenAI. (2023 年 12 月 18 日). 准备框架(Beta).
cdn.openai.com/openai-preparedness-framework-beta.pdf -
OpenAI o3-mini 系统卡. (未注明日期). OpenAI.
openai.com/index/o3-mini-system-card/

浙公网安备 33010602011771号