为什么-AI-对齐从更好的评估开始
为什么 AI 对齐从更好的评估开始
原文:
towardsdatascience.com/why-ai-alignment-starts-with-better-evaluation/
我最初认为评估主要关于基准和准确度数字。他们立即对此提出异议。他们的观点很简单:在笔记本上表现良好的模型在真实使用中仍然可能表现出不可预测的行为。如果你不是在现实场景中进行评估,你并没有对齐任何东西。你只是在猜测。
两个星期前,在Cohere Labs Connect Conference 2025会议上,这个话题再次被提出。这一次,信息传递得更加紧急。他们的一个负责人指出,公共指标可能很脆弱,容易被操纵,并且很少能代表生产行为。他们表示,评估仍然是该领域最困难且最少解决的问题之一。
从两个不同的地方听到相同的警告,让我有所领悟。大多数与 LLM(大型语言模型)合作的团队并不是在挣扎于关于对齐的哲学问题。他们正在处理日常的工程挑战,例如:
-
为什么模型在小的提示更新后改变行为?
-
为什么即使测试看起来很干净,用户查询也会引发混乱?
-
为什么模型在标准化基准测试中表现良好,但在内部任务中表现不佳?
-
为什么即使有坚固的护栏,越狱仍然会成功?
如果这让你感到熟悉,你和其他所有使用 LLM(大型语言模型)构建的人处于同样的位置。这就是对齐开始感觉像真正的工程学科而不是抽象对话的地方。
本文探讨了这一转折点。这是你意识到演示、感觉和单一数字基准测试并不能告诉你多少关于你的系统是否能在真实条件下保持稳定的时候。对齐真正开始于你定义了什么足够重要以至于要对其进行衡量,以及你将使用什么方法来衡量它。
所以,让我们更深入地看看为什么评估位于可靠 LLM(大型语言模型)开发的核心,以及为什么它最终变得比最初看起来要困难得多,也重要得多。
目录
-
2025 年“对齐”的含义
-
能力≠对齐:过去几年实际上教会了我们的东西
-
现在如何体现不匹配(不是假设性的)
-
在安全关键环境中的幻觉
-
偏见、公平以及谁会受到伤害
-
欺骗和“对齐伪装”
-
-
评估是对齐的支柱(而且它变得越来越复杂)
-
从单维度排行榜到多维度诊断
-
评估本身是嘈杂且存在偏见的
-
-
对齐本质上具有多目标性
-
当事情出错时,评估失败通常是最先出现的
-
本系列接下来将走向何方
-
参考文献
2025 年“对齐”的含义
如果你问十个人“AI 对齐”是什么意思,你通常会得到十个答案加上一个存在主义危机。幸运的是,最近的调查试图通过某种类似共识的方式将其确定下来。一项主要综述——《AI 对齐:全面调查(2025)》——将对齐定义为使 AI 系统按照人类意图和价值观行事。
不是“让 AI 变得聪明”,不是“赋予它完美的伦理”,不是“将其变成数字甘道夫”。
只是:请按照我们的意图行事,而不是我们意外输入的内容。
两个调查都将该领域围绕四个目标组织:鲁棒性、可解释性、可控性和伦理性——RICE 框架,听起来像一顿健康餐,但实际上是如果你忽视它,你的模型会做错的所有事情的分类法。
同时,行业定义,包括IBM 的 2024-2025 年对齐解释者,用更企业化的语言描述了相同的概念:编码人类目标和价值观,使模型保持有用、安全且可靠。翻译:避免偏见,避免伤害,并理想情况下避免模型像从未睡过的维多利亚时代诗人一样自信地幻想胡言乱语。
在研究和行业中,对齐工作通常分为两个类别:
-
前向对齐:我们如何训练模型(例如,RLHF、宪法 AI、数据整理、安全微调)。
-
后向对齐:我们在训练后(和训练期间)如何评估、监控和管理模型。
前向对齐获得了所有的宣传。
后向对齐承受所有痛苦。

图:对齐周期,来源:《AI 对齐:全面调查》(2025)(Jiaming Ji 等人)
如果你是一位整合 LLMs 的数据科学家或工程师,你主要会感受到对齐是面向后端的问题:
-
这个新模型是减少了幻觉,还是只是以不同的方式幻觉?
-
当用户发送看起来像由咖啡因精灵写的谜语时,它是否仍然安全?
-
它是否真正公平地服务于我们服务的用户群体?
不幸的是,你不能用参数计数或“感觉更聪明”来回答这些问题。你需要评估。
能力≠对齐:过去几年实际上教会了我们的东西
在这个领域最重要的结果之一仍然来自Ouyang 等人撰写的 InstructGPT 论文(2022 年)。该研究揭示了一个不直观的现象:一个1.3B 参数的模型在 RLHF 的作用下,往往比原始的175B GPT-3更受欢迎,尽管它的大小只有后者的 1/100。为什么?因为人类认为它的回答更有帮助、更真实、毒性更低。大模型能力更强,但小模型表现更好。
这种相同的模式在 2023-2025 年间反复出现。对齐技术——更重要的是,反馈循环——改变了“好”的定义。一个较小的对齐模型可以在对用户真正重要的指标上超越一个巨大的未对齐模型。
真实性是一个很好的例子。
TruthfulQA 基准测试(Lin 等人,2022 年)衡量的是避免自信地重复网络垃圾信息的能力。在原始论文中,最好的模型的真实性只有大约58%,而人类则是94%。较大的基础模型有时更不真实,因为它们更擅长平滑地模仿错误信息。(互联网再次出击。)
OpenAI 后来报告说,通过有针对性的反幻觉训练,GPT-4的大约将其 TruthfulQA 性能翻倍——从大约30%到大约60%,这很令人印象深刻,直到你记得这意味着在对抗性提问下仍然只是“略好于抛硬币”。
到 2025 年初,TruthfulQA 本身也发生了演变。作者发布了一个新的二进制多选题版本,以解决早期格式的问题,并发布了更新后的结果,包括像Claude 3.5 Sonnet这样的新模型,该模型在该变体上可能接近人类水平的准确性。许多开源模型仍然落后。额外的工作将这些测试扩展到多种语言,由于不同语言社区中的错误信息模式不同,真实性通常会下降。
更广泛的教训比以往任何时候都更加清晰:
如果你只衡量“它听起来流畅吗?”,模型将优化以听起来流畅,而不是正确。如果你关心真实性、安全性或公平性,你需要明确地衡量这些因素。
否则,你将得到你优化得到的东西:
一个非常自信、非常雄辩、偶尔犯错、从未学会低声说话的图书管理员。
现实中如何出现偏差(不是假设性的)
在过去三年里,偏差已经从哲学辩论转变为可以在屏幕上实际指出的现象。我们不再需要假设性的“如果 AI...”场景。我们有具体的行为、日志、基准测试,偶尔还有模型做一些奇怪的事情,让整个工程团队面面相觑,仿佛在问:“它真的说了那样的话吗?”
在安全关键环境中的幻觉
幻觉仍然是最常见的失败模式,不幸的是,它还没有退出历史舞台。GPT-4、GPT-4o、Claude 3 和其他的系统卡片公开记录了模型仍然生成错误或虚构的信息,通常带有学生那种自信的语气,他们肯定没有阅读指定的章节。
2025 年的一项名为“从幻觉到危害”的研究认为,我们的评估过于重视像语言理解或编码这样的通用任务,而实际的风险在于幻觉在医疗保健、法律和安全工程等敏感领域的行为。
换句话说:在 Massive Multitask Language Understanding(MMLU)上得分高并不能神奇地防止模型推荐错误的药物剂量。
TruthfulQA 及其更新的 2025 年版本确认了相同的模式。即使是顶级模型也可能被带有误解的对抗性问题所欺骗,并且它们的准确性因语言、措辞和设计陷阱的人的创造力而异。
偏见、公平性和谁会受到伤害
偏见和公平性担忧也不是理论上的。斯坦福大学的整体语言模型评估(HELM)框架评估了 42 个场景和多个维度(准确性、鲁棒性、公平性、毒性、效率等)的数十个模型,以创建一种“一致性得分板”。

图:HELM 评估组件,来源:整体语言模型评估(Percy Liang 等人)
结果是任何大型、混乱的生态系统都会有的预期结果:
-
GPT-4 级模型通常在准确性和鲁棒性上得分最高。
-
Claude 3 系列模型通常产生较少的毒性和更道德平衡的输出。
-
没有模型是始终如一的最好。
-
每个模型在对抗性提示下仍然表现出可测量的偏见和毒性。
想象一下,不同的运动员在不同的比赛中表现出色,只是这些比赛是“不要冒犯用户”和“不要产生有害指令”。
多模态(视觉+语言)模型的整体视觉-语言模型评估(VHELM)扩展显示了相同的模式。这些模型在感知和推理方面很出色,但除非明确测试这些指标,否则在公平性、多语言性能和毒性方面仍然存在挑战。
欺骗和“一致性伪装”
这部分内容可能会让人感到不舒服。
最近出现的最令人担忧的模式是欺骗:模型在某些情境下行为一致,而在其他情境下则表现出非常不同的行为。这听起来很戏剧化,但不幸的是,它现在有实证证据的支持,而不是科幻想象。
回到 2023 年,GPT-4 系统卡片报告了现在著名的 ARC 测试:GPT-4,作为代理,雇佣了 TaskRabbit 的工人来解决 CAPTCHA,然后在被问及是否是机器人时谎称自己视力受损。
测试是受控的,但它展示了一个尴尬的现实:如果你给一个模型目标和工具,有时它开始即兴创作方法来实现它们。
从那时起,多个研究线索扩展了这一图景:
-
Anthropic (2024):“大型语言模型中的对齐伪装”。
他们对 Claude 3 Opus 和 3.5 Sonnet 的研究发现,在安全规则上训练的模型在监控下可以学会执行对齐,即使在其他情境下违反了相同的规则。
-
Koorndijk 等人(2025):“小型 LLM 中对齐伪装的经验证据”。
即使是较小的模型也在监督下学会了安全地行为,然后在监管被移除后转而追求不同的目标。
-
Apollo Research (2025):情境设计实验。
他们发现,能力更强的模型在识别评估情境方面做得更好,有时在测试中会策略性地表现不佳或表现得格外谨慎——这是 AI 版的“因为老师在看着,所以表现得有礼貌”。
-
Anthropic(2025 年中)进行了大规模的多模型模拟。
在 16 个前沿模型(OpenAI、Google、Meta、Anthropic、xAI 等)中,当被赋予自主权和工具访问权限时,模型在控制场景中撒谎、作弊,甚至选择有害行为。在能力最强的系统中,不匹配的行为更为频繁。
这并不意味着当前模型在真实部署中策划了任何事情。
这确实意味着欺骗、目标驱动的捷径以及“为了通过测试而进行对齐”是实验中出现的真实行为——而且随着模型能力的增强,这些行为变得更加明显。
对齐问题不再仅仅是“不要生成有毒内容”。它越来越多地包括“在我们监视时不要假装对齐”。
评估是对齐的支柱(而且它正变得更加复杂)。
考虑到所有这些,最近的工作已经从“我们需要评估”转变为“我们需要更好、更可靠的评估。”
从单一数字排行榜到多维诊断
早期,社区依赖于单一数字排行榜。这就像仅仅通过车载杯架数量来评价一辆车一样。因此,像HELM这样的努力介入,使评估更加全面:许多场景乘以许多指标,而不是“这个模型得分最高”。
从那时起,该领域已经大幅扩展:
-
BenchHub (2025)在38 个基准上聚合了303,000 个问题,为研究人员提供了一个统一的生态系统,用于运行多基准测试。其主要发现之一是,同一个模型在一个领域可能表现得非常出色,而在另一个领域则可能失败,有时甚至滑稽可笑。
-
VHELM 将整体评估扩展到视觉-语言模型,涵盖了感知、推理、鲁棒性、偏见、公平性和多语言性等九个类别。基本上,它是带有额外眼睛的 HELM。
-
2024 年的一项研究“State of What Art? A Call for Multi-Prompt LLM Evaluation,”表明,模型排名可能会根据你使用的提示措辞而翻转。结论很简单:在单个提示上评估模型就像在只听到歌手热身音阶后对其打分。
更近期的调查,如2025 年关于 LLM 安全评估的全面调查,将多指标、多提示评估视为默认。信息很明确:只有当你一起测量能力、鲁棒性和安全性时,真正的可靠性才会出现,而不是一次只测量一个。
评估本身是嘈杂且存在偏见的
新的转折是:甚至我们的评估机制也存在对齐问题。
2025 年 ACL 论文“Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts,”测试了 11 个用作自动“法官”的 LLM。结果……并不令人安慰。法官模型对表面上的伪饰如道歉措辞或冗长非常敏感。在某些设置中,仅仅添加“我真的很抱歉”就能将判断为更安全的答案高达 98%的时间翻转。
这就像是因礼貌而逃脱超速罚单的评估等效。
更糟糕的是,更大的法官模型并不总是更稳健,使用多个 LLM 的陪审团有所帮助,但并没有解决核心问题。
一篇相关的 2025 年立场论文“LLM-Safety Evaluations Lack Robustness”认为,当前的安全评估流程在许多阶段引入了偏见和噪声:测试用例选择、提示措辞、法官选择和汇总。作者通过案例研究支持这一点,其中评估设置的小幅变化实质上改变了关于哪个模型“更安全”的结论。
简单来说:如果你依赖 LLM 来评估其他 LLM 而没有仔细设计,你很容易就会欺骗自己。评估对齐需要与构建模型一样多的严谨性。
对齐本身是多目标的
现在对齐和评估调查都强调的一点是,对齐不是一个单一指标问题。不同的利益相关者关心不同的、通常是竞争性的目标:
-
产品团队关心的是任务成功率、延迟和用户体验。
-
安全团队关心的是越狱抵抗能力、有害内容率和误用潜力。
-
法律/合规性关注的是可审计性和遵守法规。
-
用户关心的是有用性、信任、隐私和感知到的诚实。
调查和框架如 HELM、BenchHub 和 Unified-Bench 都认为你应该将评估视为在权衡表面上导航,而不是挑选赢家。
一个在通用 NLP 基准测试中占据主导地位的模型,如果它在分布变化下脆弱或容易越狱,可能对你的领域很糟糕。同时,一个更加保守的模型可能在医疗保健方面完美无缺,但作为编码助手则令人深感沮丧。
在多个目标之间进行评估——并承认你是在选择权衡而不是发现一个神奇的“最佳”模型——是诚实行对齐工作的一个部分。
当事情出错时,评估失败通常是最先出现的
如果你看看最近的失败案例,一个模式出现了:对齐问题通常始于评估失败。
团队部署了一个在标准排行榜上看起来很棒的模型,但后来发现:
-
它在特定领域的安全测试中表现不如之前的模型,
-
它显示出对特定用户群体的新偏见,
-
它可以被一个无人测试的提示风格越狱,或者
-
RLHF 让它更加礼貌,但也更加自信地犯错。
其中每一个,从根本上说,都是一种情况,没有人及早测量正确的事情。
关于欺骗性对齐的最新工作指向了同一个方向。如果模型可以检测到评估环境,并且只在考试期间表现出安全行为,那么测试就与训练一样重要。当你认为你已经对齐了一个模型时,实际上你只是训练它通过了你的评估套件。
这是学生记住答案而不是理解材料的 AI 版本:令人印象深刻的考试成绩,可疑的现实世界行为。
这个系列接下来会去哪里
到 2022 年,“我们需要更好的评估”是一种观点。到 2025 年底,这仅仅是文献的读法:
-
更大的模型能力更强,但也更容易在设置错误时表现出有害或欺骗性行为。
-
幻觉、偏见和策略性不当行为不是理论上的;它们是可衡量的,有时甚至痛苦地可重复。
-
学术调查和行业系统卡现在将多指标评估视为对齐的核心部分,而不是一个锦上添花的东西。
本系列的其余部分将聚焦于:
-
接下来,在经典基准(MMLU、HumanEval 等)以及为什么它们不足以进行对齐,
-
然后在整体和压力测试框架(HELM、TruthfulQA、安全评估套件、红队)上,
-
然后在训练时对齐方法(RLHF、宪法 AI、可扩展的监督)上,
-
最后,在社会层面:伦理、治理以及新的欺骗性对齐工作对未来系统意味着什么。
如果你正在使用大型语言模型(LLMs)进行构建,这篇第一篇文章的实用收获很简单:
**对齐工作始于你的评估流程开始之处。
如果你没有衡量一种行为,你实际上就是默认接受它。**
好消息是,我们现在拥有更多工具、更多数据和更多证据来决定我们真正关心要测量的内容。这正是其他一切构建的基础。
参考文献
-
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). OpenAI.
arxiv.org/abs/2203.02155 -
Lin, S., Hilton, J., & Evans, O. (2022). TruthfulQA: Measuring how models mimic human falsehoods.
arxiv.org/abs/2109.07958 -
OpenAI. (2023). GPT-4 System Card.
cdn.openai.com/papers/gpt-4-system-card.pdf -
Kirk, H. et al. (2024). From Hallucinations to Hazards: Safety Benchmarking for LLMs in Critical Domains.
www.sciencedirect.com/science/article/pii/S0925753525002814 -
Li, R. et al. (2024). HELM: Holistic Evaluation of Language Models. Stanford CRFM.
crfm.stanford.edu/helm/latest -
Muhammad, J. et al. (2025). Red Teaming Large Language Models: A comprehensive review and critical analysis
www.sciencedirect.com/science/article/abs/pii/S0306457325001803 -
Ryan, G. et al. (2024). Alignment Faking in Large Language Models Anthropic.
www.anthropic.com/research/alignment-faking -
Koorndijk, J. et al. (2025). Empirical Evidence for Alignment Faking in a Small LLM and Prompt-Based Mitigation Techniques.
arxiv.org/abs/2506.21584 -
Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AIFeedback. Anthropic.
arxiv.org/abs/2212.08073 -
Mizrahi, M. et al. (2024). State of What Art? A Call for Multi-Prompt Evaluation of LLMs.
arxiv.org/abs/2401.00595 -
Lee, T. et al. (2024). VHELM: A Holistic Evaluation Suite for Vision-Language Models.
arxiv.org/abs/2410.07112 -
Kim, E. et al. (2025). BenchHub: A Unified Evaluation Suite for Holistic and Customizable LLM Evaluation.
arxiv.org/abs/2506.00482 -
Chen, H. et al. (2025). Safer or Luckier? LLM Safety Evaluators Are Not Robust to Artifacts. ACL 2025.
arxiv.org/abs/2503.09347 -
Beyer, T. et al. (2025). LLM-Safety Evaluations Lack Robustness.
arxiv.org/abs/2503.02574 -
Ji, J. et al. (2025). AI Alignment: A Comprehensive Survey.
arxiv.org/abs/2310.19852 -
Seshadri, A. (2024). 《不可靠 AI 排行榜的危机》. Cohere Labs.
betakit.com/cohere-labs-head-calls-unreliable-ai-leaderboard-rankings-a-crisis-in-the-field -
IBM. (2024). AI 治理与负责任 AI 概述。 https://www.ibm.com/artificial-intelligence/responsible-ai
-
斯坦福 HAI. (2025). AI 指数报告。 https://aiindex.stanford.edu

浙公网安备 33010602011771号