大模型微调(六):宪法AI

这里有一个营销倾向!“混合专家MoE”听起来确实比“我们有一堆前馈网络,并根据输入路由到不同的网络”酷多了。

宪法AI也有点像这样,一个更直白的花哨名字。它的基本原理是:不让模型在RLHF中评估输出,而是先让模型根据一套原则,也就是“宪法”,来批判和修改自己的回答。

比如,让模型生成一个回答,然后问“这是否违反了原则X?”,并让模型修改它。用很多原则重复多次,模型就会内化这些价值观。然后才是人类反馈部分。

“黄牌警告”不是因为模型在“执行宪法”,它们更像是模型从这个过程中深刻习得的习惯。模型在训练中吸收了所有这些关于乐于助人、无害和诚实的原则,现在它们已经成为模型的“优化目标”的一部分了。

“宪法AI”听起来很正式合法。但实际上它只是在人类评估之前教会了人工智能根据规则进行自我修正。

在宪法AI中,模型不仅仅是给某些内容贴上“不恰当”的标签。实际上,模型是在给自己生成修订版。这个过程是这样的:生成初始响应,然后对其进行批判(“这个响应是否违反了原则 X?”),然后根据批判生成修订版响应。

关键在于,在这两个部分都运用了大模型的语言模型能力。模型可以生成“这个响应可能有害,因为……”,然后生成“更好的响应应该是……”,这仍然是下一个标记预测,只是受提示中的宪法原则指导。

然后,工程师收集所有这些原始的、修订的内容对,并对修订版进行监督学习。所以,模型最终学到的是:“当我生成类似 X 的内容时,我应该生成类似 Y 的内容。”就像模型是我自己的第一个编辑,学习如何在人工审阅人员发现问题之前就发现并修复它们。

目前,典型的宪法AI是Claude,与DeepSeek R1系列一样,它们都应用了RLAIF,也就是基于AI反馈的强化学习方法。

 

posted @ 2025-10-27 08:11  CathyBryant  阅读(9)  评论(0)    收藏  举报  来源