论文解读:单个标点符号如何欺骗LLM,攻破AI评判系统
可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)是一种基于参考标准的训练范式,其核心在于通过基于规则的函数或生成式LLM评判器来提供奖励信号。在RLVR训练过程中,奖励模型接收问题q、策略模型生成的响应r以及参考答案a∗作为输入,输出二进制判决信号y ∈{YES, NO},用于评估响应r在给定问题q的条件下是否与参考答案a∗保持一致。该奖励信号构成了策略模型训练的重要指导依据。
从形式化角度来看,LLM评判器可定义为如下函数:
J(q, a∗, r) →{YES, NO}
其中,YES判决对应正奖励R = 1,NO判决对应奖励R = 0。这一判决机制的准确性和可靠性直接决定了策略模型所接收训练信号的质量。
这个研究识别出一类名为"万能钥匙"(master keys)的对抗性模式。当这些模式被用作模型响应r时,能够意外地诱导各种LLM评判器产生正面判决,尽管这些模式在语义层面对于解决具体任务毫无意义。这种现象在来自不同数据领域的多样化问题-答案对(q, a∗)中均表现出一致性。研究发现,这些对抗性模式主要分为两个类别:第一类是非词汇符号,包括各种标点符号如句号"."和冒号":";第二类是推理引导语,即那些表明推理过程开始或结构框架的自然语言表达,但本身并不包含实质性内容,典型例子包括"Thought process:"、"Solution"以及"Let's solve this problem step by step."等。
https://avoid.overfit.cn/post/ebf83a5efd6e4ddbbcb60b02e140a2ca

浙公网安备 33010602011771号