POLAR 的无监督预训练

POLAR 的无监督预训练过程可以拆解为 “数据构建逻辑” 和 “对比学习目标” 两部分,结合具体例子会更易理解:

一、核心目标


让奖励模型(RM)像 “策略侦探” 一样,学会判断两条轨迹(模型输出)是否来自同一个 “政策”(即同一个模型或相似行为模式的模型)。如果来自同一政策,就给它们更高的 “相似度分”;如果来自不同政策,就给更低的分。通过这种训练,RM 能自动捕捉不同模型的行为差异,为后续判断 “哪个轨迹更接近目标政策” 打下基础。

二、具体训练细节拆解

1. 多样化政策池:从哪里找 “嫌疑人”?

  • 政策池组成:收集 131 个基础 LLM(如 Llama3、Qwen2.5 等不同架构、不同参数规模的模型)和 53 个对话 LLM,甚至包括同一模型的 78 个中间训练 checkpoint(比如 InternLM3-8B 训练过程中不同步数的版本)。 这些模型就像 “行为风格各异的嫌疑人”,有的擅长推理,有的擅长聊天,输出轨迹(回答)的风格、逻辑、错误模式都不同。

  • 为何需要多样化?:只有政策足够多样,RM 才能学到更通用的 “差异识别能力”,而不是只认识某几种模型。

2. 构建训练数据:制造 “案发现场”


为了让 RM 学习 “判断两条轨迹是否来自同一政策”,需要构建对比样本:

  • 步骤 1:随机选一个 “提示词”(如 “解释相对论”“写一首关于春天的诗”)。
  • 步骤 2:从政策池中随机挑两个不同的模型(比如模型 A 和模型 B):
    • 让模型 A 生成两条轨迹(τ₁、τ₂)→ 这两条来自同一政策(A),是 “同伙”。
    • 让模型 B 生成一条轨迹(τ₃)→ 这条来自不同政策(B),是 “外人”。
  • 最终样本:每个训练样本包含(提示词,τ₁,τ₂,τ₃),其中(τ₁, τ₂)是 “同一政策组”,(τ₁, τ₃)是 “不同政策组”。



类比:就像给侦探看三组证据 —— 前两份来自同一嫌疑人,第三份来自另一个嫌疑人,让侦探学会区分 “是否同属一伙”。

3. 对比学习目标:用 BT 损失教 RM “打分”


采用Bradley-Terry(BT)损失,核心是让 RM 对 “同一政策的轨迹对” 打更高的分,对 “不同政策的轨迹对” 打更低的分。

  • 具体公式: 对每个样本(提示词 p,τ₁, τ₂, τ₃),RM 需要计算两个分数:

                         分数 1:r (p, τ₁, τ₂) → 衡量 τ₁和 τ₂的 “政策一致性”(预期:同一政策,分数高)。

                         分数 2:r (p, τ₁, τ₃) → 衡量 τ₁和 τ₃的 “政策一致性”(预期:不同政策,分数低)。

                         BT 损失要求:

                         其中 σ 是 sigmoid 函数,目标是让 “同一政策组分数 - 不同政策组分数” 尽可能大(趋近于正无穷),此时损失趋近于 0。

  • 通俗解释: 训练 RM 时,不断 “奖励” 它对 “同伙轨迹对” 打高分、对 “外人轨迹对” 打低分的行为。比如:

    • 若 τ₁和 τ₂都是模型 A 生成的(同一政策),RM 给它们打了 0.8 分;
    • τ₁和 τ₃分别来自模型 A 和 B(不同政策),RM 给它们打了 0.3 分; 这种情况下,0.8-0.3=0.5,损失小,RM 表现好。 反之,若分数颠倒,损失会变大,RM 会被 “惩罚” 并调整参数。

4. 训练结果:RM 学会了什么?


经过大规模预训练(3.6T tokens),RM 会形成一种 “直觉”:

  • 看到两条逻辑相似、错误类型一致的轨迹(比如都在数学题中算错乘法),会判断它们来自同一政策,打高分;
  • 看到两条风格、逻辑差异大的轨迹(比如一条严谨推理,一条答非所问),会判断它们来自不同政策,打低分。



这一步不涉及 “人类偏好”,只学 “政策差异”,就像侦探先学 “认人”,再学 “判断谁是好人”。

三、为何这样设计?


传统奖励模型直接学 “人类觉得哪个好”,但人类偏好数据少且主观;而 POLAR 先学 “模型行为差异”,这种数据可以无限生成(只要有足够多模型),且目标更通用。后续微调时,只需告诉 RM “人类喜欢的目标政策是什么样的”,它就能快速用学到的 “差异识别能力” 去判断 “哪个轨迹更接近目标”。

比如:预训练后,RM 已能区分 “模型 C(擅长 STEM)和模型 D(擅长聊天)的轨迹差异”;微调时给它 “人类认为好的 STEM 回答” 作为目标政策,它就能准确打分 —— 更像模型 C 的轨迹得分更高。

 

论文:

https://arxiv.org/pdf/2507.05197

6e224f3139f5aa5edd8e05e475d7fa18

 

image

 

posted on 2025-07-26 12:48  limingqi  阅读(32)  评论(0)    收藏  举报

导航