偏好对齐
RLHF
学习一个reword model:

优化目标:

这个目标是不可微的,所以需要RL的算法:PPO
DPO
核心是省去显式建模reword model的过程,显式建立奖励与策略之间的函数关系,使用偏好数据直接优化策略(llm)
PPO中训练reword model时的损失函数:

\(y_w\)代表好数据(win),\(y_l\)代表差数据(lose)
DPO建立一个奖励和策略的显式函数关系:

\(\pi_r()\)表示需要对齐的llm,\(\pi_ref()\)表示参数被fix的sft模型,\(r()\)表示奖励
推导一步:

带回reword model的函数:

这样就达成了直接用偏好数据,去对齐llm的目的,也符合论文名:Your Language Model is Secretly a Reward Model

IPO
IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》,论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于 在DPO的损失函数上添加了一个正则项

(\(\tau\)与DPO里的\(\beta\)类似)

浙公网安备 33010602011771号