偏好对齐

RLHF

学习一个reword model:

image

优化目标:
image

这个目标是不可微的,所以需要RL的算法:PPO

DPO

核心是省去显式建模reword model的过程,显式建立奖励与策略之间的函数关系,使用偏好数据直接优化策略(llm)


PPO中训练reword model时的损失函数:
image
\(y_w\)代表好数据(win),\(y_l\)代表差数据(lose)


DPO建立一个奖励和策略的显式函数关系:
image
\(\pi_r()\)表示需要对齐的llm,\(\pi_ref()\)表示参数被fix的sft模型,\(r()\)表示奖励

推导一步:
image


带回reword model的函数:
image

这样就达成了直接用偏好数据,去对齐llm的目的,也符合论文名:Your Language Model is Secretly a Reward Model


image

IPO

IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》,论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于 在DPO的损失函数上添加了一个正则项

image
\(\tau\)与DPO里的\(\beta\)类似)

KTO

posted @ 2024-07-26 15:58  shiiiilong  阅读(149)  评论(0)    收藏  举报