偏好对齐

RLHF

学习一个reword model：

优化目标：

这个目标是不可微的，所以需要RL的算法：PPO

DPO

核心是省去显式建模reword model的过程，显式建立奖励与策略之间的函数关系，使用偏好数据直接优化策略（llm）

PPO中训练reword model时的损失函数：

\(y_w\)代表好数据（win），\(y_l\)代表差数据（lose）

DPO建立一个奖励和策略的显式函数关系：

\(\pi_r()\)表示需要对齐的llm，\(\pi_ref()\)表示参数被fix的sft模型，\(r()\)表示奖励

推导一步：

带回reword model的函数：

这样就达成了直接用偏好数据，去对齐llm的目的，也符合论文名：Your Language Model is Secretly a Reward Model

IPO

IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》，论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于在DPO的损失函数上添加了一个正则项

（\(\tau\)与DPO里的\(\beta\)类似）

KTO

posted @ 2024-07-26 15:58 shiiiilong 阅读(149) 评论(0) 收藏举报

刷新页面返回顶部

shiiiilong

偏好对齐

RLHF

DPO

IPO

KTO

公告