强化学习(二)

你不可不知的近端策略问题

人类反馈的加入

大模型为了要与人类进行频繁互动,那么他的回答一定是要体现人类偏好。
OpenAI使用的强化学习算法背后就是PPO算法,这个算法可以根据奖励模型获得的反馈进行优化模型,使得模型自动探索符合人类偏好的回复策略。

近段策略优化算法的实施流程

1)策略模型会基于用户的输入先生成一系列回复。
2)奖励模型会对上一步进行打分获得奖励
3)评论模型预测模型生成回复的未来累积奖励,并借助GAE算法估计策略函数
4)调整策略模型

奖励模型的训练流程

1/
训练思路1:
将相同输入,模型生成的不同输出之间进行配对,每一对包括一个首选样本和一个非首选样本,然后利用这些数据来建模奖励模型的训练损失。
对比损失函数:
\(L (\psi )=log\sigma(r(x,y_{w}) - r(x,y_{l}) )\),其中\(\psi\)为sigmoid函数,\(r(x,y_{w})\)为针对输入x和参数w的模型输出y所预测出的单一标量奖励值。这种方法是为了让每一对的模型损失最小,从而让\(r(x,y_{w})\)\(r(x,y_{l})\)的差异达到最大,使得模型能够在每个句子对中模仿首选的输出。
2/
训练思路2:
对于每一对输出,建立自回归的语音模型损失,使得模型能够在每个句子对中模仿首选答案的输出。
\(L (\psi )=-AE[log\sigma(r(x,y_{w}) - r(x,y_{l}) )] + BE[log\sigma(r'(x,y_{w}))]\)
这里的r'模型只有顶层线性层与r有所不同,\(r'(x,y_{w})\)表示给定输入提示x和首选输出\(y_{w}\)条件下的似然概率,这个似然概率表达了模型生成给定输出的可能性。

posted @ 2025-05-24 10:57  猫七的blog  阅读(20)  评论(0)    收藏  举报