摘要: 你不可不知的近端策略问题 人类反馈的加入 大模型为了要与人类进行频繁互动,那么他的回答一定是要体现人类偏好。 OpenAI使用的强化学习算法背后就是PPO算法,这个算法可以根据奖励模型获得的反馈进行优化模型,使得模型自动探索符合人类偏好的回复策略。 近段策略优化算法的实施流程 1)策略模型会基于用户 阅读全文
posted @ 2025-05-24 10:57 猫七的blog 阅读(20) 评论(0) 推荐(0)