2025 年 5月 24 日随笔档案 - 猫七的blog

2025年5月24日

摘要：你不可不知的近端策略问题人类反馈的加入大模型为了要与人类进行频繁互动，那么他的回答一定是要体现人类偏好。 OpenAI使用的强化学习算法背后就是PPO算法，这个算法可以根据奖励模型获得的反馈进行优化模型，使得模型自动探索符合人类偏好的回复策略。近段策略优化算法的实施流程 1）策略模型会基于用户阅读全文

posted @ 2025-05-24 10:57 猫七的blog 阅读(30) 评论(0) 推荐(0)

猫七的blog

https://www.cnblogs.com/liuguangshou123/

公告