会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
猫七的blog
https://www.cnblogs.com/liuguangshou123/
博客园
首页
新随笔
联系
订阅
管理
2025年5月24日
强化学习(二)
摘要: 你不可不知的近端策略问题 人类反馈的加入 大模型为了要与人类进行频繁互动,那么他的回答一定是要体现人类偏好。 OpenAI使用的强化学习算法背后就是PPO算法,这个算法可以根据奖励模型获得的反馈进行优化模型,使得模型自动探索符合人类偏好的回复策略。 近段策略优化算法的实施流程 1)策略模型会基于用户
阅读全文
posted @ 2025-05-24 10:57 猫七的blog
阅读(20)
评论(0)
推荐(0)
公告