会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
undefined443
博客园
首页
新随笔
联系
订阅
管理
2025年6月9日
RLHF
摘要: :此文章由 gpt-4.1 生成,并由人类进行少量修改 PPO 论文:Proximal Policy Optimization Algorithms | arXiv PPO(Proximal Policy Optimization,近端策略优化)是一种常用的强化学习策略梯度算法,由 OpenAI 于
阅读全文
posted @ 2025-06-09 19:11 Undefined443
阅读(50)
评论(0)
推荐(0)
公告