会员
周边
新闻
博问
融资
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
ForHHeart
博客园
首页
新随笔
联系
订阅
管理
2024年4月16日
Reinforcement Learning from Human Feedback(RLHF): TRPO, PPO, DPO
摘要: 0 Introduction Terminology \(S\)(state), \(A\)(action), \(R\)(reward) \(\tau\)(trajectory) = (\(s_1\),\(a_1\),\(r_1\),\(s_2\),\(a_2\),\(r_2\),..., \(s
阅读全文
posted @ 2024-04-16 13:47 ForHHeart
阅读(11)
评论(0)
推荐(0)
编辑
公告