随笔档案「2024年4月16日」：Reinforcement Learning from Human Feedba... - ForHHeart

2024年4月16日

Reinforcement Learning from Human Feedback(RLHF): TRPO, PPO, DPO

摘要： 0 Introduction Terminology \(S\)(state), \(A\)(action), \(R\)(reward) \(\tau\)(trajectory) = (\(s_1\),\(a_1\),\(r_1\),\(s_2\),\(a_2\),\(r_2\),..., \(s 阅读全文

posted @ 2024-04-16 13:47 ForHHeart 阅读(120) 评论(0) 推荐(0)

ForHHeart

公告