摘要:
对于 policy improvement,maximize Q(s, π(s)) ,同时约束 π 与一个 prior policy 的 KL 散度,prior policy 用 advantage 非负的 offline 状态转移计算。 阅读全文
posted @ 2024-01-21 11:26
MoonOut
阅读(200)
评论(0)
推荐(0)
摘要:
OpenReview 检索关键词:ICLR 2024、reinforcement learning、preference、human feedback。 阅读全文
posted @ 2024-01-21 11:17
MoonOut
阅读(663)
评论(0)
推荐(0)

浙公网安备 33010602011771号