2025 年 6月 8 日随笔档案 - 有何m不可

2025年6月8日

Conservative Q Learning(保守强化学习)傻瓜级讲解和落地教程

摘要：转自：https://zhuanlan.zhihu.com/p/603691759 一句话概括CQL：通过打压OOD(out of distribution)的q值的同时，去适当的鼓励已经在buffer(训练集)中的q值，从而防止q值被高估。论文中严格证明了通过该方法，能确保学习到q值的下界值，避免阅读全文

posted @ 2025-06-08 19:02 有何m不可阅读(124) 评论(0) 推荐(0)

gongzb

公告