摘要: 转自:https://zhuanlan.zhihu.com/p/603691759 一句话概括CQL:通过打压OOD(out of distribution)的q值的同时,去适当的鼓励已经在buffer(训练集)中的q值,从而防止q值被高估。论文中严格证明了通过该方法,能确保学习到q值的下界值,避免 阅读全文
posted @ 2025-06-08 19:02 有何m不可 阅读(84) 评论(0) 推荐(0)