2023 年 12月 17 日随笔档案 - MoonOut

摘要：如果没有质量更好的第二季，宁愿它就这样停在第一季；已经很好了，已经很完美了。阅读全文

posted @ 2023-12-17 16:15 MoonOut 阅读(107) 评论(1) 推荐(0)

摘要： critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。阅读全文

posted @ 2023-12-17 15:37 MoonOut 阅读(221) 评论(0) 推荐(0)

摘要： Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 帮助很小，最终导致 feedback-efficiency 低下。阅读全文

posted @ 2023-12-17 15:28 MoonOut 阅读(152) 评论(0) 推荐(0)

月出兮彩云归 🌙