摘要:
如果没有质量更好的第二季,宁愿它就这样停在第一季;已经很好了,已经很完美了。 阅读全文
posted @ 2023-12-17 16:15
MoonOut
阅读(91)
评论(1)
推荐(0)
摘要:
critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error,① 对所转移去的 (s',a') 的 uncertainty 进行惩罚,② 对 (s, a_ood) 的 uncertainty 进行惩罚。 阅读全文
posted @ 2023-12-17 15:37
MoonOut
阅读(209)
评论(0)
推荐(0)
摘要:
Query-Policy Misalignment:选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 帮助很小,最终导致 feedback-efficiency 低下。 阅读全文
posted @ 2023-12-17 15:28
MoonOut
阅读(135)
评论(0)
推荐(0)

浙公网安备 33010602011771号