摘要:
仅仅留下了一些印象,并没有看懂具体算法…… 如果需要重读这篇论文,会 refine 这篇阅读笔记的。 阅读全文
posted @ 2023-11-13 20:40
MoonOut
阅读(551)
评论(0)
推荐(0)
摘要:
发现对于很多任务,(只要给出专家轨迹),将 reward 设为 0 或随机数,也能学出很好 policy,证明这些任务不适合用来评测 reward learning 的性能好坏。 阅读全文
posted @ 2023-11-13 18:11
MoonOut
阅读(696)
评论(0)
推荐(0)

浙公网安备 33010602011771号