摘要: 读读读 RILIR 链接:https://arxiv.org/pdf/2310.14274.pdf 本文主要是对 IRL 的改进。 首先,设计了一个提取关键信息的网络 \(\phi(o_t)\) 来克服原始 IRL 中 expert 数据所在环境和 learning 环境不一样的问题。 接着,再设计 阅读全文
posted @ 2024-04-16 20:49 SkyRainWind 阅读(10) 评论(0) 推荐(0) 编辑