摘要: **发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一种学习policy的监督范式,大概思路就是先结构化advice,然后先学习解释advice,再从advice中学policy。这个advice来自于外部的teacher,相当于一种human-in-the-l 阅读全文
posted @ 2023-05-02 23:41 initial_h 阅读(49) 评论(0) 推荐(1)