上一页 1 2 3 4 5 6 ··· 12 下一页
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230707084258489-1960518081.png) **发表时间:**2020 (NeurIPS 2020) **文章要点:**这篇文章提出了Diversity v 阅读全文
posted @ 2023-07-07 08:47 initial_h 阅读(19) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202307/1428973-20230703112126926-921811970.png) **发表时间:**2022(ICLR 2022) **文章要点:**这篇文章想说Q网络通常会存在under- or 阅读全文
posted @ 2023-07-03 11:26 initial_h 阅读(29) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章想说如果replay的经验和当前的policy差别很大的话,对更新是有害的。然后提出了Remember and Forget Experience Replay (ReF-ER)算法,(1)跳过那些和当前policy差别很大 阅读全文
posted @ 2023-07-02 12:15 initial_h 阅读(22) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230625114456465-1558069206.png) **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章想说,之前的experience r 阅读全文
posted @ 2023-06-25 11:57 initial_h 阅读(14) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230623122845476-1483728572.png) **发表时间:**2020 **文章要点:**这篇文章提出了Prioritized Sequence Exper 阅读全文
posted @ 2023-06-23 12:34 initial_h 阅读(17) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230609121441155-1445259850.png) **发表时间:**2020(ICML2020) **文章要点:**这篇文章研究了experience repla 阅读全文
posted @ 2023-06-09 12:23 initial_h 阅读(12) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230604130820622-309698896.png) **发表时间:**2021 **文章要点:**这篇文章想说Prioritized experience repla 阅读全文
posted @ 2023-06-04 13:12 initial_h 阅读(13) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202306/1428973-20230602222440022-2137032229.png) **发表时间:**2021(ICML 2021) **文章要点:**这篇文章提出一个更新policy的方式,结合 阅读全文
posted @ 2023-06-02 22:36 initial_h 阅读(13) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202305/1428973-20230527210049171-1465770587.png) **发表时间:**2022(ICLR 2022) **文章要点:**AlphaZero在搜索次数很少的时候甚至动 阅读全文
posted @ 2023-05-27 21:12 initial_h 阅读(66) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2023.cnblogs.com/blog/1428973/202305/1428973-20230524224808789-13684847.png) **发表时间:**2021(NeurIPS 2021) **文章要点:**这篇文章提出一个tandem learni 阅读全文
posted @ 2023-05-24 22:58 initial_h 阅读(10) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2019) **文章要点:**这篇文章想说在offline RL的setting下,由于外推误差(extrapolation errors)的原因,标准的off-policy算法比如DQN,DDPG之类的,如果数据的分布和当前policy的分布差距很大的话,那就 阅读全文
posted @ 2023-05-21 12:11 initial_h 阅读(75) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2017(Deep Reinforcement Learning Symposium, NIPS 2017) **文章要点:**这篇文章主要研究了replay buffer大小对Q-learning的影响,得出的结论是大的buffer会损害performance,因为采样的样本会更 阅读全文
posted @ 2023-05-18 11:53 initial_h 阅读(23) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020 (NeurIPS 2020) **文章要点:**这篇文章想说,对于监督学习来说就算刚开始训的不准,后面的新数据也会给你正确的feedback,这样的话随着训练进行,总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说,不存在这样的feedback,因为 阅读全文
posted @ 2023-05-13 22:44 initial_h 阅读(38) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR2020) **文章要点:**这篇文章提出了一个无监督的model-based的学习算法Dynamics-Aware Discovery of Skills (DADS),可以同时发现可预测的行为以及学习他们的dynamics。然后对于新任务,可以直接用zero- 阅读全文
posted @ 2023-05-09 22:42 initial_h 阅读(24) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 (NeurIPS 2021) **文章要点:**这篇文章提出了一个Heuristic-Guided Reinforcement Learning (HuRL)的框架,用domain knowledge或者offline data构建heuristic,将问题变成一个sho 阅读全文
posted @ 2023-05-06 23:30 initial_h 阅读(42) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 ··· 12 下一页