随笔分类 -  Reinforcement Learning

上一页 1 ··· 3 4 5 6 7 8 9 下一页
reinforcement learning algorithm
摘要:**发表时间:**2020(ICML 2020) **文章要点:**这篇文章想说model based方法在data efficiency和planning方面都具有天然优势,但是model的泛化性通常是个问题。这篇文章提出学一个context相关的latent vector,然后用model去pr 阅读全文
posted @ 2021-10-22 13:22 initial_h 阅读(152) 评论(0) 推荐(0)
摘要:**发表时间:**2020(NeurIPS 2020) **文章要点:**目前主流的offline RL的方法都是model free的,这类方法通常需要将policy限制到data覆盖的集合范围里(support),不能泛化到没见过的状态上。作者提出Model-based Offline Poli 阅读全文
posted @ 2021-10-21 10:42 initial_h 阅读(1126) 评论(0) 推荐(0)
摘要:**发表时间:**2018(ICML2018) **文章要点:**这篇文章用saliency map的方式来做RL agent的可视化,目的就是想分析一下agent做某个动作的时候到底关注的是输入的哪个部分,这样可以对RL的agent有一定的可解释性。比如下图这个效果 其中蓝色是policy关注的点 阅读全文
posted @ 2021-10-17 12:34 initial_h 阅读(155) 评论(0) 推荐(0)
摘要:**发表时间:**2016(AAAI2016) **文章要点:**通常大家做offline评估的时候都是去评估一个训好的fixed的策略,这篇文章就说我想在offline的setting 下去评估一个算法好不好。根据这个出发点,大致思路是先根据收集的data去弄一个evaluator出来,然后RL算 阅读全文
posted @ 2021-10-17 12:28 initial_h 阅读(85) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML2021) **文章要点:**这篇文章想说,通常在训练PG这类算法特别是图像作为输入的任务的时候,主流的做法是policy和value用一个网络表征,没有分开。这会导致policy overfitting,因为学value比学policy需要更多的信息,如果用一个 阅读全文
posted @ 2021-10-11 11:36 initial_h 阅读(237) 评论(0) 推荐(0)
摘要:**发表时间:**2021 **文章要点:**这篇文章主要想说,设计了一个进化强化的框架Deep Evolutionary Reinforcement Learning (DERL)来模拟人类进化的方式,然后得出结论:复杂的环境会产生能力更强的morphology(形态学,这个词有点玄学了,其实就是 阅读全文
posted @ 2021-10-08 13:40 initial_h 阅读(571) 评论(0) 推荐(0)
摘要:**发表时间:**2019(ICLR 2019) **文章要点:**这篇文章提到了RL里面overfitting的问题,提出了一个Observational Overfitting的问题,然后用修正观测空间的方式来检测observational overfitting,并得出结论像MLP,CNN这些 阅读全文
posted @ 2021-10-06 13:26 initial_h 阅读(87) 评论(0) 推荐(0)
摘要:**发表时间:**2019(NeurIPS 2019) **文章要点:**这篇文章的出发点是说,大家都在数据集上刷点,虽然都分了训练集和测试集,但是刷到最后的结果肯定是在测试集上效果越来越好了,但是会不会出现在测试集上overfitting的问题?文章通过从测试集生成对抗样本并用importance 阅读全文
posted @ 2021-10-05 10:32 initial_h 阅读(63) 评论(0) 推荐(0)
摘要:**发表时间:**2018 **文章要点:**这篇文章搞了一个maze的环境来研究RL里面的overfitting问题。把环境也分成train和test,然后来看效果。Train和test就根据初始状态来分的,其实就是agent在迷宫里面的起始位置。先是比较了训练时间,训练集的大小,任务难度这三个因 阅读全文
posted @ 2021-10-04 13:01 initial_h 阅读(114) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML 2021) **文章要点:**文章想说,我们训好一个policy之后,在真正用他的时候需要考虑安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我们就需要一个方法来快速检测这个trai 阅读全文
posted @ 2021-10-02 12:02 initial_h 阅读(98) 评论(0) 推荐(0)
摘要:**发表时间:**2019(ICLR Worskhop on Reproducibility) **文章要点:**文章主要是用统计检验的思想来比较RL算法的performance。文章介绍了很多统计检验的方法,参数的,非参数的都有,比如T-test, Welch's t-test, Wilcoxon 阅读全文
posted @ 2021-09-30 10:42 initial_h 阅读(35) 评论(0) 推荐(0)
摘要:**发表时间:**2018 **文章要点:**文章想说RL很容易overfitting,然后就提出某个方式来判断是不是overfitting了。最后得出结论,通过多样化的训练可以减少overfitting(as soon as there is enough training data divers 阅读全文
posted @ 2021-09-29 10:30 initial_h 阅读(48) 评论(0) 推荐(0)
摘要:**发表时间:**2011(2011 IEEE symposium on adaptive dynamic programming and reinforcement learning (ADPRL)) **文章要点:**文章想说RL算法很容易environment overfitting导致泛化性 阅读全文
posted @ 2021-09-26 11:20 initial_h 阅读(38) 评论(0) 推荐(0)
摘要:**发表时间:**2018(2nd Reproducibility in Machine Learning Workshop at ICML 2018) **文章要点:**文章想说,现在这些RL算法不好复现,就是因为大家各搞各的,评估标准不一样,计算方式不一样等等。然后作者就提出了一个evaluat 阅读全文
posted @ 2021-09-23 01:01 initial_h 阅读(92) 评论(0) 推荐(0)
摘要:**发表时间:**2020(ICML 2020) **文章要点:**文章指出RL复现难的原因在于评价指标不一致。作者提出评估指标应该满足四点:1. Scientific,主要说你这个指标提供的信息要告诉别人针对某个具体的问题或假设,得出了什么结论,这个结论有没有考虑各种不确定性可能造成的问题。2. 阅读全文
posted @ 2021-09-20 12:30 initial_h 阅读(127) 评论(0) 推荐(0)
摘要:**发表时间:**2019(IEEE Access) **文章要点:**这篇文章想说之前那些衡量RL算法的指标(rawreward, avgreward,maximum rawreward等等)不好,只看得出来一个得分,反映不出来RL在训练过程中的问题。然后作者自己设计了几个指标来检测RL在训练中可 阅读全文
posted @ 2021-09-18 13:48 initial_h 阅读(59) 评论(0) 推荐(0)
摘要:**发表时间:**2021(ICML 2021) **文章要点:**这篇文章就是在网络结构的准确率和训练速度之间trade off。NAS的逻辑就是搜一个网络结构出来,然后就测这个结构在数据集上train出来准确率能到多少,然后基于之前的结构和准确率再接着搜下一个网络。这里面如果每次都要重新trai 阅读全文
posted @ 2021-09-15 08:27 initial_h 阅读(173) 评论(0) 推荐(0)
摘要:**发表时间:**2021(TPAMI 2021) **文章要点:**这篇文章感觉是Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search的姊妹篇,方法很类似,只是这一篇用来做N 阅读全文
posted @ 2021-09-13 11:06 initial_h 阅读(201) 评论(0) 推荐(0)
摘要:**发表时间:**2020(NeurIPS 2020) **文章要点:**我们知道贝叶斯优化做到高维的时候计算量很大,根本算不出来。这篇文章是把MCTS和贝叶斯优化结合起来,做高维的优化问题。主要思路是先用MCTS分割搜索空间,然后在子空间上再用贝叶斯优化去采样。假设我们的优化问题是找一个函数$f( 阅读全文
posted @ 2021-09-10 13:24 initial_h 阅读(176) 评论(0) 推荐(0)
摘要:**发表时间:**2019(AAAI2020) **文章要点:**一篇做NAS的文章,主要想法就是用MCTS来做NAS,相对random,Q-learning,Hill Climbing这些更能平衡探索与利用。主要方法是把NAS的问题定义好,比如动作是什么,就是每次搭建神经网络这一层用什么结构,什么 阅读全文
posted @ 2021-09-06 12:46 initial_h 阅读(138) 评论(0) 推荐(0)

上一页 1 ··· 3 4 5 6 7 8 9 下一页