上一页 1 ··· 6 7 8 9 10 11 12 下一页
摘要: **发表时间:**2019(ICLR Worskhop on Reproducibility) **文章要点:**文章主要是用统计检验的思想来比较RL算法的performance。文章介绍了很多统计检验的方法,参数的,非参数的都有,比如T-test, Welch's t-test, Wilcoxon 阅读全文
posted @ 2021-09-30 10:42 initial_h 阅读(40) 评论(0) 推荐(0)
摘要: **发表时间:**2018 **文章要点:**文章想说RL很容易overfitting,然后就提出某个方式来判断是不是overfitting了。最后得出结论,通过多样化的训练可以减少overfitting(as soon as there is enough training data divers 阅读全文
posted @ 2021-09-29 10:30 initial_h 阅读(52) 评论(0) 推荐(0)
摘要: **发表时间:**2011(2011 IEEE symposium on adaptive dynamic programming and reinforcement learning (ADPRL)) **文章要点:**文章想说RL算法很容易environment overfitting导致泛化性 阅读全文
posted @ 2021-09-26 11:20 initial_h 阅读(44) 评论(0) 推荐(0)
摘要: **发表时间:**2018(2nd Reproducibility in Machine Learning Workshop at ICML 2018) **文章要点:**文章想说,现在这些RL算法不好复现,就是因为大家各搞各的,评估标准不一样,计算方式不一样等等。然后作者就提出了一个evaluat 阅读全文
posted @ 2021-09-23 01:01 initial_h 阅读(97) 评论(0) 推荐(0)
摘要: **发表时间:**2020(ICML 2020) **文章要点:**文章指出RL复现难的原因在于评价指标不一致。作者提出评估指标应该满足四点:1. Scientific,主要说你这个指标提供的信息要告诉别人针对某个具体的问题或假设,得出了什么结论,这个结论有没有考虑各种不确定性可能造成的问题。2. 阅读全文
posted @ 2021-09-20 12:30 initial_h 阅读(135) 评论(0) 推荐(0)
摘要: **发表时间:**2019(IEEE Access) **文章要点:**这篇文章想说之前那些衡量RL算法的指标(rawreward, avgreward,maximum rawreward等等)不好,只看得出来一个得分,反映不出来RL在训练过程中的问题。然后作者自己设计了几个指标来检测RL在训练中可 阅读全文
posted @ 2021-09-18 13:48 initial_h 阅读(61) 评论(0) 推荐(0)
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章就是在网络结构的准确率和训练速度之间trade off。NAS的逻辑就是搜一个网络结构出来,然后就测这个结构在数据集上train出来准确率能到多少,然后基于之前的结构和准确率再接着搜下一个网络。这里面如果每次都要重新trai 阅读全文
posted @ 2021-09-15 08:27 initial_h 阅读(181) 评论(0) 推荐(0)
摘要: **发表时间:**2021(TPAMI 2021) **文章要点:**这篇文章感觉是Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search的姊妹篇,方法很类似,只是这一篇用来做N 阅读全文
posted @ 2021-09-13 11:06 initial_h 阅读(209) 评论(0) 推荐(0)
摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**我们知道贝叶斯优化做到高维的时候计算量很大,根本算不出来。这篇文章是把MCTS和贝叶斯优化结合起来,做高维的优化问题。主要思路是先用MCTS分割搜索空间,然后在子空间上再用贝叶斯优化去采样。假设我们的优化问题是找一个函数$f( 阅读全文
posted @ 2021-09-10 13:24 initial_h 阅读(189) 评论(0) 推荐(0)
摘要: **发表时间:**2019(AAAI2020) **文章要点:**一篇做NAS的文章,主要想法就是用MCTS来做NAS,相对random,Q-learning,Hill Climbing这些更能平衡探索与利用。主要方法是把NAS的问题定义好,比如动作是什么,就是每次搭建神经网络这一层用什么结构,什么 阅读全文
posted @ 2021-09-06 12:46 initial_h 阅读(152) 评论(0) 推荐(0)
摘要: **发表时间:**2019 **文章要点:**这篇文章主要是针对batch RL做了一个离散动作空间的benchmark,对比了DQN和一些batch RL算法的性能(DQN,REM,QR-DQN,KL-Control,BCQ)。并且把BCQ从连续动作空间改成适用离散动作空间,取得了SOTA的效果。 阅读全文
posted @ 2021-09-04 02:18 initial_h 阅读(173) 评论(0) 推荐(0)
摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**这篇文章对博弈问题的策略空间的结构做了分析(主要还是针对two-player zero-sum symmetric games),提出策略空间是一个陀螺形状(作者把这个叫做the geometry of Games of Sk 阅读全文
posted @ 2021-08-30 14:02 initial_h 阅读(236) 评论(0) 推荐(0)
摘要: **发表时间:**2021 **文章要点:**这篇文章把RL看作序列建模问题(sequence modeling problem),直接用transformer来拟合整个序列 (reats states, actions, and rewards as simply a stream of data 阅读全文
posted @ 2021-08-28 05:31 initial_h 阅读(426) 评论(0) 推荐(0)
摘要: **发表时间:**2021(nature) **文章要点:**这篇文章把强化学习用到芯片设计上,缩短了芯片设计时间,达到甚至超过了现有技术水平。芯片设计的主要工作就是排列组合那些模块,比如memory subsystem, compute unit or control logic system,同 阅读全文
posted @ 2021-08-26 00:14 initial_h 阅读(508) 评论(0) 推荐(0)
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章设计了几个指标来度量RL算法的可靠性。这个可靠性主要是指训练过程稳不稳定啦,算法训练是不是可复现啦,训好的模型的performance是不是稳定呀balabala。整个设计指标还是很简单的。其实一共设计了两个指标(dispe 阅读全文
posted @ 2021-08-23 08:15 initial_h 阅读(104) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 下一页