摘要:**发表时间:**2021(ICML 2021) **文章要点:**文章想说,我们训好一个policy之后,在真正用他的时候需要考虑安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我们就需要一个方法来快速检测这个trai
阅读全文
摘要:**发表时间:**2018 **文章要点:**文章想说RL很容易overfitting,然后就提出某个方式来判断是不是overfitting了。最后得出结论,通过多样化的训练可以减少overfitting(as soon as there is enough training data divers
阅读全文
摘要:**发表时间:**2021(TPAMI 2021) **文章要点:**这篇文章感觉是Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search的姊妹篇,方法很类似,只是这一篇用来做N
阅读全文