摘要:
**发表时间:**2018 **文章要点:**文章想说RL很容易overfitting,然后就提出某个方式来判断是不是overfitting了。最后得出结论,通过多样化的训练可以减少overfitting(as soon as there is enough training data divers 阅读全文
摘要:
**发表时间:**2021(TPAMI 2021) **文章要点:**这篇文章感觉是Learning Search Space Partition for Black-box Optimization using Monte Carlo Tree Search的姊妹篇,方法很类似,只是这一篇用来做N 阅读全文
摘要:
**发表时间:**2020(NeurIPS 2020) **文章要点:**这篇文章对博弈问题的策略空间的结构做了分析(主要还是针对two-player zero-sum symmetric games),提出策略空间是一个陀螺形状(作者把这个叫做the geometry of Games of Sk 阅读全文
摘要:
**发表时间:**2021 **文章要点:**这篇文章把RL看作序列建模问题(sequence modeling problem),直接用transformer来拟合整个序列 (reats states, actions, and rewards as simply a stream of data 阅读全文
摘要:
**发表时间:**2021(nature) **文章要点:**这篇文章把强化学习用到芯片设计上,缩短了芯片设计时间,达到甚至超过了现有技术水平。芯片设计的主要工作就是排列组合那些模块,比如memory subsystem, compute unit or control logic system,同 阅读全文