摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章设计了几个指标来度量RL算法的可靠性。这个可靠性主要是指训练过程稳不稳定啦,算法训练是不是可复现啦,训好的模型的performance是不是稳定呀balabala。整个设计指标还是很简单的。其实一共设计了两个指标(dispe 阅读全文
posted @ 2021-08-23 08:15 initial_h 阅读(110) 评论(0) 推荐(0)