摘要: **发表时间:**2019(IEEE Access) **文章要点:**这篇文章想说之前那些衡量RL算法的指标(rawreward, avgreward,maximum rawreward等等)不好,只看得出来一个得分,反映不出来RL在训练过程中的问题。然后作者自己设计了几个指标来检测RL在训练中可 阅读全文
posted @ 2021-09-18 13:48 initial_h 阅读(61) 评论(0) 推荐(0)