A Hitchhiker's Guide to Statistical Comparisons of Reinforcement Learning Algorithms


发表时间:2019(ICLR Worskhop on Reproducibility)
文章要点:文章主要是用统计检验的思想来比较RL算法的performance。文章介绍了很多统计检验的方法,参数的,非参数的都有,比如T-test, Welch's t-test, Wilcoxon Mann-Whitney rank sum test, Ranked t-test, Bootstrap confidence interval test, Permutation test。然后实验部分做了正态分布和非正态分布,两个算法比较了同分布同标准差,同分布不同标准差,不同分布同标准差,不同分布不同标准差,以及统计效力。最后用SAC和TD3做了具体实验。
总结:统计检验肯定是有用的,但是一个样本就要train一次的话,计算代价还是太高了。像文章里写的,两个算法都跑了192次,我的天,这个想想就夸张。
疑问:要复习一下非参统计了。

posted @ 2021-09-30 10:42  initial_h  阅读(39)  评论(0)    收藏  举报