2023年3月23日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2020 ABSTRACT 我们通过对两种流行算法:近端策略优化(PPO)和信任区域策略优化(TRPO)的案例研究,研究了深度策略梯度算法中算法进步的根源。具 阅读全文
posted @ 2023-03-23 14:27 穷酸秀才大草包 阅读(450) 评论(0) 推荐(0)

导航