摘要:
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2020 ABSTRACT 我们通过对两种流行算法:近端策略优化(PPO)和信任区域策略优化(TRPO)的案例研究,研究了深度策略梯度算法中算法进步的根源。具 阅读全文
posted @ 2023-03-23 14:27
穷酸秀才大草包
阅读(476)
评论(0)
推荐(0)

浙公网安备 33010602011771号