摘要:
针对 Deep Q Learning 可能无法收敛的问题,这里提出了一种 fix target 的方法,就是冻结现实神经网络,延时更新参数。 这个方法的初衷是这样的: 1. 之前我们每个(批)记忆都会更新参数,这是一种实时更新神经网络参数的方法,这个方法有个问题,就是每次都更新,由于样本都是随机的, 阅读全文
posted @ 2019-03-20 09:53
努力的孔子
阅读(1331)
评论(0)
推荐(0)
浙公网安备 33010602011771号