2019年3月20日

强化学习10-Deep Q Learning-fix target

摘要：针对 Deep Q Learning 可能无法收敛的问题，这里提出了一种 fix target 的方法，就是冻结现实神经网络，延时更新参数。这个方法的初衷是这样的： 1. 之前我们每个（批）记忆都会更新参数，这是一种实时更新神经网络参数的方法，这个方法有个问题，就是每次都更新，由于样本都是随机的，阅读全文

posted @ 2019-03-20 09:53 努力的孔子阅读(1335) 评论(0) 推荐(0)

2019年3月20日

导航