21/8/31 读书笔记 DQN
21/8/31 读书笔记
强化学习 Deep Q Network
why DQN?
Deep Q Network(简称DQN)是融合了神经网络和Q-Learning方法的一种强化学习方式。
传统的利用表格形式存储Q-Table的方式,在面临极其复杂(乃至无限复杂)的情况下,将会耗费大量的存储空间。
而利用神经网络NN存储Q-Table,可以有效应对复杂情况,可用两种方式:
- 输入状态\(s\)和动作\(a\),NN输出\(Q(s,a)\)
- 输入状态\(s\),NN输出所有的可用动作的\(Q(s,a_1),Q(s,a_2)...\)
DQN对Q-Table的更新策略与传统Q-Learning一致,只是将单纯地替换表格值。变成了更新神经网络模型。
DQN还有两大新亮点:
- Experience Replay:Q-Learning本身是一个off-policy的方法,因此可以利用其它经历来进行学习。DQN则进一步通过随机抽取储备的经历进行训练,从而打破这些经历之间的相关性,提高神经网络的训练效率。
- fix Q-target:DQN运用现实神经网络计算Q现实,估计神经网络计算Q估计,fix Q-target“冻结”了现实神经网络,利用更新的数据进行Q估计的计算。因为样本是随机的,可能存在异常情况,使得实时更新Q现实时参数忽大忽小难以收敛。采用fix Q-target的方法能够使得神经网络更加稳重,更容易收敛。
how DQN?

上图来自莫烦教程 点击链接跳转
可以看到其在原始的Q-Learning基础上主要有几大改变:
- \(\hat Q\)对应现实神经网络,\(Q\)对应估计神经网络,每\(C\)步进行一次参数同步。
- 利用\(D\)进行记忆的存储,再进行随机抽取。
- 神经网络的训练(即梯度下降)。

浙公网安备 33010602011771号