21/8/31 读书笔记 DQN

21/8/31 读书笔记

21/8/31 读书笔记
- 强化学习 Deep Q Network
  - why DQN？
  - how DQN？

强化学习 Deep Q Network

why DQN？

Deep Q Network（简称DQN）是融合了神经网络和Q-Learning方法的一种强化学习方式。

传统的利用表格形式存储Q-Table的方式，在面临极其复杂（乃至无限复杂）的情况下，将会耗费大量的存储空间。

而利用神经网络NN存储Q-Table，可以有效应对复杂情况，可用两种方式：

输入状态\(s\)和动作\(a\)，NN输出\(Q(s,a)\)
输入状态\(s\)，NN输出所有的可用动作的\(Q(s,a_1),Q(s,a_2)...\)

DQN对Q-Table的更新策略与传统Q-Learning一致，只是将单纯地替换表格值。变成了更新神经网络模型。

DQN还有两大新亮点：

Experience Replay：Q-Learning本身是一个off-policy的方法，因此可以利用其它经历来进行学习。DQN则进一步通过随机抽取储备的经历进行训练，从而打破这些经历之间的相关性，提高神经网络的训练效率。
fix Q-target：DQN运用现实神经网络计算Q现实，估计神经网络计算Q估计，fix Q-target“冻结”了现实神经网络，利用更新的数据进行Q估计的计算。因为样本是随机的，可能存在异常情况，使得实时更新Q现实时参数忽大忽小难以收敛。采用fix Q-target的方法能够使得神经网络更加稳重，更容易收敛。

how DQN？

上图来自莫烦教程点击链接跳转

可以看到其在原始的Q-Learning基础上主要有几大改变：

\(\hat Q\)对应现实神经网络，\(Q\)对应估计神经网络，每\(C\)步进行一次参数同步。
利用\(D\)进行记忆的存储，再进行随机抽取。
神经网络的训练（即梯度下降）。

posted @ 2021-08-31 11:28 neumy 阅读(71) 评论(0) 收藏举报

刷新页面返回顶部