21/8/31 读书笔记 DQN

21/8/31 读书笔记

强化学习 Deep Q Network

why DQN?

Deep Q Network(简称DQN)是融合了神经网络和Q-Learning方法的一种强化学习方式。

传统的利用表格形式存储Q-Table的方式,在面临极其复杂(乃至无限复杂)的情况下,将会耗费大量的存储空间

利用神经网络NN存储Q-Table,可以有效应对复杂情况,可用两种方式:

  • 输入状态\(s\)和动作\(a\),NN输出\(Q(s,a)\)
  • 输入状态\(s\)​,NN输出所有的可用动作的\(Q(s,a_1),Q(s,a_2)...\)

DQN对Q-Table的更新策略与传统Q-Learning一致,只是将单纯地替换表格值。变成了更新神经网络模型。

DQN还有两大新亮点:

  • Experience Replay:Q-Learning本身是一个off-policy的方法,因此可以利用其它经历来进行学习。DQN则进一步通过随机抽取储备的经历进行训练,从而打破这些经历之间的相关性,提高神经网络的训练效率。
  • fix Q-target:DQN运用现实神经网络计算Q现实,估计神经网络计算Q估计,fix Q-target“冻结”了现实神经网络,利用更新的数据进行Q估计的计算。因为样本是随机的,可能存在异常情况,使得实时更新Q现实时参数忽大忽小难以收敛。采用fix Q-target的方法能够使得神经网络更加稳重,更容易收敛

how DQN?

4-1-1.jpg

上图来自莫烦教程 点击链接跳转

可以看到其在原始的Q-Learning基础上主要有几大改变:

  • \(\hat Q\)对应现实神经网络,\(Q\)对应估计神经网络,每\(C\)步进行一次参数同步。
  • 利用\(D\)进行记忆的存储,再进行随机抽取。
  • 神经网络的训练(即梯度下降)。
posted @ 2021-08-31 11:28  neumy  阅读(65)  评论(0)    收藏  举报