DQN算法本质-基于价值的强化学习算法

所有dqn算法（包括但不限于dqn，doubledqn，duelingdqn）的套路都是

和环境交互，得到样本(s,a,r,s′,done),等到样本足够多就可以在样本池中进行采样sample，
接着使用计算当前主网络估算当前状态-动作对的q值，以及用target网络估算目标TD值 y=r+γmaxQtarget(s′,a′)，
计算当前q值和目标值之间的误差loss,
然后使用优化器和反向传播，最小化loss（也就是让q值计算函数不断逼近最优函数），更新神经网络的参数
最后记得按时更新目标网络的参数（从主网络copy）

各种dqn算法只是在计算q值和TD目标值上略有不同，
比如duelingdqn，估算q值时，先计算v值和a值，然后把二者相加得到q值；
而doubledqn，在构造目标值时分离动作选择与动作评估，从而缓解 Q 值过估计问题，y=r+γQtarget(s′,argamaxQonline(s′,a))。