DQN算法本质-基于价值的强化学习算法
所有dqn算法(包括但不限于dqn,doubledqn,duelingdqn)的套路都是
和环境交互,得到样本(s,a,r,s′,done),等到样本足够多就可以在样本池中进行采样sample,
接着使用计算当前主网络估算 当前状态-动作对的q值,以及用target网络估算目标TD值 y=r+γmaxQtarget(s′,a′),
计算当前q值和目标值之间的误差loss,
然后使用优化器和反向传播,最小化loss(也就是让q值计算函数不断逼近最优函数),更新神经网络的参数
最后记得按时更新目标网络的参数(从主网络copy)
各种dqn算法只是在计算q值和TD目标值上略有不同,
比如duelingdqn,估算q值时,先计算v值和a值,然后把二者相加得到q值;
而doubledqn,在构造目标值时分离动作选择与动作评估,从而缓解 Q 值过估计问题,y=r+γQtarget(s′,argamaxQonline(s′,a))。

浙公网安备 33010602011771号