RL-DynaQ算法
DynaQ = Qlearning + 基于模型的离线规划
每次与环境进行交互后,不仅执行一次标准的qlearning更新,同时将观测到的状态转移样本存入环境模型。随后从环境模型中随机抽取历史状态-动作样本进行规划更新,实现对历史经验的重复使用。
需要强调的是,历史样本在不同时间被使用时所对应的更新目标并非恒定不变。由于 Q 函数通过自举方式持续更新,其右端的贝尔曼目标项
r+γa′maxQ(s′,a′)
会随着 Q 值的变化而动态调整。因此,同一条历史经验在不同阶段参与更新时,能够基于最新的价值估计进一步传播奖励信息,从而加速价值函数在状态空间中的传播与收敛。
该机制本质上等价于在在线强化学习过程中嵌入近似动态规划步骤,通过多次应用贝尔曼算子,加快逼近最优值函数的固定点。

浙公网安备 33010602011771号