RL-DynaQ算法

DynaQ = Qlearning + 基于模型的离线规划
每次与环境进行交互后，不仅执行一次标准的qlearning更新，同时将观测到的状态转移样本存入环境模型。随后从环境模型中随机抽取历史状态-动作样本进行规划更新，实现对历史经验的重复使用。

需要强调的是，历史样本在不同时间被使用时所对应的更新目标并非恒定不变。由于 Q 函数通过自举方式持续更新，其右端的贝尔曼目标项
r+γa′maxQ(s′,a′)
会随着 Q 值的变化而动态调整。因此，同一条历史经验在不同阶段参与更新时，能够基于最新的价值估计进一步传播奖励信息，从而加速价值函数在状态空间中的传播与收敛。

该机制本质上等价于在在线强化学习过程中嵌入近似动态规划步骤，通过多次应用贝尔曼算子，加快逼近最优值函数的固定点。