强化学习(三)-动态规划DP求解
一、概述
1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题
2、强化学习有两个基本问题:
预测:给定6个要素,包含模型P,求策略的状态价值函数
控制:求最优的价值函数和策略
3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划

二、方法
1、动态规划是一个系统求解强化学习预测和控制的方法
2、使用贝尔曼方程,迭代更新状态价值
3、用贪婪法,迭代更新最优策略
三、有模型和无模型
1、有模型:已知环境的状态转移概率和奖励函数,则环境是已知的,可以建立模型
2、无模型:环境是未知的,没有状态转移概率和奖励函数
3、动态规划是一种有模型的算法,不适用于环境未知的情况
浙公网安备 33010602011771号