强化学习(四)-蒙特卡洛MC求解
一、引入
1、动态规划求解的缺点:
a.每次回溯更新状态价值时,要回溯所有可能的后续状态,复杂问题计算量很大
b.无法知道环境的状态转化模型P,已知P,是基于模型的强化学习算法;但很多问题无法事先知道P
2、蒙特卡洛方法(Monte-Calo,MC)
是一种近似求解的方法,通过采样来估计状态的真实价值
二、预测问题
1、采样若干经历完整的状态序列,完整是指序列必须达到终点
2、状态价值函数

3、动作价值函数

三、控制问题
四、优缺点
1、优点:不需要状态转化模型,可以用于海量数据和复杂模型
2、缺点:需要完整的状态序列
浙公网安备 33010602011771号