强化学习(四)-蒙特卡洛MC求解

一、引入

1、动态规划求解的缺点:

a.每次回溯更新状态价值时,要回溯所有可能的后续状态,复杂问题计算量很大

b.无法知道环境的状态转化模型P,已知P,是基于模型的强化学习算法;但很多问题无法事先知道P

2、蒙特卡洛方法(Monte-Calo,MC)

是一种近似求解的方法,通过采样来估计状态的真实价值

 

二、预测问题

1、采样若干经历完整的状态序列,完整是指序列必须达到终点

2、状态价值函数

image

 3、动作价值函数

image

 

 三、控制问题

 

四、优缺点

1、优点:不需要状态转化模型,可以用于海量数据和复杂模型

2、缺点:需要完整的状态序列

 

posted @ 2025-08-25 18:19  牧云文仔  阅读(9)  评论(0)    收藏  举报