强化学习(二)-马尔可夫决策过程MDP

一、介绍

1、马尔可夫决策过程MDP,可以用方程组求解,简化强化学习的建模

2、马尔可夫性质:未来状态的条件概率分布,仅依赖于当前状态,将来状态和过去状态是独立的

3、马尔可夫过程:满足马尔可夫性质的过程

4、马尔可夫链:离散时间的马尔可夫过程,叫马尔可夫链,是最简单的马尔可夫过程

5、马尔可夫奖励过程:马尔科夫链+奖励函数

6、马尔可夫决策过程MDP:

马尔可夫奖励过程+决策,因此未来状态不仅依赖于当前状态,也依赖于当前动作

强化学习是一个与时间相关的序列决策问题

MDP是序列决策的经典的表现方式,是强化学习里一个基本的学习框架

MDP四元组:(S、A、P、R)状态、动作、状态转移概率、奖励

 

二、贝尔曼方程

1、价值函数,和状态和动作都有关系

2、状态价值函数

image

3、动作价值函数

image

4、状态价值函数,可以表示为递推式,即状态价值函数的贝尔曼方程,表示当前状态与未来状态的迭代关系

image

 5、同理可得,动作价值函数的贝尔曼方程

image

 6、状态价值函数和动作价值函数,也可以相互表示和转化,某个状态下,所有动作的价值乘以该动作的概率,然后求和,得到对应的状态价值

image

 7、利用贝尔曼方程,也可以推导出下式,即状态动作价值由两部分组成

第一部分是即时奖励

第二部分是所有可能出现的下一个状态的价值,乘以其概率,然后求和,并加上衰减

image

 

三、最优价值函数

1、强化学习的目的:找到最优策略,使价值最大

2、最优策略不好找,可以找一个局部最优策略,找到状态价值函数、动作价值函数的局部最优值

3、根据状态、动作价值函数的关系式,得到最优价值函数

image

 

posted @ 2025-08-25 16:50  牧云文仔  阅读(44)  评论(0)    收藏  举报