强化学习（二）-马尔可夫决策过程MDP

一、介绍

1、马尔可夫决策过程MDP，可以用方程组求解，简化强化学习的建模

2、马尔可夫性质：未来状态的条件概率分布，仅依赖于当前状态，将来状态和过去状态是独立的

3、马尔可夫过程：满足马尔可夫性质的过程

4、马尔可夫链：离散时间的马尔可夫过程，叫马尔可夫链，是最简单的马尔可夫过程

5、马尔可夫奖励过程：马尔科夫链+奖励函数

6、马尔可夫决策过程MDP：

马尔可夫奖励过程+决策，因此未来状态不仅依赖于当前状态，也依赖于当前动作

强化学习是一个与时间相关的序列决策问题

MDP是序列决策的经典的表现方式，是强化学习里一个基本的学习框架

MDP四元组：（S、A、P、R）状态、动作、状态转移概率、奖励

二、贝尔曼方程

1、价值函数，和状态和动作都有关系

2、状态价值函数

3、动作价值函数

4、状态价值函数，可以表示为递推式，即状态价值函数的贝尔曼方程，表示当前状态与未来状态的迭代关系

5、同理可得，动作价值函数的贝尔曼方程

6、状态价值函数和动作价值函数，也可以相互表示和转化，某个状态下，所有动作的价值乘以该动作的概率，然后求和，得到对应的状态价值

7、利用贝尔曼方程，也可以推导出下式，即状态动作价值由两部分组成

第一部分是即时奖励

第二部分是所有可能出现的下一个状态的价值，乘以其概率，然后求和，并加上衰减

三、最优价值函数

1、强化学习的目的：找到最优策略，使价值最大

2、最优策略不好找，可以找一个局部最优策略，找到状态价值函数、动作价值函数的局部最优值

3、根据状态、动作价值函数的关系式，得到最优价值函数

posted @ 2025-08-25 16:50 牧云文仔阅读(44) 评论(0) 收藏举报

刷新页面返回顶部