强化学习(三)-动态规划DP求解

一、概述

1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题

2、强化学习有两个基本问题:

预测:给定6个要素,包含模型P,求策略的状态价值函数

控制:求最优的价值函数和策略

3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划

image

 

 

二、方法

1、动态规划是一个系统求解强化学习预测和控制的方法 

2、使用贝尔曼方程,迭代更新状态价值

3、用贪婪法,迭代更新最优策略

 

三、有模型和无模型

1、有模型:已知环境的状态转移概率和奖励函数,则环境是已知的,可以建立模型

2、无模型:环境是未知的,没有状态转移概率和奖励函数

3、动态规划是一种有模型的算法,不适用于环境未知的情况

 

posted @ 2025-08-25 18:08  牧云文仔  阅读(14)  评论(0)    收藏  举报