强化学习（三）-动态规划DP求解

一、概述

1、动态规划：拆分成子问题，求出子问题的最优解；找到子问题和原问题的递推关系，从而求解原问题

2、强化学习有两个基本问题：

预测：给定6个要素，包含模型P，求策略的状态价值函数

控制：求最优的价值函数和策略

3、状态价值函数的贝尔曼方程如下，有子问题和递推，所以可以使用动态规划

二、方法

1、动态规划是一个系统求解强化学习预测和控制的方法

2、使用贝尔曼方程，迭代更新状态价值

3、用贪婪法，迭代更新最优策略

三、有模型和无模型

1、有模型：已知环境的状态转移概率和奖励函数，则环境是已知的，可以建立模型

2、无模型：环境是未知的，没有状态转移概率和奖励函数

3、动态规划是一种有模型的算法，不适用于环境未知的情况

posted @ 2025-08-25 18:08 牧云文仔阅读(16) 评论(0) 收藏举报

刷新页面返回顶部