摘要:
一、概述 1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题 2、强化学习有两个基本问题: 预测:给定6个要素,包含模型P,求策略的状态价值函数 控制:求最优的价值函数和策略 3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划 二、方法 阅读全文
posted @ 2025-08-25 18:08
牧云文仔
阅读(16)
评论(0)
推荐(0)
摘要:
一、介绍 1、马尔可夫决策过程MDP,可以用方程组求解,简化强化学习的建模 2、马尔可夫性质:未来状态的条件概率分布,仅依赖于当前状态,将来状态和过去状态是独立的 3、马尔可夫过程:满足马尔可夫性质的过程 4、马尔可夫链:离散时间的马尔可夫过程,叫马尔可夫链,是最简单的马尔可夫过程 5、马尔可夫奖励 阅读全文
posted @ 2025-08-25 16:50
牧云文仔
阅读(44)
评论(0)
推荐(0)
浙公网安备 33010602011771号