摘要: 一、概述 1、蒙特卡洛法的缺点:需要一个经历完整的状态序列,从中采样;如公式里的奖励Rt+1到RT,表示完整状态序列的奖励 2、时序差分(Temporal-Difference,TD),不基于环境的状态转化概率模型,也不需要经历完整的状态序列,介于动态规划和蒙特卡洛方法之间 3、是现在主流的强化学习 阅读全文
posted @ 2025-08-25 18:24 牧云文仔 阅读(82) 评论(0) 推荐(0)
摘要: 一、引入 1、动态规划求解的缺点: a.每次回溯更新状态价值时,要回溯所有可能的后续状态,复杂问题计算量很大 b.无法知道环境的状态转化模型P,已知P,是基于模型的强化学习算法;但很多问题无法事先知道P 2、蒙特卡洛方法(Monte-Calo,MC) 是一种近似求解的方法,通过采样来估计状态的真实价 阅读全文
posted @ 2025-08-25 18:19 牧云文仔 阅读(10) 评论(0) 推荐(0)
摘要: 一、概述 1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题 2、强化学习有两个基本问题: 预测:给定6个要素,包含模型P,求策略的状态价值函数 控制:求最优的价值函数和策略 3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划 二、方法 阅读全文
posted @ 2025-08-25 18:08 牧云文仔 阅读(16) 评论(0) 推荐(0)
摘要: 一、介绍 1、马尔可夫决策过程MDP,可以用方程组求解,简化强化学习的建模 2、马尔可夫性质:未来状态的条件概率分布,仅依赖于当前状态,将来状态和过去状态是独立的 3、马尔可夫过程:满足马尔可夫性质的过程 4、马尔可夫链:离散时间的马尔可夫过程,叫马尔可夫链,是最简单的马尔可夫过程 5、马尔可夫奖励 阅读全文
posted @ 2025-08-25 16:50 牧云文仔 阅读(44) 评论(0) 推荐(0)