上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: 一、概述 1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题 2、强化学习有两个基本问题: 预测:给定6个要素,包含模型P,求策略的状态价值函数 控制:求最优的价值函数和策略 3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划 二、方法 阅读全文
posted @ 2025-08-25 18:08 牧云文仔 阅读(16) 评论(0) 推荐(0)
摘要: 一、介绍 1、马尔可夫决策过程MDP,可以用方程组求解,简化强化学习的建模 2、马尔可夫性质:未来状态的条件概率分布,仅依赖于当前状态,将来状态和过去状态是独立的 3、马尔可夫过程:满足马尔可夫性质的过程 4、马尔可夫链:离散时间的马尔可夫过程,叫马尔可夫链,是最简单的马尔可夫过程 5、马尔可夫奖励 阅读全文
posted @ 2025-08-25 16:50 牧云文仔 阅读(44) 评论(0) 推荐(0)
摘要: 一、简介 1、DDPG的缺点 在训练过程中,可能出现策略估计的过度估计(overestimation)和训练不稳定等问题,例如已经学习好的Q函数,会显著高估Q值,导致策略被破坏 2、TD3(Twin Delayed Deep Deterministic Policy Gradient) 通过引入双批 阅读全文
posted @ 2025-08-20 18:25 牧云文仔 阅读(57) 评论(0) 推荐(0)
摘要: 一、PPO简介 1、同策略和异策略 同策略:学习的智能体、和环境交互的智能体,是同一个 异策略:学习的智能体、和环境交互的智能体,不是同一个 2、传统的策略梯度算法,在更新策略时,可能出现不稳定,是同策略 3、近端策略优化(Proximal Policy Optimization, PPO) 是Po 阅读全文
posted @ 2025-08-20 18:15 牧云文仔 阅读(68) 评论(0) 推荐(0)
摘要: 一、概念 1、深度确定性策略梯度Deep Deterministic Policy Gradient 是Actor-Critic的升级版本,输出的不是动作概率,而是具体的动作,用于连续动作的预测,是连续控制领域经典的强化学习算法 2、深度Deep:结合了DQN,包含记忆库、现实网络、估计网络,提高了 阅读全文
posted @ 2025-08-18 17:51 牧云文仔 阅读(44) 评论(0) 推荐(0)
摘要: 一、概念 1、融合了以价值学习为基础的算法(例如Q Learning)和以策略学习为基础的算法(例如Policy Gradient) 2、Actor对应Policy Gradient,在连续的行为中,基于概率选择合适的行为,回合更新,根据得分来修改选择行为的概率 3、Critic对应Q Learni 阅读全文
posted @ 2025-08-18 17:48 牧云文仔 阅读(30) 评论(0) 推荐(0)
摘要: 一、概念 1、DQN的缺点: 对连续动作的处理能力不足 对受限状态下的问题处理能力不足 无法解决随机策略问题 2、基于策略的算法,是对策略近似表示成一个连续的函数 3、寻找最优策略的方法是梯度上升 二、特点 1、不根据奖惩的值,直接输出action,不需要value 2、能够在一个连续区间内,选择动 阅读全文
posted @ 2025-08-18 17:25 牧云文仔 阅读(10) 评论(0) 推荐(0)
摘要: 一、概念 1、基于表格的强化学习(Q-Learning和Sarsa),数据量大的情况下,很耗时,例如表格里的state太多 2、所以引入了DQN(Deep Q-Learning Network),它融合了神经网络和Q-Learning 3、并且使用价值函数近似:神经网络通过状态,近似表示状态/动作价 阅读全文
posted @ 2025-08-18 16:49 牧云文仔 阅读(40) 评论(0) 推荐(0)
摘要: 一、概念 1、强化学习有两个问题:预测和控制 时序差分可以解决强化学习的预测问题 Sarsa是时序差分在线控制算法,解决控制问题 2、控制算法有两种:在线和离线 在线控制,使用一个策略(ϵ-贪婪法),来更新价值函数、进行动作选择 离线控制,使用两个策略,分别用于更新价值函数、进行动作选择 3、Sar 阅读全文
posted @ 2025-08-18 15:50 牧云文仔 阅读(54) 评论(0) 推荐(0)
摘要: 一、概念 1、Q Table是一个记录了价值的表,行为state,列为action,每个action对应不同的奖惩的值,在当前state时选择Q表里值最大的action 2、强化学习的控制问题:给定5个要素(状态集S,动作集A,即时奖励R,衰减因子γ,探索率ϵ),求最优的动作价值函数q∗、最优的策略 阅读全文
posted @ 2025-08-18 15:20 牧云文仔 阅读(32) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页