上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 一、强化学习分类 1、基于价值:从价值函数中学习,Q-Learning,Sarsa 2、基于策略:从策略函数中学习,Policy Gradient 3、基于模型:从环境的模型中学习,不需要和环境交互,类似于监督学习,有两个模型 状态转化预测模型:输入当前状态s和动作a,预测下一个状态s' 奖励预测模 阅读全文
posted @ 2025-08-26 17:53 牧云文仔 阅读(9) 评论(0) 推荐(0)
摘要: 一、概念 1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习 2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题 3、使用python多线程,提供了通用 阅读全文
posted @ 2025-08-26 13:42 牧云文仔 阅读(20) 评论(0) 推荐(0)
摘要: 一、Nature DQN 1、DQN缺点:只有一个神经网络,既选择动作,又估计价值,估计值容易过高;不能保证Q网络收敛,Q网络模型效果差 2、Nature DQN两个Q神经网络,在线网络用于动作选择,目标网络用于估计Q值,减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的 阅读全文
posted @ 2025-08-26 13:34 牧云文仔 阅读(24) 评论(0) 推荐(0)
摘要: 一、概述 1、蒙特卡洛法的缺点:需要一个经历完整的状态序列,从中采样;如公式里的奖励Rt+1到RT,表示完整状态序列的奖励 2、时序差分(Temporal-Difference,TD),不基于环境的状态转化概率模型,也不需要经历完整的状态序列,介于动态规划和蒙特卡洛方法之间 3、是现在主流的强化学习 阅读全文
posted @ 2025-08-25 18:24 牧云文仔 阅读(42) 评论(0) 推荐(0)
摘要: 一、引入 1、动态规划求解的缺点: a.每次回溯更新状态价值时,要回溯所有可能的后续状态,复杂问题计算量很大 b.无法知道环境的状态转化模型P,已知P,是基于模型的强化学习算法;但很多问题无法事先知道P 2、蒙特卡洛方法(Monte-Calo,MC) 是一种近似求解的方法,通过采样来估计状态的真实价 阅读全文
posted @ 2025-08-25 18:19 牧云文仔 阅读(10) 评论(0) 推荐(0)
摘要: 一、概述 1、动态规划:拆分成子问题,求出子问题的最优解;找到子问题和原问题的递推关系,从而求解原问题 2、强化学习有两个基本问题: 预测:给定6个要素,包含模型P,求策略的状态价值函数 控制:求最优的价值函数和策略 3、状态价值函数的贝尔曼方程如下,有子问题和递推,所以可以使用动态规划 二、方法 阅读全文
posted @ 2025-08-25 18:08 牧云文仔 阅读(14) 评论(0) 推荐(0)
摘要: 一、介绍 1、马尔可夫决策过程MDP,可以用方程组求解,简化强化学习的建模 2、马尔可夫性质:未来状态的条件概率分布,仅依赖于当前状态,将来状态和过去状态是独立的 3、马尔可夫过程:满足马尔可夫性质的过程 4、马尔可夫链:离散时间的马尔可夫过程,叫马尔可夫链,是最简单的马尔可夫过程 5、马尔可夫奖励 阅读全文
posted @ 2025-08-25 16:50 牧云文仔 阅读(37) 评论(0) 推荐(0)
摘要: 一、简介 1、DDPG的缺点 在训练过程中,可能出现策略估计的过度估计(overestimation)和训练不稳定等问题,例如已经学习好的Q函数,会显著高估Q值,导致策略被破坏 2、TD3(Twin Delayed Deep Deterministic Policy Gradient) 通过引入双批 阅读全文
posted @ 2025-08-20 18:25 牧云文仔 阅读(31) 评论(0) 推荐(0)
摘要: 一、PPO简介 1、同策略和异策略 同策略:学习的智能体、和环境交互的智能体,是同一个 异策略:学习的智能体、和环境交互的智能体,不是同一个 2、传统的策略梯度算法,在更新策略时,可能出现不稳定,是同策略 3、近端策略优化(Proximal Policy Optimization, PPO) 是Po 阅读全文
posted @ 2025-08-20 18:15 牧云文仔 阅读(39) 评论(0) 推荐(0)
摘要: 一、概念 1、深度确定性策略梯度Deep Deterministic Policy Gradient 是Actor-Critic的升级版本,输出的不是动作概率,而是具体的动作,用于连续动作的预测,是连续控制领域经典的强化学习算法 2、深度Deep:结合了DQN,包含记忆库、现实网络、估计网络,提高了 阅读全文
posted @ 2025-08-18 17:51 牧云文仔 阅读(36) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 14 下一页