牧云文仔

2025年8月26日

摘要：一、强化学习分类 1、基于价值：从价值函数中学习，Q-Learning，Sarsa 2、基于策略：从策略函数中学习，Policy Gradient 3、基于模型：从环境的模型中学习，不需要和环境交互，类似于监督学习，有两个模型状态转化预测模型：输入当前状态s和动作a，预测下一个状态s' 奖励预测模阅读全文

posted @ 2025-08-26 17:53 牧云文仔阅读(9) 评论(0) 推荐(0)

强化学习（十三）-A3C

摘要：一、概念 1、异步优势演员评论家算法（Asynchronous Advanced Actor Critic，A3C），解决Actor Critic很难收敛的问题，加速强化学习 2、创建多个并行环境，并行计算，然后合并学习到的结果，避免了经验回放相关性太强的问题 3、使用python多线程，提供了通用阅读全文

posted @ 2025-08-26 13:42 牧云文仔阅读(20) 评论(0) 推荐(0)

强化学习（九）-DQN的改进算法

摘要：一、Nature DQN 1、DQN缺点：只有一个神经网络，既选择动作，又估计价值，估计值容易过高；不能保证Q网络收敛，Q网络模型效果差 2、Nature DQN两个Q神经网络，在线网络用于动作选择，目标网络用于估计Q值，减少目标Q值计算和要更新Q网络参数之间的依赖 3、这两个神经网络结构是一样的阅读全文

posted @ 2025-08-26 13:34 牧云文仔阅读(25) 评论(0) 推荐(0)

2025年8月25日

强化学习（五）-时序差分法TD求解

摘要：一、概述 1、蒙特卡洛法的缺点：需要一个经历完整的状态序列，从中采样；如公式里的奖励Rt+1到RT，表示完整状态序列的奖励 2、时序差分（Temporal-Difference，TD），不基于环境的状态转化概率模型，也不需要经历完整的状态序列，介于动态规划和蒙特卡洛方法之间 3、是现在主流的强化学习阅读全文

posted @ 2025-08-25 18:24 牧云文仔阅读(45) 评论(0) 推荐(0)

强化学习（四）-蒙特卡洛MC求解

摘要：一、引入 1、动态规划求解的缺点： a.每次回溯更新状态价值时，要回溯所有可能的后续状态，复杂问题计算量很大 b.无法知道环境的状态转化模型P，已知P，是基于模型的强化学习算法；但很多问题无法事先知道P 2、蒙特卡洛方法（Monte-Calo，MC）是一种近似求解的方法，通过采样来估计状态的真实价阅读全文

posted @ 2025-08-25 18:19 牧云文仔阅读(10) 评论(0) 推荐(0)

强化学习（三）-动态规划DP求解

摘要：一、概述 1、动态规划：拆分成子问题，求出子问题的最优解；找到子问题和原问题的递推关系，从而求解原问题 2、强化学习有两个基本问题：预测：给定6个要素，包含模型P，求策略的状态价值函数控制：求最优的价值函数和策略 3、状态价值函数的贝尔曼方程如下，有子问题和递推，所以可以使用动态规划二、方法阅读全文

posted @ 2025-08-25 18:08 牧云文仔阅读(14) 评论(0) 推荐(0)

强化学习（二）-马尔可夫决策过程MDP

摘要：一、介绍 1、马尔可夫决策过程MDP，可以用方程组求解，简化强化学习的建模 2、马尔可夫性质：未来状态的条件概率分布，仅依赖于当前状态，将来状态和过去状态是独立的 3、马尔可夫过程：满足马尔可夫性质的过程 4、马尔可夫链：离散时间的马尔可夫过程，叫马尔可夫链，是最简单的马尔可夫过程 5、马尔可夫奖励阅读全文

posted @ 2025-08-25 16:50 牧云文仔阅读(37) 评论(0) 推荐(0)

2025年8月20日

强化学习（十五）-TD3

摘要：一、简介 1、DDPG的缺点在训练过程中，可能出现策略估计的过度估计（overestimation）和训练不稳定等问题，例如已经学习好的Q函数，会显著高估Q值，导致策略被破坏 2、TD3（Twin Delayed Deep Deterministic Policy Gradient）通过引入双批阅读全文

posted @ 2025-08-20 18:25 牧云文仔阅读(31) 评论(0) 推荐(0)

强化学习（十四）-PPO和DPPO

摘要：一、PPO简介 1、同策略和异策略同策略：学习的智能体、和环境交互的智能体，是同一个异策略：学习的智能体、和环境交互的智能体，不是同一个 2、传统的策略梯度算法，在更新策略时，可能出现不稳定，是同策略 3、近端策略优化(Proximal Policy Optimization, PPO) 是Po 阅读全文

posted @ 2025-08-20 18:15 牧云文仔阅读(40) 评论(0) 推荐(0)

2025年8月18日

强化学习（十二）-DDPG

摘要：一、概念 1、深度确定性策略梯度Deep Deterministic Policy Gradient 是Actor-Critic的升级版本，输出的不是动作概率，而是具体的动作，用于连续动作的预测，是连续控制领域经典的强化学习算法 2、深度Deep：结合了DQN，包含记忆库、现实网络、估计网络，提高了阅读全文

posted @ 2025-08-18 17:51 牧云文仔阅读(36) 评论(0) 推荐(0)

公告