摘要: 📌 !!!提示词使用说明!!! 这份提示词适用于各种大模型,如 OpenAI GPT-4、Claude、Gemini、ChatGLM、文心一言等。不同平台的响应能力和输出质量会有所差异,因此可以根据具体需求调整提示词的表达方式。 适用平台 DeepSeek:适合中文学术写作,代码生成。 GPT-4 阅读全文
posted @ 2025-10-16 00:24 55open 阅读(67) 评论(0) 推荐(0)
摘要: 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL) (Dyna-Q, I2A) Dyna-Q 算法 在学习到环境模型之后,可以利用该模型增强无模型算法。 无模型算法(如 Q-learning)可从以下两种类型的转移样本中学习: 真实经验(real 阅读全文
posted @ 2025-10-13 04:43 55open 阅读(24) 评论(0) 推荐(0)
摘要: 基于模型的强化学习(Model-based RL) 无模型与有模型方法的比较 在此前介绍的无模型(Model-free, MF)强化学习中,我们无需了解环境的动态规律即可开始训练策略: \[p(s' | s, a), \quad r(s, a, s') \]我们仅需采样状态转移 \((s, a, r 阅读全文
posted @ 2025-10-13 04:22 55open 阅读(93) 评论(0) 推荐(0)
摘要: 最大熵强化学习(Maximum Entropy RL, SAC) 背景 此前的所有强化学习方法均专注于最大化回报(return),这对应于强化学习中的利用(exploitation):我们只关心最优策略。 而探索(exploration)通常由额外机制实现,例如: 基于值函数方法中的 \(\epsi 阅读全文
posted @ 2025-10-13 04:19 55open 阅读(77) 评论(0) 推荐(0)
摘要: 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER) 概述 前述自然梯度方法(如 TRPO、PPO)均为随机演员–评论家(stochastic actor–critic)结构,因此属于 on-policy 学习。 相比之下,off-pol 阅读全文
posted @ 2025-10-13 04:13 55open 阅读(19) 评论(0) 推荐(0)
摘要: 策略优化(TRPO 与 PPO) 信赖域策略优化(Trust Region Policy Optimization, TRPO) 基本原理 @Schulman2015 将自然梯度的思想推广到非线性函数逼近(如深度网络),提出了 TRPO。 该方法已在实践中被 PPO(Proximal Policy 阅读全文
posted @ 2025-10-13 04:05 55open 阅读(35) 评论(0) 推荐(0)
摘要: 自然梯度(Natural Gradients) 学习稳定性 此前介绍的深度强化学习方法均使用随机梯度下降(SGD)或其变体(RMSProp、Adam 等)来训练神经网络函数逼近器。 其基本思想是:沿损失函数梯度的反方向(或策略梯度的正方向)按比例调整参数 \(\theta\): \[\Delta \ 阅读全文
posted @ 2025-10-13 03:52 55open 阅读(30) 评论(0) 推荐(0)
摘要: 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG) 背景与动机 在前面的策略梯度方法中,演员(Actor)产生的是随机策略 \(\pi_\theta(s)\),即输出动作的概率分布(离散动作)或分布参数(连续动作)。 其优点在于能保证探索:几乎所有 阅读全文
posted @ 2025-10-13 03:35 55open 阅读(39) 评论(0) 推荐(0)
摘要: 离策略演员–评论家(Off-policy Actor–Critic) On-policy 与 Off-policy 演员–评论家算法通常是on-policy(同策略)的:用于探索环境的动作必须由当前策略生成,否则评论者(Critic)提供的反馈(优势项)会在策略梯度中引入巨大的偏差。 这源自策略梯度 阅读全文
posted @ 2025-10-13 03:30 55open 阅读(21) 评论(0) 推荐(0)
摘要: 优势演员–评论家算法(Advantage Actor-Critic, A3C) 演员–评论家(Actor–Critic)算法 策略梯度定理提供了一种能够基于单步转移估计梯度的架构: \[\nabla_\theta J(\theta) = \mathbb{E}_{s \sim \rho_\theta, 阅读全文
posted @ 2025-10-12 22:28 55open 阅读(23) 评论(0) 推荐(0)