55open - 博客园

2025年10月16日

摘要： 📌 ！！！提示词使用说明！！！这份提示词适用于各种大模型，如 OpenAI GPT-4、Claude、Gemini、ChatGLM、文心一言等。不同平台的响应能力和输出质量会有所差异，因此可以根据具体需求调整提示词的表达方式。适用平台 DeepSeek：适合中文学术写作，代码生成。 GPT-4 阅读全文

posted @ 2025-10-16 00:24 55open 阅读(216) 评论(0) 推荐(0)

2025年10月13日

4.2 基于模型增强的无模型强化学习（Model-based Augmented Model-free RL）

摘要：基于模型增强的无模型强化学习（Model-based Augmented Model-free RL） (Dyna-Q, I2A) Dyna-Q 算法在学习到环境模型之后，可以利用该模型增强无模型算法。无模型算法（如 Q-learning）可从以下两种类型的转移样本中学习：真实经验（real 阅读全文

posted @ 2025-10-13 04:43 55open 阅读(37) 评论(0) 推荐(0)

4.1 基于模型的强化学习（Model-based RL）

摘要：基于模型的强化学习（Model-based RL）无模型与有模型方法的比较在此前介绍的无模型（Model-free, MF）强化学习中，我们无需了解环境的动态规律即可开始训练策略： \[p(s' | s, a), \quad r(s, a, s') \]我们仅需采样状态转移 \((s, a, r 阅读全文

posted @ 2025-10-13 04:22 55open 阅读(186) 评论(0) 推荐(0)

3.8 最大熵强化学习（Maximum Entropy RL, SAC）

摘要：最大熵强化学习（Maximum Entropy RL, SAC）背景此前的所有强化学习方法均专注于最大化回报（return），这对应于强化学习中的利用（exploitation）：我们只关心最优策略。而探索（exploration）通常由额外机制实现，例如：基于值函数方法中的 \(\epsi 阅读全文

posted @ 2025-10-13 04:19 55open 阅读(199) 评论(0) 推荐(0)

3.7 带经验回放的演员–评论家算法（Actor-Critic with Experience Replay, ACER）

摘要：带经验回放的演员–评论家算法（Actor-Critic with Experience Replay, ACER）概述前述自然梯度方法（如 TRPO、PPO）均为随机演员–评论家（stochastic actor–critic）结构，因此属于 on-policy 学习。相比之下，off-pol 阅读全文

posted @ 2025-10-13 04:13 55open 阅读(42) 评论(0) 推荐(0)

3.6 策略优化（TRPO 与 PPO）

摘要：策略优化（TRPO 与 PPO）信赖域策略优化（Trust Region Policy Optimization, TRPO）基本原理 @Schulman2015 将自然梯度的思想推广到非线性函数逼近（如深度网络），提出了 TRPO。该方法已在实践中被 PPO（Proximal Policy 阅读全文

posted @ 2025-10-13 04:05 55open 阅读(83) 评论(0) 推荐(0)

3.5 自然梯度（Natural Gradients）

摘要：自然梯度（Natural Gradients）学习稳定性此前介绍的深度强化学习方法均使用随机梯度下降（SGD）或其变体（RMSProp、Adam 等）来训练神经网络函数逼近器。其基本思想是：沿损失函数梯度的反方向（或策略梯度的正方向）按比例调整参数 \(\theta\)： \[\Delta \ 阅读全文

posted @ 2025-10-13 03:52 55open 阅读(56) 评论(0) 推荐(0)

3.4 深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）

摘要：深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）背景与动机在前面的策略梯度方法中，演员（Actor）产生的是随机策略 \(\pi_\theta(s)\)，即输出动作的概率分布（离散动作）或分布参数（连续动作）。其优点在于能保证探索：几乎所有阅读全文

posted @ 2025-10-13 03:35 55open 阅读(86) 评论(0) 推荐(0)

3.3 离策略演员–评论家（Off-policy Actor–Critic）

摘要：离策略演员–评论家（Off-policy Actor–Critic） On-policy 与 Off-policy 演员–评论家算法通常是on-policy（同策略）的：用于探索环境的动作必须由当前策略生成，否则评论者（Critic）提供的反馈（优势项）会在策略梯度中引入巨大的偏差。这源自策略梯度阅读全文

posted @ 2025-10-13 03:30 55open 阅读(40) 评论(0) 推荐(0)

2025年10月12日

3.2 优势演员–评论家算法（Advantage Actor-Critic, A3C）

摘要：优势演员–评论家算法（Advantage Actor-Critic, A3C）演员–评论家（Actor–Critic）算法策略梯度定理提供了一种能够基于单步转移估计梯度的架构： \[\nabla_\theta J(\theta) = \mathbb{E}_{s \sim \rho_\theta, 阅读全文

posted @ 2025-10-12 22:28 55open 阅读(61) 评论(0) 推荐(0)

Hello World!

公告