会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Hello World!
首页
管理
2025年10月16日
喂饭版学术论文大语言模型提示词
摘要: 📌 !!!提示词使用说明!!! 这份提示词适用于各种大模型,如 OpenAI GPT-4、Claude、Gemini、ChatGLM、文心一言等。不同平台的响应能力和输出质量会有所差异,因此可以根据具体需求调整提示词的表达方式。 适用平台 DeepSeek:适合中文学术写作,代码生成。 GPT-4
阅读全文
posted @ 2025-10-16 00:24 55open
阅读(67)
评论(0)
推荐(0)
2025年10月13日
4.2 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL)
摘要: 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL) (Dyna-Q, I2A) Dyna-Q 算法 在学习到环境模型之后,可以利用该模型增强无模型算法。 无模型算法(如 Q-learning)可从以下两种类型的转移样本中学习: 真实经验(real
阅读全文
posted @ 2025-10-13 04:43 55open
阅读(24)
评论(0)
推荐(0)
4.1 基于模型的强化学习(Model-based RL)
摘要: 基于模型的强化学习(Model-based RL) 无模型与有模型方法的比较 在此前介绍的无模型(Model-free, MF)强化学习中,我们无需了解环境的动态规律即可开始训练策略: \[p(s' | s, a), \quad r(s, a, s') \]我们仅需采样状态转移 \((s, a, r
阅读全文
posted @ 2025-10-13 04:22 55open
阅读(93)
评论(0)
推荐(0)
3.8 最大熵强化学习(Maximum Entropy RL, SAC)
摘要: 最大熵强化学习(Maximum Entropy RL, SAC) 背景 此前的所有强化学习方法均专注于最大化回报(return),这对应于强化学习中的利用(exploitation):我们只关心最优策略。 而探索(exploration)通常由额外机制实现,例如: 基于值函数方法中的 \(\epsi
阅读全文
posted @ 2025-10-13 04:19 55open
阅读(77)
评论(0)
推荐(0)
3.7 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)
摘要: 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER) 概述 前述自然梯度方法(如 TRPO、PPO)均为随机演员–评论家(stochastic actor–critic)结构,因此属于 on-policy 学习。 相比之下,off-pol
阅读全文
posted @ 2025-10-13 04:13 55open
阅读(19)
评论(0)
推荐(0)
3.6 策略优化(TRPO 与 PPO)
摘要: 策略优化(TRPO 与 PPO) 信赖域策略优化(Trust Region Policy Optimization, TRPO) 基本原理 @Schulman2015 将自然梯度的思想推广到非线性函数逼近(如深度网络),提出了 TRPO。 该方法已在实践中被 PPO(Proximal Policy
阅读全文
posted @ 2025-10-13 04:05 55open
阅读(35)
评论(0)
推荐(0)
3.5 自然梯度(Natural Gradients)
摘要: 自然梯度(Natural Gradients) 学习稳定性 此前介绍的深度强化学习方法均使用随机梯度下降(SGD)或其变体(RMSProp、Adam 等)来训练神经网络函数逼近器。 其基本思想是:沿损失函数梯度的反方向(或策略梯度的正方向)按比例调整参数 \(\theta\): \[\Delta \
阅读全文
posted @ 2025-10-13 03:52 55open
阅读(30)
评论(0)
推荐(0)
3.4 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)
摘要: 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG) 背景与动机 在前面的策略梯度方法中,演员(Actor)产生的是随机策略 \(\pi_\theta(s)\),即输出动作的概率分布(离散动作)或分布参数(连续动作)。 其优点在于能保证探索:几乎所有
阅读全文
posted @ 2025-10-13 03:35 55open
阅读(39)
评论(0)
推荐(0)
3.3 离策略演员–评论家(Off-policy Actor–Critic)
摘要: 离策略演员–评论家(Off-policy Actor–Critic) On-policy 与 Off-policy 演员–评论家算法通常是on-policy(同策略)的:用于探索环境的动作必须由当前策略生成,否则评论者(Critic)提供的反馈(优势项)会在策略梯度中引入巨大的偏差。 这源自策略梯度
阅读全文
posted @ 2025-10-13 03:30 55open
阅读(21)
评论(0)
推荐(0)
2025年10月12日
3.2 优势演员–评论家算法(Advantage Actor-Critic, A3C)
摘要: 优势演员–评论家算法(Advantage Actor-Critic, A3C) 演员–评论家(Actor–Critic)算法 策略梯度定理提供了一种能够基于单步转移估计梯度的架构: \[\nabla_\theta J(\theta) = \mathbb{E}_{s \sim \rho_\theta,
阅读全文
posted @ 2025-10-12 22:28 55open
阅读(23)
评论(0)
推荐(0)
下一页
公告