摘要: 转自:https://zhuanlan.zhihu.com/p/346433931 本文主要介绍和梳理on-policy/off-policy概念,文章中内容的逻辑结构(同每小节标题)如下: 策略需要有探索能力(随机性) 策略如何做到随机探索? Off-policy方法——将收集数据当做一个单独的任 阅读全文
posted @ 2025-06-22 19:52 有何m不可 阅读(217) 评论(0) 推荐(0)
摘要: 强化学习中的确定性策略与随机性策略是两种核心策略类型,其区别体现在策略表示、决策方式、探索能力、应用场景等多个维度。以下从技术原理和实际应用角度展开详细分析: 一、核心定义与数学表达 1. 确定性策略(Deterministic Policy) 定义:给定状态 s,策略直接输出唯一确定的动作 a,表 阅读全文
posted @ 2025-06-22 17:59 有何m不可 阅读(252) 评论(0) 推荐(0)
摘要: off-policy 算法能通过 \(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作: 重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。 最大化操作:如 Q-learning 直 阅读全文
posted @ 2025-06-22 17:51 有何m不可 阅读(13) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/551255387 以DDPG为代表的确定性策略梯度算法只适用于连续动作空间的任务,为了让这些算法能够处理离散动作空间的任务,需要对其进行Gumbel-Softmax处理,这篇笔记将从强化学习的角度出发,对为什么需要以及怎么使用Gumb 阅读全文
posted @ 2025-06-22 16:36 有何m不可 阅读(145) 评论(0) 推荐(0)
摘要: 转自:https://www.yuque.com/chenjiarui-i3tp3/sv7cbq/afns6z 1. 前言 重要性采样(Importance Sampling)其实是强化学习中比较重要的一个概念,但是大部分初学者似乎对这一点不是很懂,甚至没有听过这个概念。其实这是因为目前深度强化学习 阅读全文
posted @ 2025-06-22 16:06 有何m不可 阅读(323) 评论(0) 推荐(0)
摘要: 一、基本概念与应用场景对比 维度Reparameterization Trick(重参数化技巧)Gumbel-Softmax 解决的核心问题 连续分布采样过程的不可导性(如从正态分布、均匀分布中采样) 离散变量采样的不可导性(如 one-hot 向量、类别分布采样) 应用场景 VAE(变分自动编码器 阅读全文
posted @ 2025-06-22 11:01 有何m不可 阅读(110) 评论(0) 推荐(0)