摘要:
转自:https://zhuanlan.zhihu.com/p/551255387 以DDPG为代表的确定性策略梯度算法只适用于连续动作空间的任务,为了让这些算法能够处理离散动作空间的任务,需要对其进行Gumbel-Softmax处理,这篇笔记将从强化学习的角度出发,对为什么需要以及怎么使用Gumb 阅读全文
posted @ 2025-06-22 16:36
有何m不可
阅读(145)
评论(0)
推荐(0)
摘要:
转自:https://www.yuque.com/chenjiarui-i3tp3/sv7cbq/afns6z 1. 前言 重要性采样(Importance Sampling)其实是强化学习中比较重要的一个概念,但是大部分初学者似乎对这一点不是很懂,甚至没有听过这个概念。其实这是因为目前深度强化学习 阅读全文
posted @ 2025-06-22 16:06
有何m不可
阅读(323)
评论(0)
推荐(0)
摘要:
一、基本概念与应用场景对比 维度Reparameterization Trick(重参数化技巧)Gumbel-Softmax 解决的核心问题 连续分布采样过程的不可导性(如从正态分布、均匀分布中采样) 离散变量采样的不可导性(如 one-hot 向量、类别分布采样) 应用场景 VAE(变分自动编码器 阅读全文
posted @ 2025-06-22 11:01
有何m不可
阅读(110)
评论(0)
推荐(0)

浙公网安备 33010602011771号