深度强化学习】Gumbel-Softmax：离散随机变量的重参数化（reparameterization）

转自：https://zhuanlan.zhihu.com/p/551255387

以DDPG为代表的确定性策略梯度算法只适用于连续动作空间的任务，为了让这些算法能够处理离散动作空间的任务，需要对其进行Gumbel-Softmax处理，这篇笔记将从强化学习的角度出发，对为什么需要以及怎么使用Gumbel-Softmax进行简单介绍。

回顾一下在强化学习中有两类策略梯度的估计方法：

【随机策略梯度定理】根据Sutton提出的随机策略梯度定理，如果∇𝜃𝜋𝜃(𝑎∣𝑠)

【确定性策略梯度定理】根据David Silver提出的确定性策略梯度定理，如果

可以看出，确定性策略梯度与随机策略梯度的计算有很大的区别，随机策略梯度对应随机策略，

随机策略梯度定理存在的条件是

确定性策略梯度定理存在的条件则是

在上面两段描述中，我个人觉得比较难以理解的点是为什么随机策略中采样可导，而确定性策略中采样不可导。这是因为随机策略中只要求概率密度函数对

既然采样操作不可行，那怎么保证确定性策略的探索呢？这就涉及到了重参数化（Reparameterization）这一重要技巧，首先从比较常规的连续动作下的reparameterization进行介绍。

确定性策略梯度中连续变量的重参数化（Reparameterization）

在确定性策略梯度框架下，我们要求策略：1. 能够保证探索；2. 可导。为了保证探索，有两种常见的方法，一种是直接使用随机策略，但这涉及到采样的操作，不可导；另一种是在确定性策略上添加噪声。实际上确定性策略添加噪声之后相当于也是随机策略，只不过此时采样过程和梯度的计算图分离了，这样就保证了梯度的可求，这种方法实际上就隐含了重参数化（reparameterization）的思想。为了更加清楚地解释reparameterization的含义，接下来先用SAC来介绍reparameterization。

XuanAxuan：【深度强化学习】最大熵 RL：从Soft Q-Learning到SAC121 赞同 · 40 评论文章

确定性策略梯度是针对确定性策略提出的，SAC沿用了DDPG的确定性策略思想，使用的却是随机策略，这实际上就是因为SAC用到了reparameterization的技巧。SAC中的随机策略

很显然，这里有一个

可以看出，原本我们需要从未知分布

实际上，DDPG本身也采用了reparameterization，此时

Gumbel-Softmax：离散变量的重参数化（Reparameterization）

上面介绍了针对连续高斯分布的reparameterization，那么针对离散变量的categorical分布要怎样进行reparameterization呢？从上面SAC和DDPG的例子可以看出，reparameterization有两个要求：1. 不改变原有概率分布；2. 可导。Gumbel-Softmax正符合了这两个要求。

在离散任务中，

【Gumbel(0,1)分布】

根据原来的概率分布和Gumbel噪声可以构造一个Gumbel-Max随机变量：

【Gumbel-Max】

可以看出，Gumbel-Max实际上就是一个reparameterization的过程，首先根据已有的Gumbe(0,1)分布采样得到噪声

我们首先可以证明Gumbe-Max所得到得的随机变量服从原来的依据概率

然而，此时还是有一个

【Gumbel-Softmax】

Gumbel-Softmax为每个离散动作得到了一个新的概率，举例来说，根据gumbel-softmax计算得到（0.997,0.001,0.002），此时这个值就对应着onehot向量100的近似。

通过这样一个Gumbel-Softmax的操作，得到最终动作

# 利用.detach() 将gumbel-max操作从计算图分离开，再在计算图上增加gumbel-softmax操作，但实际的结果还是gumbel-max
a = (a_gumbel_max - a_gumbel_softmax).detach() + a_gumbel_softmax

总结来说，通过Gumbel-Max，对采样过程进行了reparameterization，将采样从梯度的计算中剥离开来，然后通过在梯度过程用Gumbel-Softmax替代Gumbel-Max，进一步保证了梯度的可计算性。

下面这幅图将原Categorical分布与Gumbel-Softmax分布进行了对比（只有第一列是Categorical分布），可以看出，当

MADDPG中的Gumbel-Softmax

根据FACMAC算法提供的代码，在MADDPG-discrete算法中，action的选择分为四种情况：

训练过程中的采样阶段：该阶段的作用主要是对各种不同动作进行探索，无需用到Gumbel-Softmax，此时动作的选择分为四步：

step1：神经网络输出每个离散动作的logits
step2：对logits进行softmax处理，得到每个动作的采样概率
step3：将采样概率
step4：依据上面求得的概率对动作采样

训练过程中的critic网络更新阶段：该阶段的作用是对critic网络进行更新，根据DDPG的critic更新公式，此时只需要利用target actor网络输出logits，然后根据该logits构造one-hot动作向量即可，也无需用到Gumbel-Softmax
训练过程中的actor网络更新阶段：该阶段的作用是对actor网络进行更新，需要对动作进行求导，因此需要用到Gumbel-Softmax，此时动作的选择分为四步：

step1：神经网络输出每个离散动作的logits
step2：计算得到logits对应的Gumbel-Softmax值
step3：计算得到logits对应的Gumbel-Max值
step4：利用a = (a_gumbel_max - a_gumbel_softmax).detach() + a_gumbel_softmax 输出one-hot向量，但保留Gumbel-Softmax的梯度

测试阶段：该阶段直接利用actor网络输出logits，然后根据该logits构造one-hot动作向量

在这种情况下，采集样本过程中对动作的采样过程和actor网络更新过程中的动作采样过程是不一样的。而在epymarl提供的代码中，探索阶段也是直接使用Gumbel-Softmax进行探索。我也不清楚哪种方法更加科学。

总结

其实Gumbel-Softmax是个蛮简单的操作，但背后的原理我一直没太搞明白，于是仔细学了一下，发现这和SAC里的reparameterization不是很相似吗？当时写SAC笔记的时候其实对reparameterization没太搞明白，昨天把这两个东西放在一起，发现就很好理解了，只不过一个是连续的，一个是离散的。理解了之后就想写下来，写完了发现有些地方还是很难表述清楚，大家凑合着看吧！！如果有不准确的地方欢迎在评论区指出来hhh

posted @ 2025-06-22 16:36 有何m不可阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

gongzb

深度强化学习】Gumbel-Softmax：离散随机变量的重参数化（reparameterization）

确定性策略梯度中连续变量的重参数化（Reparameterization）

Gumbel-Softmax：离散变量的重参数化（Reparameterization）

MADDPG中的Gumbel-Softmax

总结

公告