摘要: 在深度学习中,当模型包含随机采样操作时,由于采样过程本身不可导,会导致梯度无法直接反向传播,这就是随机采样过程中的梯度传播问题。以下是解决该问题的核心方法及原理,结合数学推导与实际应用场景进行说明: 一、问题本质:随机采样的不可导性 问题场景:常见于变分自编码器(VAE)、强化学习策略网络、Drop 阅读全文
posted @ 2025-06-15 18:32 有何m不可 阅读(70) 评论(0) 推荐(0)
摘要: 一、核心概念对比 1. torch.rsample():连续分布的重参数化 应用场景:处理连续概率分布(如高斯分布、拉普拉斯分布等)。 核心思想:将随机变量的采样分解为 确定性变换 和 独立噪声,使梯度可通过噪声传递。 数学形式: 对于高斯分布 \(z \sim \mathcal{N}(\mu, \ 阅读全文
posted @ 2025-06-15 18:26 有何m不可 阅读(55) 评论(0) 推荐(0)
摘要: 一、DPG 算法的确定性策略本质 1. 动作生成方式 确定性策略:DPG 算法的策略网络直接输出确定性动作值,即 \(a = \mu(\theta)\),其中 \(\theta\) 是策略参数,\(\mu\) 是神经网络表示的映射函数。 无采样过程:动作生成不涉及概率分布采样,因此不存在随机采样带来 阅读全文
posted @ 2025-06-15 18:21 有何m不可 阅读(28) 评论(0) 推荐(0)