上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页
摘要: 转自:https://zhuanlan.zhihu.com/p/551255387 以DDPG为代表的确定性策略梯度算法只适用于连续动作空间的任务,为了让这些算法能够处理离散动作空间的任务,需要对其进行Gumbel-Softmax处理,这篇笔记将从强化学习的角度出发,对为什么需要以及怎么使用Gumb 阅读全文
posted @ 2025-06-22 16:36 有何m不可 阅读(145) 评论(0) 推荐(0)
摘要: 转自:https://www.yuque.com/chenjiarui-i3tp3/sv7cbq/afns6z 1. 前言 重要性采样(Importance Sampling)其实是强化学习中比较重要的一个概念,但是大部分初学者似乎对这一点不是很懂,甚至没有听过这个概念。其实这是因为目前深度强化学习 阅读全文
posted @ 2025-06-22 16:06 有何m不可 阅读(323) 评论(0) 推荐(0)
摘要: 一、基本概念与应用场景对比 维度Reparameterization Trick(重参数化技巧)Gumbel-Softmax 解决的核心问题 连续分布采样过程的不可导性(如从正态分布、均匀分布中采样) 离散变量采样的不可导性(如 one-hot 向量、类别分布采样) 应用场景 VAE(变分自动编码器 阅读全文
posted @ 2025-06-22 11:01 有何m不可 阅读(110) 评论(0) 推荐(0)
摘要: 在深度学习中,当模型包含随机采样操作时,由于采样过程本身不可导,会导致梯度无法直接反向传播,这就是随机采样过程中的梯度传播问题。以下是解决该问题的核心方法及原理,结合数学推导与实际应用场景进行说明: 一、问题本质:随机采样的不可导性 问题场景:常见于变分自编码器(VAE)、强化学习策略网络、Drop 阅读全文
posted @ 2025-06-15 18:32 有何m不可 阅读(70) 评论(0) 推荐(0)
摘要: 一、核心概念对比 1. torch.rsample():连续分布的重参数化 应用场景:处理连续概率分布(如高斯分布、拉普拉斯分布等)。 核心思想:将随机变量的采样分解为 确定性变换 和 独立噪声,使梯度可通过噪声传递。 数学形式: 对于高斯分布 \(z \sim \mathcal{N}(\mu, \ 阅读全文
posted @ 2025-06-15 18:26 有何m不可 阅读(55) 评论(0) 推荐(0)
摘要: 一、DPG 算法的确定性策略本质 1. 动作生成方式 确定性策略:DPG 算法的策略网络直接输出确定性动作值,即 \(a = \mu(\theta)\),其中 \(\theta\) 是策略参数,\(\mu\) 是神经网络表示的映射函数。 无采样过程:动作生成不涉及概率分布采样,因此不存在随机采样带来 阅读全文
posted @ 2025-06-15 18:21 有何m不可 阅读(28) 评论(0) 推荐(0)
摘要: 1. 计算量的理论对比 BGD(批量梯度下降):每次迭代需要计算所有 m 个样本的梯度并求和,计算量为 O(m)。 SGD(随机梯度下降):每次迭代只计算1 个样本的梯度,计算量为 O(1)。但完成一个 epoch 需要处理 m 个样本,因此总计算量为 m × O(1) = O(m)。 结论:当 S 阅读全文
posted @ 2025-06-14 16:49 有何m不可 阅读(37) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/603691759 一句话概括CQL:通过打压OOD(out of distribution)的q值的同时,去适当的鼓励已经在buffer(训练集)中的q值,从而防止q值被高估。论文中严格证明了通过该方法,能确保学习到q值的下界值,避免 阅读全文
posted @ 2025-06-08 19:02 有何m不可 阅读(84) 评论(0) 推荐(0)
摘要: 如何计算大模型到底需要多少显存,是常常被问起的问题,笔者在《探秘大模型应用开发》中有过详细的推算,详见: 一文探秘LLM应用开发(12)-模型部署与推理(大模型相关参数计算及性能分析) ,通过文章可以清楚知道模型大小和显存占用的关系及计算方法。 现从实用角度再介绍一个简单公式和一个工具方便大家工作中 阅读全文
posted @ 2025-04-16 14:09 有何m不可 阅读(1447) 评论(0) 推荐(0)
摘要: 全连接层公式的解析 整体理解 该公式描述的是全连接层如何将输入图像的像素信息转换为隐藏表示的像素信息。全连接层的目的是让每个隐藏神经元都能接收来自每个输入像素的信息,从而实现对输入图像的特征提取和表示。 公式细节 偏置项:公式中的\([U]_{i,j}\)是偏置参数,它为每个隐藏表示位置\((i, 阅读全文
posted @ 2025-04-16 08:44 有何m不可 阅读(21) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页