摘要:
Adam(Adaptive Moment Estimation)优化器是深度学习中广泛使用的自适应学习率优化算法,结合了动量(Momentum)和 RMSprop 的优点,具有收敛快、稳定性强的特点。以下是 Adam 优化器每一步迭代的详细流程,从初始化到参数更新的完整步骤解析: 一、符号定义 在开 阅读全文
posted @ 2025-07-16 15:54
m516606428
阅读(642)
评论(0)
推荐(0)
摘要:
自注意力中 QK 乘完后需要归一化。 在自注意力机制中,计算 Query 与 Key 的点积(即 QK 相乘)后,通常会进行缩放和归一化处理。具体来说,会先将 QK 的点积结果除以一个缩放因子\(\sqrt{d_k}\),其中\(d_k\)为 Key 向量的维度,这是为了防止点积结果过大,导致在后续 阅读全文
posted @ 2025-07-16 15:29
m516606428
阅读(18)
评论(0)
推荐(0)
摘要:
以下是对这两个问题的回答: sigmoid 放在中间层会发生什么: 梯度消失:sigmoid 函数的导数在 x 值较大或较小时趋近于 0。当在中间层使用 sigmoid 函数时,在反向传播过程中,根据链式法则,梯度需要连乘多个层的导数。由于 sigmoid 导数的最大值仅为 1/4,连乘后梯度会呈指 阅读全文
posted @ 2025-07-16 14:43
m516606428
阅读(11)
评论(0)
推荐(0)

浙公网安备 33010602011771号