摘要: SVM 的缺点及解决方案 1. 计算复杂度高 缺点:SVM 在处理大规模数据集时计算开销极大,尤其是使用核技巧时需要计算所有样本对之间的核函数值。 解决方案: 使用序列最小优化 (SMO) 算法(如 libSVM 库实现),将大优化问题分解为小问题迭代求解 采用核近似方法(如 Nyström 方法或 阅读全文
posted @ 2025-07-16 16:15 m516606428 阅读(45) 评论(0) 推荐(0)
摘要: Adam(Adaptive Moment Estimation)优化器是深度学习中广泛使用的自适应学习率优化算法,结合了动量(Momentum)和 RMSprop 的优点,具有收敛快、稳定性强的特点。以下是 Adam 优化器每一步迭代的详细流程,从初始化到参数更新的完整步骤解析: 一、符号定义 在开 阅读全文
posted @ 2025-07-16 15:54 m516606428 阅读(642) 评论(0) 推荐(0)
摘要: 自注意力中 QK 乘完后需要归一化。 在自注意力机制中,计算 Query 与 Key 的点积(即 QK 相乘)后,通常会进行缩放和归一化处理。具体来说,会先将 QK 的点积结果除以一个缩放因子\(\sqrt{d_k}\),其中\(d_k\)为 Key 向量的维度,这是为了防止点积结果过大,导致在后续 阅读全文
posted @ 2025-07-16 15:29 m516606428 阅读(18) 评论(0) 推荐(0)
摘要: 以下是对这两个问题的回答: sigmoid 放在中间层会发生什么: 梯度消失:sigmoid 函数的导数在 x 值较大或较小时趋近于 0。当在中间层使用 sigmoid 函数时,在反向传播过程中,根据链式法则,梯度需要连乘多个层的导数。由于 sigmoid 导数的最大值仅为 1/4,连乘后梯度会呈指 阅读全文
posted @ 2025-07-16 14:43 m516606428 阅读(11) 评论(0) 推荐(0)