摘要: Xavier初始化 内容 在神经网络中,参数初始化对模型的训练效果至关重要。Xavier初始化( 又称Glorot初始化 )是一种广泛使用的权重初始化方法,尤其在Transformer架构中常见。以下是关于xavier_uniform_的详细解释: 1. Xavier初始化的原理 Xavier初始化 阅读全文
posted @ 2025-04-10 22:22 Gold_stein 阅读(515) 评论(0) 推荐(0)
摘要: 深入理解Softmax与交叉熵:从原理到梯度推导 在深度学习中,Softmax函数与交叉熵损失( Cross-Entropy Loss )是分类任务的核心组件。本文将从数学原理出发,推导它们的梯度计算过程,并解释参数更新中涉及的矩阵求导关键点。无论你是刚入门的新手还是希望巩固基础的开发者,这篇博客都 阅读全文
posted @ 2025-04-10 21:51 Gold_stein 阅读(1746) 评论(0) 推荐(0)