摘要:
深度学习49问(无答案版) 一、深度学习基础(数学与本质) 为什么深度神经网络具有“通用逼近能力”?它的局限性是什么? 深度模型为什么能泛化?泛化从何而来?为什么过参数化反而更容易泛化? 解释一下梯度消失与梯度爆炸的数学本质,为什么 ReLU 能缓解? Batch Gradient Descent、 阅读全文
posted @ 2025-11-26 19:47
LPF05
阅读(12)
评论(0)
推荐(0)
摘要:
Transformer 架构中的 ResNet + LayerNorm 设计解析 整体详解 一、Transformer 的核心结构:残差连接与归一化的奠基 Transformer 的成功离不开两大关键组件的协同 ——残差连接(Residual Connection) 与层归一化(LayerNorm) 阅读全文
posted @ 2025-11-26 13:49
LPF05
阅读(15)
评论(0)
推荐(1)

浙公网安备 33010602011771号