摘要:
深度神经网络的训练稳定性和表达能力是现代人工智能模型(尤其是 Transformer 架构)成功的关键。残差连接(Residual Connection)和层归一化(Layer Normalization)作为两项核心技术,极大地推动了深层网络的可训练性和泛化能力。本文系统梳理这两项技术的原理、结构 阅读全文
posted @ 2025-05-12 09:50
何双新
阅读(959)
评论(0)
推荐(0)
摘要:
全面拆解 Transformer 架构:Encoder、Decoder 内部模块解析(附流程图小测验) 关键词:Transformer、Encoder、Decoder、Self-Attention、Masked Attention、位置编码、残差连接、多头注意力机制 Transformer 自 20 阅读全文
posted @ 2025-05-12 08:30
何双新
阅读(703)
评论(0)
推荐(0)

浙公网安备 33010602011771号