摘要: 深度神经网络的训练稳定性和表达能力是现代人工智能模型(尤其是 Transformer 架构)成功的关键。残差连接(Residual Connection)和层归一化(Layer Normalization)作为两项核心技术,极大地推动了深层网络的可训练性和泛化能力。本文系统梳理这两项技术的原理、结构 阅读全文
posted @ 2025-05-12 09:50 何双新 阅读(959) 评论(0) 推荐(0)
摘要: 全面拆解 Transformer 架构:Encoder、Decoder 内部模块解析(附流程图小测验) 关键词:Transformer、Encoder、Decoder、Self-Attention、Masked Attention、位置编码、残差连接、多头注意力机制 Transformer 自 20 阅读全文
posted @ 2025-05-12 08:30 何双新 阅读(703) 评论(0) 推荐(0)