2025 年 5月 12 日随笔档案 - 何双新

2025年5月12日

摘要：深度神经网络的训练稳定性和表达能力是现代人工智能模型（尤其是 Transformer 架构）成功的关键。残差连接（Residual Connection）和层归一化（Layer Normalization）作为两项核心技术，极大地推动了深层网络的可训练性和泛化能力。本文系统梳理这两项技术的原理、结构阅读全文

posted @ 2025-05-12 09:50 何双新阅读(959) 评论(0) 推荐(0)

第6讲、全面拆解Encoder、Decoder内部模块

摘要：全面拆解 Transformer 架构：Encoder、Decoder 内部模块解析（附流程图小测验）关键词：Transformer、Encoder、Decoder、Self-Attention、Masked Attention、位置编码、残差连接、多头注意力机制 Transformer 自 20 阅读全文

posted @ 2025-05-12 08:30 何双新阅读(703) 评论(0) 推荐(0)

且将新火试新茶

公告