摘要:
todo 阅读全文
posted @ 2026-03-09 22:32
灰马非马
阅读(2)
评论(0)
推荐(0)
摘要:
这里先讲推理阶段 结构 论文中的Transformer编码器由6个相同的层堆叠而成,每层包含: 自注意力机制(包含残差连接和层归一化) 前馈神经网络(包含残差连接和层归一化) 输入 → [自注意力子层] → 残差连接 → 层归一化 → [FFN子层] → 残差连接 → 层归一化 → 输出 自注意力机 阅读全文
posted @ 2026-03-09 22:27
灰马非马
阅读(4)
评论(0)
推荐(0)

浙公网安备 33010602011771号