摘要:
(更好的阅读体验参考小红书同名) Attention 1 Attention 介绍 为什么点积注意力要除以 ? Attention的时间复杂度? 2 Transformer中的Attention 2.1 Encoder和Decoder中的Self-Attention 2.2 Decoder中的Cro 阅读全文
posted @ 2026-04-17 21:42
Orzjh
阅读(24)
评论(0)
推荐(0)
摘要:
(更好的阅读体验参考小红书同名) FFN, Residual Addition, LN 1 三个模块的作用 1.1 FFN(Feed Forward Network,前馈层) 为什么有了 Attention 还需要 FFN FFN 为什么先升维再降维 1.2 Add (Residual Connec 阅读全文
posted @ 2026-04-17 21:42
Orzjh
阅读(46)
评论(0)
推荐(0)

浙公网安备 33010602011771号