摘要: FFN(Feed-forward Network) Transformer中的FFN实际上就是由线性层fc+relu激活函数+线性层fc的结构组成 论文中作者提出,attention输出的embedding维度为512,ffn将输入从512升维至2048,而后经过激活后又降维至512 FFN的引入主 阅读全文
posted @ 2025-07-31 22:12 Luna-Evelyn 阅读(58) 评论(0) 推荐(0)