Attention复杂度解析与改进方向
摘要:
Attention复杂度解析与改进方向 摘要/引言 在大规模语言模型(LLM)浪潮中,扩展模型上下文窗口长度被认为是提升模型能力和应用范围的关键方向。然而,现代Transformer结构中的自注意力机制,其时间和空间复杂度均为二次方级(\(O(N^2)\)),成为限制序列长度扩展的根本瓶颈。有研究指 阅读全文
posted @ 2025-09-24 17:57 GRITJW 阅读(109) 评论(0) 推荐(0)
浙公网安备 33010602011771号