2025 年 8月 3 日随笔档案 - deephub

2025年8月3日

NSA稀疏注意力深度解析：DeepSeek如何将Transformer复杂度从O(N²)降至线性，实现9倍训练加速

摘要：当前人工智能模型在处理长序列任务时面临着根本性的计算瓶颈。无论是分析完整的法律文档、处理大型代码仓库，还是进行长篇对话，现有模型都受到Transformer架构中注意力机制的限制——其计算复杂度随序列长度呈二次增长（ O(N²) ），导致计算和内存需求超出可承受范围。简单的O(N²)注意力机制，为阅读全文

posted @ 2025-08-03 19:39 deephub 阅读(20) 评论(0) 推荐(0)

deephub

overfit深度学习

公告