2025 年 2月 27 日随笔档案 - 第七子007

2025年2月27日

LLM大模型：deepseek浅度解析(四)：Native Sparse Attention NSA原理

摘要： deepseek又整活了啊，2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention"，核心是解决attention计算耗时耗算力的问题！NSA具体又是怎么做阅读全文

posted @ 2025-02-27 15:09 第七子007 阅读(1603) 评论(1) 推荐(1)

第七子007

公告