会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
第七子007
博客园
首页
新随笔
联系
订阅
管理
2025年2月27日
LLM大模型:deepseek浅度解析(四):Native Sparse Attention NSA原理
摘要: deepseek又整活了啊,2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention",核心是解决attention计算耗时耗算力的问题!NSA具体又是怎么做
阅读全文
posted @ 2025-02-27 15:09 第七子007
阅读(1603)
评论(1)
推荐(1)
公告