稀疏transformer的通俗例子
稀疏transformer的通俗例子举一个呢
Expand to view model thoughts
这是一个非常好的问题。要理解“稀疏 Transformer”(Sparse Transformer),我们先得理解普通的(稠密)Transformer 是怎么工作的。
为了让你一听就懂,我们用**“开会”或者是“读长篇小说”**来做比喻。
场景:读一本 1000 页的侦探小说
1. 普通 Transformer(稠密注意力,Dense Attention)
想象一下,你是一个记忆力极其变态但非常死板的读者。
-
当你读到第 500 页 的第 1 句话时,为了理解这句话,你强迫自己必须回头把前面 1 到 499 页的每一个字都重新“看”一遍,并分析它们和当前这句话的关系。
-
当你读到第 500 页 的第 2 句话时,你再次回头把前面所有的字都重新看一遍。
后果:
-
书越厚,你读得越慢(计算量爆炸)。
-
你的脑子(显存)很快就装不下了。
-
其实第 3 页描写的“天气很好”跟第 500 页的剧情根本没关系,但你还是浪费精力去看了它。
2. 稀疏 Transformer(稀疏注意力,Sparse Attention)
现在,你学会了“偷懒”和“抓重点”,这就是稀疏 Transformer。
当你读到第 500 页 时,你不再回顾每一个字,而是采用了以下策略:
策略 A:只看最近的(局部注意力,Local Attention)
-
你只回头仔细看最近的 5 页。
-
逻辑: 剧情通常是连贯的,刚才发生的事对现在最重要。
策略 B:只看关键点(全局注意力/间隔注意力,Global/Strided Attention)
-
除了最近的 5 页,你每隔 50 页大概扫一眼章节标题或者关键人物的名字。
-
逻辑: 即使是很久以前埋下的伏笔(比如第 1 页出现的凶手名字),我也能通过这种“跳跃式”的回顾抓取到,而不需要通读全文。
后果:
-
你阅读速度飞快(计算量大幅降低)。
-
你可以轻松读完 100 万字的小说(支持超长上下文)。
-
虽然你忽略了第 3 页的“天气描写”,但这对理解剧情没有影响(精度损失很小,甚至有时候因为过滤了噪音,效果更好)。
总结
-
普通 Transformer:每个人都必须和房间里的其他人握手(
复杂度,人多了就累死了)。N2N2 -
稀疏 Transformer:你只和坐你旁边的人握手,再和台上的主持人握手(
或NlogNNlogN
复杂度,轻松加愉快)。NNNN
这就是为什么现在的模型(如 Kimi、GPT-4-128k 等)能处理几十万字的长文本,往往都用到了类似的稀疏注意力或者是其变种技术(如 Ring Attention 等)。

Thoughts
浙公网安备 33010602011771号