Mosaic:面向超长序列的多GPU注意力分片方案

Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分片方案的设计思路。

 

https://avoid.overfit.cn/post/791e0f30540e4d289a43d01d383e8ab2

posted @ 2026-01-07 19:48  deephub  阅读(0)  评论(0)    收藏  举报