Mosaic:面向超长序列的多GPU注意力分片方案
Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分片方案的设计思路。
https://avoid.overfit.cn/post/791e0f30540e4d289a43d01d383e8ab2
Transformer的"二次方注意力瓶颈"的问题是老生常谈了。这个瓶颈到底卡在哪实际工程里怎么绕过去?本文从一个具体问题出发,介绍Mosaic这套多轴注意力分片方案的设计思路。
https://avoid.overfit.cn/post/791e0f30540e4d289a43d01d383e8ab2