面试题——DeepSeek的MLA
DeepSeek的MLA
详细学习
https://zhuanlan.zhihu.com/p/16730036197
大意
先压缩到低秩,然后再升维回来
Q是共享的,类似于MQA
最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量
https://zhuanlan.zhihu.com/p/16730036197
先压缩到低秩,然后再升维回来
Q是共享的,类似于MQA
最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量
