面试题——DeepSeek的MLA

DeepSeek的MLA

详细学习

https://zhuanlan.zhihu.com/p/16730036197

大意

先压缩到低秩,然后再升维回来

Q是共享的,类似于MQA

最后参与计算的矩阵是Rope前后的矩阵拼接出来的,目的是保证矩阵可以被吸收,减少参与计算的kernel数量

posted @ 2025-04-27 19:37  Gold_stein  阅读(41)  评论(0)    收藏  举报