摘要: 一、Prefill与Decode的底层原理剖析 1.1 Prefill阶段的数学本质 (以Transformer架构为例) 计算密集型的核心原因: # 自注意力计算伪代码 Q = X @ W_Q # [batch, seq_len, d_model] → [batch, seq_len, d_k] 阅读全文
posted @ 2025-03-18 13:17 MKY-门可意 阅读(2997) 评论(0) 推荐(0)