摘要:
一、Prefill与Decode的底层原理剖析 1.1 Prefill阶段的数学本质 (以Transformer架构为例) 计算密集型的核心原因: # 自注意力计算伪代码 Q = X @ W_Q # [batch, seq_len, d_model] → [batch, seq_len, d_k] 阅读全文
posted @ 2025-03-18 13:17
MKY-门可意
阅读(2997)
评论(0)
推荐(0)