摘要:
一、Prefill与Decode的底层原理剖析 1.1 Prefill阶段的数学本质 (以Transformer架构为例) 计算密集型的核心原因: # 自注意力计算伪代码 Q = X @ W_Q # [batch, seq_len, d_model] → [batch, seq_len, d_k] 阅读全文
posted @ 2025-03-18 13:17
MKY-门可意
阅读(3629)
评论(0)
推荐(0)
浙公网安备 33010602011771号