2025 年 12月 22 日随笔档案 - 玉米面手雷王

2025年12月22日

摘要： moe(混合专家模型) 作为一种基于 Transformer 架构的模型，混合专家模型主要由两个关键部分组成: 稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，阅读全文

posted @ 2025-12-22 11:43 玉米面手雷王阅读(20) 评论(0) 推荐(0)

注意力机制到kv_cache

摘要： Decoder-Only 大模型推理机制详解：从 KV Cache 原理到 HuggingFace 实现引言在当前主流的大语言模型（LLM）架构中，Decoder-Only 模型（如 GPT 系列、LLaMA、Mistral 等）已成为自然语言生成任务的基石。这类模型的核心能力是自回归生成文本— 阅读全文

posted @ 2025-12-22 11:42 玉米面手雷王阅读(30) 评论(0) 推荐(0)

公告