摘要: moe(混合专家模型) 作为一种基于 Transformer 架构的模型,混合专家模型主要由两个关键部分组成: 稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中, 阅读全文
posted @ 2025-12-22 11:43 玉米面手雷王 阅读(20) 评论(0) 推荐(0)
摘要: Decoder-Only 大模型推理机制详解:从 KV Cache 原理到 HuggingFace 实现 引言 在当前主流的大语言模型(LLM)架构中,Decoder-Only 模型(如 GPT 系列、LLaMA、Mistral 等)已成为自然语言生成任务的基石。这类模型的核心能力是自回归生成文本— 阅读全文
posted @ 2025-12-22 11:42 玉米面手雷王 阅读(30) 评论(0) 推荐(0)