月之暗面发布 Kimi K2 技术报告
月之暗面(Moonshot AI)发布了其 Kimi K2 模型的完整技术报告,相关文档已上传至 GitHub。

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
一、Kimi K2 是什么?
Kimi K2 是一款 Mixture-of-Experts(MoE)架构 的大语言模型,具备:
1.04 万亿参数(Trillion-scale Total Params)
激活参数数为 320 亿(Activated Params)
高效稳定的训练机制(MuonClip)
多阶段后训练(含 RL 自我对齐)
在多个领域性能 SOTA,尤其擅长代码、数学、工具使用
换句话说,Kimi K2 是一位既懂编程又会推理、还能灵活使用工具的超级 AI 助手。
二、为什么说它「强」?
从公开评测数据来看,Kimi K2 在众多权威基准上表现优异:
任务类型 测试集 得分 对比领先 软件工程 SWE-Bench 65.8 超 GPT-4.1、Claude 数学竞赛 AIME 2025 49.5 同级模型领先 工具使用 Tau2-Bench 66.1 开源模型最高 编程实战 LiveCodeBench v6 53.7 所有模型最高 通用能力 MMLU-Redux 92.7 超过大多数闭源模型
关键词:非思考设置下的 SOTA、全面领先、高效能
三、它是怎么训练出来的?
Kimi K2 在预训练与后训练阶段均做了大量创新设计。
预训练阶段 —— MuonClip 提高稳定性与效率
使用 Muon 优化器,已在 Kimi K1.5 中证明能极大提升 token 效率;
提出 QK-Clip 技术,动态裁剪 attention logits,防止训练不稳定;
使用 15.5 万亿 token 进行训练,全程 无损失突刺(loss spike);
架构采用 超稀疏 MoE + 多头隐式注意力(MLA),比 DeepSeek V3 更轻更强。
数据方面 —— 重写技术增强 token 价值
为提升每个 token 的学习效率,Kimi 团队采用两类 智能重写:
知识重写:通过多视角、多风格的 prompts 重写原文,增强语言多样性;
数学重写:将数学文档转写为 “学习笔记” 风格,提高理解与推理能力。
此外,还加入跨语种数学翻译数据,让模型更具多语言泛化能力。
四、后训练阶段:打造真正的 Agent
Kimi K2 在后训练中重点强化了「代理式行为」,包括:
多阶段指令微调(SFT)
构建大规模指令数据集,覆盖知识、代码、推理、对话等多个领域;
利用 工具使用数据合成流水线,让模型学会调用复杂工具完成任务;
采用人类评审 + LLM 评估,保障生成数据的质量与多样性。
强化学习(RL)自我对齐机制
Verifiable RL:在数学、逻辑、代码等有明确正确性的任务中进行强化;
Self-Critique RL:让模型自我比较多个输出,根据评分标准自行打分学习;
自适应训练策略:包括 token budget 控制、探索性 temperature 衰减等;
简而言之,Kimi 不再仅仅「模仿人」,而是在不断尝试、思考、优化自己的行为,朝「具备目标感与行动能力的智能体」迈进。
五、开放性与社区友好
Kimi K2 已在 HuggingFace 完整开源,包括:
base 模型与 instruct 模型 checkpoint;
完整技术报告;
官方评测基准对齐,方便社区复现与改进。
地址:huggingface.co/moonshotai/Kimi-K2-Instruct
六、总结
Kimi K2 是当前开源 LLM 中少有的兼具:
高性能(全面领先多数模型)
高稳定性(训练过程无损失抖动)
高代理能力(可作为工具使用者、任务执行者)
的 “通才型大模型”。
它不仅在 benchmark 上发光,更重要的是为构建「能感知、能计划、能行动」的通用智能代理打下了坚实基础。
浙公网安备 33010602011771号