月之暗面发布 Kimi K2 技术报告

月之暗面(Moonshot AI)发布了其 Kimi K2 模型的完整技术报告,相关文档已上传至 GitHub。

3

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

一、Kimi K2 是什么?

Kimi K2 是一款 Mixture-of-Experts(MoE)架构 的大语言模型,具备:

1.04 万亿参数(Trillion-scale Total Params)

激活参数数为 320 亿(Activated Params)

高效稳定的训练机制(MuonClip)

多阶段后训练(含 RL 自我对齐)

在多个领域性能 SOTA,尤其擅长代码、数学、工具使用

换句话说,Kimi K2 是一位既懂编程又会推理、还能灵活使用工具的超级 AI 助手。

二、为什么说它「强」?

从公开评测数据来看,Kimi K2 在众多权威基准上表现优异:

任务类型 测试集 得分 对比领先 软件工程 SWE-Bench 65.8 超 GPT-4.1、Claude 数学竞赛 AIME 2025 49.5 同级模型领先 工具使用 Tau2-Bench 66.1 开源模型最高 编程实战 LiveCodeBench v6 53.7 所有模型最高 通用能力 MMLU-Redux 92.7 超过大多数闭源模型

关键词:非思考设置下的 SOTA、全面领先、高效能

三、它是怎么训练出来的?

Kimi K2 在预训练与后训练阶段均做了大量创新设计。

预训练阶段 —— MuonClip 提高稳定性与效率
使用 Muon 优化器,已在 Kimi K1.5 中证明能极大提升 token 效率;

提出 QK-Clip 技术,动态裁剪 attention logits,防止训练不稳定;

使用 15.5 万亿 token 进行训练,全程 无损失突刺(loss spike);

架构采用 超稀疏 MoE + 多头隐式注意力(MLA),比 DeepSeek V3 更轻更强。

数据方面 —— 重写技术增强 token 价值
为提升每个 token 的学习效率,Kimi 团队采用两类 智能重写:

知识重写:通过多视角、多风格的 prompts 重写原文,增强语言多样性;

数学重写:将数学文档转写为 “学习笔记” 风格,提高理解与推理能力。

此外,还加入跨语种数学翻译数据,让模型更具多语言泛化能力。

四、后训练阶段:打造真正的 Agent

Kimi K2 在后训练中重点强化了「代理式行为」,包括:

多阶段指令微调(SFT)
构建大规模指令数据集,覆盖知识、代码、推理、对话等多个领域;

利用 工具使用数据合成流水线,让模型学会调用复杂工具完成任务;

采用人类评审 + LLM 评估,保障生成数据的质量与多样性。

强化学习(RL)自我对齐机制
Verifiable RL:在数学、逻辑、代码等有明确正确性的任务中进行强化;

Self-Critique RL:让模型自我比较多个输出,根据评分标准自行打分学习;

自适应训练策略:包括 token budget 控制、探索性 temperature 衰减等;

简而言之,Kimi 不再仅仅「模仿人」,而是在不断尝试、思考、优化自己的行为,朝「具备目标感与行动能力的智能体」迈进。

五、开放性与社区友好

Kimi K2 已在 HuggingFace 完整开源,包括:

base 模型与 instruct 模型 checkpoint;

完整技术报告;

官方评测基准对齐,方便社区复现与改进。

地址:huggingface.co/moonshotai/Kimi-K2-Instruct

六、总结

Kimi K2 是当前开源 LLM 中少有的兼具:

高性能(全面领先多数模型)

高稳定性(训练过程无损失抖动)

高代理能力(可作为工具使用者、任务执行者)

的 “通才型大模型”。

它不仅在 benchmark 上发光,更重要的是为构建「能感知、能计划、能行动」的通用智能代理打下了坚实基础。

posted @ 2025-07-22 15:20  开源资讯说  阅读(759)  评论(0)    收藏  举报