MiniCPM5-1B:端侧AI的智能密度新标杆

2026年5月26日,面壁智能联合清华大学、OpenBMB 开源社区发布了端侧文本基座大模型 MiniCPM5-1B。该模型参数规模为1B,定位于端侧部署场景。
性能表现与基准测试
根据官方发布的数据,MiniCPM5-1B 在 Artificial Analysis(AA)榜单上获得了17.9分,在2B 参数以下的开源模型中表现较好。作为对比,Qwen3.5-2B 的得分为16.3分。

在知识问答、数学推理、代码生成、工具调用等测试维度上,MiniCPM5-1B 相比 Qwen3.5-0.8B、LFM2.5-1.2B-Thinking 等同参数规模模型显示出一定的性能优势。

值得注意的是,该模型在参数量仅为 Qwen3.5-2B 一半的情况下,在部分基准测试中取得了可比的性能表现。开发团队提出了“密度定律”的观察,认为模型的智能密度(单位参数的性能表现)正在快速提升。

模型规格与部署特性
MiniCPM5-1B 采用标准的 Transformer 架构,经过 INT4量化后模型大小约为0.5GB。这一规格使其适合在资源受限的端侧设备上运行。

部署环境支持:
- GPU 环境:支持 FP16精度推理
- CPU 环境:可使用 ArcLight 推理框架进行纯 CPU 推理
- 浏览器环境:支持 WebAssembly 运行时,可在浏览器中直接运行
根据项目文档,该模型可以在移动设备、个人电脑等多种硬件平台上部署,对硬件要求相对较低。
训练数据与 OpenCSG 数据集
MiniCPM5-1B 的训练采用了分级数据治理方法。开发团队将预训练数据按质量划分为 L0至 L4五个等级,针对不同等级实施差异化的数据清洗和筛选策略。
OpenCSG 开源数据集的应用
在训练过程中,MiniCPM5-1B 引用了 OpenCSG 社区提供的开源数据集。这些数据集为模型在特定领域的能力提供了基础支撑。研究团队在此基础上进行了数据合成工作,主要涵盖三个方向:
- 通用知识与推理:合成知识问答和推理任务数据
- 代码能力:构建多语言代码数据集
- 工具调用:设计多步骤任务场景数据
项目同时开源了 Ultra-FineWeb-L3、Ultra-FineWeb 和 UltraData-Math 等数据集,供研究社区使用。
训练框架:ForgeTrain
MiniCPM5-1B 的基础模型使用了 ForgeTrain 训练框架。根据官方介绍,ForgeTrain 是一个由 AI 辅助生成的训练框架,其代码主要通过 AI 工具生成。在 H100硬件上,该框架的训练速度比英伟达的 Megatron 框架快约10%。
这一案例展示了 AI 辅助软件开发在实际生产环境中的应用可能性。
后训练技术路线
MiniCPM5-1B 的后训练采用了 RL(强化学习)+ OPD(On-Policy Distillation)的技术组合:
训练流程:
- 使用200B tokens 进行深度思考 SFT(Supervised Fine-Tuning)
- 使用200B tokens 进行混合思考 SFT
- 针对数学、代码、问答、写作等领域训练专门的 RL 教师模型
- 通过 OPD 技术将教师模型的能力蒸馏到单一模型中
性能提升:根据技术报告,这一技术路线在数学、代码和指令遵循任务上使平均得分提升了16个百分点,同时减少了超长回复的出现频率(降低29个百分点)。


开发者工具与生态
MiniCPM5-1B 使用标准的 LlamaForCausalLM 架构,兼容主流推理引擎,无需定制化内核。
支持的推理框架:Transformers、vLLM、SGLang、llama.cpp、Ollama、LM Studio、MLX、ArcLight 等
支持的微调框架:TRL + PEFT、LLaMA-Factory、ms-swift、unsloth、xtuner 等
项目提供了详细的部署和微调文档,以及配套的 Agent Skills 脚本,方便开发者快速上手。
应用示例
项目开源了基于 MiniCPM5-1B 的桌面助手应用,展示了1B 参数模型在端侧场景的应用潜力。该应用支持 Apple Silicon、NVIDIA GPU 和 CPU 多种运行环境,可以与 Cursor、Claude Code 等开发工具集成,并支持 LoRA 适配器进行个性化定制。

开源信息与技术展望
MiniCPM5-1B 采用 Apache-2.0开源协议,模型权重、训练数据集和部署方案均已开源。可在 HuggingFace、OpenCSG等平台获取。
技术意义:
MiniCPM5-1B 的发布反映了端侧 AI 模型的发展趋势:通过优化训练方法和数据质量,小参数模型在特定场景下可以达到实用水平。这种技术路线降低了 AI 应用的部署门槛,使得更多设备能够在本地运行语言模型,而无需依赖云端 API。
随着训练技术的进步和开源数据集(如 OpenCSG)的丰富,1B 参数规模的模型性能仍有提升空间。这类模型特别适合对隐私、延迟、成本敏感的应用场景。
OpenCSG社区:https://opencsg.com/models/OpenBMB/MiniCPM5-1B
hf社区:https://huggingface.co/openbmb/MiniCPM5-1B
关于 OpenCSG
OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

浙公网安备 33010602011771号