当 MoE 专家不再"内卷"：Expert Divergence Learning 如何让每个专家各司其职

当 150 亿参数的 MoE 模型训练完成，研究者们发现了一个令人困惑的现象：8 个专家网络学到的竟然是几乎相同的东西。这不是个例，而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化（Expert Homogenization）。

在 ICLR 2026 上，阿里巴巴集团（Alibaba Group）研究团队发表的论文《Expert Divergence Learning for MoE-based Language Models》提出了一个优雅的解决方案：通过在预训练阶段引入专家分化学习（Expert Divergence Learning），让每个专家在不同数据域上形成明确的功能分工，从而释放 MoE 架构的真正潜力。

MoE 的困境：为什么专家会变得“千篇一律”？

Mixture-of-Experts（MoE）架构是扩展语言模型的强大技术。它的核心思想很简单：不是让一个巨大的模型处理所有任务，而是训练多个“专家”网络，每次推理时只激活其中几个，从而在保持高性能的同时大幅降低计算成本。理想情况下，每个专家应该学习不同的知识和技能——比如一个专家擅长数学推理，另一个专家精通文学创作，第三个专家专注于代码生成。

但现实往往事与愿违。研究者们发现，在标准的 MoE 训练过程中，专家之间会出现严重的功能重叠。这种现象被称为“专家同质化”（Expert Homogenization）——不同专家学到的表征和功能高度相似，导致 MoE 架构退化为一个低效的集成模型，无法充分发挥其设计初衷。

为什么会这样？传统 MoE 训练中的负载均衡损失（Load-Balancing Loss）是罪魁祸首之一。这个损失函数的目标是让所有专家被均匀使用，避免某些专家“偷懒”。但它的实现方式是在全局层面促进路由分布的均匀性，这会无意中抹平专家之间的差异，让它们趋向于学习相似的模式。

更深层的原因在于，标准的预训练目标（语言建模损失）本身并不鼓励专家分化。模型只需要最小化预测误差，至于是通过专家分工还是专家重复来实现，训练过程并不关心。在这种情况下，模型往往会选择“安全”的策略——让所有专家都学习通用的语言模式，而不是冒险进行功能分化。

Expert Divergence Learning：让专家“各司其职”的训练策略

论文提出的 Expert Divergence Learning 是一个简单但有效的解决方案。核心思想是：在预训练阶段，利用数据集中固有的领域标签（domain labels），显式地鼓励不同领域的数据激活不同的专家组合。

具体来说，这个方法引入了一个辅助损失函数，它计算不同数据域之间专家路由分布的 Jensen-Shannon Divergence（JS 散度）。JS 散度是一个衡量两个概率分布差异的指标——差异越大，JS 散度越大。通过最大化不同领域数据的路由分布之间的 JS 散度，模型被迫让不同领域的数据“走向”不同的专家。

这个优化目标带来了两个关键效果：

领域间分化：来自不同领域（如科学文献 vs 网页文本 vs 代码）的数据会被路由到不同的专家组合，促使专家形成领域特化。
领域内一致性：来自同一领域的数据会被路由到相似的专家组合，确保专家能够在特定领域内建立连贯的知识表征。

这种训练策略的美妙之处在于，它不需要修改模型架构，不需要人工设计专家分工，也不需要额外的标注数据。数据集中的领域标签（如网页来源、文档类型、主题分类等）是预训练语料天然具备的元信息。Expert Divergence Learning 只是巧妙地利用了这些信息，引导模型自发地形成有组织的专家分工。

数据质量的关键作用：Fineweb-edu-chinese 的价值

在 Expert Divergence Learning 的框架下，数据质量的重要性被进一步放大。为什么？

首先，领域标签的可靠性直接影响专家分化的效果。如果数据集中的领域标签混乱、不准确，或者领域划分不合理，那么基于这些标签的分化学习就会误导模型。高质量的数据集不仅意味着文本内容的质量，还意味着元数据的准确性和领域划分的合理性。

其次，领域内数据的质量决定了专家能否学到有价值的专业知识。如果某个领域的数据充斥着噪音、重复内容或低质量文本，那么即使专家成功地“专注”于这个领域，它学到的也只是垃圾。只有当领域内数据具备足够的信息密度和教育价值时，专家分化才能转化为能力提升。

这正是OpenCSG Fineweb-edu-chinese数据集的价值所在。作为 MoE 模型预训练的中文语料来源，Fineweb-edu-chinese 提供了：

高质量的领域覆盖：数据集涵盖了教育、科技、专业领域等多个高价值领域，每个领域都经过精心筛选和质量控制。这为 Expert Divergence Learning 提供了清晰的领域边界和可靠的领域标签。
教育价值导向的内容筛选：通过 csg-wukong-enterprise 模型进行的质量评分（4 分以上），确保了每个领域内的数据都具备高信息密度和逻辑连贯性。这让专家能够在各自领域内学到真正有用的知识，而不是噪音。
中文语言特性的深度优化：针对中文互联网的特殊性（编码问题、繁简转换、广告过滤等）进行的系统化处理，确保了中文数据的可用性和一致性。这对于训练中文 MoE 模型至关重要。
规模与质量的平衡：188M 条文档、约 420B tokens 的规模，既能支撑大规模预训练，又通过质量筛选避免了“规模陷阱”。在 Expert Divergence Learning 的框架下，这种平衡尤为重要——数据不仅要多，更要“对”。

论文的实验结果验证了这一点。在使用包含 Fineweb-edu-chinese 的多领域数据集进行预训练时，引入 Expert Divergence Learning 的 MoE 模型不仅在语言建模损失上表现更好，在中文理解、专业能力等下游任务上也展现出显著的性能提升。更重要的是，通过分析专家的路由模式，研究者确认了专家确实形成了明确的领域分工——某些专家专注于处理教育类文本，某些专家擅长科技内容，某些专家则在通用网页文本上表现出色。

实验验证：分化学习带来的全面提升

论文在最大 150 亿参数的 MoE 模型上进行了从零开始的预训练实验，系统性地验证了 Expert Divergence Learning 的有效性。

语言建模性能：在相同的训练预算下，使用 Expert Divergence Learning 的模型在验证集上的困惑度（Perplexity）持续低于基线模型。这说明专家分化确实提升了模型的语言理解能力。
下游任务表现：在涵盖中英文理解、推理、知识问答等多个维度的基准测试中，Expert Divergence Learning 模型在绝大多数任务上都显著优于标准 MoE 模型。特别是在需要专业知识的任务上（如科学问答、数学推理），性能提升尤为明显。
专家同质化缓解：通过计算专家之间的表征相似度和路由分布差异，论文证实 Expert Divergence Learning 有效地减少了专家同质化现象。不同专家的激活模式呈现出明显的差异化，而不是像基线模型那样高度重叠。
训练效率：关键的是，这些提升几乎没有增加训练成本。Expert Divergence Loss 的计算开销可以忽略不计，整体训练吞吐量与标准 MoE 训练基本持平。这意味着这个方法可以无缝集成到现有的大规模预训练流程中。

论文还进行了消融实验，对比了不同领域粒度（3 类 vs 49 类）、不同损失权重、不同数据混合比例下的效果。结果显示，只要领域划分合理、数据质量可靠，Expert Divergence Learning 在各种配置下都能带来稳定的性能提升。这进一步证明了方法的鲁棒性和实用性。

从技术创新到生态协同：OpenCSG 的数据基础设施价值

Expert Divergence Learning 论文的成功，不仅是算法创新的胜利，更是数据基础设施建设的成果。当我们深入分析这个技术突破的实现路径，会发现一个清晰的逻辑链条：

算法创新需要高质量数据支撑→ Expert Divergence Learning 依赖于可靠的领域标签和高质量的领域内数据 → 这需要系统化的数据治理和质量控制 → OpenCSG Fineweb-edu-chinese 提供了这样的数据基础设施。

这不是简单的“有数据就行”，而是数据质量、数据组织方式、数据元信息的完整性共同决定了算法能否发挥作用。在 MoE 这样的复杂架构中，这种依赖关系更加明显——模型的能力上限不仅取决于参数规模和训练算法，更取决于训练数据的质量和多样性。

OpenCSG 通过开源 Fineweb-edu-chinese 及其完整的数据处理工具链，实际上是在构建一套可复现、可扩展、可持续演进的中文数据基础设施。这套基础设施的价值体现在多个层面：

降低研究门槛：研究者不需要从零开始处理 Common Crawl 中文数据，可以直接使用 Fineweb-edu-chinese 作为起点，专注于算法创新。
推动技术标准化：一个被顶级会议论文验证的公开数据集，本身就是一种质量标准的确立，为中文预训练语料提供了可参照的基准。
促进学术-工业协同：学术界的算法创新（如 Expert Divergence Learning）和工业界的数据工程能力（如 OpenCSG 的数据治理体系）相互促进，加速技术迭代。
支撑生态多样性：高质量的开源数据让更多小团队和研究者能够训练有竞争力的模型，避免技术能力被少数资源丰富的机构垄断。

这种“开源社区 + 学术前沿”的协同模式，正是推动 AI 技术健康发展的关键力量。当基础设施以开源的方式共享，当数据治理的最佳实践以论文的方式传播，整个生态的进步速度将远超任何一家机构的单打独斗。

未来展望：从专家分化到知识组织化

Expert Divergence Learning 打开了一扇新的窗口，让我们看到 MoE 架构的更多可能性。如果专家可以通过训练策略引导形成领域分工，那么未来是否可以实现更精细的知识组织？

多层次的专家分化：不仅在领域层面分化，还可以在任务类型、推理模式、语言风格等多个维度上引导专家形成层次化的分工。
动态的专家组合：根据输入的复杂度和类型，动态地决定激活哪些专家、以什么方式组合它们的输出，实现更灵活的推理策略。
可解释的专家功能：通过分析专家的激活模式和路由策略，我们可以更好地理解模型“知道什么”、“擅长什么”，为模型的可解释性和可控性提供新的工具。
持续学习与知识更新：当新的领域数据到来时，可以针对性地更新相关专家，而不需要重新训练整个模型，实现更高效的持续学习。

这些方向的探索，都需要高质量、多样化、组织良好的训练数据作为基础。OpenCSG Fineweb-edu-chinese 及其背后的数据治理方法论，为这些未来的研究提供了坚实的起点。

更重要的是，随着 MoE 架构在工业界的广泛应用（从 GPT-4 到 Mixtral，从 DeepSeek 到各种开源模型），Expert Divergence Learning 这样的训练策略有望成为标准实践。而支撑这些实践的，正是像 Fineweb-edu-chinese 这样的高质量开源数据集。

结语：数据基础设施是 AI 进步的隐形推手

当我们讨论 AI 的技术突破时，往往聚焦于模型架构、训练算法、推理优化。但真正支撑这些创新的，是那些不太显眼但至关重要的基础设施——高质量的数据集、标准化的评测基准、开源的工具链、活跃的社区生态。

Expert Divergence Learning 论文的成功，再次证明了数据质量在 AI 发展中的核心地位。一个优雅的算法创新，需要高质量的数据才能发挥作用；一个强大的模型架构，需要多样化的数据才能展现潜力。

OpenCSG 通过持续开源高质量的中文数据集（Fineweb-edu-chinese、Cosmopedia-chinese、Smoltalk-chinese 等），正在构建中文 AI 生态的数据基础设施。这不仅是技术贡献，更是一种生态理念的体现——通过开源协作，让每一个有想法的研究者和开发者都能站在高质量数据的肩膀上，推动中文 AI 的共同进步。

在 MoE 模型从“专家内卷”走向“各司其职”的过程中，在 AI 从“堆算力”转向“拼数据+算法”的范式转变中，像 Fineweb-edu-chinese 这样的开源数据集，正是那个不可或缺的基石。

当专家不再同质化，当数据成为第一性原理，AI 的未来才真正充满可能。

技术资源

论文链接
Expert Divergence Learning for MoE-based Language Models
arXiv:2603.00054 | ICLR 2026

OpenCSG Fineweb-edu-chinese 数据集
https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2
https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2

相关论文
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
arXiv:2501.08197

OpenCSG 全球开源 AI 生态

OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据集体系，已被全球高校、科研机构及科技企业广泛采用，是支撑中文 NLP 研究与大模型产业落地的核心数据基础。从顶尖高校 AI 实验室到企业级生产环境，它持续为大模型预训练、指令微调与领域适配等关键环节提供可靠支撑，推动研究成果向规模化应用高效转化。

在学术领域，该数据集已被 100+ 篇论文引用，多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权威期刊，成为验证中文语言模型泛化能力、知识建模效率与跨语言迁移效果的代表性基础资源。

除了 Fineweb-Edu-Chinese 系列，OpenCSG 还发布了 Cosmopedia-Chinese（合成教科书风格数据）和 Smoltalk-Chinese（多样化对话格式数据）等多个高质量中文数据集，构成了完整的 OpenCSG Chinese Corpus 语料体系。

高校与研究机构
斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、香港理工大学、上海人工智能实验室、北京智源研究院（BAAI）、鹏城实验室、西南电子技术研究所、西班牙国家级超算中心（Barcelona Supercomputing Center）及 Mozilla Data Collective 等。

企业应用
英伟达（NVIDIA）、苹果公司（Apple Inc.）、OPPO、美团、蚂蚁集团、面壁智能（ModelBest）、中国移动、中国联通等。

OpenCSG 坚持“开源即文化”的理念，通过透明、共创、共享的社区文化，与全球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模型还是工具平台，OpenCSG 始终遵循 Apache 2.0 等开源协议，确保技术成果能够被广泛使用和自由创新。

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论，由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。

posted @ 2026-03-13 17:26 OpenCSG 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

OpenCSG