当 MoE 专家不再"内卷":Expert Divergence Learning 如何让每个专家各司其职

当 150 亿参数的 MoE 模型训练完成,研究者们发现了一个令人困惑的现象:8 个专家网络学到的竟然是几乎相同的东西。这不是个例,而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化(Expert Homogenization)。
在 ICLR 2026 上,阿里巴巴集团(Alibaba Group)研究团队发表的论文《Expert Divergence Learning for MoE-based Language Models》提出了一个优雅的解决方案:通过在预训练阶段引入专家分化学习(Expert Divergence Learning),让每个专家在不同数据域上形成明确的功能分工,从而释放 MoE 架构的真正潜力。
MoE 的困境:为什么专家会变得“千篇一律”?
Mixture-of-Experts(MoE)架构是扩展语言模型的强大技术。它的核心思想很简单:不是让一个巨大的模型处理所有任务,而是训练多个“专家”网络,每次推理时只激活其中几个,从而在保持高性能的同时大幅降低计算成本。理想情况下,每个专家应该学习不同的知识和技能——比如一个专家擅长数学推理,另一个专家精通文学创作,第三个专家专注于代码生成。
但现实往往事与愿违。研究者们发现,在标准的 MoE 训练过程中,专家之间会出现严重的功能重叠。这种现象被称为“专家同质化”(Expert Homogenization)——不同专家学到的表征和功能高度相似,导致 MoE 架构退化为一个低效的集成模型,无法充分发挥其设计初衷。
为什么会这样?传统 MoE 训练中的负载均衡损失(Load-Balancing Loss)是罪魁祸首之一。这个损失函数的目标是让所有专家被均匀使用,避免某些专家“偷懒”。但它的实现方式是在全局层面促进路由分布的均匀性,这会无意中抹平专家之间的差异,让它们趋向于学习相似的模式。
更深层的原因在于,标准的预训练目标(语言建模损失)本身并不鼓励专家分化。模型只需要最小化预测误差,至于是通过专家分工还是专家重复来实现,训练过程并不关心。在这种情况下,模型往往会选择“安全”的策略——让所有专家都学习通用的语言模式,而不是冒险进行功能分化。

Expert Divergence Learning:让专家“各司其职”的训练策略
论文提出的 Expert Divergence Learning 是一个简单但有效的解决方案。核心思想是:在预训练阶段,利用数据集中固有的领域标签(domain labels),显式地鼓励不同领域的数据激活不同的专家组合。
具体来说,这个方法引入了一个辅助损失函数,它计算不同数据域之间专家路由分布的 Jensen-Shannon Divergence(JS 散度)。JS 散度是一个衡量两个概率分布差异的指标——差异越大,JS 散度越大。通过最大化不同领域数据的路由分布之间的 JS 散度,模型被迫让不同领域的数据“走向”不同的专家。
这个优化目标带来了两个关键效果:
- 领域间分化:来自不同领域(如科学文献 vs 网页文本 vs 代码)的数据会被路由到不同的专家组合,促使专家形成领域特化。
- 领域内一致性:来自同一领域的数据会被路由到相似的专家组合,确保专家能够在特定领域内建立连贯的知识表征。
这种训练策略的美妙之处在于,它不需要修改模型架构,不需要人工设计专家分工,也不需要额外的标注数据。数据集中的领域标签(如网页来源、文档类型、主题分类等)是预训练语料天然具备的元信息。Expert Divergence Learning 只是巧妙地利用了这些信息,引导模型自发地形成有组织的专家分工。

数据质量的关键作用:Fineweb-edu-chinese 的价值
在 Expert Divergence Learning 的框架下,数据质量的重要性被进一步放大。为什么?
首先,领域标签的可靠性直接影响专家分化的效果。如果数据集中的领域标签混乱、不准确,或者领域划分不合理,那么基于这些标签的分化学习就会误导模型。高质量的数据集不仅意味着文本内容的质量,还意味着元数据的准确性和领域划分的合理性。
其次,领域内数据的质量决定了专家能否学到有价值的专业知识。如果某个领域的数据充斥着噪音、重复内容或低质量文本,那么即使专家成功地“专注”于这个领域,它学到的也只是垃圾。只有当领域内数据具备足够的信息密度和教育价值时,专家分化才能转化为能力提升。
这正是OpenCSG Fineweb-edu-chinese数据集的价值所在。作为 MoE 模型预训练的中文语料来源,Fineweb-edu-chinese 提供了:
-
高质量的领域覆盖:数据集涵盖了教育、科技、专业领域等多个高价值领域,每个领域都经过精心筛选和质量控制。这为 Expert Divergence Learning 提供了清晰的领域边界和可靠的领域标签。
-
教育价值导向的内容筛选:通过 csg-wukong-enterprise 模型进行的质量评分(4 分以上),确保了每个领域内的数据都具备高信息密度和逻辑连贯性。这让专家能够在各自领域内学到真正有用的知识,而不是噪音。
-
中文语言特性的深度优化:针对中文互联网的特殊性(编码问题、繁简转换、广告过滤等)进行的系统化处理,确保了中文数据的可用性和一致性。这对于训练中文 MoE 模型至关重要。
-
规模与质量的平衡:188M 条文档、约 420B tokens 的规模,既能支撑大规模预训练,又通过质量筛选避免了“规模陷阱”。在 Expert Divergence Learning 的框架下,这种平衡尤为重要——数据不仅要多,更要“对”。
论文的实验结果验证了这一点。在使用包含 Fineweb-edu-chinese 的多领域数据集进行预训练时,引入 Expert Divergence Learning 的 MoE 模型不仅在语言建模损失上表现更好,在中文理解、专业能力等下游任务上也展现出显著的性能提升。更重要的是,通过分析专家的路由模式,研究者确认了专家确实形成了明确的领域分工——某些专家专注于处理教育类文本,某些专家擅长科技内容,某些专家则在通用网页文本上表现出色。
实验验证:分化学习带来的全面提升
论文在最大 150 亿参数的 MoE 模型上进行了从零开始的预训练实验,系统性地验证了 Expert Divergence Learning 的有效性。
-
语言建模性能:在相同的训练预算下,使用 Expert Divergence Learning 的模型在验证集上的困惑度(Perplexity)持续低于基线模型。这说明专家分化确实提升了模型的语言理解能力。
-
下游任务表现:在涵盖中英文理解、推理、知识问答等多个维度的基准测试中,Expert Divergence Learning 模型在绝大多数任务上都显著优于标准 MoE 模型。特别是在需要专业知识的任务上(如科学问答、数学推理),性能提升尤为明显。
-
专家同质化缓解:通过计算专家之间的表征相似度和路由分布差异,论文证实 Expert Divergence Learning 有效地减少了专家同质化现象。不同专家的激活模式呈现出明显的差异化,而不是像基线模型那样高度重叠。
-
训练效率:关键的是,这些提升几乎没有增加训练成本。Expert Divergence Loss 的计算开销可以忽略不计,整体训练吞吐量与标准 MoE 训练基本持平。这意味着这个方法可以无缝集成到现有的大规模预训练流程中。
论文还进行了消融实验,对比了不同领域粒度(3 类 vs 49 类)、不同损失权重、不同数据混合比例下的效果。结果显示,只要领域划分合理、数据质量可靠,Expert Divergence Learning 在各种配置下都能带来稳定的性能提升。这进一步证明了方法的鲁棒性和实用性。
从技术创新到生态协同:OpenCSG 的数据基础设施价值
Expert Divergence Learning 论文的成功,不仅是算法创新的胜利,更是数据基础设施建设的成果。当我们深入分析这个技术突破的实现路径,会发现一个清晰的逻辑链条:
算法创新需要高质量数据支撑→ Expert Divergence Learning 依赖于可靠的领域标签和高质量的领域内数据 → 这需要系统化的数据治理和质量控制 → OpenCSG Fineweb-edu-chinese 提供了这样的数据基础设施。
这不是简单的“有数据就行”,而是数据质量、数据组织方式、数据元信息的完整性共同决定了算法能否发挥作用。在 MoE 这样的复杂架构中,这种依赖关系更加明显——模型的能力上限不仅取决于参数规模和训练算法,更取决于训练数据的质量和多样性。
OpenCSG 通过开源 Fineweb-edu-chinese 及其完整的数据处理工具链,实际上是在构建一套可复现、可扩展、可持续演进的中文数据基础设施。这套基础设施的价值体现在多个层面:
-
降低研究门槛:研究者不需要从零开始处理 Common Crawl 中文数据,可以直接使用 Fineweb-edu-chinese 作为起点,专注于算法创新。
-
推动技术标准化:一个被顶级会议论文验证的公开数据集,本身就是一种质量标准的确立,为中文预训练语料提供了可参照的基准。
-
促进学术-工业协同:学术界的算法创新(如 Expert Divergence Learning)和工业界的数据工程能力(如 OpenCSG 的数据治理体系)相互促进,加速技术迭代。
-
支撑生态多样性:高质量的开源数据让更多小团队和研究者能够训练有竞争力的模型,避免技术能力被少数资源丰富的机构垄断。
这种“开源社区 + 学术前沿”的协同模式,正是推动 AI 技术健康发展的关键力量。当基础设施以开源的方式共享,当数据治理的最佳实践以论文的方式传播,整个生态的进步速度将远超任何一家机构的单打独斗。

未来展望:从专家分化到知识组织化
Expert Divergence Learning 打开了一扇新的窗口,让我们看到 MoE 架构的更多可能性。如果专家可以通过训练策略引导形成领域分工,那么未来是否可以实现更精细的知识组织?
-
多层次的专家分化:不仅在领域层面分化,还可以在任务类型、推理模式、语言风格等多个维度上引导专家形成层次化的分工。
-
动态的专家组合:根据输入的复杂度和类型,动态地决定激活哪些专家、以什么方式组合它们的输出,实现更灵活的推理策略。
-
可解释的专家功能:通过分析专家的激活模式和路由策略,我们可以更好地理解模型“知道什么”、“擅长什么”,为模型的可解释性和可控性提供新的工具。
-
持续学习与知识更新:当新的领域数据到来时,可以针对性地更新相关专家,而不需要重新训练整个模型,实现更高效的持续学习。
这些方向的探索,都需要高质量、多样化、组织良好的训练数据作为基础。OpenCSG Fineweb-edu-chinese 及其背后的数据治理方法论,为这些未来的研究提供了坚实的起点。
更重要的是,随着 MoE 架构在工业界的广泛应用(从 GPT-4 到 Mixtral,从 DeepSeek 到各种开源模型),Expert Divergence Learning 这样的训练策略有望成为标准实践。而支撑这些实践的,正是像 Fineweb-edu-chinese 这样的高质量开源数据集。
结语:数据基础设施是 AI 进步的隐形推手
当我们讨论 AI 的技术突破时,往往聚焦于模型架构、训练算法、推理优化。但真正支撑这些创新的,是那些不太显眼但至关重要的基础设施——高质量的数据集、标准化的评测基准、开源的工具链、活跃的社区生态。
Expert Divergence Learning 论文的成功,再次证明了数据质量在 AI 发展中的核心地位。一个优雅的算法创新,需要高质量的数据才能发挥作用;一个强大的模型架构,需要多样化的数据才能展现潜力。
OpenCSG 通过持续开源高质量的中文数据集(Fineweb-edu-chinese、Cosmopedia-chinese、Smoltalk-chinese 等),正在构建中文 AI 生态的数据基础设施。这不仅是技术贡献,更是一种生态理念的体现——通过开源协作,让每一个有想法的研究者和开发者都能站在高质量数据的肩膀上,推动中文 AI 的共同进步。
在 MoE 模型从“专家内卷”走向“各司其职”的过程中,在 AI 从“堆算力”转向“拼数据+算法”的范式转变中,像 Fineweb-edu-chinese 这样的开源数据集,正是那个不可或缺的基石。
当专家不再同质化,当数据成为第一性原理,AI 的未来才真正充满可能。
**

**
技术资源
论文链接
Expert Divergence Learning for MoE-based Language Models
arXiv:2603.00054 | ICLR 2026
OpenCSG Fineweb-edu-chinese 数据集
https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2
https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
相关论文
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
arXiv:2501.08197
OpenCSG 全球开源 AI 生态
OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据集体系,已被全球高校、科研机构及科技企业广泛采用,是支撑中文 NLP 研究与大模型产业落地的核心数据基础。从顶尖高校 AI 实验室到企业级生产环境,它持续为大模型预训练、指令微调与领域适配等关键环节提供可靠支撑,推动研究成果向规模化应用高效转化。
在学术领域,该数据集已被 100+ 篇论文引用,多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权威期刊,成为验证中文语言模型泛化能力、知识建模效率与跨语言迁移效果的代表性基础资源。
除了 Fineweb-Edu-Chinese 系列,OpenCSG 还发布了 Cosmopedia-Chinese(合成教科书风格数据)和 Smoltalk-Chinese(多样化对话格式数据)等多个高质量中文数据集,构成了完整的 OpenCSG Chinese Corpus 语料体系。
高校与研究机构
斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、香港理工大学、上海人工智能实验室、北京智源研究院(BAAI)、鹏城实验室、西南电子技术研究所、西班牙国家级超算中心(Barcelona Supercomputing Center)及 Mozilla Data Collective 等。
企业应用
英伟达(NVIDIA)、苹果公司(Apple Inc.)、OPPO、美团、蚂蚁集团、面壁智能(ModelBest)、中国移动、中国联通等。
OpenCSG 坚持“开源即文化”的理念,通过透明、共创、共享的社区文化,与全球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模型还是工具平台,OpenCSG 始终遵循 Apache 2.0 等开源协议,确保技术成果能够被广泛使用和自由创新。
关于 OpenCSG
OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

浙公网安备 33010602011771号