当顶会论文揭示“好数据被浪费“,OpenCSG 中文数据基础设施的价值正在被看见

在大模型竞赛进入深水区的今天，一个令人意外的发现正在改变我们对数据价值的理解：最好的数据，可能在错误的训练节奏中被“浪费”了。

近期，清华大学与鹏城实验室的研究者在 ICLR 2026 论文《How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining》中提出了一个非常值得大模型训练团队关注的问题：在基于数据质量排序的课程式预训练中，如果高质量数据被安排在训练后期，却遇到已经显著衰减的学习率，那么这些高质量数据对模型参数更新的实际贡献可能被低估，甚至被“浪费”。

这篇论文的重点并不是介绍 OpenCSG，也不应被误读为 OpenCSG 参与了论文工作。但对 OpenCSG 来说，这篇论文提供了一个非常重要的行业信号：大模型训练正在从“有没有足够多的数据”，走向“能不能识别、分层、调度和最大化利用最好的数据”。

论文核心发现：好数据为什么会被“浪费”？

论文揭示了一个关键机制：学习率实际上会成为每个训练样本的“隐式重要性权重”。在每个训练步骤中，模型参数的更新量 = 学习率 × 梯度。当学习率在训练后期衰减到很低时，即使遇到高质量数据产生的优质梯度，参数更新的幅度也会被大幅压缩。

这就像是：你精心准备了最好的食材（高质量数据），但只给了厨师最小的火力（低学习率），结果好食材没能充分发挥价值。

上图清晰展示了问题的本质：高质量数据恰好出现在学习率大幅衰减的阶段，形成了“错位”。研究者通过大量实验验证了这一假设。在恒定学习率下，按质量升序训练明显优于随机打乱，验证损失更低、收敛更快；但在标准学习率衰减下，课程学习的优势显著缩小，衰减越激进（衰减阶段越长、最终学习率越低），收益越小。

传统做法是按质量升序排列数据（课程学习），同时使用标准学习率衰减（后期降到接近零）。结果是：高质量数据出现时，学习率已经很低，无法充分吸收这些数据的价值。这就是为什么过去很多课程学习实验效果有限的原因—— 不是质量分数没用，而是训练策略没有配合好。

论文的解决方案：重新设计训练策略

研究者提出了三个递进的策略来解决这一问题。

第一个策略是使用更温和的学习率衰减。不要把最终学习率降到接近零，而是保持在峰值学习率的 1/3 左右。实验发现，课程学习的最佳最终学习率约为 1×10⁻³，而随机训练的最佳最终学习率接近 1×10⁻⁵，两者相差 100 倍。这说明为随机数据优化的超参数，并不适合课程学习。

第二个策略更加根本：用模型平均替代学习率衰减。核心思路是全程使用恒定学习率（保持高更新幅度），对最后几个 checkpoint 做加权平均（降低噪声），结合课程学习（高质量数据在后期）。研究者将这种方法称为CMA (Curriculum Model Averaging)。

上图提供了直观的可视化解释：Ascend+EMA（课程学习+模型平均）能够在后期利用高质量数据的清晰信号，沿着正确方向快速前进，同时通过平均降低噪声。

第三个策略是组合方案 CDMA，将温和衰减、课程学习和模型平均结合起来。在 mid-training 场景中，相对标准方法（WSD+随机顺序），平均准确率提升约1.20%，核心 benchmark(MMLU、ARC、CSQA）提升超过2%，整体平均提升约1.64%。这些提升完全来自数据重排序，没有增加任何数据筛选成本。

OpenCSG 的价值：让中文好数据能被“真正用好”

值得注意的是，这篇论文在附录的大规模多域继续预训练实验中使用了Fineweb-Edu-Chinese-V2.1（简称 Fineweb-C），与 DCLM Baseline（英文通用数据）、StarCoder（代码数据）、MegaMath（数学数据）等一起进行多域 curriculum 排序实验。

需要明确：论文主体作者单位为清华大学和鹏城实验室，OpenCSG 不是论文的主体作者，论文主实验也不是围绕 OpenCSG 展开。但这仍然具有积极意义 —— 这表明 OpenCSG 生态下的中文高质量语料已经被纳入前沿 LLM 训练策略研究的实验设置之中。对于中文数据基础设施来说，这是一种重要的可见性：高质量中文数据不只是模型训练的辅助材料，也可以成为训练方法研究、课程式学习和多域调度实验中的组成部分。

当论文告诉我们“好数据需要在正确的训练阶段被使用”时，OpenCSG 想回答的是：如何让中文好数据在训练管线中被看见、被选择、被调度？

Fineweb-Edu-Chinese-V2.1 最重要的设计是按质量分数分层组织数据：

这种分层设计使得数据集不再是静态文件包，而是可以参与训练策略设计的资产。训练团队可以按 2-3 → 3-4 → 4-5 的顺序组织课程学习，资源有限时优先使用 4-5 分数据，或者与代码、数学、英文数据等组合构建多域训练配方。研究者也可以基于不同分数区间构造对照实验，验证质量分数的边际收益。

相比碎片化社交文本或低质量网页，教育类语料具有更强的概念解释、更规范的表达、更稳定的知识结构和更高的文本连贯性。这些特征对于提升模型的中文理解、中文生成、知识组织和教学问答能力都具有基础意义，可应用于中文继续预训练、智能教育与助教、企业知识与培训、课程式训练研究等场景。

从“可下载”到“可调度”：下一代数据基础设施

大模型训练范式正在改变。过去关注“数据越多越好”，策略是充分打乱、标准衰减，目标是降低训练损失；现在需要质量信号、分层组织，数据顺序、学习率、模型平均协同设计，目标是最大化高质量数据的边际价值。

Fineweb-Edu-Chinese-V2.1 的价值，不应只被理解为“又一个中文数据集”。它代表了 OpenCSG 对中文大模型数据基础设施的产品化思路：从提供单一文件包到按质量分层组织，从下载后自行处理到支持训练策略直接调用，从静态资源到可参与训练配方设计。

当数据具备质量信号后，训练团队就可以围绕“先学什么、后学什么、不同阶段学多少、如何平衡质量和多样性”设计更精细的训练策略。无论是选择高质量中文数据（通过 score 字段筛选），在不同预算下训练（根据分层选择规模），做课程式训练（按质量分数组织顺序），还是做多域继续预训练（与代码、数学、英文等域组合）,Fineweb-Edu-Chinese-V2.1 都提供了工程化的支持。

行业标杆地位的验证

OpenCSG发布的FineWeb-Edu-Chinese作为全球下载量排名前三的中文预训练数据集,累计下载超百万次，其价值已经得到业界广泛认可:

学术领域:被斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、上海人工智能实验室、北京智源研究院等 20 余家顶尖机构的论文引用。旗下Chinese Fineweb Edu已成为中文 NLP 研究的核心数据资源，被100 +篇学术论文引用，在 NeurIPS、ACL、EMNLP、ICLR 等国际顶会及 Nature 子刊、JMLR 等权威期刊中作为核心实验数据集，支撑大模型预训练、指令微调等前沿研究，合作机构还包括鹏城实验室、西南电子技术研究所、西班牙国家级超算中心（Barcelona Supercomputing Center）及 Mozilla Data Collective等全球顶尖科研单位。
产业应用:支撑 Llama3-Chinese、DeepSeek 等知名模型训练，并被中国移动、中国联通、英伟达（NVIDIA）、苹果公司（Apple Inc.）、OPPO、美团、阿里巴巴、蚂蚁集团、面壁智能（ModelBest）等领军企业采用。Chinese Fineweb Edu 已从实验室走向产业场景，为创业公司到头部企业的研发团队提供可靠支撑，切实推动中文 NLP 应用从理论落地到生产实践。
生态影响:下载数量累计超百万次，数据体量达 2.42TB，覆盖 9.57 亿条高质量文本，已孵化出 10 余个垂直领域微调模型。同时，OpenCSG 通过开源打分模型和完整工具链，输出数据治理方法论，带动行业从“模型参数内卷” 转向 “数据基建完善”，显著降低中小开发者与研究机构的入门门槛。
开源生态：OpenCSG 坚持“开源即文化”的理念，通过透明、共创、共享的社区文化，与全球开发者、工程师和 AI 原生企业共同构建智能体生态。

结语：好数据的价值，需要被训练系统真正放大

清华大学与鹏城实验室的论文提醒我们：好的训练数据并不会自动转化为好的模型能力。

数据质量、数据顺序、学习率策略和模型平均方法之间存在深层耦合。如果训练系统没有给高质量数据足够的更新权重，那么即使最好的数据也可能没有被充分学习。

这正是 OpenCSG 希望持续推动的方向：

让中文高质量数据不仅“存在”，而且“可见”；
不仅“可下载”，而且“可分层”；
不仅“能训练”，而且“能被训练策略真正用好”。

Fineweb-Edu-Chinese-V2.1 通过分数分层、中文教育语料建设和多域训练适配，为中文大模型提供了一种更加工程化、产品化的数据基础。

当行业开始讨论“如何避免浪费最好的数据”时，OpenCSG 的价值正在变得更加清晰：为中文大模型提供可治理、可选择、可调度的高质量数据基础设施，让每一份好数据都能在正确的训练阶段发挥更大的边际价值。

参考资料

Luo et al. (2025). How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining. ICLR 2026. arXiv:2511.18903
OpenCSG Chinese Corpus Technical Report. arXiv:2501.08197
Fineweb-Edu-Chinese-V2.1 数据集： https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.1

关于 OpenCSG

OpenCSG是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论，由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。

posted @ 2026-05-18 11:22 OpenCSG 阅读(30) 评论(0) 收藏举报

刷新页面返回顶部

OpenCSG