当顶会论文揭示“好数据被浪费“,OpenCSG 中文数据基础设施的价值正在被看见
在大模型竞赛进入深水区的今天,一个令人意外的发现正在改变我们对数据价值的理解:最好的数据,可能在错误的训练节奏中被“浪费”了。

近期, 清华大学 与鹏城实验室的研究者在 ICLR 2026 论文《How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining》中提出了一个非常值得大模型训练团队关注的问题:在基于数据质量排序的课程式预训练中,如果高质量数据被安排在训练后期,却遇到已经显著衰减的学习率,那么这些高质量数据对模型参数更新的实际贡献可能被低估,甚至被“浪费”。
这篇论文的重点并不是介绍 OpenCSG,也不应被误读为 OpenCSG 参与了论文工作。但对 OpenCSG 来说,这篇论文提供了一个非常重要的行业信号:大模型训练正在从“有没有足够多的数据”,走向“能不能识别、分层、调度和最大化利用最好的数据”。
论文核心发现:好数据为什么会被“浪费”?
论文揭示了一个关键机制:学习率实际上会成为每个训练样本的“隐式重要性权重”。在每个训练步骤中,模型参数的更新量 = 学习率 × 梯度。当学习率在训练后期衰减到很低时,即使遇到高质量数据产生的优质梯度,参数更新的幅度也会被大幅压缩。
这就像是:你精心准备了最好的食材(高质量数据),但只给了厨师最小的火力(低学习率),结果好食材没能充分发挥价值。

上图清晰展示了问题的本质:高质量数据恰好出现在学习率大幅衰减的阶段,形成了“错位”。研究者通过大量实验验证了这一假设。在恒定学习率下,按质量升序训练明显优于随机打乱,验证损失更低、收敛更快;但在标准学习率衰减下,课程学习的优势显著缩小,衰减越激进(衰减阶段越长、最终学习率越低),收益越小。

传统做法是按质量升序排列数据(课程学习),同时使用标准学习率衰减(后期降到接近零)。结果是:高质量数据出现时,学习率已经很低,无法充分吸收这些数据的价值。这就是为什么过去很多课程学习实验效果有限的原因—— 不是质量分数没用,而是训练策略没有配合好。
论文的解决方案:重新设计训练策略
研究者提出了三个递进的策略来解决这一问题。
第一个策略是使用更温和的学习率衰减。不要把最终学习率降到接近零,而是保持在峰值学习率的 1/3 左右。实验发现,课程学习的最佳最终学习率约为 1×10⁻³,而随机训练的最佳最终学习率接近 1×10⁻⁵,两者相差 100 倍。这说明为随机数据优化的超参数,并不适合课程学习。
第二个策略更加根本:用模型平均替代学习率衰减。核心思路是全程使用恒定学习率(保持高更新幅度),对最后几个 checkpoint 做加权平均(降低噪声),结合课程学习(高质量数据在后期)。研究者将这种方法称为CMA (Curriculum Model Averaging)。

上图提供了直观的可视化解释:Ascend+EMA(课程学习+模型平均)能够在后期利用高质量数据的清晰信号,沿着正确方向快速前进,同时通过平均降低噪声。
第三个策略是组合方案 CDMA,将温和衰减、课程学习和模型平均结合起来。在 mid-training 场景中,相对标准方法(WSD+随机顺序),平均准确率提升约1.20%,核心 benchmark(MMLU、ARC、CSQA)提升超过2%,整体平均提升约1.64%。这些提升完全来自数据重排序,没有增加任何数据筛选成本。
OpenCSG 的价值:让中文好数据能被“真正用好”
值得注意的是,这篇论文在附录的大规模多域继续预训练实验中使用了Fineweb-Edu-Chinese-V2.1(简称 Fineweb-C),与 DCLM Baseline(英文通用数据)、StarCoder(代码数据)、MegaMath(数学数据)等一起进行多域 curriculum 排序实验。
需要明确:论文主体作者单位为清华大学和鹏城实验室,OpenCSG 不是论文的主体作者,论文主实验也不是围绕 OpenCSG 展开。但这仍然具有积极意义 —— 这表明 OpenCSG 生态下的中文高质量语料已经被纳入前沿 LLM 训练策略研究的实验设置之中。对于中文数据基础设施来说,这是一种重要的可见性:高质量中文数据不只是模型训练的辅助材料,也可以成为训练方法研究、课程式学习和多域调度实验中的组成部分。
当论文告诉我们“好数据需要在正确的训练阶段被使用”时,OpenCSG 想回答的是:如何让中文好数据在训练管线中被看见、被选择、被调度?
Fineweb-Edu-Chinese-V2.1 最重要的设计是按质量分数分层组织数据:

这种分层设计使得 数据集 不再是静态文件包,而是可以参与训练策略设计的资产。训练团队可以按 2-3 → 3-4 → 4-5 的顺序组织课程学习,资源有限时优先使用 4-5 分数据,或者与代码、数学、英文数据等组合构建多域训练配方。研究者也可以基于不同分数区间构造对照实验,验证质量分数的边际收益。
相比碎片化社交文本或低质量网页,教育类语料具有更强的概念解释、更规范的表达、更稳定的知识结构和更高的文本连贯性。这些特征对于提升模型的中文理解、中文生成、知识组织和教学问答能力都具有基础意义,可应用于中文继续预训练、智能教育与助教、企业知识与培训、课程式训练研究等场景。
从“可下载”到“可调度”:下一代数据基础设施
大模型训练范式正在改变。过去关注“数据越多越好”,策略是充分打乱、标准衰减,目标是降低训练损失;现在需要质量信号、分层组织,数据顺序、学习率、模型平均协同设计,目标是最大化高质量数据的边际价值。
Fineweb-Edu-Chinese-V2.1 的价值,不应只被理解为“又一个中文数据集”。它代表了 OpenCSG 对中文大模型数据基础设施的产品化思路:从提供单一文件包到按质量分层组织,从下载后自行处理到支持训练策略直接调用,从静态资源到可参与训练配方设计。
当数据具备质量信号后,训练团队就可以围绕“先学什么、后学什么、不同阶段学多少、如何平衡质量和多样性”设计更精细的训练策略。无论是选择高质量中文数据(通过 score 字段筛选),在不同预算下训练(根据分层选择规模),做课程式训练(按质量分数组织顺序),还是做多域继续预训练(与代码、数学、英文等域组合),Fineweb-Edu-Chinese-V2.1 都提供了工程化的支持。
行业标杆地位的验证
OpenCSG发布的FineWeb-Edu-Chinese作为全球下载量排名前三的中文预训练数据集,累计下载超百万次,其价值已经得到业界广泛认可:
-
学术领域:被斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、上海人工智能实验室、北京智源研究院等 20 余家顶尖机构的论文引用。旗下Chinese Fineweb Edu已成为中文 NLP 研究的核心数据资源,被100 +篇学术论文引用,在 NeurIPS、ACL、EMNLP、ICLR 等国际顶会及 Nature 子刊、JMLR 等权威期刊中作为核心实验数据集,支撑大模型预训练、指令微调等前沿研究,合作机构还包括鹏城实验室、西南电子技术研究所、西班牙国家级超算中心(Barcelona Supercomputing Center)及 Mozilla Data Collective等全球顶尖科研单位。
-
产业应用:支撑 Llama3-Chinese、DeepSeek 等知名模型训练,并被中国移动、中国联通、英伟达(NVIDIA)、苹果公司(Apple Inc.)、OPPO、美团、阿里巴巴、蚂蚁集团、面壁智能(ModelBest)等领军企业采用。Chinese Fineweb Edu 已从实验室走向产业场景,为创业公司到头部企业的研发团队提供可靠支撑,切实推动中文 NLP 应用从理论落地到生产实践。
-
生态影响:下载数量累计超百万次,数据体量达 2.42TB,覆盖 9.57 亿条高质量文本,已孵化出 10 余个垂直领域微调模型。同时,OpenCSG 通过开源打分模型和完整工具链,输出数据治理方法论,带动行业从“模型参数内卷” 转向 “数据基建完善”,显著降低中小开发者与研究机构的入门门槛。
-
开源生态:OpenCSG 坚持“开源即文化”的理念,通过透明、共创、共享的社区文化,与全球开发者、工程师和 AI 原生企业共同构建智能体生态。

结语:好数据的价值,需要被训练系统真正放大
清华大学与鹏城实验室的论文提醒我们:好的训练数据并不会自动转化为好的模型能力。
数据质量、数据顺序、学习率策略和模型平均方法之间存在深层耦合。如果训练系统没有给高质量数据足够的更新权重,那么即使最好的数据也可能没有被充分学习。
这正是 OpenCSG 希望持续推动的方向:
让中文高质量数据不仅“存在”,而且“可见”;
不仅“可下载”,而且“可分层”;
不仅“能训练”,而且“能被训练策略真正用好”。
Fineweb-Edu-Chinese-V2.1 通过分数分层、中文教育语料建设和多域训练适配,为中文大模型提供了一种更加工程化、产品化的数据基础。
当行业开始讨论“如何避免浪费最好的数据”时,OpenCSG 的价值正在变得更加清晰:为中文大模型提供可治理、可选择、可调度的高质量数据基础设施,让每一份好数据都能在正确的训练阶段发挥更大的边际价值。
参考资料
- Luo et al. (2025). How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining. ICLR 2026. arXiv:2511.18903
- OpenCSG Chinese Corpus Technical Report. arXiv:2501.08197
- Fineweb-Edu-Chinese-V2.1 数据集: https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.1
关于 OpenCSG
OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

浙公网安备 33010602011771号