RL | 强化学习及其他领域中的 scaling laws

论文列表
故事线分析

论文列表

LLM 的 scaling law（最经典的两篇文章）：

Scaling Laws for Neural Language Models
- https://arxiv.org/abs/2001.08361
- 最初的 scaling law 工作，openai 2020。
Training Compute-Optimal Large Language Models
- https://arxiv.org/abs/2203.1555
- 师兄推荐的 Chinchilla scaling law，deepmind 2022。

其他领域的 scaling law：

Scaling laws for single-agent reinforcement learning
- https://arxiv.org/abs/2301.13442
- RL 的 scaling law，2023，arxiv 工作。
Scaling Laws for a Multi-Agent Reinforcement Learning Model
- https://arxiv.org/abs/2210.00849
- MARL 的 scaling law，2022，ICLR 2023。
AlphaZero Neural Scaling and Zipf's Law: a Tale of Board Games and Power Laws
- https://arxiv.org/abs/2412.11979
- 2024，NeurIPS 2025。
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- https://arxiv.org/abs/2503.14858
- 2025，NeurIPS 2025 best paper。
Reproducible scaling laws for contrastive language-image learning
- https://arxiv.org/abs/2212.07143
- 2022，CVPR 2023。
Data Scaling Laws in Imitation Learning for Robotic Manipulation
- https://arxiv.org/abs/2410.18647
- 2024，ICLR 2025 oral。
Understanding Scaling Laws for Recommendation Models
- https://arxiv.org/abs/2208.08489
- Meta，2022，arxiv 工作，58 个 cite。
Scaling Law for Time Series Forecasting
- https://openreview.net/forum?id=Cr2jEHJB9q
- neurips 2024，还没看。

可能的负样本：

Understanding Generative Recommendation with Semantic IDs from a Model-scaling View
- https://openreview.net/forum?id=EjfzChLkHO
- iclr 2026 reject
Scaling Law with Learning Rate Annealing
- https://openreview.net/forum?id=o9YC0B6P2m
- iclr 2026 reject
- 但这个分数是 8 8 6 5，只有 5 是负分，所以感觉可能质量挺高的。

故事线分析

Scaling laws for single-agent reinforcement learning

在生成式模型（如 LLM）中，scale 的是测试损失，这个测试损失随模型大小和计算量平滑下降，服从幂律（也就是两边都取 log 的话是线性的）。

然而，RL 的评估指标是“平均回报（return）”，它往往是非单调、不平滑的（例如：从 5 分提升到 10 分需要掌握瞄准和闪避，但从 15 到 20 分只需简单微调策略）。这导致传统 scaling laws 在 RL 中直接失效，我们需要定义一个能 scale 起来的指标。

能 scale 起来的指标：Intrinsic Performance I 为：在给定模型族中，达到某一 return 水平所需的最小训练计算量。这个指标是单调的。

实验发现，I 与模型参数量 N 和环境交互次数 E 满足双幂律求和关系。

\[I^{-\beta} = (N_c N)^{\alpha_N} + (E_c E)^{\alpha_E}, \quad \frac1 \beta = \frac1 {\alpha_N}+ \frac1 {\alpha_E} \]

N：模型参数量（Model Size）。E：环境交互次数（Environment Interactions）。α 是缩放指数，都是正数。Nc Ec 是常数。

物理含义：

双瓶颈叠加：公式右侧是两项幂律的相加。第一项代表“模型容量瓶颈”（数据无限时，性能由 N 决定）；第二项代表“数据瓶颈”（模型无限大时，性能由 E 决定）。两者在 I−β 空间线性叠加，符合“短板效应”的数学刻画。
公式本身的线性特征：核心公式本身不是线性的，而是两项幂律相加。但在 双对数坐标（log-log） 下，当其中一项占主导时，log⁡(I−β) 与 log⁡N 或 log⁡E 呈分段线性关系（斜率分别为 αN 和 αE）。
计算高效前沿：假设总计算预算 C∝NE，在最优配比下 I=NE=C。代入公式可推导出最优模型规模与计算量的关系： $N_\text{opt}\propto C^\frac{1}{1+α_N/α_E}$ 。这直接给出了“给多少钱/算力，该训多大的模型”的定量指导。

这篇文章做了什么实验：

实验模块	环境/设置	变化变量	目的
Procgen 基准	CoinRun, StarPilot, FruitBot（Easy/Hard）	CNN 宽度（×1/64 ~ ×8）与深度（残差块 1~64）	验证 scaling laws 在视觉控制任务中的普适性；对比宽度 / 深度缩放差异；检验难度模式是否影响指数
Dota 2 1v1	异步 PPO，严格 on-policy	LSTM 宽度（8 ~ 4096）	验证在复杂博弈、高方差环境中 scaling laws 是否成立；探索自然指标（TrueSkill）与内在性能的映射
MNIST-RL 玩具环境	每步独立采样数字，即时奖励	通过 GAE 的 γ 人工调控任务视界 h∈[1,256]	孤立验证“视界长度”对缩放律的影响；证明样本需求与 h 的仿射关系；检验长视界对系数/指数的影响
曲线拟合方法	单调回归 + 黑盒优化（CMA-ES）	排除前 1/64 训练阶段的数据	克服 RL 学习曲线早期瞬态波动，确保拟合落在计算高效前沿上

实验 1：Procgen Benchmark（宽度与深度扩展）

环境：CoinRun、StarPilot、FruitBot 的 easy / hard 模式
变量：CNN 宽度（参数从默认的 1 / 64 到 8 倍）和深度（残差块从 1 到 64）
算法：PPG-EWMA
发现：内在性能确实遵循幂律；难度模式对指数影响不显著但系数变化大

实验 2：Dota 2 1v1（大规模验证）

设置：LSTM 架构，隐藏层大小从 8 到 4096
规模：136 亿到 826 亿环境交互
发现：TrueSkill 作为"自然性能度量"与内在性能高度一致；但高 TrueSkill区域出现"不可约损失"迹象

实验 3：MNIST 玩具环境（机制探索）

创新点：通过 GAE 参数人工控制"任务视界长度"（horizon length）
理论：证明梯度方差是视界长度的仿射函数 → 样本效率也是仿射函数
发现：视界长度主要改变幂律的系数而非指数；长视界任务需要更多计算但扩展规律不变

一句话总结：这篇文章通过定义“内在性能”，将 RL 的非平滑回报映射为平滑的计算量指标，首次系统证明了单智能体 RL 同样服从模型规模-数据规模-计算预算的幂律缩放关系；并通过多环境实验与理论推导，揭示了任务视界长度以仿射形式影响样本效率、最优模型配比指数在 0.4~0.8 波动、且 RL 的最优模型通常比生成模型小几个数量级等关键规律。

alpha zero 式的 MARL

2022 年这篇算是小而美的，感觉做得很好。

主要结论：

MARL 同样遵循幂律缩放规律：以 AlphaZero 为代表的多智能体自对弈算法，其博弈实力（Playing Strength）与神经网络参数量、训练算力之间呈现严格的 幂律关系（Power-law scaling）。

跟前面 single-agent RL 一样，存在最优的“模型规模-算力”匹配曲线：给定固定算力预算，存在一个最优的网络参数量 N opt，使得训练出的智能体 Elo 最高。该最优规模本身也随算力呈幂律增长。

完整故事线：

阶段	内容
1. 背景与动机	监督学习（LLM、CV）已建立成熟的 Scaling Laws，但 MARL 极少被系统研究。MARL 常用 Elo 评分，而 Elo 本身是对数尺度，若 Elo 随资源线性增长，则隐含实力呈幂律增长。
2. 理论桥梁	利用 Bradley-Terry 模型与 Elo 定义，证明：Elo ∝ log(资源) ⇔ 实力 γ ∝ 资源^α。由此将常见的“对数线性图”转化为“幂律缩放”。
3. 尺寸缩放	在算力充足（训练至收敛）时，逐步增大网络宽度，发现 Elo 随参数量对数线性上升，直到逼近完美策略的天花板。
4. 算力缩放	固定最优规模，改变训练算力（自对弈步数×MCTS模拟次数等），发现 Elo 同样随算力对数线性上升，形成 Pareto 前沿。
5. 推导最优规模律	联立尺寸律与算力律，解析推导出最优参数量 Nopt 与算力 C 的关系 $N_\text{opt}\propto C^{α_C/α_N}$，并用实验数据验证。
6. 延伸与启示	① 大模型数据效率更高；② 最优训练应在收敛前停止；③ 外推发现 AlphaGo / AlphaZero 可能未使用算力最优规模；④ 小算力也能通过中等规模模型预测大模型行为，降低研究门槛。

关键部分：

scaling law 的幂律公式：

\[\gamma\propto N^{\alpha_N}, \quad \gamma\propto C^{\alpha_C} \]

其中，γ：Bradley-Terry 模型中的“绝对博弈实力”（决定胜率的内禀属性），N：神经网络参数量，C：训练总算力（FLOPs），αN≈0.88，αC≈0.55：经验指数，反映“资源转化为实力的边际效率”。指数 <1，说明存在收益递减，但规律可预测。

线性部分体现在：Elo 评分与资源对数之间。

期望胜率公式：

\[Ei=\frac1{1+(X_j/X_i)^α} \]

X 可为 N 或 C。该式直接由 Bradley-Terry 模型与幂律导出。
物理含义：两智能体资源比值决定胜率，且由单一指数 α 控制。例如 α=0.55 时，算力翻倍的智能体胜率约 60%。

最优规模缩放律：

\[N_\text{opt}(C) = \left(\frac{C}{C_0}\right)^{α_\text{opt}^C} ,\quad α_\text{opt}^C = α_C/α_N \]

物理含义：算力增加时，模型应同步扩大，但扩大速度应慢于算力增速（$α_\text{opt}^C$ ≈ 0.62 < 1）。该公式给出了资源分配的最优解：给定算力预算，应训练多大模型、多少步。
实验发现该预测曲线与真实 Pareto 前沿高度吻合（图 1 左）。

做了什么实验：

实验目标	设计细节
环境选择	Connect Four（分支小、局时长）与 Pentago（分支大、局长短），覆盖不同博弈特性。附录补充 Oware。
网络架构	多层感知机（MLP）：主干 2 层全连接，策略头/价值头各1层全连接；所有隐藏层等宽，宽度从 4 到 256 变化，参数量跨越数个数量级。
算力控制	算力 C=S⋅T⋅F⋅D（优化步数×每步 MCTS 模拟数×前向传播代价×每步所需新数据量）。主要变动 S和 T。
评估指标	Elo 评分：通过海量自对弈计算，并用完美求解器（Connect Four）/近完美基准（Pentago）校准天花板。使用 BayesElo 保证稳定性。
关键分析	① 拟合 Elo vs log(N) 和 Elo vs log(C) 的斜率 → 提取 αN,αC ② 提取 Pareto 前沿上的 (C,N) 点 → 验证 Nopt(C) 律 ③ 绘制不同规模模型随训练数据量（游戏状态数）的 Elo 曲线 → 验证样本效率 ④ 将 AlphaGo / Zero 的算力与参数量映射到同一坐标系 → 外推对比

进一步实验细节的解释：

实验类型	具体内容	支撑图表
尺寸扫描	训练 1326 个 Connect Four 智能体和 714 个 Pentago 智能体，网络宽度从 4 到 256 神经元（参数量 $10^3$-$10^5$），固定 $10^4$ 训练步数	图 2
与完美玩家对比	使用 Connect Four 完美求解器（Pons, 2015）和 Pentago 近完美数据库（Irving, 2014）验证 Elo 评分的上限，确认对数线性趋势的断裂是因为接近完美 play	图 2（右列）
计算预算扫描	对每个网络尺寸，使用不同计算预算（改变 MCTS 模拟次数），绘制 Pareto 前沿	图 4
训练曲线监测	记录不同训练步数下的 Elo-参数关系，证明对数线性关系在训练早期就出现，但斜率随训练增加而收敛	图 3、图 9
样本效率分析	比较相同数据量下不同尺寸模型的 Elo，证明大模型更样本高效	图 5、图 8
推理时计算	测试固定推理计算预算（而非训练计算）下的尺寸缩放	附录 B，图 6
Elo 系统验证	使用"温度求解器"（不同温度的完美策略）重新计算 Elo，确认缩放指数不受 Elo 系统偏差影响	附录 C，图 7
测试集损失	验证测试集损失（value / policy loss）不遵循幂律，说明 Elo 是比损失更好的性能指标	附录 F，图 14

第二篇看不懂。游戏树的结构 → Zipf 定律 → 按频率学习 → 正常缩放定律。

这里面的我们看出现频率大小棋盘状态的 loss，这个看（RL）的 loss 是怎么做到的？

因为数据是 Zipf 分布，且 AI 按频率降序学习，所以模型每增加一点容量，能覆盖的新局面的“价值”就急剧下降。这种“收益递减”直接导致：误差的下降速度与模型大小呈固定的幂律关系（即 Scaling Law）。

robotics 的 imitation learning

在机器人操作的模仿学习中，存在类似 NLP / CV 领域的"数据缩放规律"：策略的泛化能力与训练数据的"多样性维度"（环境数、物体数）呈幂律关系，且多样性比单纯增加演示数量更重要。

具体而言，作者声称：通过合理的数据缩放策略，可以用相对适度的数据量（如 32 个环境 × 1 个物体 × 50 次演示），训练出能在新环境+新物体上 zero-shot 成功率约 90% 的单任务策略。

实验设计：

数据采集： UMI手持夹爪，便携、低成本、支持野外环境采集
策略建模： Diffusion Policy + DINOv2，真实操作任务表现优秀，视觉特征捕捉场景布局
泛化维度：环境泛化 + 物体泛化，覆盖真实部署中可能遇到的所有变化因素
评估指标：人工打分归一化分数（这个有点神秘），比成功率更细粒度，比 MSE 更可靠

实验 1：物体泛化（固定环境，变物体数）

训练物体数：1→2→4→8→16→32，演示比例：3.125%→100%

发现：物体数增加→泛化分数快速上升；泛化性能随训练物体数呈幂律提升。仅需 8 个物体，新物体上的得分就超过 0.8，32 个物体时超过 0.9；物体数足够多时，演示数量影响变小

实验 2：环境泛化（固定物体，变环境数）

设计同上，变化训练环境数量（1→32个）

发现：环境泛化比物体泛化更难（曲线斜率更平缓），但趋势一致。同样遵循幂律，但环境泛化比物体泛化更难（曲线斜率更缓）。这说明让机器人适应新环境比适应新物体需要更多数据多样性。

实验 3：联合泛化（环境+物体同时变）。每个环境配一个独特物体，形成"环境-物体对"

发现：多样性叠加时，演示数量的饱和点来得更早→多样性效率更高。环境 vs 物体：当环境数量足够多（>16）时，同一环境中放多个物体没有额外收益。建议每个环境只放一个独特物体。演示数量：性能在约 50 次演示/环境-物体对时饱和。建议K=50。

额外实验：模型部分的 scale：视觉编码器：缩放有效（ViT-S→ViT-L 性能持续提升），且必须完全微调（Frozen 或 LoRA 都不行）。动作扩散模型：意外发现缩放无效，增大 U-Net 规模反而可能降低性能，暗示当前架构可能不足以像视觉模型那样从规模中受益。

（还做了很多消融实验）

核心 Scaling Law 公式：$Y=\beta\cdot X^{\alpha}, ~~ \log Y=\alpha\log X + \log \beta$ 。

各变量含义：

Y： optimality gap = 1 - Normalized Score，越小越好，表示距离完美性能的差距
X：数据多样性维度：训练物体数 N、训练环境数 M、训练环境-物体对数 M×N。取值示例：1, 2, 4, 8, 16, 32
α：缩放指数（负值）， Pour Water物体泛化: α≈-0.703
β：比例系数，由数据拟合得到

GCRL

之前的博客：

论文并未提出类似 $L∝N^{−α}$ 的解析型 Scaling Law 公式，而是明确讨论了网络结构参数量缩放关系以及性能与深度的经验关系。

论文提出了三个关键 claim：

深度可扩展性：在自监督目标条件 RL（Contrastive RL）中，网络深度可以从常规的 4 层扩展到 1024 层，带来 2× 至 50× 的性能提升，并在 10 个任务中的8个上达到 SOTA。
涌现的“相变”（Emergent Capabilities）：性能提升并非渐进平滑，而是在特定"临界深度"（如 8 层、16 层、64 层）发生跃迁，伴随定性新行为的出现（从爬行 → 直立行走 → FQ）。
自监督的关键性：这种深度扩展效应是 Contrastive RL 算法特有的；传统的TD 方法（SAC、TD3）或模仿学习方法（GCSL、GCBC）无法从深度扩展中获益，甚至会性能下降。

什么神经网络架构，可以让性能随网络 size / 网络深度 scale 起来：

算法：使用 Contrastive RL（CRL），一种基于 InfoNCE 损失的自监督方法，将 RL 转化为"分类当前状态-动作是否属于通往目标的轨迹"的问题。
架构：引入残差连接（Residual Connections）+ 层归一化（LayerNorm）+ Swish 激活函数，解决深层网络的梯度消失和训练不稳定问题（图 2）。
数据：利用 GPU 加速的并行环境（JaxGCRL / Brax），确保足够的数据吞吐量来"喂饱"深层网络。

contrastive language-image learning（CLIP）

核心 Scaling Law 公式与物理含义

论文中统一使用的缩放公式为：$$E = \beta , C^{\alpha}$$

或在双对数坐标下：$$\log E = \alpha \log C + \log \beta$$

公式中各量的含义：

符号	物理含义	单位/说明
$E$	下游任务误差率（Error Rate）	如 `100 - Top-1 Accuracy` 或 `100 - Recall@K`
$C$	总训练计算量（Total Compute）	$C = \text{GMAC/sample} \times \text{samples seen}$ （单样本前向+反向的乘加运算量 × 训练过程中见过的样本总数）
$\alpha$	缩放指数（Scaling Exponent）	负值（论文中典型值：分类 $\alpha \approx -0.11 \sim -0.16$，检索 $\alpha \approx -0.05 \sim -0.19$）
$\beta$	常数项（Depends on dataset/architecture）	反映数据集难度、架构先验或训练配方的基础误差水平

完整故事线

阶段	逻辑脉络
1. 动机与缺口	单模态（语言/视觉）的 Scaling Laws 已被广泛验证，但多模态 CLIP 缺乏公开、系统的缩放规律研究。此前研究多依赖私有数据与模型，无法复现，且训练流程异构（多阶段、冻结编码器等），难以剥离“规模”本身的贡献。
2. 实验设计	采用开源 OpenCLIP 框架与 LAION 数据集（80M/400M/2B），系统遍历模型尺寸（ViT-B/32 → g/14）、数据量、训练样本数（3B/13B/34B）。控制 batch size、学习率等超参，确保观测到的变化纯粹来自“规模”。
3. 核心发现	① 零样本分类、检索、线性探测、微调四大类任务均服从幂律缩放； ② 存在明显的“缩放瓶颈”（如小模型看 3B 样本时，数据从 400M→2B 几乎无提升）； ③ 数据集特性导致任务依赖的缩放差异（LAION 检索 Scaling 系数更优，WIT 分类 Scaling 系数更优）。
4. 推论与外推	基于拟合的 Scaling Law，预测更大规模模型（如 ViT-G/14 + 68B samples）在 ImageNet 上可达 ~81.9% 零样本准确率。强调未来研究应重视基础数据集设计，并公开所有实验代码与权重以供社区验证。

这个故事最动人的地方在于：它不仅是关于"越大越好"的实证，更是关于"好的科学需要开放"的宣言 —— 当 OpenAI 的 WIT 数据集封闭时，LAION 社区构建了更大的开放数据集，并用严格的科学方法证明开放也可以产生可靠的知识。

实验设计：

实验类别	具体设置	目的
规模变量扫描	模型：ViT-B/32, B/16, L/14, H/14, g/14 数据：LAION-80M, 400M, 2B 训练量：3B, 13B, 34B samples seen	构建三维缩放网格，绘制性能-算力 Pareto 前沿
下游任务评估	① Zero-shot 分类（ImageNet, VTAB+, 5个鲁棒性数据集） ② Zero-shot 检索（MS-COCO, Flickr30K） ③ Linear Probing（10/25-shot & Full） ④ Fine-tuning（ImageNet + 8个困难数据集）	验证 Scaling Law 是否泛化到不同适配范式与任务类型
对照实验（控制变量）	Batch size (32K→88K)、LAION-400M vs LAION-2B的400M随机子集、多次训练方差、重采样 vs 全 Shuffle	排除训练工程因素干扰，确认观测到的趋势纯粹来自规模
跨数据集对比	OpenCLIP (LAION) vs OpenAI CLIP (WIT-400M)	证明预训练数据分布会改变 Scaling 系数，呼应核心 Claim 2

月出兮彩云归 🌙