大模型 Scaling Law：从 Kaplan 到 Chinchilla，再到数据配方、词表与下游能力

把 Kaplan≈1.7 与 Chinchilla≈20 视为“局部拟合”，把 scaling law 扩到 (N, D, mixture, vocab) 四轴并做常驻 sweep

19 篇论文·2026年4月21日

作者@Thor·gpt-5.2

33 篇扩展证据（支持 1 · 反证 1 · 拓展 30 · 切线 1）·知识聚类 8·悬问 5

领域综述

结论先行：把 Kaplan≈1.7 与 Chinchilla≈20 当成“常数”会在真实训练里产生系统性预算误差；更稳的做法是把 scaling law 当作每个 recipe 都要重拟合的监控件，并把它的“维度”从 (N, D) 扩到 (N, D, mixture, vocab)。Kaplan et al. [1] 在固定训练步数与特定优化设定下拟合到“更大模型、更少 tokens”的有效区间；Hoffmann et al. [2] 把 undertraining 显式纳入后，把 compute-optimal 推向“更多 tokens、较小模型”，并在 Chinchilla-70B 上验证。开源重拟合进一步表明 tokens/param 会随 batch/LR schedule、数据去重与 mixture 在 5–100 间滑动 [3]。tokens 不能只按总量记账：重复训练在 ≤4 epochs 内近似等价 fresh tokens，之后边际收益衰减 [7]。第三条轴是数据 mixture：DoReMi 学权重让 8B 步数 ~2.6× 收敛 [23]，RegMix 用回归代理在 1M-级 sweep 上预测最优配方 [24]，Data Mixing Laws 把 mixture-vector→loss 写成解析函数并嵌套 N/D law，使大模型 loss 可在不实跑下被预测 [25]。第四条轴是 vocab：在 fixed-FLOP 下，最优 vocab 大小是 non-vocab 参数 $N_{n} v$ 的可拟合幂律 V★ ∝ $N_{n} v$ ^0.27，主流模型（如 Llama-2-70B 的 32K）显著欠配置 [22]。最后，loss scaling 不等于 task scaling：over-training 区间里 loss 外推仍平滑，但单个 benchmark 分数会抖动并呈现阈值稳定性 [5]；同族内用 two-step 回归（task perplexity→accuracy）把单任务预测误差压到 ~1.9% [6]，迁移场景下 alignment 决定 loss 与 BLEU 是否同号 [21]，跨模型族可用 observational scaling laws 在公开 metric 上反推 effective compute 做后验外推 [26]。工程上，常驻五条 sweep（μP LR transfer、IsoFLOP N/D grid、mixture Pareto、vocab IsoFLOP、task ladder）比背诵一个比例更可靠。

TL;DR

Kaplan≈1.7 与 Chinchilla≈20 更像两段不同训练设定下的局部切线，而不是可移植常数 [1][2]。开源重拟合显示 tokens/param 会随 batch/LR schedule、去重与 mixture 在 5–100 间滑动 [3]；tokens 需要拆成 fresh×epochs，≤4 epochs 的重复近似等价 fresh tokens [7]。比单条 N/D 曲线更值得监控的是另外两条轴：(i) mixture 也是可预测的轴——DoReMi 学权重让 8B 步数 ~2.6× 收敛 [23]，RegMix 用回归代理在 1M-级 sweep 上预测最优配方 [24]，Data Mixing Laws 把 mixture→loss 写成解析函数并嵌套 N/D law [25]；(ii) vocab 是第四条轴——固定 FLOPs 下 V★ ∝ $N_{n} v$ ^0.27，Llama-2-70B 的 32K 显著欠配置 [22]。最后，loss 幂律外推不等于任务分数外推：over-training 区间 loss 平滑，但单任务分数会抖动并呈阈值稳定 [5]；同族内用 task ladders 的两步回归把单任务误差压到 ~1.9% [6]，迁移场景下 alignment 决定 loss 与 BLEU 是否同号 [21]，跨家族可用 observational scaling laws 在公开 metric 上反推 effective compute 做后验外推 [26]。工程建议：常驻五条 sweep——μP LR transfer、IsoFLOP N/D grid、mixture Pareto、vocab IsoFLOP、关键任务的 task ladder；每个新 recipe 量产前重拟合一次。

核心断言

#1在公开重拟合里，compute-optimal 的 tokens/param 不收敛到单一常数：同为 Transformer LM，最优比值可在 5–100 间滑动，且对 batch-size schedule 与数据配方敏感 [3]。

#2Kaplan 的“固定算力偏大模型”与 Chinchilla 的“偏多 tokens”并非互斥真理：当 undertraining 被显式建模并用学习曲线外推校正时，固定算力最优点会从 Kaplan 的局部区间移动到 tokens/param≈20 的区间 [1][2]。

#3把 D 当成一维总 tokens 会系统性高估“多训就行”：在数据受限下，≤4 epochs 的重复近似等价 fresh tokens，超过后边际收益按可拟合速率衰减 [7]。

#4固定模型与 tokens 预算时，数据过滤与 mixture 单独就能造成 ≥7 pp 的下游差距，这个量级足以盖过一次小幅的 tokens/param 调整 [4]。

#5loss scaling 在 over-training 区间仍可平滑外推，但单任务 benchmark 分数会先抖动、后跨阈值才稳定；要把单任务预测误差压到 ~1.9%，需要 two-step（task perplexity→accuracy）而不是直接用 loss→accuracy [5][6]。

#6vocab 应当作为继 N、D、配方之后的第四条 scaling 轴：在 fixed-FLOP 下，最优 vocab 大小是 non-vocab 参数

N_{n} v

的可拟合幂律 V★ ∝

N_{n} v

^0.27；Llama-2-70B 的 32K 词表在该预算下显著欠配置 [22]。

#7数据 mixture（浓度/配比）本身是可独立预测的 scaling 轴：DoReMi 用 group-DRO 学权重让 8B 训练步数缩短 ~2.6× [23]，RegMix 用 LightGBM 回归代理在小模型 sweep 上预测最优配方并击败专家权重 [24]，Data Mixing Laws 把 mixture-vector→loss 写成解析函数并与 N/D law 嵌套，使大模型 loss 可在不实跑下被预测 [25]。

#8下游任务 scaling 不能套用 loss 的同一条幂律：在迁移场景下，预训练-下游分布对齐时下游 metric 与 loss 同时呈幂律，但失配时 loss 仍平滑而 BLEU 等下游分数会非单调甚至倒退 [21]；跨模型族场景下，observational scaling laws 通过公开 metric 反推“有效算力”，得到跨家族可外推的能力轴 [26]。

#9把 scaling law 当成单一 (N, D) 幂律是 2022 之前的简化；2024 后的领先团队默认在 (N, D, mixture, vocab) 四轴上做联合 sweep，单点 Chinchilla 验算只够当合规检查。

#10Kaplan ≈ 1.7 与 Chinchilla ≈ 20 都不是 LLM 实际推荐的 tokens/param：DeepSeek-LLM、Llama-2/3、Mistral、OLMo-2 在 7-8B 量级跑出的实测比值在 285-1875 区间，原因是 inference 经济决定 over-training 在产品端必然占优 [3][9][10][28]。

§0 历史脉络:从单一 (N, D) 幂律到 (N, D, mixture, V) 四轴 sweep

Kaplan->Chinchilla->Data-Constrained->Mixing Laws->Vocab->Observational

Scaling law 在 LLM 上的历史，不是“Kaplan vs Chinchilla 谁对”，而是同一根曲线不断扩展到更多轴。[1] 在 (N, D) 上拟合幂律，提出 fixed-FLOP 下偏大模型 + 少 tokens 的 ~1.7 token/param；[2] 控制 LR schedule 与 undertraining 后重新拟合，得到 ~20 的 token/param 比值。业界长期把这两个常数当作互斥的“真理”，但公开重拟合显示，最优比值会随 batch / LR / 数据组合在 5-100 间滑动。[7] 把 D 拆成“fresh tokens + 重复”，给出 ≤4 epochs 近似等价于 fresh、超过后按可拟合速率衰减的修正项；[4] 与 [11] 通过大规模质量过滤实验，把“data quality”从 noise 项升格为可量化主轴；[22] 让 vocab V 成为继 (N, D) 之后的第三轴，给出 V★ = φ · $N_{n} v$ ^k 的可拟合关系；[25]、[24]、[23] 则把 mixture α 变成可独立预测的 scaling 维度。

到 2024 年后半年，主流团队（DeepSeek、OLMo、DCLM、Cerebras）已默认把 scaling law 作为 (N, D, mixture, vocab) 四轴问题做联合 sweep，而不是单点验算。[6] 与 [26] 进一步把“loss → 下游分数”的传递函数，从“涌现是惊喜”改成预算前可审计的工件；这条线放在姊妹篇 `scaling-laws-downstream-tasks` 中讨论。因此，Scaling-law 的现代用法是：先在小成本 sweep 上拟合 (N, D, mixture, V) 四轴预算面，再用 task-ladder 把该预算面投影到具体下游基准，最后用 [27] 的 broken-law 工具诚实披露多相位风险。

图 1. 图 0.1 scaling-law 历史:每一代纳入新一轴

Kaplan 推荐 (2020)

1.70[Kaplan2020ScalingLaws]

Chinchilla 推荐 (2022)

20[Hoffmann2022Chinchilla]

DeepSeek-LLM 7B

2862T / 7B [DeepSeek2024LLM]

Llama-2 7B

2852T / 7B [Touvron2023Llama2]

Mistral 7B

11428T / 7B (报告) [Jiang2023Mistral7B]

OLMo-2 7B

5714T / 7B [Walsh2024OLMo2]

Llama-3 8B

187515T / 8B (报告)

单位：tokens / param

图 2. 图 0.2 主流公开模型的 tokens / param 实际比值，远比 Kaplan~1.7 与 Chinchilla~20 这两个常数都高

正在渲染图示…

图 3. 图 0.3 现代 scaling-law 的四轴预算面 (N x D x mixture x V) 联合 sweep

§1 Kaplan≈1.7 与 Chinchilla≈20：差异来自训练设定，而不是“谁更对”

固定算力下如何分配 N（参数）与 D（tokens），本质是：在给定优化设定下，哪一侧能更快把 loss 压入可用区间。Kaplan et al. [1] 将 loss 分解为 N、D、compute 的幂函数，并在其训练设定下推出固定算力更偏向增大 N、减少 D 的最优点；该推导隐含固定训练步数与 schedule 形态，使许多配置落在 undertraining 一侧。Hoffmann et al. [2] 的关键改动是显式处理 undertraining：用 IsoFLOP sweep + 学习曲线外推校正“训不够久”的偏差，得到 tokens/param≈20 的经验中心；同时通过 Chinchilla-70B 对比表明，更大模型（如 Gopher 级别）在相近算力下主要是训练不够久 [2]。

更现实的问题是：batch-size schedule、LR schedule、去重率、mixture 一变，undertraining 边界也随之移动，compute-optimal 的局部切线会漂移。DeepSeek-AI [3] 在开源设定下重拟合，将 tokens/param 的可行区间扩到 5–100，等价于把“≈20”从默认常数降为每个 recipe 都需复核的监控量。工程结论不是记住一个比例，而是承认 compute-optimal 依赖 recipe，并把小规模 IsoFLOP grid 变成上线前必跑项 [2][3]。

Kaplan ~1.7 (compute frontier, 2020)

1.70[Kaplan2020ScalingLaws] LR + WD held; under-trained

Chinchilla ~20 (compute-optimal, 2022)

20[Hoffmann2022Chinchilla] tuned LR / WD per N

Llama 3 ~150 (over-trained for inference)

150 inference $ optimal

Phi-class ~250 (data-quality regime)

250small N, very curated D

Data-constrained ~5 (D fixed, N grows)

单位：tokens / param (D / N)

图 4. 图 1.1 不同 regime 下 tokens-per-param 的目标比值,以及各自优化什么

“tokens/param≈20”更像在一组特定 schedule 与数据配方下的局部切线；换 recipe，就应当默认需要重拟合 [2][3]。

§2 数据配方不是噪声项：在固定 (N, D) 下，它能主导下游差距

许多团队把数据视为 D 的“填充物”，默认 tokens 足够多后，scaling law 会抹平配方差异；DCLM 使这个默认假设可 falsify。Li et al. [4] 在固定模型与 tokens 预算下给出可复现的过滤与 mixture 对照，并观察到仅数据配方即可造成 ≥7 pp 的下游差距。这意味着：预算讨论中，把 tokens/param 从 20 调到 30 可能只带来小幅 loss 变化；但一次过滤阈值或 mixture 权重调整，就可能翻转下游排序。

反过来，数据“越 curated 越好”也不是稳健原则。Penedo et al. [11] 主张过滤后的 web-only 在某些规模上可以胜过混合 curated 语料，直接反驳“必须混合高质量小语料”；更关键的提示是：数据质量收益是 domain-dependent 的，并且与评测集合耦合。要把这类争论转为工程决策，需要透明栈和可控对照。Groeneveld et al. [12] 的价值在于公开数据与训练细节，使“同算力下数据配方是否移动 compute-optimal 前沿”可以被复现实验追踪。Albalak et al. [13] 则将常见数据选择方法与失败模式（污染、去重不足、domain shift）整理成可执行风险清单，适合作为数据 sweep 的设计参考 [4][12][13]。

变量	常见默认化错误	更可控的参数化方式	代表性证据
N（参数规模）	把 exponent 当可移植常数，忽略优化设定导致的 undertraining	IsoFLOP 下做 N×D 小 grid，并用学习曲线外推校正训练时长	[1][2]
D（tokens）	只记总 tokens，不区分 fresh 与重复 epochs	D = fresh tokens × epochs，并单独记录去重率与重复分布	[7][3]
数据配方（过滤/mixture）	把数据当噪声项，默认“够大就行”	固定 (N, D) 做过滤阈值与 mixture Pareto sweep，并用公开协议复现	[4][11][12]

三类“scaling 变量”的可控性对比：N/D/数据配方在实验设计上的差异

N: 1B -> 7B (固定 mixture)

8纯 N scaling 的典型 7x 收益 [Hoffmann2022Chinchilla][Touvron2023LLaMA]

mixture: web-only -> +code+math (固定 N, D)

11.50DCLM / RegMix 风格的 mixture sweep [Li2024DCLM][Liu2024RegMix]

mixture: 强 dedup pool -> 弱 dedup

-6弱 dedup 是负 delta:DCLM ladder 显示池差距~5-10pp [Li2024DCLM][Penedo2023RefinedWeb]

DoReMi / RegMix 重权 (固定 N, D)

6.50search-driven mixture 在不动 N,D 下追平 1.5-2x N 收益 [Xie2023DoReMi][Liu2024RegMix]

DataMixingLaws 闭式 w*

7.80拟合 loss(N,D,w) 后直接外推 w*,与 search 同量级 [Ye2024DataMixingLaws]

图 5. 图 2.1 在固定 (N, D) 下,domain mixture 对下游 task delta 的撬动量,常常大于把 N 从 1B 翻到 7B

§3 tokens 不是同质预算：重复、去重与“有效数据量”

把 D 视为一维 tokens 计数，会混淆两种机制：看到新模式带来的泛化收益，以及重复同一分布带来的优化收益。Muennighoff et al. [7] 在数据受限设定下显式建模重复训练，并给出工程上可用的边界：平均重复 ≤4 epochs 时，收益近似等价于增加 fresh tokens；超过该点后，边际收益明显衰减。这条边界把“多训就行”改写为可检验假设：如果某个 recipe 需要 8–12 epochs 才达到目标 loss，就应默认它是在用 compute 换记忆/重复拟合，而不是扩大有效覆盖。

这解释了为什么 tokens/param 的最优点会随去重与 mixture 漂移。更高去重率会把同样的 raw tokens 转化为更多有效 fresh tokens，从而改变固定算力下 N 与 D 的相对回报；mixture 改变会改变“有效难度”，使同样 tokens 产生不同的 loss 斜率。DeepSeek-AI [3] 的 5–100 宽带可理解为：当“有效数据量”的定义在变时，任何单一 tokens/param 常数都只能覆盖局部区间。常态化记录 dedup rate、重复 epochs 分布和 mixture 向量，比在预算表里写死一个比例更接近真实控制变量 [7][3]。

1× 唯一池 (DCLM-style)

100强 doc+paragraph dedup 是默认基线 [Li2024DCLM][Penedo2023RefinedWeb]

1× 弱 dedup (only doc-level)

78片段级重复未清，~22% 算回报递减 [Penedo2023RefinedWeb]

2× 重复 (有限池, well-mixed)

88前 2-4 epochs 折扣极低 [Muennighoff2023DataConstrained]

4× 重复 (近极限)

70尾部样本曝光 >>4，记忆/重复风险抬头 [Muennighoff2023DataConstrained]

1× rephrased synth (Maini)

130改写带来正向折扣（>1×），但需多指标验收 [Albalak2024DataSelectionSurvey]

图 6. 图 3.1 raw token 预算 vs 生效到 loss 的“effective token” —— 去重深度与曝光次数共同决定折扣率

§4 loss scaling ≠ task scaling：阈值、抖动与可预测性边界

把 pretraining loss 的幂律外推直接等同于“下游能力外推”，工程上常见两类失效：其一，阈值化评测指标（0-1 accuracy、exact match）会把连续改进压成表观拐点；其二，评测噪声与训练短期波动会让单点分数不稳定。Gadre et al. [5] 的 104 模型 sweep 给出清晰分离：在 over-training 区间，loss 外推仍然平滑可靠，但单个 benchmark 分数会随训练抖动；只有 loss 跨过某个阈值后，分数才更稳定、更可预测。这意味着：即使 compute-optimal 的 loss 曲线拟合良好，也可能无法预测“任务分数何时稳定”。

Bhagia et al. [6] 的 model ladders 给出更可操作的替代路径：先拟合 task perplexity 对 compute，再把 task perplexity 映射到 accuracy；two-step 结构显式吸收阈值化指标的非线性，单任务预测误差可到约 1.9%。其工程含义是：如果目标是某一组任务的分数，而不是纯粹的 loss，就应把“任务可预测性”作为一等公民来拟合与监控，而不是期待一个 loss exponent 兼容所有任务。

关于“突现”，更稳妥的流程是先去阈值化：对同一任务同时记录连续指标（log-prob、task perplexity）与离散指标（accuracy），并把 benchmark 粒度变化作为实验变量。Wei et al. [14] 的 U-shaped 任务曲线与 AGIEval [15] 对评测敏感性的证据都提示：很多看似神秘的拐点，应优先作为“任务定义与评测管线”的产物来排查，而不是直接诉诸内部相变叙事 [5][6][14][15]。

图 7. 图 4.1 三种被叫做“task scaling”的曲线形态:smooth / sigmoid / step,授权范围完全不同

§5 第四轴：vocab 也是 scaling 变量

在 Kaplan/Chinchilla 的传统叙事里，FLOPs ≈ 6·N·D 将 vocabulary 埋在 N 内部，V 因而很少作为预算变量讨论。Tao et al. [22] 的关键处理是显式拆出 vocab：把参数分为 vocabulary 部分 $N_{v}$ （embedding+unembedding，≈ V·d_model）和 non-vocab 部分 $N_{n} v$ （attention/MLP），并将 FLOPs 重写为 6·( $N_{n} v + N_{v}$ )·D。在 fixed-FLOP 下扫描 V 后，IsoFLOP 曲线会在某个 V★ 达到最低 loss，说明 vocab 和 N、D 一样存在 compute-optimal。

他们用三条互补路径定位 V★：(i) IsoFLOP 直接 sweep；(ii) 对 loss 关于 V 求导找零点；(iii) 联合 (N, D, V) 拟合参数化损失函数，再解析求解 V★。在 33M–3B non-vocab 参数与多种 D 上，三条路径一致收敛到 V★ ∝ $N_{n} v$ ^0.27；当 D 充裕、FLOPs 不再是瓶颈时，最优 V 还会继续上移。这个指数远低于 $N_{n} v$ 自身的扩张速度，意味着 vocab 应随 N 增长但慢得多，而不是固定在 32K，或照搬另一个家族的 100K+。

直接的工程含义是：在 Llama-2-70B 同 token 预算下，预测 V★ 显著大于 32K；他们用 V≈43K 的 3B 模型在 ARC-Challenge / Hellaswag / MMLU / OpenBookQA 等多任务上击败 Llama-2-70B 的 32K 配置。vocab 选择因此从 tokenizer 美学问题变成算力分配问题。结合 §1 的 N/D 与 §2/§3 的数据轴，更稳的预算流程是先用一组小 IsoFLOP grid 同时扫 (N, D, V)，把 vocab 当作常驻第四轴，而不是事后调参 [22][2][3]。

32k (Llama1 默认)

100基线 (Llama1) [Touvron2023LLaMA]

65k (Mistral 7B)

96更细分的多语 + 代码片段;loss/bpb 优化~4% [Jiang2023Mistral7B]

100k+ (vocab law optimum)

93vocab scaling law 给出与 N、D 一致的 vocab*,与 65k 持平再略好 [Tao2024VocabScalingLaw]

200k (over-spend)

97稀有 token 太多,embedding 利用率下降;bpb 反弹 [Tao2024VocabScalingLaw]

code-rich V (DeepSeek-LLM)

94code/math 比例高时,vocab 配比也是 mixture 一部分 [DeepSeek2024LLM][Yuan2023Math]

图 8. 图 5.1 vocab 是真正的 scaling 轴:在固定 (N, D) 下,vocab 选择对 bpb 与下游 task delta 都有可拟合的贡献

“vocab 跟着 N 长，但慢得多”：V★ ∝ $N_{n} v$ ^0.27 把 tokenizer 选择从美学问题升级为算力分配问题 [22]。

§6 数据 mixture（浓度/配比）也有可拟合的 scaling law

§2 已经把数据轴抬高为一等公民，但重点仍是“是否会主导下游差距”的存在性命题。本节进一步问：mixture 这条轴本身能否被预测，从而把“试错调参”改写为“小代价代理→大模型外推”。从证据链看，过去三年至少形成了三条互补路径：

第一条是 mixture-as-optimization 的 DoReMi [23]。Xie et al. 将 domain 权重学习写成群体鲁棒优化：用一个 280M 的 reference 与一个同规模 proxy，在每步对各 domain 的 excess loss 做 group-DRO，得到一组对最难 domain 也鲁棒的权重；再将这组权重直接迁移到 8B 模型上，The Pile 与 GLaM 的同 step perplexity 和下游 zero-shot 一致变好，达到 baseline perplexity 的训练步数减少约 2.6 倍。其工程价值在于：把“mixture 调参”变成可优化目标，而不是各 domain 经验权重的加和。

第二条是 mixture-as-regression 的 RegMix [24]。Liu et al. 将 mixture 直接形式化为回归问题：在数百到上千个 1M-参数小模型上用不同 mixture vector 训练，将 (mixture-vector → eval-loss) 拟合成 LightGBM 回归代理，再在数千个候选权重中预测最优配方后上规模。代理总成本约为目标 1B 训练算力的 10%，且在 head-to-head 比较中击败 DoReMi 与人工权重。它与 DoReMi 的互补性在于：DoReMi 解决“在线学权重”，RegMix 将权重选择移到 offline 代理空间，工程上更容易并行 sweep。

第三条是 mixture-as-prediction 的 Data Mixing Laws [25]。Ye et al. 不再只学一组权重，而是将 mixture-proportions → loss 写成解析函数（多元指数 + domain 交互），并与 Chinchilla 形式的 N/D scaling law 嵌套：先用一组小模型估计 mixture 函数与 N/D 函数的参数，再在不实跑大模型的前提下，预测任意 mixture 在目标 (N, D) 下的 loss。在 RedPajama 1B/100B 上，预测的 loss 与用 5× 算力实测的训练终点接近，从而把“数据轴 + N/D 轴”变成可联合优化的低维曲面。

三条路径合起来给出一个稳的工程结论：mixture 不再是 scaling law 之外的超参噪声，而是 scaling 体系内一条独立且越来越可预测的轴。和 §1/§3 的“tokens/param≈20 不是常数”、§5 的“vocab 也是变量”一起看，mixture law 让“先做配方 Pareto 再调比例”有了量化抓手 [23][24][25]。

正在渲染图示…

图 9. 图 6.1 mixture 是可拟合的 scaling 轴:DoReMi / RegMix / DataMixingLaws / DCLM 是四种实例

mixture 不再是 scaling law 之外的噪声项，而是体系内一条独立且越来越可预测的轴：DoReMi 学权重、RegMix 拟合代理、Data Mixing Laws 写成解析函数 [23][24][25]。

§7 下游任务 scaling law：transfer-aware、observational 与 task ladders 的三条路线

§4 的判断是“loss scaling ≠ task scaling”，但只说“不要直接外推 accuracy”还不够；本节对照当前最有用的三条下游任务 scaling 路线。

第一条是 transfer-aware 的下游任务 law（Isik et al. [21]）。他们在“pretrain → finetune”典型迁移管线（以 MT 为代表）上系统扫描预训练数据规模，得到一个朴素但常被忽视的事实：当预训练分布与下游分布对齐时，下游 metric（BLEU/ROUGE）与 cross-entropy 都呈现可拟合的幂律，且趋势一致；分布失配时，loss 仍可平滑下降，BLEU 等 task metric 却会非单调甚至倒退。结论是：下游任务 law 必须以 pretrain–downstream alignment 为条件；alignment 是它的隐变量。

第二条是 observational scaling laws（Ruan et al. [26]）。他们不训练新模型，而是对 ~80 个公开模型的 benchmark 分数做后验拟合：从分数矩阵中抽取低维 capability 空间（“effective compute”），再把任意单任务分数与该空间做幂律映射，从而外推未训练模型的能力。它的工程价值在于：在现实中缺少完整 (N, D, V, mixture) 元数据时，仍能给跨模型族能力预测提供统一坐标系，并对“某个能力是否会随 scale 出现”这类问题给出后验回答；他们也把这套方法用于 emergent ability 与 agent 任务。

第三条是 task ladders（Bhagia et al. [6]，已在 §4 出现）。它把单任务建成两段：compute → task perplexity（连续指标，对噪声更稳）→ accuracy（离散指标），用 model ladders 的小规模 sweep 拟合两段函数，把单任务预测误差压到 ~1.9%，更直接服务于“离任务可用阈值还差多少 FLOPs”这类决策。

三条路线原则上互补：Isik 处理 transfer 场景的 alignment 边界；Ruan 处理跨模型族的事后预测；Bhagia 处理同一族内从小规模到大规模的外推。把它们和 §6 的 mixture law、§5 的 vocab law 串起来，可以形成一条端到端的“可预测 scaling”：mixture+vocab+(N,D) 决定 loss，loss 通过 task ladder（同族内）或 effective-compute 空间（跨族）映射到任务分数，最后再由 alignment 调制 [21][26][6]。

正在渲染图示…

图 10. 图 7.1 下游任务 scaling 的三条路:transfer-aware / observational / task ladders 的成本-信号取舍

下游任务 scaling 不是“一条曲线兜底”，而是 transfer-aware（Isik）+ observational（Ruan）+ task ladders（Bhagia）三条互补路线，alignment 是它们共同的隐变量 [21][26][6]。

时间线

2020-01Kaplan：联合幂律与固定算力预算推导（偏大模型的局部最优）[1]
2022-03Chinchilla：把 undertraining 显式纳入，tokens/param≈20 成为经验中心[2]
2023-05数据受限：重复 epochs 的收益边界（≤4 epochs 近似等价 fresh tokens）[7]
2024-01开源重拟合：tokens/param 在 5–100 宽带漂移，recipe 依赖被显式化[3]
2024-03over-training：loss 平滑但任务分数抖动，阈值后才更可预测[5]
2024-12task scaling：model ladders + two-step 回归把单任务预测误差压到 ~1.9%[6]
2023-05DoReMi：mixture-as-optimization，用 group-DRO 学 domain 权重，8B 步数 ~2.6× 收敛[23]
2024-02下游任务 law：transfer-aware，alignment 决定 loss→BLEU 是否同号[21]
2024-03Data Mixing Laws：mixture-as-prediction，把 mixture→loss 写成解析函数并嵌套 N/D law[25]
2024-05Observational scaling laws：用 ~80 个公开模型反推 effective compute 与跨家族能力预测[26]
2024-07vocab 第四轴：V★ ∝ $N_{n} v$ ^0.27，主流模型显著欠配置 vocab[22]
2024-07RegMix：mixture-as-regression，1M-级 sweep 拟合 LightGBM 代理预测最优配方[24]

研究立场对比

阵营 A：Kaplan-style — 可移植 exponent，固定算力优先堆参数

立场 — 联合幂律足够稳定，可用少量小模型 sweep 外推到更大规模；在固定算力下应优先增大 N，tokens 只要“够用”。这条路线在早期大模型（如 GPT-3 时代）被广泛采用，工程上也更符合“先把模型做大再补数据”的组织惯性 [1][17]。

证据：[1][17][18]

反方 — 反驳 c-861b5bafc8 / c-1f9ceebe32 / c-a34e28d5d3：当 undertraining 被显式建模并用 IsoFLOP+外推校正后，固定算力最优点会向更多 tokens 移动 [2]；开源重拟合进一步表明最优 tokens/param 会随 recipe 漂移到 5–100，无法把“堆参数”当作跨设定的默认最优 [3]。

判词 — 更务实的定位：Kaplan 的幂律适合作为“同一 recipe 内的局部外推器”，不适合作为跨 recipe 的预算常数。固定算力下是否优先堆 N，需要先用 IsoFLOP 小 grid 证明当前 schedule 没把你锁在 undertraining 区间 [1][2]。

阵营 B：Chinchilla-style — tokens/param≈20 作为默认配方

立场 — 在固定算力下，较小模型配更多 tokens 更划算；tokens/param≈20 是可复用的经验中心，能避免“训练不够久”的系统性浪费。开源侧 LLaMA/Llama 2 的高 token 训练也被视作工程复现 [2][8][9]。

证据：[2][8][9][10]

反方 — 反驳 c-0f12d82e0e / c-6669a9cdef / c-e2361a4007：tokens/param≈20 在很多设定里是好起点，但不是可移植常数。DeepSeek-AI [3] 的公开重拟合把最优点拉宽到 5–100，且对 batch schedule 与数据配方敏感；数据受限时，重复 epochs 的边界（≤4）会直接改变“有效 tokens”，让固定比例失真 [7]。

判词 — 结论层面的建议：把“≈20”当作默认初始化点，而不是预算表常数；每次换 schedule、去重策略或 mixture，都应当用 6 点左右的 token/param grid 重新定位局部最优 [2][3]。

阵营 C：Data-mixture pragmatists — 先把数据配方做对，再谈最优斜率

立场 — 数据筛选、去重、freshness 与 mixture 是独立于 N 与 D 的第一类变量；在固定预算下，数据配方带来的差距常常不小于一次参数规模升级。DCLM 把这点做成可复现平台，并给出 ≥7 pp 的固定预算差距 [4]。

证据：[4][13][12]

反方 — 修正 c-8a6b54a19e / c-b54170330d / c-f7286a59b8：数据配方确实能主导，但“越 curated 越好”并不稳。RefinedWeb 的 web-only 反例表明在某些规模与任务上，过滤后的 web 数据可以胜过 curated mixture [11]；因此更像是“先做数据 Pareto”，而不是预设某类语料天然更优 [4][11]。

判词 — 一个更稳的读法：把数据配方当作与 N、D 并列的第三轴，并在固定 (N, D) 下先做过滤×mixture 的 Pareto；只有当数据轴收敛后，再讨论 tokens/param 的精细最优点才不容易被噪声淹没 [4][13]。

阵营 D：Against emergence-as-magic — 多数“突现”来自指标与评测管线

立场 — 许多看似突然出现的能力来自 0-1 指标阈值化、benchmark 粒度与评测噪声；用连续指标（task perplexity、log-prob）与更稳健的评测协议后，曲线更接近平滑提升。over-training 的任务分数抖动与阈值稳定性也支持把“突现”优先当作可测的评测现象 [5][6]。

证据：[5][6][14][15]

反方 — 反驳 c-b6d5738eb8 / c-f19d4b4475 / c-2017e034b2 的“全归因”版本：并非所有阈值都能被指标解释。GPT-4 技术报告展示了部分能力在小模型上接近不可用、在大模型上可用的阶跃现象 [19]；数学推理也被报告存在更强的门槛效应 [20]。更稳的做法是把阈值分成两类：指标阈值（可去阈值化）与任务门槛（需要机制或数据改变）。

判词 — 结论层面的建议：默认先做评测去阈值化与重复测量（同一任务同时记录 task perplexity 与 accuracy，并做多 seed/多 checkpoint），只有在连续指标也出现拐点时，才把它升级为“可能的任务门槛”去追机制 [5][6][19]。

阵营 E：mixture-as-prediction — 数据浓度/配比也是可预测的 scaling 轴

立场 — 数据 mixture 不再是 scaling law 之外的超参噪声：mixture-vector→loss 是一个可拟合的低维曲面，可以用群体鲁棒优化（DoReMi）、回归代理（RegMix）或解析嵌套（Data Mixing Laws）在小规模上预选最优配方再上规模，从而把数据轴和 (N, D) 一起做闭环优化 [23][24][25]。

证据：[23][24][25][4]

反方 — 需要注意的边界：三类方法的“可迁移性”与代理规模强相关——proxy/regressor 在 1M–280M 量级 fit 出的最优配方在更大模型上仍可能漂移；DoReMi/RegMix 的 head-to-head 对照本身也表明，不存在跨数据集普遍最优的“元算法”，需要把 mixture law 当成 recipe 局部代理而不是普适常量。

判词 — 结论层面的建议：在每个 recipe 内部把 mixture 作为可预测轴单独 sweep；预算谈判前先用代理预选配方，并把代理预测与小规模实测的偏差作为 recipe 风险指标记录在案 [24][25]。

阵营 F：vocab-as-axis — vocab 是继 N、D、配方之后的第四条 scaling 轴

立场 — vocab 不应被埋进 N 里。把参数拆成 $N_{v} + N_{n} v$ 后，FLOPs ≈ 6·( $N_{v} + N_{n} v$ )·D 让 V 成为一阶预算变量；在 fixed-FLOP 下扫 V 会得到一条 IsoFLOP 曲线，最优值满足 V★ ∝ $N_{n} v$ ^0.27，主流模型（如 Llama-2-70B 的 32K）在该预算下显著欠配置 [22]。

证据：[22]

反方 — 限制：V★ 的指数 0.27 来自 33M–3B 的 IsoFLOP 拟合，并未在 ≫10B 上完整外推；它也没有把 multilingual / 代码 / 工具调用等 token 分布差异显式建模——这些场景里 vocab 的“最优值”可能由覆盖率而非 IsoFLOP 主导。

判词 — 结论层面的建议：在每个新模型族开训前，把 V 加进 IsoFLOP grid（至少扫 3–4 个 V 值），并把 V★ ∝ $N_{n} v$ ^0.27 作为缺省外推；如果训练涵盖 multilingual / 代码 / 多模态 token，再额外检查 token 覆盖率约束 [22]。

实践要点

可执行清单（按“先减少混杂，再做外推”的顺序）：
1) DO：每个新 recipe 上线前跑一个紧凑 IsoFLOP token/param grid，至少覆盖 5、10、20、40、80、100 六个点；把“≈20”当初始化点而不是常数 [2][3]。
2) DO：把 D 拆成 fresh tokens × epochs，并把 dedup rate、重复分布（均值/分位数）写进训练日志；平均重复 >4 epochs 时默认边际收益开始衰减，除非同设定下有对照证据 [7]。
3) DO：固定 (N, D) 做数据过滤阈值×mixture 权重的 Pareto sweep；如果下游差距已到 ≥7 pp，先收敛数据轴再讨论 tokens/param 的精细最优 [4][13]。
4) DO：把 mixture 选择从“专家拍脑袋”升级为可拟合代理：在 1M-级小模型上做 mixture sweep + 回归代理（RegMix），或解析地嵌套 mixture-law 与 N/D-law（Data Mixing Laws）；上规模前用代理预测最优配方，再做一次 head-to-head 对照 [24][25][23]。
5) DO：把 vocab 当成第四条 scaling 轴：在小规模 IsoFLOP 上额外扫 V，并以 V★ ∝ $N_{n} v$ ^0.27 作为缺省外推；不要把别家的 32K/100K 直接搬过来 [22]。
6) DON'T：只用 pretraining loss 的幂律去外推单任务 accuracy；在 over-training 区间，loss 平滑不代表任务分数稳定，单点评测会抖动 [5]。
7) DO：对关键任务用 two-step（task perplexity→accuracy）做可预测性建模；把“单任务预测误差”当作 recipe 质量门槛，目标量级参考 ~1.9% [6]。
8) DO：迁移场景下显式记录 pretrain–downstream alignment 代理量（domain overlap、token-level 分布相似度）：alignment 充足时 loss 与下游 metric 同号，可一并外推；alignment 不足时只信任 loss 趋势，单独监控下游 metric 是否非单调 [21]。
9) DO：跨模型族做能力预测时优先用 observational scaling laws：从公开 benchmark 拟合 effective compute 与 capability 空间，而不是要求每家公开 (N, D, V, mixture) 全套元数据 [26]。
10) DON'T：把“web-only 一定差”或“curated 一定好”写成先验；RefinedWeb 的反例说明需要按 domain 与评测集合做对照 [11]。
11) DO：对“突现”先做去阈值化评测：同一任务同时记录连续指标与离散指标，并做多 checkpoint 轨迹；只有连续指标也出现拐点时再追机制 [5][14][15]。
12) DO：在组织层面把 scaling law 当监控件：每次换 batch/LR schedule、去重策略、mixture 或 vocab，都触发一次小规模重拟合；把重拟合结果（最优点与置信区间）作为预算审批的输入，而不是引用旧比例 [3][2][22]。下游任务侧的 scaling 工件——loss→score 传递函数、per-task ladder、observational 回归——在姊妹篇 `scaling-laws-downstream-tasks` 详谈,本篇只在 §0 与 §7 给出钩子。

悬而未决的问题

Q1.哪些公开工作直接在同一数据与模型族上，系统重拟合“compute-optimal tokens/param”随 LR schedule、batch-size schedule、训练步数变化的漂移量？当前证据更多来自工程报告式重拟合，缺少统一协议 [3][2]。
Q2.在严格 fixed-FLOP 下，数据过滤/去重/mixture 是否会系统性移动 compute-optimal 前沿（而不只是固定 (N, D) 下改变下游分数）？DCLM 给了固定预算差距，但与 compute-optimal 的耦合仍缺直接量化 [4]。
Q3.关于“突现是评测产物”的最强证据链需要更细：同一任务在连续指标与离散指标下的曲线差异、以及评测粒度/噪声对拐点的贡献，仍缺少跨任务的统一实验框架 [5][15]。
Q4.下游任务分数能在多大范围内由 pretraining loss 预测？哪些任务更接近“平滑可预测”，哪些更接近“阈值主导”？目前 task ladders 给了可行路线，但任务覆盖仍偏向特定题型 [6][21]。
Q5.重复 tokens 与 fresh tokens 的“等价区间”是否会随模型规模、数据 domain、去重策略而移动？Muennighoff et al. 给出 ≤4 epochs 的经验边界，但缺少更细的条件化刻画 [7]。

[1]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child. Scaling Laws for Neural Language Models. arXiv, 2020论文
[2]
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[3]
DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, et al.. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv, 2024论文
[4]
Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Yitzhak Gadre, et al.. DataComp-LM: In search of the next generation of training sets for language models. NeurIPS, 2024论文
[5]
Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, et al.. Language models scale reliably with over-training and on downstream tasks. arXiv, 2024论文
[6]
Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, et al.. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
[7]
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, et al.. Scaling Data-Constrained Language Models. arXiv, 2023论文
[8]
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
[9]
Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, et al.. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
[10]
Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, et al.. Mistral 7B. arXiv, 2023论文
[11]
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, et al.. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
[12]
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, et al.. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
[13]
Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
[14]
Jason Wei, Najoung Kim, Yi Tay, Quoc V. Le. Inverse scaling can become U-shaped. arXiv, 2022论文
[15]
Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, et al.. AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models. arXiv, 2023论文
[16]
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, et al.. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
[17]
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, et al.. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
[18]
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, et al.. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. arXiv, 2022论文
[19]
OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, et al.. GPT-4 Technical Report. OpenAI, 2023报告
[20]
Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, et al.. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv, 2023论文
[21]
Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, et al.. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
[22]
Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies. NeurIPS 2024 (spotlight), 2024论文
[23]
Sang Michael Xie, Hieu Pham, Xinyang Geng, Daphne Ippolito, Stephen Mussmann, Tatsunori B. Hashimoto, Quoc V. Le, Tengyu Ma, Adams Wei Yu. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. NeurIPS, 2023论文
[24]
Qian Liu, Xiangyu Zhang, Zhenghao Lin, Weizhu Chen, Min Lin. RegMix: Data Mixture as Regression for Language Model Pre-training. ICLR, 2025论文
[25]
Jiasheng Ye, Peiju Liu, Tianxiang Sun, Yunhua Zhou, Yuhao Zhou, Xipeng Qiu. Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance. ICLR, 2025论文
[26]
Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto. Observational Scaling Laws and the Predictability of Language Model Performance. NeurIPS, 2024论文
[27]
Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger. Broken Neural Scaling Laws. ICLR, 2023论文
[28]
Pete Walsh, et al. (AI2). OLMo 2 Furious: Open Mixture-of-Experts Language Models. arXiv, 2024论文

论文列表

Compute-optimal：Kaplan vs Chinchilla 与“有效区间”(3)

聚焦固定算力下 N（参数）与 D（tokens）如何分配：Kaplan 的联合幂律外推与 Chinchilla 的 IsoFLOP/外推校正，并把“undertraining”作为关键机制变量。

Scaling Laws for Neural Language Models

Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B. Brown,Benjamin Chess,Rewon Child2020年1月23日

把 pretraining loss 写成可拟合幂律，并给出固定算力下的预算分配推导；其结论隐含固定训练步数与特定优化设定，导致 compute-optimal 更偏向“大模型、少 tokens”的局部有效区间。

Training Compute-Optimal Large Language Models

Jordan Hoffmann,Sebastian Borgeaud,Arthur Mensch,Elena Buchatskaya2022年3月29日

用 IsoFLOP、参数化损失模型与学习曲线外推三条路径一致定位 compute-optimal，并把 undertraining 显式纳入；经验中心 tokens/param≈20，且 Chinchilla-70B 证明“更大模型只是训练不够久”。

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DeepSeek-AI,Xiao Bi,Deli Chen,Guanting Chen2024年1月5日

在开源数据与训练配置下重拟合 compute-optimal 曲线，显示 tokens/param 会随 batch-size schedule、数据去重与 mixture 在 5–100 间滑动；把“≈20 是常数”的预算写法变成可检验的假设而非默认前提。

数据是第一轴：筛选、去重、mixture 与可复现实验平台(4)

在固定 (N, D) 预算下，数据筛选与 mixture 能否主导下游差距；用 DCLM/OLMo 等平台把“数据配方”从经验变成可复现实验。

DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li,Alex Fang,Georgios Smyrnis,Maor Ivgi,Matt Jordan,Samir Yitzhak Gadre2024年12月1日

提供可复现的数据筛选与配方对照：在固定模型与 tokens 预算下，仅改过滤与 mixture 就能拉开 ≥7 pp 的下游差距；把“数据是独立变量”从口号变成可复现实验协议。

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld, ”Iz Beltagy,Pete Walsh,Akshita Bhagia,Rodney Kinney2024年2月1日

给出透明的训练栈与数据/recipe 细节，支持在开源条件下做可控对照；它的价值不在某个单点分数，而在让“配方变化导致 scaling 变化”可以被复现实验追踪。

A Survey on Data Selection for Language Models

Alon Albalak,Yanai Elazar,Sang Michael Xie,Shayne Longpre,Nathan Lambert2024年2月26日

系统整理数据选择/过滤/质量估计方法与常见失败模式（domain shift、污染、去重不足）；为把“数据配方”纳入 scaling sweep 提供可操作的设计空间与风险清单。

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo,Quentin Malartic,Daniel Hesslow,Ruxandra Cojocaru,Alessandro Cappelli2023年6月1日

主张“过滤后的 web-only”在某些规模与任务上可胜过混合 curated 语料；它构成对“必须混合高质量小语料”的直接反例，也提示数据质量收益强烈依赖 domain 与评测集合。

从 loss 到任务：重复 tokens、迁移与 task scaling(3)

把“总 tokens”拆成 fresh×epochs，并讨论 loss 外推到下游任务时的偏差来源；覆盖 over-training、transfer scaling 与 task-level 预测。

Scaling Data-Constrained Language Models

Niklas Muennighoff,Alexander M. Rush,Boaz Barak,Teven Le Scao,Aleksandra Piktus,Nouamane Tazi2023年5月25日

给出数据受限下的经验边界：≤4 epochs 的重复近似等价 fresh tokens，之后边际收益衰减；这使得“tokens/param 常数”在数据受限场景下必然失真。

Language models scale reliably with over-training and on downstream tasks

Samir Yitzhak Gadre,Georgios Smyrnis,Vaishaal Shankar,Suchin Gururangan,Mitchell Wortsman,Rulin Shao2024年3月13日

用 104 个模型 sweep 区分 loss scaling 与 task scaling：over-training 区间 loss 外推仍平滑，但单任务分数会随训练抖动并呈现阈值式可预测性；提示“只看 loss 做预算”会低估评测噪声与阈值效应。

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Akshita Bhagia,Jiacheng Liu,Alexander Wettig,David Heineman,Oyvind Tafjord2024年12月5日

提出 model ladders 与 two-step 回归：先拟合 task perplexity 对 compute，再映射到 accuracy；在多个 multiple-choice 任务上把单任务预测误差压到约 1.9%，把“任务可预测性”从经验变成可量化指标。

“能力突现”与评测非线性：指标、阈值与可预测性(3)

把“突现”拆成三类可检验来源：0-1 指标阈值化、benchmark 粒度与噪声、以及真实的任务门槛（如推理链长度）。

Inverse scaling can become U-shaped

Jason Wei,Najoung Kim,Yi Tay,Quoc V. Le2022年11月3日

给出非单调与 U-shaped 的任务曲线，提醒“随 scale 单调变好”的默认假设并不稳；它把突现/反突现从叙事问题改成“任务分布与评测定义”的可检验问题。

Measuring Massive Multitask Language Understanding

Dan Hendrycks,Collin Burns,Steven Basart,Andy Zou,Mantas Mazeika2020年9月7日

MMLU 把多任务 0-1 accuracy 推到主流视野，也让“阈值化指标导致看似拐点”的讨论有了具体载体；它是突现争论里最常被引用的 benchmark 之一。

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

Wanjun Zhong,Ruixiang Cui,Yiduo Guo,Yaobo Liang,Shuai Lu2023年4月13日

展示评测集合与评分方式对“能力曲线”的敏感性：同一模型在不同题型/评分粒度下的增长形态不同，为把突现解释为“评测管线效应”提供了具体抓手。

第四轴：vocab 也是 scaling 变量（Tao 2024）(1)

把 tokenizer 的词表大小从“工程细节”升格为继 N、D、配方之后的第四条 scaling 轴：在 fixed-FLOP 下，最优 vocab 大小是 non-vocab 参数 N_nv 的可拟合幂律 V★ ∝ N_nv^0.27，主流模型（如 Llama-2-70B 的 32K）通常显著欠配置。

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Chaofan Tao,Qian Liu,Longxu Dou,Niklas Muennighoff,Zhongwei Wan,Ping Luo,Min Lin,Ngai Wong2024年7月18日

把 vocab 写成第四条 scaling 轴：在 fixed-FLOP 下用 IsoFLOP 三角法（IsoFLOPs / 导数估计 / 参数化损失拟合）一致定位最优 V，得到 V★ ∝ N_nv^0.27 的可外推预算；在 ≥3B non-vocab 参数下用 V≈43K 的 3B 模型超过 Llama-2-70B 同 token 预算下的 32K 配置，显示主流模型显著欠配置 vocab。

数据 mixture 也有 scaling law：从 DoReMi 到 Data Mixing Laws(3)

把数据“浓度/配比”视作可独立预测的轴：mixture 权重 → loss/任务表现是一条可拟合曲面，可用群体鲁棒优化（DoReMi）、回归代理（RegMix）或解析的 mixture-as-prediction 函数（Data Mixing Laws）在小规模上预选最优配方再上规模。

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

Jiasheng Ye,Peiju Liu,Tianxiang Sun,Yunhua Zhou,Yuhao Zhou,Xipeng Qiu2024年3月25日

把 mixture proportions → loss 写成解析的“data mixing law”，并把它与 N/D scaling laws 嵌套：用一组小模型估计参数后，可在不实跑大模型的前提下预测任意 mixture 在目标 (N, D) 下的 loss，从而做闭环优化；在 RedPajama 1B/100B 上预测精度接近用 5× 算力实测的训练终点。

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

Sang Michael Xie,Hieu Pham,Xinyang Geng,Daphne Ippolito,Stephen Mussmann,Tatsunori B. Hashimoto,Quoc V. Le,Tengyu Ma,Adams Wei Yu2023年5月17日

用一个小代理模型 + group DRO 学一组 domain weights，再把权重迁移到大模型；在 The Pile / GLaM 上把同 step 下的 perplexity 与下游 zero-shot 都提升，并在 8B 上把达到 baseline perplexity 的训练步数缩短 ~2.6×。把 mixture 选择从“专家拍脑袋”变成可优化目标。

RegMix: Data Mixture as Regression for Language Model Pre-training

Qian Liu,Xiangyu Zhang,Zhenghao Lin,Weizhu Chen,Min Lin2024年7月1日

把 mixture 选择形式化为回归：用大量 1M 量级小模型在不同 mixture 上训练，把 (mixture-vector → eval-loss) 拟合成 LightGBM 回归代理，再在数千个候选权重中预测最优配方。代理总成本只占目标 1B 训练算力的约 10%，且与 DoReMi/人工权重的 head-to-head 中胜出。

下游任务 scaling law：从 loss 到 task 的可预测性(2)

loss 可以幂律外推，但下游任务分数未必。本子专题集合三条互补路线：transfer-aware 的下游任务 law（Isik 2024，针对 MT 等迁移场景）、observational scaling laws（Ruan 2024，跨模型族用公开 metric 反推有效计算）、以及 task ladders（Bhagia 2024，两步回归）三者共同把“task scalability”做成可拟合对象。

Scaling Laws for Downstream Task Performance of Large Language Models

Berivan Isik,Natalia Ponomareva,Hussein Hazimeh,Dimitris Paparas,Sergei Vassilvitskii,Sanmi Koyejo2024年2月6日

在 transfer 场景下系统研究下游任务（以 MT 为代表）随预训练数据规模的变化：当预训练分布与下游分布对齐时，下游 metric 与 cross-entropy loss 都呈现可拟合的幂律；分布失配时，loss 仍可平滑提升但 BLEU 等下游 metric 出现非单调甚至倒退，给出“何时可信用 loss 外推下游”的边界条件。

Observational Scaling Laws and the Predictability of Language Model Performance

Yangjun Ruan,Chris J. Maddison,Tatsunori Hashimoto2024年5月17日

提出 observational scaling laws：不再训练新模型，而是从约 80 个公开模型的 benchmark 分数里抽取低维 capability 空间，把单任务分数与“有效算力”做出跨模型族的可预测映射。该方法把“能否预测某个能力随 scale 出现”从训练实验问题转化为后验拟合问题，并在 emergent abilities、agent 任务等场景上给出强外推。

大模型 Scaling Law：从 Kaplan 到 Chinchilla，再到数据配方、词表与下游能力

领域综述

TL;DR

核心断言

§0 历史脉络:从单一 (N, D) 幂律到 (N, D, mixture, V) 四轴 sweep

§1 Kaplan≈1.7 与 Chinchilla≈20：差异来自训练设定，而不是“谁更对”

§2 数据配方不是噪声项：在固定 (N, D) 下，它能主导下游差距

§3 tokens 不是同质预算：重复、去重与“有效数据量”

§4 loss scaling ≠ task scaling：阈值、抖动与可预测性边界

§5 第四轴：vocab 也是 scaling 变量

§6 数据 mixture（浓度/配比）也有可拟合的 scaling law

§7 下游任务 scaling law：transfer-aware、observational 与 task ladders 的三条路线

时间线

研究立场对比

阵营 A：Kaplan-style — 可移植 exponent，固定算力优先堆参数

阵营 B：Chinchilla-style — tokens/param≈20 作为默认配方

阵营 C：Data-mixture pragmatists — 先把数据配方做对，再谈最优斜率

阵营 D：Against emergence-as-magic — 多数“突现”来自指标与评测管线

阵营 E：mixture-as-prediction — 数据浓度/配比也是可预测的 scaling 轴

阵营 F：vocab-as-axis — vocab 是继 N、D、配方之后的第四条 scaling 轴

实践要点

悬而未决的问题

参考文献 (28)

论文列表

Compute-optimal：Kaplan vs Chinchilla 与“有效区间”(3)

数据是第一轴：筛选、去重、mixture 与可复现实验平台(4)

从 loss 到任务：重复 tokens、迁移与 task scaling(3)

“能力突现”与评测非线性：指标、阈值与可预测性(3)

第四轴：vocab 也是 scaling 变量（Tao 2024）(1)

数据 mixture 也有 scaling law：从 DoReMi 到 Data Mixing Laws(3)

下游任务 scaling law：从 loss 到 task 的可预测性(2)