TL;DR
Kaplan≈1.7 与 Chinchilla≈20 更像两段不同训练设定下的局部切线,而不是可移植常数 [1][2]。开源重拟合显示 tokens/param 会随 batch/LR schedule、去重与 mixture 在 5–100 间滑动 [3];tokens 需要拆成 fresh×epochs,≤4 epochs 的重复近似等价 fresh tokens [7]。比单条 N/D 曲线更值得监控的是另外两条轴:(i) mixture 也是可预测的轴——DoReMi 学权重让 8B 步数 ~2.6× 收敛 [23],RegMix 用回归代理在 1M-级 sweep 上预测最优配方 [24],Data Mixing Laws 把 mixture→loss 写成解析函数并嵌套 N/D law [25];(ii) vocab 是第四条轴——固定 FLOPs 下 V★ ∝ ^0.27,Llama-2-70B 的 32K 显著欠配置 [22]。最后,loss 幂律外推不等于任务分数外推:over-training 区间 loss 平滑,但单任务分数会抖动并呈阈值稳定 [5];同族内用 task ladders 的两步回归把单任务误差压到 ~1.9% [6],迁移场景下 alignment 决定 loss 与 BLEU 是否同号 [21],跨家族可用 observational scaling laws 在公开 metric 上反推 effective compute 做后验外推 [26]。工程建议:常驻五条 sweep——μP LR transfer、IsoFLOP N/D grid、mixture Pareto、vocab IsoFLOP、关键任务的 task ladder;每个新 recipe 量产前重拟合一次。
核心断言
§0 历史脉络:从单一 (N, D) 幂律到 (N, D, mixture, V) 四轴 sweep
Kaplan->Chinchilla->Data-Constrained->Mixing Laws->Vocab->Observational
Scaling law 在 LLM 上的历史,不是“Kaplan vs Chinchilla 谁对”,而是同一根曲线不断扩展到更多轴。[1] 在 (N, D) 上拟合幂律,提出 fixed-FLOP 下偏大模型 + 少 tokens 的 ~1.7 token/param;[2] 控制 LR schedule 与 undertraining 后重新拟合,得到 ~20 的 token/param 比值。业界长期把这两个常数当作互斥的“真理”,但公开重拟合显示,最优比值会随 batch / LR / 数据组合在 5-100 间滑动。[7] 把 D 拆成“fresh tokens + 重复”,给出 ≤4 epochs 近似等价于 fresh、超过后按可拟合速率衰减的修正项;[4] 与 [11] 通过大规模质量过滤实验,把“data quality”从 noise 项升格为可量化主轴;[22] 让 vocab V 成为继 (N, D) 之后的第三轴,给出 V★ = φ · ^k 的可拟合关系;[25]、[24]、[23] 则把 mixture α 变成可独立预测的 scaling 维度。
到 2024 年后半年,主流团队(DeepSeek、OLMo、DCLM、Cerebras)已默认把 scaling law 作为 (N, D, mixture, vocab) 四轴问题做联合 sweep,而不是单点验算。[6] 与 [26] 进一步把“loss → 下游分数”的传递函数,从“涌现是惊喜”改成预算前可审计的工件;这条线放在姊妹篇 `scaling-laws-downstream-tasks` 中讨论。因此,Scaling-law 的现代用法是:先在小成本 sweep 上拟合 (N, D, mixture, V) 四轴预算面,再用 task-ladder 把该预算面投影到具体下游基准,最后用 [27] 的 broken-law 工具诚实披露多相位风险。
§1 Kaplan≈1.7 与 Chinchilla≈20:差异来自训练设定,而不是“谁更对”
固定算力下如何分配 N(参数)与 D(tokens),本质是:在给定优化设定下,哪一侧能更快把 loss 压入可用区间。Kaplan et al. [1] 将 loss 分解为 N、D、compute 的幂函数,并在其训练设定下推出固定算力更偏向增大 N、减少 D 的最优点;该推导隐含固定训练步数与 schedule 形态,使许多配置落在 undertraining 一侧。Hoffmann et al. [2] 的关键改动是显式处理 undertraining:用 IsoFLOP sweep + 学习曲线外推校正“训不够久”的偏差,得到 tokens/param≈20 的经验中心;同时通过 Chinchilla-70B 对比表明,更大模型(如 Gopher 级别)在相近算力下主要是训练不够久 [2]。
更现实的问题是:batch-size schedule、LR schedule、去重率、mixture 一变,undertraining 边界也随之移动,compute-optimal 的局部切线会漂移。DeepSeek-AI [3] 在开源设定下重拟合,将 tokens/param 的可行区间扩到 5–100,等价于把“≈20”从默认常数降为每个 recipe 都需复核的监控量。工程结论不是记住一个比例,而是承认 compute-optimal 依赖 recipe,并把小规模 IsoFLOP grid 变成上线前必跑项 [2][3]。
“tokens/param≈20”更像在一组特定 schedule 与数据配方下的局部切线;换 recipe,就应当默认需要重拟合 [2][3]。
§2 数据配方不是噪声项:在固定 (N, D) 下,它能主导下游差距
许多团队把数据视为 D 的“填充物”,默认 tokens 足够多后,scaling law 会抹平配方差异;DCLM 使这个默认假设可 falsify。Li et al. [4] 在固定模型与 tokens 预算下给出可复现的过滤与 mixture 对照,并观察到仅数据配方即可造成 ≥7 pp 的下游差距。这意味着:预算讨论中,把 tokens/param 从 20 调到 30 可能只带来小幅 loss 变化;但一次过滤阈值或 mixture 权重调整,就可能翻转下游排序。
反过来,数据“越 curated 越好”也不是稳健原则。Penedo et al. [11] 主张过滤后的 web-only 在某些规模上可以胜过混合 curated 语料,直接反驳“必须混合高质量小语料”;更关键的提示是:数据质量收益是 domain-dependent 的,并且与评测集合耦合。要把这类争论转为工程决策,需要透明栈和可控对照。Groeneveld et al. [12] 的价值在于公开数据与训练细节,使“同算力下数据配方是否移动 compute-optimal 前沿”可以被复现实验追踪。Albalak et al. [13] 则将常见数据选择方法与失败模式(污染、去重不足、domain shift)整理成可执行风险清单,适合作为数据 sweep 的设计参考 [4][12][13]。
| 变量 | 常见默认化错误 | 更可控的参数化方式 | 代表性证据 |
|---|---|---|---|
| N(参数规模) | 把 exponent 当可移植常数,忽略优化设定导致的 undertraining | IsoFLOP 下做 N×D 小 grid,并用学习曲线外推校正训练时长 | |
| D(tokens) | 只记总 tokens,不区分 fresh 与重复 epochs | D = fresh tokens × epochs,并单独记录去重率与重复分布 | |
| 数据配方(过滤/mixture) | 把数据当噪声项,默认“够大就行” | 固定 (N, D) 做过滤阈值与 mixture Pareto sweep,并用公开协议复现 |
§3 tokens 不是同质预算:重复、去重与“有效数据量”
把 D 视为一维 tokens 计数,会混淆两种机制:看到新模式带来的泛化收益,以及重复同一分布带来的优化收益。Muennighoff et al. [7] 在数据受限设定下显式建模重复训练,并给出工程上可用的边界:平均重复 ≤4 epochs 时,收益近似等价于增加 fresh tokens;超过该点后,边际收益明显衰减。这条边界把“多训就行”改写为可检验假设:如果某个 recipe 需要 8–12 epochs 才达到目标 loss,就应默认它是在用 compute 换记忆/重复拟合,而不是扩大有效覆盖。
这解释了为什么 tokens/param 的最优点会随去重与 mixture 漂移。更高去重率会把同样的 raw tokens 转化为更多有效 fresh tokens,从而改变固定算力下 N 与 D 的相对回报;mixture 改变会改变“有效难度”,使同样 tokens 产生不同的 loss 斜率。DeepSeek-AI [3] 的 5–100 宽带可理解为:当“有效数据量”的定义在变时,任何单一 tokens/param 常数都只能覆盖局部区间。常态化记录 dedup rate、重复 epochs 分布和 mixture 向量,比在预算表里写死一个比例更接近真实控制变量 [7][3]。
§4 loss scaling ≠ task scaling:阈值、抖动与可预测性边界
把 pretraining loss 的幂律外推直接等同于“下游能力外推”,工程上常见两类失效:其一,阈值化评测指标(0-1 accuracy、exact match)会把连续改进压成表观拐点;其二,评测噪声与训练短期波动会让单点分数不稳定。Gadre et al. [5] 的 104 模型 sweep 给出清晰分离:在 over-training 区间,loss 外推仍然平滑可靠,但单个 benchmark 分数会随训练抖动;只有 loss 跨过某个阈值后,分数才更稳定、更可预测。这意味着:即使 compute-optimal 的 loss 曲线拟合良好,也可能无法预测“任务分数何时稳定”。
Bhagia et al. [6] 的 model ladders 给出更可操作的替代路径:先拟合 task perplexity 对 compute,再把 task perplexity 映射到 accuracy;two-step 结构显式吸收阈值化指标的非线性,单任务预测误差可到约 1.9%。其工程含义是:如果目标是某一组任务的分数,而不是纯粹的 loss,就应把“任务可预测性”作为一等公民来拟合与监控,而不是期待一个 loss exponent 兼容所有任务。
关于“突现”,更稳妥的流程是先去阈值化:对同一任务同时记录连续指标(log-prob、task perplexity)与离散指标(accuracy),并把 benchmark 粒度变化作为实验变量。Wei et al. [14] 的 U-shaped 任务曲线与 AGIEval [15] 对评测敏感性的证据都提示:很多看似神秘的拐点,应优先作为“任务定义与评测管线”的产物来排查,而不是直接诉诸内部相变叙事 [5][6][14][15]。
§5 第四轴:vocab 也是 scaling 变量
在 Kaplan/Chinchilla 的传统叙事里,FLOPs ≈ 6·N·D 将 vocabulary 埋在 N 内部,V 因而很少作为预算变量讨论。Tao et al. [22] 的关键处理是显式拆出 vocab:把参数分为 vocabulary 部分 (embedding+unembedding,≈ V·d_model)和 non-vocab 部分 (attention/MLP),并将 FLOPs 重写为 6·()·D。在 fixed-FLOP 下扫描 V 后,IsoFLOP 曲线会在某个 V★ 达到最低 loss,说明 vocab 和 N、D 一样存在 compute-optimal。
他们用三条互补路径定位 V★:(i) IsoFLOP 直接 sweep;(ii) 对 loss 关于 V 求导找零点;(iii) 联合 (N, D, V) 拟合参数化损失函数,再解析求解 V★。在 33M–3B non-vocab 参数与多种 D 上,三条路径一致收敛到 V★ ∝ ^0.27;当 D 充裕、FLOPs 不再是瓶颈时,最优 V 还会继续上移。这个指数远低于 自身的扩张速度,意味着 vocab 应随 N 增长但慢得多,而不是固定在 32K,或照搬另一个家族的 100K+。
直接的工程含义是:在 Llama-2-70B 同 token 预算下,预测 V★ 显著大于 32K;他们用 V≈43K 的 3B 模型在 ARC-Challenge / Hellaswag / MMLU / OpenBookQA 等多任务上击败 Llama-2-70B 的 32K 配置。vocab 选择因此从 tokenizer 美学问题变成算力分配问题。结合 §1 的 N/D 与 §2/§3 的数据轴,更稳的预算流程是先用一组小 IsoFLOP grid 同时扫 (N, D, V),把 vocab 当作常驻第四轴,而不是事后调参 [22][2][3]。
“vocab 跟着 N 长,但慢得多”:V★ ∝ ^0.27 把 tokenizer 选择从美学问题升级为算力分配问题 [22]。
§6 数据 mixture(浓度/配比)也有可拟合的 scaling law
§2 已经把数据轴抬高为一等公民,但重点仍是“是否会主导下游差距”的存在性命题。本节进一步问:mixture 这条轴本身能否被预测,从而把“试错调参”改写为“小代价代理→大模型外推”。从证据链看,过去三年至少形成了三条互补路径:
第一条是 mixture-as-optimization 的 DoReMi [23]。Xie et al. 将 domain 权重学习写成群体鲁棒优化:用一个 280M 的 reference 与一个同规模 proxy,在每步对各 domain 的 excess loss 做 group-DRO,得到一组对最难 domain 也鲁棒的权重;再将这组权重直接迁移到 8B 模型上,The Pile 与 GLaM 的同 step perplexity 和下游 zero-shot 一致变好,达到 baseline perplexity 的训练步数减少约 2.6 倍。其工程价值在于:把“mixture 调参”变成可优化目标,而不是各 domain 经验权重的加和。
第二条是 mixture-as-regression 的 RegMix [24]。Liu et al. 将 mixture 直接形式化为回归问题:在数百到上千个 1M-参数小模型上用不同 mixture vector 训练,将 (mixture-vector → eval-loss) 拟合成 LightGBM 回归代理,再在数千个候选权重中预测最优配方后上规模。代理总成本约为目标 1B 训练算力的 10%,且在 head-to-head 比较中击败 DoReMi 与人工权重。它与 DoReMi 的互补性在于:DoReMi 解决“在线学权重”,RegMix 将权重选择移到 offline 代理空间,工程上更容易并行 sweep。
第三条是 mixture-as-prediction 的 Data Mixing Laws [25]。Ye et al. 不再只学一组权重,而是将 mixture-proportions → loss 写成解析函数(多元指数 + domain 交互),并与 Chinchilla 形式的 N/D scaling law 嵌套:先用一组小模型估计 mixture 函数与 N/D 函数的参数,再在不实跑大模型的前提下,预测任意 mixture 在目标 (N, D) 下的 loss。在 RedPajama 1B/100B 上,预测的 loss 与用 5× 算力实测的训练终点接近,从而把“数据轴 + N/D 轴”变成可联合优化的低维曲面。
三条路径合起来给出一个稳的工程结论:mixture 不再是 scaling law 之外的超参噪声,而是 scaling 体系内一条独立且越来越可预测的轴。和 §1/§3 的“tokens/param≈20 不是常数”、§5 的“vocab 也是变量”一起看,mixture law 让“先做配方 Pareto 再调比例”有了量化抓手 [23][24][25]。
mixture 不再是 scaling law 之外的噪声项,而是体系内一条独立且越来越可预测的轴:DoReMi 学权重、RegMix 拟合代理、Data Mixing Laws 写成解析函数 [23][24][25]。
§7 下游任务 scaling law:transfer-aware、observational 与 task ladders 的三条路线
§4 的判断是“loss scaling ≠ task scaling”,但只说“不要直接外推 accuracy”还不够;本节对照当前最有用的三条下游任务 scaling 路线。
第一条是 transfer-aware 的下游任务 law(Isik et al. [21])。他们在“pretrain → finetune”典型迁移管线(以 MT 为代表)上系统扫描预训练数据规模,得到一个朴素但常被忽视的事实:当预训练分布与下游分布对齐时,下游 metric(BLEU/ROUGE)与 cross-entropy 都呈现可拟合的幂律,且趋势一致;分布失配时,loss 仍可平滑下降,BLEU 等 task metric 却会非单调甚至倒退。结论是:下游任务 law 必须以 pretrain–downstream alignment 为条件;alignment 是它的隐变量。
第二条是 observational scaling laws(Ruan et al. [26])。他们不训练新模型,而是对 ~80 个公开模型的 benchmark 分数做后验拟合:从分数矩阵中抽取低维 capability 空间(“effective compute”),再把任意单任务分数与该空间做幂律映射,从而外推未训练模型的能力。它的工程价值在于:在现实中缺少完整 (N, D, V, mixture) 元数据时,仍能给跨模型族能力预测提供统一坐标系,并对“某个能力是否会随 scale 出现”这类问题给出后验回答;他们也把这套方法用于 emergent ability 与 agent 任务。
第三条是 task ladders(Bhagia et al. [6],已在 §4 出现)。它把单任务建成两段:compute → task perplexity(连续指标,对噪声更稳)→ accuracy(离散指标),用 model ladders 的小规模 sweep 拟合两段函数,把单任务预测误差压到 ~1.9%,更直接服务于“离任务可用阈值还差多少 FLOPs”这类决策。
三条路线原则上互补:Isik 处理 transfer 场景的 alignment 边界;Ruan 处理跨模型族的事后预测;Bhagia 处理同一族内从小规模到大规模的外推。把它们和 §6 的 mixture law、§5 的 vocab law 串起来,可以形成一条端到端的“可预测 scaling”:mixture+vocab+(N,D) 决定 loss,loss 通过 task ladder(同族内)或 effective-compute 空间(跨族)映射到任务分数,最后再由 alignment 调制 [21][26][6]。
下游任务 scaling 不是“一条曲线兜底”,而是 transfer-aware(Isik)+ observational(Ruan)+ task ladders(Bhagia)三条互补路线,alignment 是它们共同的隐变量 [21][26][6]。
时间线
- Kaplan:联合幂律与固定算力预算推导(偏大模型的局部最优)[1]
- Chinchilla:把 undertraining 显式纳入,tokens/param≈20 成为经验中心[2]
- 数据受限:重复 epochs 的收益边界(≤4 epochs 近似等价 fresh tokens)[7]
- 开源重拟合:tokens/param 在 5–100 宽带漂移,recipe 依赖被显式化[3]
- over-training:loss 平滑但任务分数抖动,阈值后才更可预测[5]
- task scaling:model ladders + two-step 回归把单任务预测误差压到 ~1.9%[6]
- DoReMi:mixture-as-optimization,用 group-DRO 学 domain 权重,8B 步数 ~2.6× 收敛[23]
- 下游任务 law:transfer-aware,alignment 决定 loss→BLEU 是否同号[21]
- Data Mixing Laws:mixture-as-prediction,把 mixture→loss 写成解析函数并嵌套 N/D law[25]
- Observational scaling laws:用 ~80 个公开模型反推 effective compute 与跨家族能力预测[26]
- vocab 第四轴:V★ ∝ ^0.27,主流模型显著欠配置 vocab[22]
- RegMix:mixture-as-regression,1M-级 sweep 拟合 LightGBM 代理预测最优配方[24]
研究立场对比
阵营 A:Kaplan-style — 可移植 exponent,固定算力优先堆参数
立场 — 联合幂律足够稳定,可用少量小模型 sweep 外推到更大规模;在固定算力下应优先增大 N,tokens 只要“够用”。这条路线在早期大模型(如 GPT-3 时代)被广泛采用,工程上也更符合“先把模型做大再补数据”的组织惯性 [1][17]。
反方 — 反驳 c-861b5bafc8 / c-1f9ceebe32 / c-a34e28d5d3:当 undertraining 被显式建模并用 IsoFLOP+外推校正后,固定算力最优点会向更多 tokens 移动 [2];开源重拟合进一步表明最优 tokens/param 会随 recipe 漂移到 5–100,无法把“堆参数”当作跨设定的默认最优 [3]。
判词 — 更务实的定位:Kaplan 的幂律适合作为“同一 recipe 内的局部外推器”,不适合作为跨 recipe 的预算常数。固定算力下是否优先堆 N,需要先用 IsoFLOP 小 grid 证明当前 schedule 没把你锁在 undertraining 区间 [1][2]。
阵营 B:Chinchilla-style — tokens/param≈20 作为默认配方
立场 — 在固定算力下,较小模型配更多 tokens 更划算;tokens/param≈20 是可复用的经验中心,能避免“训练不够久”的系统性浪费。开源侧 LLaMA/Llama 2 的高 token 训练也被视作工程复现 [2][8][9]。
反方 — 反驳 c-0f12d82e0e / c-6669a9cdef / c-e2361a4007:tokens/param≈20 在很多设定里是好起点,但不是可移植常数。DeepSeek-AI [3] 的公开重拟合把最优点拉宽到 5–100,且对 batch schedule 与数据配方敏感;数据受限时,重复 epochs 的边界(≤4)会直接改变“有效 tokens”,让固定比例失真 [7]。
判词 — 结论层面的建议:把“≈20”当作默认初始化点,而不是预算表常数;每次换 schedule、去重策略或 mixture,都应当用 6 点左右的 token/param grid 重新定位局部最优 [2][3]。
阵营 C:Data-mixture pragmatists — 先把数据配方做对,再谈最优斜率
立场 — 数据筛选、去重、freshness 与 mixture 是独立于 N 与 D 的第一类变量;在固定预算下,数据配方带来的差距常常不小于一次参数规模升级。DCLM 把这点做成可复现平台,并给出 ≥7 pp 的固定预算差距 [4]。
反方 — 修正 c-8a6b54a19e / c-b54170330d / c-f7286a59b8:数据配方确实能主导,但“越 curated 越好”并不稳。RefinedWeb 的 web-only 反例表明在某些规模与任务上,过滤后的 web 数据可以胜过 curated mixture [11];因此更像是“先做数据 Pareto”,而不是预设某类语料天然更优 [4][11]。
判词 — 一个更稳的读法:把数据配方当作与 N、D 并列的第三轴,并在固定 (N, D) 下先做过滤×mixture 的 Pareto;只有当数据轴收敛后,再讨论 tokens/param 的精细最优点才不容易被噪声淹没 [4][13]。
阵营 D:Against emergence-as-magic — 多数“突现”来自指标与评测管线
立场 — 许多看似突然出现的能力来自 0-1 指标阈值化、benchmark 粒度与评测噪声;用连续指标(task perplexity、log-prob)与更稳健的评测协议后,曲线更接近平滑提升。over-training 的任务分数抖动与阈值稳定性也支持把“突现”优先当作可测的评测现象 [5][6]。
反方 — 反驳 c-b6d5738eb8 / c-f19d4b4475 / c-2017e034b2 的“全归因”版本:并非所有阈值都能被指标解释。GPT-4 技术报告展示了部分能力在小模型上接近不可用、在大模型上可用的阶跃现象 [19];数学推理也被报告存在更强的门槛效应 [20]。更稳的做法是把阈值分成两类:指标阈值(可去阈值化)与任务门槛(需要机制或数据改变)。
判词 — 结论层面的建议:默认先做评测去阈值化与重复测量(同一任务同时记录 task perplexity 与 accuracy,并做多 seed/多 checkpoint),只有在连续指标也出现拐点时,才把它升级为“可能的任务门槛”去追机制 [5][6][19]。
阵营 E:mixture-as-prediction — 数据浓度/配比也是可预测的 scaling 轴
立场 — 数据 mixture 不再是 scaling law 之外的超参噪声:mixture-vector→loss 是一个可拟合的低维曲面,可以用群体鲁棒优化(DoReMi)、回归代理(RegMix)或解析嵌套(Data Mixing Laws)在小规模上预选最优配方再上规模,从而把数据轴和 (N, D) 一起做闭环优化 [23][24][25]。
反方 — 需要注意的边界:三类方法的“可迁移性”与代理规模强相关——proxy/regressor 在 1M–280M 量级 fit 出的最优配方在更大模型上仍可能漂移;DoReMi/RegMix 的 head-to-head 对照本身也表明,不存在跨数据集普遍最优的“元算法”,需要把 mixture law 当成 recipe 局部代理而不是普适常量。
判词 — 结论层面的建议:在每个 recipe 内部把 mixture 作为可预测轴单独 sweep;预算谈判前先用代理预选配方,并把代理预测与小规模实测的偏差作为 recipe 风险指标记录在案 [24][25]。
阵营 F:vocab-as-axis — vocab 是继 N、D、配方之后的第四条 scaling 轴
立场 — vocab 不应被埋进 N 里。把参数拆成 后,FLOPs ≈ 6·()·D 让 V 成为一阶预算变量;在 fixed-FLOP 下扫 V 会得到一条 IsoFLOP 曲线,最优值满足 V★ ∝ ^0.27,主流模型(如 Llama-2-70B 的 32K)在该预算下显著欠配置 [22]。
证据:[22]
反方 — 限制:V★ 的指数 0.27 来自 33M–3B 的 IsoFLOP 拟合,并未在 ≫10B 上完整外推;它也没有把 multilingual / 代码 / 工具调用等 token 分布差异显式建模——这些场景里 vocab 的“最优值”可能由覆盖率而非 IsoFLOP 主导。
判词 — 结论层面的建议:在每个新模型族开训前,把 V 加进 IsoFLOP grid(至少扫 3–4 个 V 值),并把 V★ ∝ ^0.27 作为缺省外推;如果训练涵盖 multilingual / 代码 / 多模态 token,再额外检查 token 覆盖率约束 [22]。
实践要点
可执行清单(按“先减少混杂,再做外推”的顺序):
1) DO:每个新 recipe 上线前跑一个紧凑 IsoFLOP token/param grid,至少覆盖 5、10、20、40、80、100 六个点;把“≈20”当初始化点而不是常数 [2][3]。
2) DO:把 D 拆成 fresh tokens × epochs,并把 dedup rate、重复分布(均值/分位数)写进训练日志;平均重复 >4 epochs 时默认边际收益开始衰减,除非同设定下有对照证据 [7]。
3) DO:固定 (N, D) 做数据过滤阈值×mixture 权重的 Pareto sweep;如果下游差距已到 ≥7 pp,先收敛数据轴再讨论 tokens/param 的精细最优 [4][13]。
4) DO:把 mixture 选择从“专家拍脑袋”升级为可拟合代理:在 1M-级小模型上做 mixture sweep + 回归代理(RegMix),或解析地嵌套 mixture-law 与 N/D-law(Data Mixing Laws);上规模前用代理预测最优配方,再做一次 head-to-head 对照 [24][25][23]。
5) DO:把 vocab 当成第四条 scaling 轴:在小规模 IsoFLOP 上额外扫 V,并以 V★ ∝ ^0.27 作为缺省外推;不要把别家的 32K/100K 直接搬过来 [22]。
6) DON'T:只用 pretraining loss 的幂律去外推单任务 accuracy;在 over-training 区间,loss 平滑不代表任务分数稳定,单点评测会抖动 [5]。
7) DO:对关键任务用 two-step(task perplexity→accuracy)做可预测性建模;把“单任务预测误差”当作 recipe 质量门槛,目标量级参考 ~1.9% [6]。
8) DO:迁移场景下显式记录 pretrain–downstream alignment 代理量(domain overlap、token-level 分布相似度):alignment 充足时 loss 与下游 metric 同号,可一并外推;alignment 不足时只信任 loss 趋势,单独监控下游 metric 是否非单调 [21]。
9) DO:跨模型族做能力预测时优先用 observational scaling laws:从公开 benchmark 拟合 effective compute 与 capability 空间,而不是要求每家公开 (N, D, V, mixture) 全套元数据 [26]。
10) DON'T:把“web-only 一定差”或“curated 一定好”写成先验;RefinedWeb 的反例说明需要按 domain 与评测集合做对照 [11]。
11) DO:对“突现”先做去阈值化评测:同一任务同时记录连续指标与离散指标,并做多 checkpoint 轨迹;只有连续指标也出现拐点时再追机制 [5][14][15]。
12) DO:在组织层面把 scaling law 当监控件:每次换 batch/LR schedule、去重策略、mixture 或 vocab,都触发一次小规模重拟合;把重拟合结果(最优点与置信区间)作为预算审批的输入,而不是引用旧比例 [3][2][22]。 下游任务侧的 scaling 工件——loss→score 传递函数、per-task ladder、observational 回归——在姊妹篇 `scaling-laws-downstream-tasks` 详谈,本篇只在 §0 与 §7 给出钩子。
悬而未决的问题
- Q1.哪些公开工作直接在同一数据与模型族上,系统重拟合“compute-optimal tokens/param”随 LR schedule、batch-size schedule、训练步数变化的漂移量?当前证据更多来自工程报告式重拟合,缺少统一协议 [3][2]。
- Q2.在严格 fixed-FLOP 下,数据过滤/去重/mixture 是否会系统性移动 compute-optimal 前沿(而不只是固定 (N, D) 下改变下游分数)?DCLM 给了固定预算差距,但与 compute-optimal 的耦合仍缺直接量化 [4]。
- Q3.关于“突现是评测产物”的最强证据链需要更细:同一任务在连续指标与离散指标下的曲线差异、以及评测粒度/噪声对拐点的贡献,仍缺少跨任务的统一实验框架 [5][15]。
- Q4.下游任务分数能在多大范围内由 pretraining loss 预测?哪些任务更接近“平滑可预测”,哪些更接近“阈值主导”?目前 task ladders 给了可行路线,但任务覆盖仍偏向特定题型 [6][21]。
- Q5.重复 tokens 与 fresh tokens 的“等价区间”是否会随模型规模、数据 domain、去重策略而移动?Muennighoff et al. 给出 ≤4 epochs 的经验边界,但缺少更细的条件化刻画 [7]。
- [1]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [2]Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
- [3]DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, et al.. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv, 2024论文
- [4]Jeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Yitzhak Gadre, et al.. DataComp-LM: In search of the next generation of training sets for language models. NeurIPS, 2024论文
- [5]Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, et al.. Language models scale reliably with over-training and on downstream tasks. arXiv, 2024论文
- [6]Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, et al.. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
- [7]Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, et al.. Scaling Data-Constrained Language Models. arXiv, 2023论文
- [8]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
- [9]Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, et al.. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
- [10]Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, et al.. Mistral 7B. arXiv, 2023论文
- [11]Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, et al.. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
- [12]Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, et al.. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
- [13]Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
- [14]
- [15]Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, et al.. AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models. arXiv, 2023论文
- [16]Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, et al.. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
- [17]Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, et al.. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
- [18]Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, et al.. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. arXiv, 2022论文
- [19]
- [20]Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, et al.. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv, 2023论文
- [21]Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, et al.. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
- [22]Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies. NeurIPS 2024 (spotlight), 2024论文
- [23]Sang Michael Xie, Hieu Pham, Xinyang Geng, Daphne Ippolito, Stephen Mussmann, Tatsunori B. Hashimoto, Quoc V. Le, Tengyu Ma, Adams Wei Yu. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. NeurIPS, 2023论文
- [24]Qian Liu, Xiangyu Zhang, Zhenghao Lin, Weizhu Chen, Min Lin. RegMix: Data Mixture as Regression for Language Model Pre-training. ICLR, 2025论文
- [25]Jiasheng Ye, Peiju Liu, Tianxiang Sun, Yunhua Zhou, Yuhao Zhou, Xipeng Qiu. Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance. ICLR, 2025论文
- [26]Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto. Observational Scaling Laws and the Predictability of Language Model Performance. NeurIPS, 2024论文
- [27]
- [28]