TL;DR
一条更稳的读法是:下游任务并不天然“不可预测”,多数所谓涌现先要过两道筛。第一道筛是指标:Wei et al. [1] 展示的很多跳变,在 Schaeffer et al. [2] 的连续 surrogate 下会变成平滑曲线;如果 exact-match 换成 token-level 概率或 BPB-of-correct-completion 后仍有拐点,再谈真实阈值更合适。第二道筛是横轴:Du et al. [3] 表明用 pretraining loss 比用 compute 更能统一不同架构、token 预算和 dense/sparse 训练轨迹。工程上,Bhagia et al. [5] 的 model ladder 与 Ruan et al. [6] 的 observational scaling 已经把预测成本压到主训前可接受范围:前者适合 arch 和 recipe 决策,后者适合 data-mix 初筛与外部 sanity check。真正该保守的地方有三处:离散验收指标不能被随意替换,代码执行和 agentic 成功率常常不接受 surrogate;post-training 会扭曲 pretrain 曲线,Isik et al. [7] 说明传递并非总是稳定;当曲线出现多相位或斜率突变时,应直接退回 Caballero et al. [8] 的 broken law,而不是硬套单一幂律。结论层面的建议很简单:先用 loss 轴和连续 surrogate 建立可预测部分,再把不能被这套方法解释的任务单独列为高风险验收项。
核心断言
§0 历史脉络:从“涌现是惊喜”到“预算前可审计的传递函数”
Emergent->Mirage->Loss perspective->Over-training->Task ladders->Observational
下游任务 scaling 的历史,是一条从“惊喜”到“消歧”再到“可工程化”的曲线。[1] 把若干离散指标上的“跳变”称为涌现,将下游能力置于“无法预测”的位置;[2] 用连续 surrogate 替换 exact-match,证明许多“跳变”是离散指标制造的台阶,并非能力本身的阈值。[3] 引入 loss 视角:把下游分数视作 pretraining loss 的函数,在多数任务上得到平滑、可外推的 L→score 传递函数;[4] 将这一观察工程化为 over-training 区间下的可外推预测;[5] 进一步用小成本 model ladder 拟合每个具体任务的 task scaling law,而不是套用 loss 上的同一条幂律;[6] 提出 observational scaling:不重新训练,只回归一组已发布模型来预测新模型的下游分数。至此,下游 scaling 已从“涌现是惊喜”变成“预算前可审计的传递函数”;[8] 的 broken neural scaling laws 则在多相位、阈值或斜率反转出现时提供诚实风险披露,成为现代 ship/no-ship 风险带宽的标准工件。
§1 先把“涌现”拆开:指标造成的台阶,和能力本身的阈值,不是一回事
Wei et al. [1] 的贡献是把问题摆上台面:一些 BIG-Bench 任务在模型变大后出现近似台阶式提升。但图上的台阶不等于底层能力有台阶。Schaeffer et al. [2] 对 [1] 的反驳抓住了一个直接机制:如果底层“答对概率”随规模平滑上升,而评估只记录 0/1 完全正确,阈值附近的窄区间就会被离散化放大,看起来像能力突然出现。这不是文字游戏,因为它给出可操作检验:把 exact-match 换成 token-level Brier、answer log-prob 或 BPB-of-correct-completion,再看曲线是否仍有拐点。若拐点消失,先前讨论的是测量非线性;若拐点保留,才有理由怀疑任务本身存在多阶段学习。Du et al. [3] 补上第二层:即使指标换对了,若横轴仍用 compute,训练配方差异也会把同一学习状态投影到不同位置,制造“晚到的能力”。因此,更稳的流程是先做 surrogate 检查,再把横轴切到 pretraining loss。只有两步之后仍无法解释的拐点,才值得交给 Caballero et al. [8] 的 broken law 处理,而不是一开始就把所有跳变都当成神秘现象。
先问“是不是指标把平滑曲线折成了台阶”,再问“是不是任务真的有阈值”。顺序反过来,几乎一定会高估不可预测性。
§2 真正可工程化的对象不是 compute,而是“loss 到任务分数”的传递函数
Kaplan/Chinchilla 一类 scaling law 回答的是“给定算力,模型和数据怎么配”,但下游团队关心的是另一个问题:“loss 再降一点,哪些任务会跟着涨”。Du et al. [3] 的价值在于把下游表现写成 pretraining loss 的函数,而不是 compute 的函数。这样做有两个直接收益。第一,它更贴近训练状态本身,因此 dense/sparse、不同 token 预算、不同架构之间更容易对齐。第二,它把预测从“外推训练成本曲线”改成“外推 transfer curve”,后者更适合用小模型试验估计。DataComp-LM 的结果 [4] 说明,即使在 over-training 区间,小规模实验仍能为大模型下游表现提供稳定方向信号。Bhagia et al. [5] 将其进一步 recipe 化:训练 1B/2B/4B 或更小 rung,逐任务拟合,再外推到目标规模。Ruan et al. [6] 走另一条路:不训练 rung,而是用公开模型族的 benchmark 向量学习低维 capability manifold,再回归目标任务。两者不是替代关系。若要比较自家两种 arch 或 mid-train recipe,公开模型的 manifold 往往缺少同分布样本,梯子更稳;若只是先筛 5 个 data mix,observational regression 往往已经够便宜,也足够快。
| 路线 | 横轴/状态变量 | 额外成本 | 适合的决策 | 主要失效点 |
|---|---|---|---|---|
| compute 外推 | compute、参数量、token | 最低;常可复用已有训练日志 | 粗粒度预算估算、是否 over-train | 配方变化时对齐差;下游传递不稳 [4] |
| loss→task 传递 | pretraining loss | 低到中;需要密一点的 checkpoint 评估 | 跨架构/预算对齐、任务外推 [3] | post-training 后映射可能重排 [7] |
| model ladder / observational | 小模型 rung 或 capability manifold | 梯子:中;观测:很低 | 梯子受 rung 数量限制;观测受分布漂移限制 |
§3 预测曲线一旦穿过 SFT/RLHF,就不再只是 pretrain 问题
很多团队在这里的错误是:用 pretrain loss 成功预测 base model 后,就默认这套排序会原样传到 instruction-tuned 或 preference-tuned 模型。Isik et al. [7] 给出的结论更细:pretraining 改善通常能传到下游,但传递强度随任务变化,fine-tuning 也会改变各任务对底层能力的放大倍数。换言之,base model 上 0.02 的 BPB 改善,不保证会在最终产品指标上按同样比例兑现。OLMo 团队 [11] 的开放 checkpoint 和训练细节重要,是因为它们暴露了中间态,而不只是“pretrain 终点”和“chat 终点”两个点。另一层风险来自 Ruan et al. [6] 依赖的 capability manifold:如果公开模型池越来越多混入重度 RLHF 或 reasoning-RL 产物,主成分就不再主要反映 pretraining 能力,而会掺入后训练风格和偏好对齐成分。observational scaling 仍可用,但必须监控 drift,例如 capability 轴与 base-model loss 轴的相关性是否持续下降。DeepSeek-V3 技术报告 [12] 和类似工业报告表明,真实 recipe 决策已经把 pretrain、mid-train、post-train 连在一起评估;因此,下游缩放律若要服务 ship/no-ship,至少必须显式区分“base 可预测性”和“post-train 可预测性”两层,不能把二者压成一条曲线。
能预测 base model,不等于能预测产品模型。中间那层 post-training 不是噪声,而是新的传递函数。
§4 何时该承认单一幂律不够:broken law 不是失败,而是风险披露
工程上最危险的不是没有曲线,而是曲线已经分段后仍强行报告一个漂亮的单指数。Caballero et al. [8] 表明,多相位学习并不罕见:不同数据子技能、优化机制或上下文使用策略会在不同训练阶段接管主导项,带来斜率变化、平台期甚至局部反转。Pythia [9] 和 Cerebras-GPT [10] 这类开放 scaling suite 的价值,正是让这些现象可观测。只有 2–3 个终点模型时,任何 broken behavior 都容易被误读成噪声;有了多 size × 多 checkpoint 网格,才有条件区分“拟合误差”和“机制切换”。这也解释了为什么 Bhagia et al. [5] 的 ladder 不能只做两级:rung 太少会让外推显得便宜,却把结构不确定性藏到置信区间之外。更务实的定位是:单一幂律适合作默认基线,因为样本效率高、沟通成本低;broken law 适合作高风险任务的二次审查,尤其是多步数学、代码执行、agentic 规划这类离散验收强、阶段性学习明显的任务。若 ladder 拟出的阈值位置在最终主训中偏离超过预设带宽,例如 loss 阈值误差超过 10%–15%,就应停止沿用单一幂律,将该任务切换到 broken-law 验收通道。
时间线
- Wei et al. 把“涌现”作为下游不可预测性的代表现象摆上台面[1]
- Caballero et al. 给出 broken law,提醒单一幂律并非总是诚实近似[8]
- Schaeffer et al. 把大量跳变改写为离散指标的观测假象[2]
- Pythia 公开多 size × 多 checkpoint 套件,为 observational 与 broken-law 检验提供样本网格[9]
- Isik et al. 把问题推进到 post-training:pretrain 改善并不总按原比例传递[7]
- Du et al. 用 pretraining loss 统一下游轨迹,compute 轴不再是默认选择[3]
- DataComp-LM 证明 over-training 区间仍可做稳定外推,小规模试验进入 SOP[4]
- Ruan et al. 提出 observational scaling,用公开模型回归低成本预测下游表现[6]
- Bhagia et al. 把 model ladder 写成可复用 recipe,主训前预测更接近标准流程[5]
研究立场对比
阵营 A:下游能力本质上是阈值式涌现,小模型几乎不给可用先验
立场 — 这一读法以 Wei et al. [1] 为代表:许多任务在小模型区间几乎贴地,到某个规模后突然抬升,因此主训前外推价值有限。
证据:[1]
反方 — 反驳点在两层。第一,Schaeffer et al. [2] 说明大量跳变来自离散指标。第二,Du et al. [3] 说明 compute 轴会制造错位。也就是说,原图上的“突然出现”常常混合了指标非线性和横轴选择误差。
判词 — 一条更稳的读法是:先默认“可预测但可能被测量方式遮蔽”,只有在 surrogate 与 loss 轴都校正后仍保留拐点时,才把任务归入真实阈值类。
阵营 B:compute 轴已经足够,没必要再引入 loss 轴
立场 — 这一读法认为只要小规模实验设计得当,compute→任务分数的外推已经能支持大多数预算决策,额外引入 loss 只会增加评估复杂度 [4]。
证据:[4]
反方 — Du et al. [3] 修正这一点:compute 更像资源记账,不是学习状态本身。架构、token 预算、稀疏性变化时,同样的 compute 可能对应不同 loss,因此 compute 轴更适合粗预算,不适合跨 recipe 对齐。
判词 — 结论层面的建议是:compute 轴保留作一阶预算工具;一旦比较对象跨 arch、跨 token 预算或跨 dense/sparse,主预测轴切到 pretraining loss。
阵营 C:公开模型的 observational scaling 已足够,没必要自训梯子
立场 — Ruan et al. [6] 代表的路线主张:公开模型已经覆盖了丰富的能力空间,用低维 manifold 回归即可低成本预测新模型表现,尤其适合快速筛选候选方案。
反方 — Bhagia et al. [5] 反驳的重点不是观测法无效,而是它对 recipe shift 更脆弱。公开模型池若缺少与你目标 arch、数据清洗、mid-train 策略相近的样本,回归误差会被系统偏差主导。
判词 — 一个更务实的定位是:observational scaling 用于 data-mix 初筛和外部 sanity check;architecture、optimizer、mid-train recipe 选择必须有自家 ladder 兜底。
阵营 D:单一幂律足以覆盖大多数任务,broken law 只是过拟合
立场 — 这一读法强调单一幂律样本效率高、参数少、沟通简单,因此应作为默认模型;分段或 broken 拟合容易把噪声误判成结构 [4]。
反方 — Caballero et al. [8] 给出的修正是:当斜率变化来自真实机制切换时,单一幂律的偏差不是随机噪声,而是系统性误导。Pythia [9] 的密集 checkpoint 也说明,多相位行为需要被显式建模,而不是被平均掉。
判词 — 结论层面的建议是:单一幂律做默认基线,broken law 做高风险任务的二次审查;若阈值位置或尾部误差超出预设带宽,就切换模型,而不是继续美化单一拟合。
实践要点
可操作清单:
1. 先做指标分层,再谈缩放。knowledge QA、抽取、分类这类任务,先同时记录 exact-match 与连续 surrogate,如 answer log-prob、token-level Brier 或 BPB-of-correct-completion;若 surrogate 曲线单调而 exact-match 跳变,就按 [2] 处理为测量非线性。代码执行 pass@1、tool-use 成功率、agentic 终局成败,不要只靠 surrogate 做 ship/no-ship,因为验收本身就是离散的。
2. 主预测轴优先用 pretraining loss,不要把 compute 当学习状态。[3] 已经给出足够强的理由。compute 保留给预算表,loss 用于跨 arch、跨 token 预算、跨 dense/sparse 的对齐。
3. data-mix 初筛可以先走 observational,再决定是否补梯子。若只是 5 个语料 mix 选 1 个,先用 [6] + 公开模型族做低成本排序;若 top-2 差距小于目标任务 1–2 个百分点,或 capability manifold 与自家 base loss 相关性明显下降,再补 3-rung ladder。
4. architecture、optimizer、mid-train recipe 决策不要偷懒,直接训梯子。[5] 的启发很明确:这类决策的系统偏差大于观测法的便宜优势。经验边界可以设为至少 3 个 rung,最好覆盖目标规模的 1/16、1/8、1/4 左右;只有两级 rung 时,不要给出窄于 ±15% 的阈值承诺。
5. 置信区间不要只报统计误差,要单列结构误差。单一幂律拟合得再好,也不代表任务没有 regime shift。[8] 提醒的是模型族风险,不只是拟合技巧。对数学、代码、agentic 任务,默认再跑一次 broken-law 备选拟合。
6. 把 post-training 当成第二层 transfer model,而不是尾部小修小补。[7][11] 都说明,base 排序不必然保留到 instruction-tuned 排序。实操上至少在 2–3 个代表 checkpoint 上做轻量 SFT 校准,单独估计“base→product”斜率。
7. 监控 observational manifold drift。若公开模型池越来越多是 RLHF 或 reasoning-RL 产物,PCA 主轴会漂。一个简单监控量是 capability 主轴与 base-model validation loss 的相关性;若连续两轮下降并跌破内部阈值,例如 0.7,就降低 observational 权重,回到自训 ladder [6][12]。
8. 不要把开放 scaling suite 当论文附录,要把它当训练数据。Pythia [9]、Cerebras-GPT [10]、OLMo [11] 这类资源的价值,在于它们让你能先验证预测器本身,再决定是否相信预测结果。 loss 侧的 (N, D, mixture, V) 四轴 sweep 在姊妹篇 `scaling-laws-llm` 详谈;本篇负责把那条曲线投影到具体下游任务上。
悬而未决的问题
- Q1.surrogate 选择树还不够清楚:knowledge QA 与抽取任务常可用 BPB-of-correct-completion 近似,但代码执行、交互式 tool use、agentic 多步成功率何时能用连续 surrogate,仍缺少公开的受控实验。
- Q2.阈值位置 L* 是否可从小模型 ladder 稳定外推,证据仍不足。一个可证伪目标是:对多步数学或代码任务,ladder 外推的 loss 阈值与主训实测阈值误差应控制在 ±10%–15% 内;超出则默认切换 broken-law。
- Q3.observational scaling 的 capability manifold 在后训练占比上升后会不会失稳,仍缺少系统漂移基准。需要公开数据集同时标注 base 与 post-trained 模型,才能分离 pretrain 能力轴与 alignment/style 轴。
- Q4.pretrain→SFT/RLHF/distill 的 transfer model 目前多是经验结论,缺少统一参数化。尤其 o1 风格 reasoning-RL 之后,原先 loss→task 的单调关系是否保留,公开证据还不够。
- Q5.生产决策中的“多窄才够用”尚未标准化:预测区间需要窄到多少,才足以支持 5-mix 选 1、是否换 arch、是否继续 mid-train,这类 ship/no-ship 决策仍主要靠团队内部经验。
- [1]Jason Wei, Yi Tay, Rishi Bommasani, et al.. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022论文
- [2]Rylan Schaeffer, Brando Miranda, Sanjit A. Seshia, et al.. Are Emergent Abilities of Large Language Models a Mirage?. NeurIPS 2023, 2023论文
- [3]Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang. Understanding Emergent Abilities of Language Models from the Loss Perspective. NeurIPS 2024, 2024论文
- [4]Samir Yitzhak Gadre, Mitchell Wortsman, Ludwig Schmidt, et al.. Language Models Scale Reliably With Over-Training and on Downstream Tasks. ICML 2024, 2024论文
- [5]Aaditya Bhagia, et al.. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
- [6]Yuchen Ruan, et al.. Observational Scaling Laws and the Predictability of Language Model Performance. arXiv, 2024论文
- [7]Berkin Isik, et al.. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
- [8]Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger. Broken Neural Scaling Laws. ICLR 2023, 2023论文
- [9]Stella Biderman, et al.. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. ICML 2023, 2023论文
- [10]Sasha Li, et al.. Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Dolma Dataset. arXiv, 2023论文
- [11]
- [12]