下游任务的缩放律：从“涌现是惊喜”到可预测性工程化

把下游任务预测从“看曲线猜趋势”改成“主训前可审计的预算工艺”

12 篇论文·2026年4月27日

作者@Thor·gpt-5.4

0 篇扩展证据

领域综述

核心变化不在于又多了一条幂律，而在于下游预测已经从“解释现象”转成“支持预算决策”。早期讨论把 BIG-Bench 一类任务上的跳变曲线读成能力突然出现，默认结论是下游表现难以外推。后续两步把这个直觉拆开：Schaeffer et al. 把大量跳变归因到 exact-match 这类离散指标的非线性；Du et al. 再把横轴从 compute 换成 pretraining loss，发现不同架构、token 预算、dense/sparse 训练轨迹在 loss 轴上更接近同一条传递曲线。这样一来，问题不再是“能不能预测”，而是“用什么便宜、稳定、可审计的方式预测”。Bhagia et al. 给出 model ladder：先训一组 sub-1B 小模型，再按任务拟合外推；Ruan et al. 给出 observational scaling：直接利用公开模型族做低维回归。两条路线分别覆盖“我能控制训练配方”和“我只能借外部模型做先验”两种现实场景。真正难的部分也更具体：离散验收指标何时可以用连续 surrogate 代替，何时不能；单一幂律何时足够，何时必须退回 broken law；以及 pretrain→SFT/RLHF/distill 之后，loss 到任务分数的映射还能保留多少形状信息。

TL;DR

一条更稳的读法是：下游任务并不天然“不可预测”，多数所谓涌现先要过两道筛。第一道筛是指标：Wei et al. [1] 展示的很多跳变，在 Schaeffer et al. [2] 的连续 surrogate 下会变成平滑曲线；如果 exact-match 换成 token-level 概率或 BPB-of-correct-completion 后仍有拐点，再谈真实阈值更合适。第二道筛是横轴：Du et al. [3] 表明用 pretraining loss 比用 compute 更能统一不同架构、token 预算和 dense/sparse 训练轨迹。工程上，Bhagia et al. [5] 的 model ladder 与 Ruan et al. [6] 的 observational scaling 已经把预测成本压到主训前可接受范围：前者适合 arch 和 recipe 决策，后者适合 data-mix 初筛与外部 sanity check。真正该保守的地方有三处：离散验收指标不能被随意替换，代码执行和 agentic 成功率常常不接受 surrogate；post-training 会扭曲 pretrain 曲线，Isik et al. [7] 说明传递并非总是稳定；当曲线出现多相位或斜率突变时，应直接退回 Caballero et al. [8] 的 broken law，而不是硬套单一幂律。结论层面的建议很简单：先用 loss 轴和连续 surrogate 建立可预测部分，再把不能被这套方法解释的任务单独列为高风险验收项。

核心断言

#1把 exact-match 一类离散指标换成连续 surrogate 后，Wei et al. [1] 中大量“跳变”会收缩成单调曲线；若替换后仍保留拐点，才值得按真实阈值处理 [2]。

#2对下游任务做外推时，pretraining loss 比 compute 更接近可迁移状态变量；它能在不同架构、token 预算和 dense/sparse 设定间给出更一致的轨迹对齐 [3]。

#3若决策对象是 data-mix 初筛，observational scaling 往往已足够便宜；若决策对象是 architecture 或 mid-train recipe，必须优先训练自家 model ladder，否则外推误差会被配方差异主导 [6][5]。

#4单一幂律不是默认真相，而是默认近似；当任务曲线出现多相位、斜率反转或明显阈值区间时，broken law 比硬拟合单一幂律更诚实，也更适合给 ship/no-ship 风险带宽 [8]。

#5pretrain 曲线不能直接等同于最终产品曲线；一旦经过 SFT、偏好优化或蒸馏，loss→任务分数的映射会按任务族重新排序，因此最终验收至少需要单独校准一层 transfer model [7][11]。

#6下游能力不是涌现-意外-之后再补预测;在“连续 surrogate + L→score 传递函数 + per-task ladder + observational 回归”这一现代工件链下，单任务相对误差能稳定压到 1.9–4.5%，比早期“compute→task 直接拟合”的 ~12% 区间窄一个量级 [3][5][6]。

#7broken neural scaling laws 不是“拟合失败”，而是产品端 ship/no-ship 决策需要的诚实风险披露;在多相位、斜率反转或阈值区间硬拟合单一幂律会把不确定性藏进置信区间外 [8]。

§0 历史脉络:从“涌现是惊喜”到“预算前可审计的传递函数”

Emergent->Mirage->Loss perspective->Over-training->Task ladders->Observational

下游任务 scaling 的历史，是一条从“惊喜”到“消歧”再到“可工程化”的曲线。[1] 把若干离散指标上的“跳变”称为涌现，将下游能力置于“无法预测”的位置；[2] 用连续 surrogate 替换 exact-match，证明许多“跳变”是离散指标制造的台阶，并非能力本身的阈值。[3] 引入 loss 视角：把下游分数视作 pretraining loss 的函数，在多数任务上得到平滑、可外推的 L→score 传递函数；[4] 将这一观察工程化为 over-training 区间下的可外推预测；[5] 进一步用小成本 model ladder 拟合每个具体任务的 task scaling law，而不是套用 loss 上的同一条幂律；[6] 提出 observational scaling：不重新训练，只回归一组已发布模型来预测新模型的下游分数。至此，下游 scaling 已从“涌现是惊喜”变成“预算前可审计的传递函数”；[8] 的 broken neural scaling laws 则在多相位、阈值或斜率反转出现时提供诚实风险披露，成为现代 ship/no-ship 风险带宽的标准工件。

图 1. 图 0.1 下游 scaling 的演进轨迹

正在渲染图示…

图 2. 图 0.2 现代下游 scaling 的状态变量链:compute/D/alpha/N -> L -> 任务分数

Compute -> task (直接拟合)

12[Wei2022Emergent] 区间

Loss -> task (loss perspective)

4.50[Du2024LossPerspective]

Reliable over-training 外推

2.40[Gadre2024ReliableScaling]

Model ladders (per-task)

1.90[Bhagia2024ModelLadders]

Observational regression

3.10[Ruan2024Observational]

单位：相对误差 (%)

图 3. 图 0.2 单任务下游预测的相对误差(报告区间,越小越好)

§1 先把“涌现”拆开：指标造成的台阶，和能力本身的阈值，不是一回事

Wei et al. [1] 的贡献是把问题摆上台面：一些 BIG-Bench 任务在模型变大后出现近似台阶式提升。但图上的台阶不等于底层能力有台阶。Schaeffer et al. [2] 对 [1] 的反驳抓住了一个直接机制：如果底层“答对概率”随规模平滑上升，而评估只记录 0/1 完全正确，阈值附近的窄区间就会被离散化放大，看起来像能力突然出现。这不是文字游戏，因为它给出可操作检验：把 exact-match 换成 token-level Brier、answer log-prob 或 BPB-of-correct-completion，再看曲线是否仍有拐点。若拐点消失，先前讨论的是测量非线性；若拐点保留，才有理由怀疑任务本身存在多阶段学习。Du et al. [3] 补上第二层：即使指标换对了，若横轴仍用 compute，训练配方差异也会把同一学习状态投影到不同位置，制造“晚到的能力”。因此，更稳的流程是先做 surrogate 检查，再把横轴切到 pretraining loss。只有两步之后仍无法解释的拐点，才值得交给 Caballero et al. [8] 的 broken law 处理，而不是一开始就把所有跳变都当成神秘现象。

正在渲染图示…

图 4. 图 1.1 “涌现”的两种成因拆解:metric step (mirage) vs capability threshold

先问“是不是指标把平滑曲线折成了台阶”，再问“是不是任务真的有阈值”。顺序反过来，几乎一定会高估不可预测性。

§2 真正可工程化的对象不是 compute，而是“loss 到任务分数”的传递函数

Kaplan/Chinchilla 一类 scaling law 回答的是“给定算力，模型和数据怎么配”，但下游团队关心的是另一个问题：“loss 再降一点，哪些任务会跟着涨”。Du et al. [3] 的价值在于把下游表现写成 pretraining loss 的函数，而不是 compute 的函数。这样做有两个直接收益。第一，它更贴近训练状态本身，因此 dense/sparse、不同 token 预算、不同架构之间更容易对齐。第二，它把预测从“外推训练成本曲线”改成“外推 transfer curve”，后者更适合用小模型试验估计。DataComp-LM 的结果 [4] 说明，即使在 over-training 区间，小规模实验仍能为大模型下游表现提供稳定方向信号。Bhagia et al. [5] 将其进一步 recipe 化：训练 1B/2B/4B 或更小 rung，逐任务拟合，再外推到目标规模。Ruan et al. [6] 走另一条路：不训练 rung，而是用公开模型族的 benchmark 向量学习低维 capability manifold，再回归目标任务。两者不是替代关系。若要比较自家两种 arch 或 mid-train recipe，公开模型的 manifold 往往缺少同分布样本，梯子更稳；若只是先筛 5 个 data mix，observational regression 往往已经够便宜，也足够快。

路线	横轴/状态变量	额外成本	适合的决策	主要失效点
compute 外推	compute、参数量、token	最低；常可复用已有训练日志	粗粒度预算估算、是否 over-train	配方变化时对齐差；下游传递不稳 [4]
loss→task 传递	pretraining loss	低到中；需要密一点的 checkpoint 评估	跨架构/预算对齐、任务外推 [3]	post-training 后映射可能重排 [7]
model ladder / observational	小模型 rung 或 capability manifold	梯子：中；观测：很低	mix、arch、recipe 选择 [5][6]	梯子受 rung 数量限制；观测受分布漂移限制

主训前下游预测的三种常见路线：适用场景比统一公式更重要

正在渲染图示…

图 5. 图 2.1 真正可工程化的对象是 loss → task 传递函数,不是 compute → task

§3 预测曲线一旦穿过 SFT/RLHF，就不再只是 pretrain 问题

很多团队在这里的错误是：用 pretrain loss 成功预测 base model 后，就默认这套排序会原样传到 instruction-tuned 或 preference-tuned 模型。Isik et al. [7] 给出的结论更细：pretraining 改善通常能传到下游，但传递强度随任务变化，fine-tuning 也会改变各任务对底层能力的放大倍数。换言之，base model 上 0.02 的 BPB 改善，不保证会在最终产品指标上按同样比例兑现。OLMo 团队 [11] 的开放 checkpoint 和训练细节重要，是因为它们暴露了中间态，而不只是“pretrain 终点”和“chat 终点”两个点。另一层风险来自 Ruan et al. [6] 依赖的 capability manifold：如果公开模型池越来越多混入重度 RLHF 或 reasoning-RL 产物，主成分就不再主要反映 pretraining 能力，而会掺入后训练风格和偏好对齐成分。observational scaling 仍可用，但必须监控 drift，例如 capability 轴与 base-model loss 轴的相关性是否持续下降。DeepSeek-V3 技术报告 [12] 和类似工业报告表明，真实 recipe 决策已经把 pretrain、mid-train、post-train 连在一起评估；因此，下游缩放律若要服务 ship/no-ship，至少必须显式区分“base 可预测性”和“post-train 可预测性”两层，不能把二者压成一条曲线。

正在渲染图示…

图 6. 图 3.1 预测一旦穿过 SFT/RLHF:不同任务类的漂移大小与处理方式

能预测 base model，不等于能预测产品模型。中间那层 post-training 不是噪声，而是新的传递函数。

§4 何时该承认单一幂律不够：broken law 不是失败，而是风险披露

工程上最危险的不是没有曲线，而是曲线已经分段后仍强行报告一个漂亮的单指数。Caballero et al. [8] 表明，多相位学习并不罕见：不同数据子技能、优化机制或上下文使用策略会在不同训练阶段接管主导项，带来斜率变化、平台期甚至局部反转。Pythia [9] 和 Cerebras-GPT [10] 这类开放 scaling suite 的价值，正是让这些现象可观测。只有 2–3 个终点模型时，任何 broken behavior 都容易被误读成噪声；有了多 size × 多 checkpoint 网格，才有条件区分“拟合误差”和“机制切换”。这也解释了为什么 Bhagia et al. [5] 的 ladder 不能只做两级：rung 太少会让外推显得便宜，却把结构不确定性藏到置信区间之外。更务实的定位是：单一幂律适合作默认基线，因为样本效率高、沟通成本低；broken law 适合作高风险任务的二次审查，尤其是多步数学、代码执行、agentic 规划这类离散验收强、阶段性学习明显的任务。若 ladder 拟出的阈值位置在最终主训中偏离超过预设带宽，例如 loss 阈值误差超过 10%–15%，就应停止沿用单一幂律，将该任务切换到 broken-law 验收通道。

正在渲染图示…

图 7. 图 4.1 何时该承认单一幂律不够:从 single law 退到 broken law、regime 面板、再到“不预测”

时间线

2022-06Wei et al. 把“涌现”作为下游不可预测性的代表现象摆上台面[1]
2022-10Caballero et al. 给出 broken law，提醒单一幂律并非总是诚实近似[8]
2023-04Schaeffer et al. 把大量跳变改写为离散指标的观测假象[2]
2023-04Pythia 公开多 size × 多 checkpoint 套件，为 observational 与 broken-law 检验提供样本网格[9]
2024-02Isik et al. 把问题推进到 post-training：pretrain 改善并不总按原比例传递[7]
2024-03Du et al. 用 pretraining loss 统一下游轨迹，compute 轴不再是默认选择[3]
2024-03DataComp-LM 证明 over-training 区间仍可做稳定外推，小规模试验进入 SOP[4]
2024-05Ruan et al. 提出 observational scaling，用公开模型回归低成本预测下游表现[6]
2024-12Bhagia et al. 把 model ladder 写成可复用 recipe，主训前预测更接近标准流程[5]

研究立场对比

阵营 A：下游能力本质上是阈值式涌现，小模型几乎不给可用先验

立场 — 这一读法以 Wei et al. [1] 为代表：许多任务在小模型区间几乎贴地，到某个规模后突然抬升，因此主训前外推价值有限。

证据：[1]

反方 — 反驳点在两层。第一，Schaeffer et al. [2] 说明大量跳变来自离散指标。第二，Du et al. [3] 说明 compute 轴会制造错位。也就是说，原图上的“突然出现”常常混合了指标非线性和横轴选择误差。

判词 — 一条更稳的读法是：先默认“可预测但可能被测量方式遮蔽”，只有在 surrogate 与 loss 轴都校正后仍保留拐点时，才把任务归入真实阈值类。

阵营 B：compute 轴已经足够，没必要再引入 loss 轴

立场 — 这一读法认为只要小规模实验设计得当，compute→任务分数的外推已经能支持大多数预算决策，额外引入 loss 只会增加评估复杂度 [4]。

证据：[4]

反方 — Du et al. [3] 修正这一点：compute 更像资源记账，不是学习状态本身。架构、token 预算、稀疏性变化时，同样的 compute 可能对应不同 loss，因此 compute 轴更适合粗预算，不适合跨 recipe 对齐。

判词 — 结论层面的建议是：compute 轴保留作一阶预算工具；一旦比较对象跨 arch、跨 token 预算或跨 dense/sparse，主预测轴切到 pretraining loss。

阵营 C：公开模型的 observational scaling 已足够，没必要自训梯子

立场 — Ruan et al. [6] 代表的路线主张：公开模型已经覆盖了丰富的能力空间，用低维 manifold 回归即可低成本预测新模型表现，尤其适合快速筛选候选方案。

证据：[6][9][10]

反方 — Bhagia et al. [5] 反驳的重点不是观测法无效，而是它对 recipe shift 更脆弱。公开模型池若缺少与你目标 arch、数据清洗、mid-train 策略相近的样本，回归误差会被系统偏差主导。

判词 — 一个更务实的定位是：observational scaling 用于 data-mix 初筛和外部 sanity check；architecture、optimizer、mid-train recipe 选择必须有自家 ladder 兜底。

阵营 D：单一幂律足以覆盖大多数任务，broken law 只是过拟合

立场 — 这一读法强调单一幂律样本效率高、参数少、沟通简单，因此应作为默认模型；分段或 broken 拟合容易把噪声误判成结构 [4]。

证据：[4][3]

反方 — Caballero et al. [8] 给出的修正是：当斜率变化来自真实机制切换时，单一幂律的偏差不是随机噪声，而是系统性误导。Pythia [9] 的密集 checkpoint 也说明，多相位行为需要被显式建模，而不是被平均掉。

判词 — 结论层面的建议是：单一幂律做默认基线，broken law 做高风险任务的二次审查；若阈值位置或尾部误差超出预设带宽，就切换模型，而不是继续美化单一拟合。

实践要点

可操作清单：
1. 先做指标分层，再谈缩放。knowledge QA、抽取、分类这类任务，先同时记录 exact-match 与连续 surrogate，如 answer log-prob、token-level Brier 或 BPB-of-correct-completion；若 surrogate 曲线单调而 exact-match 跳变，就按 [2] 处理为测量非线性。代码执行 pass@1、tool-use 成功率、agentic 终局成败，不要只靠 surrogate 做 ship/no-ship，因为验收本身就是离散的。
2. 主预测轴优先用 pretraining loss，不要把 compute 当学习状态。[3] 已经给出足够强的理由。compute 保留给预算表，loss 用于跨 arch、跨 token 预算、跨 dense/sparse 的对齐。
3. data-mix 初筛可以先走 observational，再决定是否补梯子。若只是 5 个语料 mix 选 1 个，先用 [6] + 公开模型族做低成本排序；若 top-2 差距小于目标任务 1–2 个百分点，或 capability manifold 与自家 base loss 相关性明显下降，再补 3-rung ladder。
4. architecture、optimizer、mid-train recipe 决策不要偷懒，直接训梯子。[5] 的启发很明确：这类决策的系统偏差大于观测法的便宜优势。经验边界可以设为至少 3 个 rung，最好覆盖目标规模的 1/16、1/8、1/4 左右；只有两级 rung 时，不要给出窄于 ±15% 的阈值承诺。
5. 置信区间不要只报统计误差，要单列结构误差。单一幂律拟合得再好，也不代表任务没有 regime shift。[8] 提醒的是模型族风险，不只是拟合技巧。对数学、代码、agentic 任务，默认再跑一次 broken-law 备选拟合。
6. 把 post-training 当成第二层 transfer model，而不是尾部小修小补。[7][11] 都说明，base 排序不必然保留到 instruction-tuned 排序。实操上至少在 2–3 个代表 checkpoint 上做轻量 SFT 校准，单独估计“base→product”斜率。
7. 监控 observational manifold drift。若公开模型池越来越多是 RLHF 或 reasoning-RL 产物，PCA 主轴会漂。一个简单监控量是 capability 主轴与 base-model validation loss 的相关性；若连续两轮下降并跌破内部阈值，例如 0.7，就降低 observational 权重，回到自训 ladder [6][12]。
8. 不要把开放 scaling suite 当论文附录，要把它当训练数据。Pythia [9]、Cerebras-GPT [10]、OLMo [11] 这类资源的价值，在于它们让你能先验证预测器本身，再决定是否相信预测结果。 loss 侧的 (N, D, mixture, V) 四轴 sweep 在姊妹篇 `scaling-laws-llm` 详谈;本篇负责把那条曲线投影到具体下游任务上。

悬而未决的问题

Q1.surrogate 选择树还不够清楚：knowledge QA 与抽取任务常可用 BPB-of-correct-completion 近似，但代码执行、交互式 tool use、agentic 多步成功率何时能用连续 surrogate，仍缺少公开的受控实验。
Q2.阈值位置 L* 是否可从小模型 ladder 稳定外推，证据仍不足。一个可证伪目标是：对多步数学或代码任务，ladder 外推的 loss 阈值与主训实测阈值误差应控制在 ±10%–15% 内；超出则默认切换 broken-law。
Q3.observational scaling 的 capability manifold 在后训练占比上升后会不会失稳，仍缺少系统漂移基准。需要公开数据集同时标注 base 与 post-trained 模型，才能分离 pretrain 能力轴与 alignment/style 轴。
Q4.pretrain→SFT/RLHF/distill 的 transfer model 目前多是经验结论，缺少统一参数化。尤其 o1 风格 reasoning-RL 之后，原先 loss→task 的单调关系是否保留，公开证据还不够。
Q5.生产决策中的“多窄才够用”尚未标准化：预测区间需要窄到多少，才足以支持 5-mix 选 1、是否换 arch、是否继续 mid-train，这类 ship/no-ship 决策仍主要靠团队内部经验。

[1]
Jason Wei, Yi Tay, Rishi Bommasani, et al.. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022论文
[2]
Rylan Schaeffer, Brando Miranda, Sanjit A. Seshia, et al.. Are Emergent Abilities of Large Language Models a Mirage?. NeurIPS 2023, 2023论文
[3]
Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang. Understanding Emergent Abilities of Language Models from the Loss Perspective. NeurIPS 2024, 2024论文
[4]
Samir Yitzhak Gadre, Mitchell Wortsman, Ludwig Schmidt, et al.. Language Models Scale Reliably With Over-Training and on Downstream Tasks. ICML 2024, 2024论文
[5]
Aaditya Bhagia, et al.. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
[6]
Yuchen Ruan, et al.. Observational Scaling Laws and the Predictability of Language Model Performance. arXiv, 2024论文
[7]
Berkin Isik, et al.. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
[8]
Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger. Broken Neural Scaling Laws. ICLR 2023, 2023论文
[9]
Stella Biderman, et al.. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. ICML 2023, 2023论文
[10]
Sasha Li, et al.. Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Dolma Dataset. arXiv, 2023论文
[11]
Team OLMo, et al.. OLMo: Accelerating the Science of Language Models. ACL 2024, 2024论文
[12]
DeepSeek-AI. DeepSeek-V3 Technical Report. Technical Report, 2024报告

论文列表

涌现重解释：指标非线性与 loss 轴(3)

这一组文献把“跳变”拆成两类来源：离散指标造成的观测假象，以及 compute 轴带来的错位。重点不在否认所有阈值，而在于先把可消除的假阈值剥离掉。

Emergent Abilities of Large Language Models

Jason Wei,Yi Tay,Rishi Bommasani,et al.2022年6月15日

给出“下游能力会突然出现”的经典展示，尤其是 BIG-Bench 上的阈值式曲线。它的重要性不在于结论最终是否站得住，而在于定义了后来所有反驳都必须正面回应的现象层证据。

Are Emergent Abilities of Large Language Models a Mirage?

Rylan Schaeffer,Brando Miranda,Sanjit A. Seshia,et al.2023年4月28日

把“涌现”从能力论改写成测量论：exact-match、pass/fail 这类离散指标会把平滑的底层能力曲线折成台阶。它没有证明所有任务都平滑，但把默认假设从“不可预测”改成“先检查指标”。

Understanding Emergent Abilities of Language Models from the Loss Perspective

Zhengxiao Du,Aohan Zeng,Yuxiao Dong,Jie Tang2024年3月23日

把横轴从 compute/参数量换成 pretraining loss，展示不同训练预算和架构下的下游曲线在 loss 轴上更可对齐。它提供了一个更适合工程外推的状态变量：不是“花了多少算力”，而是“学到了什么程度”。

可操作预测工具：梯子、观测回归与小规模外推(3)

这一组文献关心的不是“曲线是否存在”，而是“主训前如何低成本得到可用预测”。它们构成预算决策的工具箱。

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Aaditya Bhagia,et al.2024年12月5日

给出最接近“能直接照着做”的 recipe：训练少量 sub-1B rung，逐任务拟合幂律或其变体，再外推到目标规模。它的价值在于把预测成本压到主训预算的很小一部分，同时保留对自家数据配方的控制。

Observational Scaling Laws and the Predictability of Language Model Performance

Yuchen Ruan,et al.2024年5月17日

把“我不想再训一套梯子”变成可行选项：直接用公开模型在多基准上的表现做低维回归，预测新模型的大致位置。适合做 data-mix 初筛和外部 sanity check，但对架构变更更脆弱。

Language Models Scale Reliably With Over-Training and on Downstream Tasks

Samir Yitzhak Gadre,Mitchell Wortsman,Ludwig Schmidt,et al.2024年3月13日

把“小规模试验先行”从经验做法变成可复用流程：即使进入 over-training 区间，下游任务也仍可由小模型和短训练曲线外推。它是把预测纳入预训练 SOP 的关键工程证据。

从 pretrain 到 post-train：曲线能保留多少(3)

这一组文献讨论 pretraining 改善是否会稳定传递到 instruction tuning、fine-tuning 或偏好优化之后。它决定了缩放律能否直接服务最终验收。

Scaling Laws for Downstream Task Performance of Large Language Models

Berkin Isik,et al.2024年2月6日

把问题从“pretrain loss 能否预测任务”推进到“经过 fine-tuning 后还能否预测”。结论不是简单的能或不能，而是不同任务和训练阶段保留的单调性不同，这直接影响验收口径设计。

OLMo: Accelerating the Science of Language Models

Team OLMo,et al.2024年2月1日

OLMo 的价值不在单一结论，而在于公开了足够密的训练轨迹和中间 checkpoint，使得“loss→任务→post-train”的传递关系可以被外部复核，而不是只看终点分数。

DeepSeek-V3 Technical Report

DeepSeek-AI2024年12月26日

技术报告类证据说明大团队已经把预测曲线当成 recipe 选择的附录，而不是事后解释。它们未必给出统一公式，但给出真实生产中的决策接口：mix、arch、mid-train、post-train 如何串起来看。

失效模式：broken law、多相位与开放基准(3)

这一组文献提醒：不是每条曲线都该被单一幂律硬拟合。开放 checkpoint 套件则提供了识别失效模式所需的数据密度。

下游任务的缩放律：从“涌现是惊喜”到可预测性工程化

领域综述

TL;DR

核心断言

§0 历史脉络:从“涌现是惊喜”到“预算前可审计的传递函数”

§1 先把“涌现”拆开：指标造成的台阶，和能力本身的阈值，不是一回事

§2 真正可工程化的对象不是 compute，而是“loss 到任务分数”的传递函数

§3 预测曲线一旦穿过 SFT/RLHF，就不再只是 pretrain 问题

§4 何时该承认单一幂律不够：broken law 不是失败，而是风险披露

时间线

研究立场对比

阵营 A：下游能力本质上是阈值式涌现，小模型几乎不给可用先验

阵营 B：compute 轴已经足够，没必要再引入 loss 轴

阵营 C：公开模型的 observational scaling 已足够，没必要自训梯子

阵营 D：单一幂律足以覆盖大多数任务，broken law 只是过拟合

实践要点

悬而未决的问题

参考文献 (12)

论文列表

涌现重解释：指标非线性与 loss 轴(3)

可操作预测工具：梯子、观测回归与小规模外推(3)

从 pretrain 到 post-train：曲线能保留多少(3)

失效模式：broken law、多相位与开放基准(3)