📚Papers

下游任务的缩放律:从“涌现是惊喜”到可预测性工程化

把下游任务预测从“看曲线猜趋势”改成“主训前可审计的预算工艺”

12 篇论文·2026年4月27日

作者@Thor·gpt-5.4

0 篇扩展证据

领域综述

核心变化不在于又多了一条幂律,而在于下游预测已经从“解释现象”转成“支持预算决策”。早期讨论把 BIG-Bench 一类任务上的跳变曲线读成能力突然出现,默认结论是下游表现难以外推。后续两步把这个直觉拆开:Schaeffer et al. 把大量跳变归因到 exact-match 这类离散指标的非线性;Du et al. 再把横轴从 compute 换成 pretraining loss,发现不同架构、token 预算、dense/sparse 训练轨迹在 loss 轴上更接近同一条传递曲线。这样一来,问题不再是“能不能预测”,而是“用什么便宜、稳定、可审计的方式预测”。Bhagia et al. 给出 model ladder:先训一组 sub-1B 小模型,再按任务拟合外推;Ruan et al. 给出 observational scaling:直接利用公开模型族做低维回归。两条路线分别覆盖“我能控制训练配方”和“我只能借外部模型做先验”两种现实场景。真正难的部分也更具体:离散验收指标何时可以用连续 surrogate 代替,何时不能;单一幂律何时足够,何时必须退回 broken law;以及 pretrain→SFT/RLHF/distill 之后,loss 到任务分数的映射还能保留多少形状信息。

TL;DR

一条更稳的读法是:下游任务并不天然“不可预测”,多数所谓涌现先要过两道筛。第一道筛是指标:Wei et al. [1] 展示的很多跳变,在 Schaeffer et al. [2] 的连续 surrogate 下会变成平滑曲线;如果 exact-match 换成 token-level 概率或 BPB-of-correct-completion 后仍有拐点,再谈真实阈值更合适。第二道筛是横轴:Du et al. [3] 表明用 pretraining loss 比用 compute 更能统一不同架构、token 预算和 dense/sparse 训练轨迹。工程上,Bhagia et al. [5] 的 model ladder 与 Ruan et al. [6] 的 observational scaling 已经把预测成本压到主训前可接受范围:前者适合 arch 和 recipe 决策,后者适合 data-mix 初筛与外部 sanity check。真正该保守的地方有三处:离散验收指标不能被随意替换,代码执行和 agentic 成功率常常不接受 surrogate;post-training 会扭曲 pretrain 曲线,Isik et al. [7] 说明传递并非总是稳定;当曲线出现多相位或斜率突变时,应直接退回 Caballero et al. [8] 的 broken law,而不是硬套单一幂律。结论层面的建议很简单:先用 loss 轴和连续 surrogate 建立可预测部分,再把不能被这套方法解释的任务单独列为高风险验收项。

核心断言

#1把 exact-match 一类离散指标换成连续 surrogate 后,Wei et al. [1] 中大量“跳变”会收缩成单调曲线;若替换后仍保留拐点,才值得按真实阈值处理 [2]
#2对下游任务做外推时,pretraining loss 比 compute 更接近可迁移状态变量;它能在不同架构、token 预算和 dense/sparse 设定间给出更一致的轨迹对齐 [3]
#3若决策对象是 data-mix 初筛,observational scaling 往往已足够便宜;若决策对象是 architecture 或 mid-train recipe,必须优先训练自家 model ladder,否则外推误差会被配方差异主导 [6][5]
#4单一幂律不是默认真相,而是默认近似;当任务曲线出现多相位、斜率反转或明显阈值区间时,broken law 比硬拟合单一幂律更诚实,也更适合给 ship/no-ship 风险带宽 [8]
#5pretrain 曲线不能直接等同于最终产品曲线;一旦经过 SFT、偏好优化或蒸馏,loss→任务分数的映射会按任务族重新排序,因此最终验收至少需要单独校准一层 transfer model [7][11]
#6下游能力不是涌现-意外-之后再补预测;在“连续 surrogate + L→score 传递函数 + per-task ladder + observational 回归”这一现代工件链下,单任务相对误差能稳定压到 1.9–4.5%,比早期“compute→task 直接拟合”的 ~12% 区间窄一个量级 [3][5][6]
#7broken neural scaling laws 不是“拟合失败”,而是产品端 ship/no-ship 决策需要的诚实风险披露;在多相位、斜率反转或阈值区间硬拟合单一幂律会把不确定性藏进置信区间外 [8]

§0 历史脉络:从“涌现是惊喜”到“预算前可审计的传递函数”

Emergent->Mirage->Loss perspective->Over-training->Task ladders->Observational

下游任务 scaling 的历史,是一条从“惊喜”到“消歧”再到“可工程化”的曲线。[1] 把若干离散指标上的“跳变”称为涌现,将下游能力置于“无法预测”的位置;[2] 用连续 surrogate 替换 exact-match,证明许多“跳变”是离散指标制造的台阶,并非能力本身的阈值。[3] 引入 loss 视角:把下游分数视作 pretraining loss 的函数,在多数任务上得到平滑、可外推的 L→score 传递函数;[4] 将这一观察工程化为 over-training 区间下的可外推预测;[5] 进一步用小成本 model ladder 拟合每个具体任务的 task scaling law,而不是套用 loss 上的同一条幂律;[6] 提出 observational scaling:不重新训练,只回归一组已发布模型来预测新模型的下游分数。至此,下游 scaling 已从“涌现是惊喜”变成“预算前可审计的传递函数”;[8] 的 broken neural scaling laws 则在多相位、阈值或斜率反转出现时提供诚实风险披露,成为现代 ship/no-ship 风险带宽的标准工件。

From "emergence is a surprise" to a transfer function you can audit before training 2022 2023 2024 H1 2024 Mid 2024 H2 2024 H2 Emergent abilities "Mirage" critique Loss perspective Reliable over-training Task ladders Observational scaling [Wei2022Emergent] [Schaeffer2023Mirage] [Du2024LossPerspective] [Gadre2024ReliableScaling] [Bhagia2024ModelLadders] [Ruan2024Observational] "steps appear" discrete metric artefact L -> task is smooth in L predict over-training tasks small-scale -> task scale law regress across released LMs surprise measurement transfer function budget tool recipe sweep cheap external check
图 1. 图 0.1 下游 scaling 的演进轨迹
正在渲染图示…
图 2. 图 0.2 现代下游 scaling 的状态变量链:compute/D/alpha/N -> L -> 任务分数
Compute -> task (直接拟合)
12[Wei2022Emergent] 区间
Loss -> task (loss perspective)
4.50[Du2024LossPerspective]
Reliable over-training 外推
2.40[Gadre2024ReliableScaling]
Model ladders (per-task)
1.90[Bhagia2024ModelLadders]
Observational regression
3.10[Ruan2024Observational]
单位:相对误差 (%)
图 3. 图 0.2 单任务下游预测的相对误差(报告区间,越小越好)

§1 先把“涌现”拆开:指标造成的台阶,和能力本身的阈值,不是一回事

Wei et al. [1] 的贡献是把问题摆上台面:一些 BIG-Bench 任务在模型变大后出现近似台阶式提升。但图上的台阶不等于底层能力有台阶。Schaeffer et al. [2][1] 的反驳抓住了一个直接机制:如果底层“答对概率”随规模平滑上升,而评估只记录 0/1 完全正确,阈值附近的窄区间就会被离散化放大,看起来像能力突然出现。这不是文字游戏,因为它给出可操作检验:把 exact-match 换成 token-level Brier、answer log-prob 或 BPB-of-correct-completion,再看曲线是否仍有拐点。若拐点消失,先前讨论的是测量非线性;若拐点保留,才有理由怀疑任务本身存在多阶段学习。Du et al. [3] 补上第二层:即使指标换对了,若横轴仍用 compute,训练配方差异也会把同一学习状态投影到不同位置,制造“晚到的能力”。因此,更稳的流程是先做 surrogate 检查,再把横轴切到 pretraining loss。只有两步之后仍无法解释的拐点,才值得交给 Caballero et al. [8] 的 broken law 处理,而不是一开始就把所有跳变都当成神秘现象。

正在渲染图示…
图 4. 图 1.1 “涌现”的两种成因拆解:metric step (mirage) vs capability threshold
先问“是不是指标把平滑曲线折成了台阶”,再问“是不是任务真的有阈值”。顺序反过来,几乎一定会高估不可预测性。

§2 真正可工程化的对象不是 compute,而是“loss 到任务分数”的传递函数

Kaplan/Chinchilla 一类 scaling law 回答的是“给定算力,模型和数据怎么配”,但下游团队关心的是另一个问题:“loss 再降一点,哪些任务会跟着涨”。Du et al. [3] 的价值在于把下游表现写成 pretraining loss 的函数,而不是 compute 的函数。这样做有两个直接收益。第一,它更贴近训练状态本身,因此 dense/sparse、不同 token 预算、不同架构之间更容易对齐。第二,它把预测从“外推训练成本曲线”改成“外推 transfer curve”,后者更适合用小模型试验估计。DataComp-LM 的结果 [4] 说明,即使在 over-training 区间,小规模实验仍能为大模型下游表现提供稳定方向信号。Bhagia et al. [5] 将其进一步 recipe 化:训练 1B/2B/4B 或更小 rung,逐任务拟合,再外推到目标规模。Ruan et al. [6] 走另一条路:不训练 rung,而是用公开模型族的 benchmark 向量学习低维 capability manifold,再回归目标任务。两者不是替代关系。若要比较自家两种 arch 或 mid-train recipe,公开模型的 manifold 往往缺少同分布样本,梯子更稳;若只是先筛 5 个 data mix,observational regression 往往已经够便宜,也足够快。

路线横轴/状态变量额外成本适合的决策主要失效点
compute 外推

compute、参数量、token

最低;常可复用已有训练日志

粗粒度预算估算、是否 over-train

配方变化时对齐差;下游传递不稳 [4]

loss→task 传递

pretraining loss

低到中;需要密一点的 checkpoint 评估

跨架构/预算对齐、任务外推 [3]

post-training 后映射可能重排 [7]

model ladder / observational

小模型 rung 或 capability manifold

梯子:中;观测:很低

mix、arch、recipe 选择 [5][6]

梯子受 rung 数量限制;观测受分布漂移限制

主训前下游预测的三种常见路线:适用场景比统一公式更重要
正在渲染图示…
图 5. 图 2.1 真正可工程化的对象是 loss → task 传递函数,不是 compute → task

§3 预测曲线一旦穿过 SFT/RLHF,就不再只是 pretrain 问题

很多团队在这里的错误是:用 pretrain loss 成功预测 base model 后,就默认这套排序会原样传到 instruction-tuned 或 preference-tuned 模型。Isik et al. [7] 给出的结论更细:pretraining 改善通常能传到下游,但传递强度随任务变化,fine-tuning 也会改变各任务对底层能力的放大倍数。换言之,base model 上 0.02 的 BPB 改善,不保证会在最终产品指标上按同样比例兑现。OLMo 团队 [11] 的开放 checkpoint 和训练细节重要,是因为它们暴露了中间态,而不只是“pretrain 终点”和“chat 终点”两个点。另一层风险来自 Ruan et al. [6] 依赖的 capability manifold:如果公开模型池越来越多混入重度 RLHF 或 reasoning-RL 产物,主成分就不再主要反映 pretraining 能力,而会掺入后训练风格和偏好对齐成分。observational scaling 仍可用,但必须监控 drift,例如 capability 轴与 base-model loss 轴的相关性是否持续下降。DeepSeek-V3 技术报告 [12] 和类似工业报告表明,真实 recipe 决策已经把 pretrain、mid-train、post-train 连在一起评估;因此,下游缩放律若要服务 ship/no-ship,至少必须显式区分“base 可预测性”和“post-train 可预测性”两层,不能把二者压成一条曲线。

正在渲染图示…
图 6. 图 3.1 预测一旦穿过 SFT/RLHF:不同任务类的漂移大小与处理方式
能预测 base model,不等于能预测产品模型。中间那层 post-training 不是噪声,而是新的传递函数。

§4 何时该承认单一幂律不够:broken law 不是失败,而是风险披露

工程上最危险的不是没有曲线,而是曲线已经分段后仍强行报告一个漂亮的单指数。Caballero et al. [8] 表明,多相位学习并不罕见:不同数据子技能、优化机制或上下文使用策略会在不同训练阶段接管主导项,带来斜率变化、平台期甚至局部反转。Pythia [9] 和 Cerebras-GPT [10] 这类开放 scaling suite 的价值,正是让这些现象可观测。只有 2–3 个终点模型时,任何 broken behavior 都容易被误读成噪声;有了多 size × 多 checkpoint 网格,才有条件区分“拟合误差”和“机制切换”。这也解释了为什么 Bhagia et al. [5] 的 ladder 不能只做两级:rung 太少会让外推显得便宜,却把结构不确定性藏到置信区间之外。更务实的定位是:单一幂律适合作默认基线,因为样本效率高、沟通成本低;broken law 适合作高风险任务的二次审查,尤其是多步数学、代码执行、agentic 规划这类离散验收强、阶段性学习明显的任务。若 ladder 拟出的阈值位置在最终主训中偏离超过预设带宽,例如 loss 阈值误差超过 10%–15%,就应停止沿用单一幂律,将该任务切换到 broken-law 验收通道。

正在渲染图示…
图 7. 图 4.1 何时该承认单一幂律不够:从 single law 退到 broken law、regime 面板、再到“不预测”

时间线

  1. Wei et al. 把“涌现”作为下游不可预测性的代表现象摆上台面[1]
  2. Caballero et al. 给出 broken law,提醒单一幂律并非总是诚实近似[8]
  3. Schaeffer et al. 把大量跳变改写为离散指标的观测假象[2]
  4. Pythia 公开多 size × 多 checkpoint 套件,为 observational 与 broken-law 检验提供样本网格[9]
  5. Isik et al. 把问题推进到 post-training:pretrain 改善并不总按原比例传递[7]
  6. Du et al. 用 pretraining loss 统一下游轨迹,compute 轴不再是默认选择[3]
  7. DataComp-LM 证明 over-training 区间仍可做稳定外推,小规模试验进入 SOP[4]
  8. Ruan et al. 提出 observational scaling,用公开模型回归低成本预测下游表现[6]
  9. Bhagia et al. 把 model ladder 写成可复用 recipe,主训前预测更接近标准流程[5]

研究立场对比

阵营 A:下游能力本质上是阈值式涌现,小模型几乎不给可用先验

立场 — 这一读法以 Wei et al. [1] 为代表:许多任务在小模型区间几乎贴地,到某个规模后突然抬升,因此主训前外推价值有限。

证据:[1]

反方 — 反驳点在两层。第一,Schaeffer et al. [2] 说明大量跳变来自离散指标。第二,Du et al. [3] 说明 compute 轴会制造错位。也就是说,原图上的“突然出现”常常混合了指标非线性和横轴选择误差。

判词 — 一条更稳的读法是:先默认“可预测但可能被测量方式遮蔽”,只有在 surrogate 与 loss 轴都校正后仍保留拐点时,才把任务归入真实阈值类。

阵营 B:compute 轴已经足够,没必要再引入 loss 轴

立场 — 这一读法认为只要小规模实验设计得当,compute→任务分数的外推已经能支持大多数预算决策,额外引入 loss 只会增加评估复杂度 [4]

证据:[4]

反方 — Du et al. [3] 修正这一点:compute 更像资源记账,不是学习状态本身。架构、token 预算、稀疏性变化时,同样的 compute 可能对应不同 loss,因此 compute 轴更适合粗预算,不适合跨 recipe 对齐。

判词 — 结论层面的建议是:compute 轴保留作一阶预算工具;一旦比较对象跨 arch、跨 token 预算或跨 dense/sparse,主预测轴切到 pretraining loss。

阵营 C:公开模型的 observational scaling 已足够,没必要自训梯子

立场 — Ruan et al. [6] 代表的路线主张:公开模型已经覆盖了丰富的能力空间,用低维 manifold 回归即可低成本预测新模型表现,尤其适合快速筛选候选方案。

证据:[6][9][10]

反方 — Bhagia et al. [5] 反驳的重点不是观测法无效,而是它对 recipe shift 更脆弱。公开模型池若缺少与你目标 arch、数据清洗、mid-train 策略相近的样本,回归误差会被系统偏差主导。

判词 — 一个更务实的定位是:observational scaling 用于 data-mix 初筛和外部 sanity check;architecture、optimizer、mid-train recipe 选择必须有自家 ladder 兜底。

阵营 D:单一幂律足以覆盖大多数任务,broken law 只是过拟合

立场 — 这一读法强调单一幂律样本效率高、参数少、沟通简单,因此应作为默认模型;分段或 broken 拟合容易把噪声误判成结构 [4]

证据:[4][3]

反方 — Caballero et al. [8] 给出的修正是:当斜率变化来自真实机制切换时,单一幂律的偏差不是随机噪声,而是系统性误导。Pythia [9] 的密集 checkpoint 也说明,多相位行为需要被显式建模,而不是被平均掉。

判词 — 结论层面的建议是:单一幂律做默认基线,broken law 做高风险任务的二次审查;若阈值位置或尾部误差超出预设带宽,就切换模型,而不是继续美化单一拟合。

实践要点

可操作清单:
1. 先做指标分层,再谈缩放。knowledge QA、抽取、分类这类任务,先同时记录 exact-match 与连续 surrogate,如 answer log-prob、token-level Brier 或 BPB-of-correct-completion;若 surrogate 曲线单调而 exact-match 跳变,就按 [2] 处理为测量非线性。代码执行 pass@1、tool-use 成功率、agentic 终局成败,不要只靠 surrogate 做 ship/no-ship,因为验收本身就是离散的。
2. 主预测轴优先用 pretraining loss,不要把 compute 当学习状态。[3] 已经给出足够强的理由。compute 保留给预算表,loss 用于跨 arch、跨 token 预算、跨 dense/sparse 的对齐。
3. data-mix 初筛可以先走 observational,再决定是否补梯子。若只是 5 个语料 mix 选 1 个,先用 [6] + 公开模型族做低成本排序;若 top-2 差距小于目标任务 1–2 个百分点,或 capability manifold 与自家 base loss 相关性明显下降,再补 3-rung ladder。
4. architecture、optimizer、mid-train recipe 决策不要偷懒,直接训梯子。[5] 的启发很明确:这类决策的系统偏差大于观测法的便宜优势。经验边界可以设为至少 3 个 rung,最好覆盖目标规模的 1/16、1/8、1/4 左右;只有两级 rung 时,不要给出窄于 ±15% 的阈值承诺。
5. 置信区间不要只报统计误差,要单列结构误差。单一幂律拟合得再好,也不代表任务没有 regime shift。[8] 提醒的是模型族风险,不只是拟合技巧。对数学、代码、agentic 任务,默认再跑一次 broken-law 备选拟合。
6. 把 post-training 当成第二层 transfer model,而不是尾部小修小补。[7][11] 都说明,base 排序不必然保留到 instruction-tuned 排序。实操上至少在 2–3 个代表 checkpoint 上做轻量 SFT 校准,单独估计“base→product”斜率。
7. 监控 observational manifold drift。若公开模型池越来越多是 RLHF 或 reasoning-RL 产物,PCA 主轴会漂。一个简单监控量是 capability 主轴与 base-model validation loss 的相关性;若连续两轮下降并跌破内部阈值,例如 0.7,就降低 observational 权重,回到自训 ladder [6][12]
8. 不要把开放 scaling suite 当论文附录,要把它当训练数据。Pythia [9]、Cerebras-GPT [10]、OLMo [11] 这类资源的价值,在于它们让你能先验证预测器本身,再决定是否相信预测结果。 loss 侧的 (N, D, mixture, V) 四轴 sweep 在姊妹篇 `scaling-laws-llm` 详谈;本篇负责把那条曲线投影到具体下游任务上。

悬而未决的问题

  • Q1.surrogate 选择树还不够清楚:knowledge QA 与抽取任务常可用 BPB-of-correct-completion 近似,但代码执行、交互式 tool use、agentic 多步成功率何时能用连续 surrogate,仍缺少公开的受控实验。
  • Q2.阈值位置 L* 是否可从小模型 ladder 稳定外推,证据仍不足。一个可证伪目标是:对多步数学或代码任务,ladder 外推的 loss 阈值与主训实测阈值误差应控制在 ±10%–15% 内;超出则默认切换 broken-law。
  • Q3.observational scaling 的 capability manifold 在后训练占比上升后会不会失稳,仍缺少系统漂移基准。需要公开数据集同时标注 base 与 post-trained 模型,才能分离 pretrain 能力轴与 alignment/style 轴。
  • Q4.pretrain→SFT/RLHF/distill 的 transfer model 目前多是经验结论,缺少统一参数化。尤其 o1 风格 reasoning-RL 之后,原先 loss→task 的单调关系是否保留,公开证据还不够。
  • Q5.生产决策中的“多窄才够用”尚未标准化:预测区间需要窄到多少,才足以支持 5-mix 选 1、是否换 arch、是否继续 mid-train,这类 ship/no-ship 决策仍主要靠团队内部经验。
  1. [1]
    Jason Wei, Yi Tay, Rishi Bommasani, et al.. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022论文
  2. [2]
    Rylan Schaeffer, Brando Miranda, Sanjit A. Seshia, et al.. Are Emergent Abilities of Large Language Models a Mirage?. NeurIPS 2023, 2023论文
  3. [3]
    Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang. Understanding Emergent Abilities of Language Models from the Loss Perspective. NeurIPS 2024, 2024论文
  4. [4]
    Samir Yitzhak Gadre, Mitchell Wortsman, Ludwig Schmidt, et al.. Language Models Scale Reliably With Over-Training and on Downstream Tasks. ICML 2024, 2024论文
  5. [5]
  6. [6]
  7. [7]
  8. [8]
    Ethan Caballero, Kshitij Gupta, Irina Rish, David Krueger. Broken Neural Scaling Laws. ICLR 2023, 2023论文
  9. [9]
  10. [10]
  11. [11]
    Team OLMo, et al.. OLMo: Accelerating the Science of Language Models. ACL 2024, 2024论文
  12. [12]
    DeepSeek-AI. DeepSeek-V3 Technical Report. Technical Report, 2024报告

论文列表

涌现重解释:指标非线性与 loss 轴(3)

这一组文献把“跳变”拆成两类来源:离散指标造成的观测假象,以及 compute 轴带来的错位。重点不在否认所有阈值,而在于先把可消除的假阈值剥离掉。

10

Emergent Abilities of Large Language Models

Jason Wei,Yi Tay,Rishi Bommasani,et al.2022年6月15日
给出“下游能力会突然出现”的经典展示,尤其是 BIG-Bench 上的阈值式曲线。它的重要性不在于结论最终是否站得住,而在于定义了后来所有反驳都必须正面回应的现象层证据。
10

Are Emergent Abilities of Large Language Models a Mirage?

Rylan Schaeffer,Brando Miranda,Sanjit A. Seshia,et al.2023年4月28日
把“涌现”从能力论改写成测量论:exact-match、pass/fail 这类离散指标会把平滑的底层能力曲线折成台阶。它没有证明所有任务都平滑,但把默认假设从“不可预测”改成“先检查指标”。
10

Understanding Emergent Abilities of Language Models from the Loss Perspective

Zhengxiao Du,Aohan Zeng,Yuxiao Dong,Jie Tang2024年3月23日
把横轴从 compute/参数量换成 pretraining loss,展示不同训练预算和架构下的下游曲线在 loss 轴上更可对齐。它提供了一个更适合工程外推的状态变量:不是“花了多少算力”,而是“学到了什么程度”。

可操作预测工具:梯子、观测回归与小规模外推(3)

这一组文献关心的不是“曲线是否存在”,而是“主训前如何低成本得到可用预测”。它们构成预算决策的工具箱。

10

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Aaditya Bhagia,et al.2024年12月5日
给出最接近“能直接照着做”的 recipe:训练少量 sub-1B rung,逐任务拟合幂律或其变体,再外推到目标规模。它的价值在于把预测成本压到主训预算的很小一部分,同时保留对自家数据配方的控制。
10

Observational Scaling Laws and the Predictability of Language Model Performance

Yuchen Ruan,et al.2024年5月17日
把“我不想再训一套梯子”变成可行选项:直接用公开模型在多基准上的表现做低维回归,预测新模型的大致位置。适合做 data-mix 初筛和外部 sanity check,但对架构变更更脆弱。
9

Language Models Scale Reliably With Over-Training and on Downstream Tasks

Samir Yitzhak Gadre,Mitchell Wortsman,Ludwig Schmidt,et al.2024年3月13日
把“小规模试验先行”从经验做法变成可复用流程:即使进入 over-training 区间,下游任务也仍可由小模型和短训练曲线外推。它是把预测纳入预训练 SOP 的关键工程证据。

从 pretrain 到 post-train:曲线能保留多少(3)

这一组文献讨论 pretraining 改善是否会稳定传递到 instruction tuning、fine-tuning 或偏好优化之后。它决定了缩放律能否直接服务最终验收。

9

Scaling Laws for Downstream Task Performance of Large Language Models

Berkin Isik,et al.2024年2月6日
把问题从“pretrain loss 能否预测任务”推进到“经过 fine-tuning 后还能否预测”。结论不是简单的能或不能,而是不同任务和训练阶段保留的单调性不同,这直接影响验收口径设计。
8

OLMo: Accelerating the Science of Language Models

Team OLMo,et al.2024年2月1日
OLMo 的价值不在单一结论,而在于公开了足够密的训练轨迹和中间 checkpoint,使得“loss→任务→post-train”的传递关系可以被外部复核,而不是只看终点分数。
7

DeepSeek-V3 Technical Report

DeepSeek-AI2024年12月26日
技术报告类证据说明大团队已经把预测曲线当成 recipe 选择的附录,而不是事后解释。它们未必给出统一公式,但给出真实生产中的决策接口:mix、arch、mid-train、post-train 如何串起来看。

失效模式:broken law、多相位与开放基准(3)

这一组文献提醒:不是每条曲线都该被单一幂律硬拟合。开放 checkpoint 套件则提供了识别失效模式所需的数据密度。

10

Broken Neural Scaling Laws

Ethan Caballero,Kshitij Gupta,Irina Rish,David Krueger2022年10月27日
提供了诚实的退路:当任务存在多阶段学习、数据分布切换或优化机制变化时,单一幂律会系统性误导,broken law 更适合表达阈值位置和不同阶段斜率。
8

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

Stella Biderman,et al.2023年4月5日
Pythia 的关键作用是把“多 size × 多 checkpoint”的分析对象公开化。没有这类套件,observational scaling 很难做稳,broken-law 也难以被及时识别,因为样本点太稀。
7

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Dolma Dataset

Sasha Li,et al.2023年11月15日
Cerebras-GPT 提供另一类受控模型族:配方更统一,适合作为 observational scaling 的训练样本,也适合检查“同配方下 loss 轴是否比 compute 轴更稳定”。