📚Papers

困惑度与下游性能的缩放关联

把 PPL 从“发版决策者”降级为“训练闭环信号”:阶段一看 loss,阶段二看逐任务曲线与多面板

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据(支持 4 · 反证 8 · 拓展 28)·知识聚类 5·悬问 5

领域综述

PPL/验证集 cross-entropy 在训练闭环里仍然是最便宜、最稳定的信号:同 tokenizer、同目标函数、同模型家族时,它能支撑 early-stop、异常检测、数据混合调参和 compute-optimal 预算拟合。[1][2] 但把 PPL 当“发版决策者”会在三个地方失效:其一,跨 tokenizer/跨语言时 raw PPL 不再是统一单位,分词粒度会改变数值语义,至少需要 BPB/信息归一化并配合语言均衡的任务面板。[9][10] 其二,post-training(instruction/RLHF/偏好对齐)优化的目标不是 next-token loss,行为变化可远大于平均 loss 变化。[12][14] 其三,压缩/剪枝可能让 PPL 近似不变但任务分数下跌,说明“平均似然”不足以覆盖推理链路与鲁棒性退化。[8] 更稳的工程流程是两阶段:阶段一用 PPL/BPB 管训练与预算;阶段二用逐任务缩放律 + 标准化多面板评估决定继续训练、压缩与发版,并显式记录外推误差与训练 regime 假设(是否 overtrain、token cap)。[4][5][18][3]

TL;DR

PPL 仍然有用,但可靠边界很窄:同 tokenizer、同目标函数、同模型家族的训练环内。此时 PPL/loss 与训练目标同构,适合 early-stop、异常检测、数据混合/修剪与 compute-optimal 预算拟合。[1][2] 一旦跨 tokenizer/跨语言,raw PPL 失去统一单位,分词粒度会改写数值语义;对外比较至少要补 BPB/信息归一化,并配合语言均衡的任务面板。[9][10] 更关键的解耦来自阶段二:同 pretraining loss 仍可不同下游,[7] 压缩可让 PPL 近似不变但任务分数下跌,[8] 偏好对齐目标也不以 LM loss 为中心。[12][14] 工程上更稳的流程是两阶段:阶段一用 PPL/BPB 管训练与预算;阶段二用逐任务缩放律与标准化多面板(如 HELM)决定继续训练、压缩与发版,并显式记录外推误差与训练 regime 假设(是否 overtrain、token cap)。[4][5][18][3]

核心断言

#1在同 tokenizer/同目标函数/同模型家族的训练闭环里,验证集 cross-entropy(等价于 log PPL)对“是否继续训练/是否异常/数据混合是否更好”的决策信息密度最高且成本最低;把它用于对外选型会把 tokenization 与 post-training 的变量混进同一个标量里。[1][2][9]
#2compute-optimal 结论不是“单点最优”,而是依赖训练时长假设的区间决策:Kaplan-style 与 Chinchilla-style 的最优配比差异可由是否 overtrain 等 regime 假设解释,因此预算拟合必须同时报告 regime 与拟合不确定性。[3][2][1]
#3raw PPL 不是跨 tokenizer 的统一单位:分词粒度改变每个 token 的信息量,使得“PPL 下降 10%”在不同 tokenizer 下不可同义;对外比较至少要用 BPB/信息归一化,并用语言均衡任务面板校验。[9][10][18]
#4阶段二(post-training/压缩)会系统性打破“更低 PPL ⇒ 更好任务”:同 pretraining loss 仍可不同下游,[7] 剪枝/稀疏化可让 PPL 近似不变但任务分数下跌,[8] RLHF/DPO 的优化目标也不以 LM loss 为中心。[12][14]
#5“是否继续训练/是否发版”更可操作的信号是逐任务缩放律 + 外推误差:在 overtraining 设置下任务指标也能被稳定拟合,[5] 且可用 model ladders 降低建立成本。[6][4]
#6PPL 不是“一个数”,是一个有边界的状态变量;它的授权范围只覆盖 Q1(同 tokenizer + 同 family + 同 stage 的 pretrain),其他 regime 下需要切到 bpb、loss→task 传递函数、per-task ladder 或 task panel [7][6][8]
#7把 PPL 当作发版决策者是 stage-1 的遗物;现代发版决策应当至少叠加(1) bpb 跨 tokenizer 校准,(2) per-task ladder 在 over-training 区间外推,(3) RLHF / 量化后用 task panel 重新核验排序 [5][15]

§0 PPL 的“授权范围”如何被三次重写出来

Kaplan->Hernandez/Chinchilla->same-loss-diff-downstream->task ladders->compression/RLHF

PPL→下游的关系被三次重写。第一次是 [1] / [27]:在固定模型族 + 固定 tokenizer 内,PPL(cross-entropy)被用作全局指南针,(N, D) 幂律稳定且可外推,由此形成后续“低 loss = 好模型”的口径。第二次是 2021–2022 年的边界发现:[23] 将 transfer 纳入 scaling law,却发现 domain mismatch 会使 PPL 与 finetune 性能脱钩;[2] 重拟合 token/param 推荐,并显式化“compute-optimal 是带 regime 区间的决策”;[7] 给出直接反例:同 pretraining loss 仍可对应显著不同的下游性能,implicit bias 才是主导因素。第三次发生在 2023–2024:[21] 区分度量伪影与能力,揭示离散指标制造的“跳变”;[5] 将 over-training 区间下的 PPL→下游变成可外推预测;[6] 把外推从“loss 套同一幂律”改为 per-task model ladder;[8][15] 则在 stage 2(post-training / 量化压缩 / RLHF) 上彻底切断 PPL→任务分数的因果链。

结果是一个收窄的“授权范围 (authorization domain)”:在 Q1(同 tokenizer + 同 family + 同 stage),PPL 仍是数据混合 sweep 与异常检测的最强单一信号;在 Q2(同 tokenizer 跨 family/optim),PPL 退化为 recipe-bound 部分信号;在 Q3(跨 tokenizer),必须切到 bpb / bpc;在 Q4(stage 2 / 压缩 / RLHF),PPL 不再是有效预测器,需要 task panel + per-task ladder。本节后续把这条边界转成可执行的 decision flow,并把 §1–§4 重组为“哪个 Q 使用哪种替代物”。

PPL -> downstream: from "low loss = good model" to a regime-aware signal Each milestone narrows the regime in which raw PPL is the right yardstick. 2020 2021 2022 2023 2024 H1 2024 H2 2024 H2 Kaplan / AR scaling Transfer scaling Chinchilla; HELM Same-loss-diff-downstream Reliable over-training Task scaling ladders Compression breaks PPL [Kaplan2020ScalingLaws] [Hernandez2021ScalingLawsForTransfer] [Hoffmann2022Chinchilla][Liang2022HELM] [HongLiu2022SameLossBetterDownstream] [Gadre2024OvertrainingDownstream] [Bhagia2024TaskScalingLadders] [KhanalCapone2024CompressionTasks] PPL = global compass finetune transfer too fix compute-optimal recipe PPL not sufficient extrapolatable in regime per-task, panel-based stage-2 invalidates PPL single signal domain match matters recipe-bound implicit bias N x D x stage-1 ladders + multi-panel post-train + quant Milestone study / paper Regime narrowing in which PPL is the right unit
图 1. 图 0.1 PPL→下游的三次重写时间线
PPL authorization domain: where the signal still rules, and where it stops Same training stage ----------- Different stage (post-train / compression / RLHF) Same tokenizer + same family --- Different tokenizer / family Q1 PPL is decisive same family + same tokenizer + stage 1 data-mix sweep, anomaly detect, compute-optimal [Kaplan2020ScalingLaws][Hoffmann2022Chinchilla] [Gadre2024OvertrainingDownstream] Q2 PPL becomes recipe-bound same tokenizer, different optimizer / arch implicit bias drives downstream gap; PPL only partial [HongLiu2022SameLossBetterDownstream] [Bhagia2024TaskScalingLadders] Q3 cross-tokenizer: switch to bpb PPL not comparable across tokenizers (granularity differs) use bits-per-byte or bits-per-character [Mielke2021TokenizationHistory][BigScience2022BLOOM] Q4 stage-2 / RLHF / compression: PPL invalid post-training reorders task ranking; quant breaks it more use task panel + reward sweeps + per-task ladder [KhanalCapone2024CompressionTasks][Gao2022RewardOveroptimization]
图 2. 图 0.2 PPL 的授权范围:四个 quadrant 决定能不能用它做决策
正在渲染图示…
图 3. 图 0.3 “要不要用 PPL 做决策”的执行式 decision flow
Q1 同 family + 同 tokenizer + 同 stage
0.90[Kaplan2020ScalingLaws][Hoffmann2022Chinchilla]
Q1+ over-training 区间
0.86[Gadre2024OvertrainingDownstream]
Q2 同 tokenizer 跨 family/optim
0.55[HongLiu2022SameLossBetterDownstream]
Q3 跨 tokenizer (raw PPL)
0.20改用 bpb 才可比
Q4 stage-2 (RLHF / quant)
0.10[KhanalCapone2024CompressionTasks][Gao2022RewardOveroptimization]
单位:Pearson r 区间
图 4. 图 0.4 不同 regime 下 PPL→任务分数的报告区间相关性 (illustrative range, 越高越可信)

§1 PPL 的“授权范围”:训练闭环强,跨阶段/跨设置弱

把 PPL 作为“训练闭环控制量”时,优势来自同构:训练目标就是 next-token cross-entropy,验证 loss 直接估计泛化误差,且采样成本最低。[1] 因此它适合 early-stop、异常检测、数据混合调参:这些决策都在同一目标函数上估计边际收益。[2] 但把 PPL 升格为“对外选型/发版理由”,会把三个不受控变量压进一个数:tokenization(单位变化)、分布差异(transfer gap)、以及阶段二目标(instruction/RLHF/压缩)造成的行为重塑。[9][12][8] 反例不必跨家族:Hong Liu et al. [7] 展示,几乎相同的 pretraining loss 仍可对应不同下游分数;因此“PPL 近似相同 ⇒ 能力近似相同”只在更强条件下成立(例如同优化路径、同正则/数据顺序)。所以阶段划分应更务实:阶段一用 PPL 稳住训练、把预算用满;阶段二把决策权交给任务面板与逐任务曲线。

正在渲染图示…
图 5. 图 1.1 PPL 比较的“授权范围”:tokenizer / domain / stage 三道闸
PPL 不是“没用”,而是“只该对训练闭环负责”。跨 tokenizer、跨语言、跨 post-training 阶段时,它不再是统一单位。

§2 compute-optimal:从“单点最优”改成“带 regime 的区间决策”

Hoffmann et al. [2] 将 compute-optimal 写成可执行配方:在固定 compute 下,用验证 loss 选择参数量与 token 数的配比,结论转向“更多 token、较小模型”。Kaplan et al. [1] 的早期拟合给出不同最优趋势,长期被解读为“哪条缩放律更对”。Porian et al. [3] 给出的更稳读法是:差异主要来自训练时长假设(是否 overtrain、是否训练到某个 loss floor、token budget cap),而不是某个神秘拟合技巧。工程含义有两条:第一,预算拟合必须记录训练 regime,否则“最优配比”既不可复现也不可迁移;第二,compute-optimal 应输出区间与不确定性,而不是单点。否则阶段二一旦引入 overtraining 或不同停训准则,阶段一的“最优”就会产生系统性偏置。[5] 这也解释了为什么一些开源配方在相近 loss 下仍会出现不同任务表现:loss 拟合解决的是训练目标效率,不保证覆盖任务面板风险。

变化来源PPL 变化是否可解释典型症状更合适的监控/决策量代表证据
同训练闭环(同 tokenizer/目标/家族)

是:与训练目标同构

loss 单调下降,预算/停训可外推

PPL/loss + scaling fit

跨 tokenizer/跨语言

弱:单位被分词粒度改写

raw PPL 数值不可比;同文本不同 tokenizer 得到不同量纲

BPB/信息归一化 + 语言均衡任务面板

post-training(instruction/RLHF/DPO)

不充分:优化目标不以 LM loss 为中心

偏好/安全/指令遵循变化大于 loss 变化

偏好评测 + 安全/鲁棒面板 + 在线 A/B

压缩/剪枝/稀疏化

不可靠:平均似然可能近似不变

PPL 近似不变但任务分数下跌

逐任务回归测试 + 行为分布漂移(如 JS divergence)

PPL 与下游性能脱钩的主要来源:哪些变化会让“更低 PPL”不再可推出“更高任务分数”
"Compute-optimal" is a band, not a single point -- three regimes pull (N*, D*) in different directions R1. Pretrain-loss optimal "minimize loss at fixed compute" Optimum: - D / N ~ 20 (Chinchilla) - ~1.7 (Kaplan) Holds when: - amortizing pretrain only - inference cost ignored [Kaplan2020ScalingLaws] [Hoffmann2022Chinchilla] R2. Inference-cost optimal "amortize over serving" Optimum: - D / N >> 20 (over-train) - smaller N, longer D Holds when: - per-token serving dominates - latency-bound deployment [Gadre2024OvertrainingDownstream] [Touvron2023Llama2] R3. Data-quality optimal "fixed compute, sweep data" Optimum: - minimize loss(N, D, w) - best (N*, D*) shifts with w* Holds when: - mixture is a free knob - enough proxies to fit w [Hernandez2021ScalingLawsForTransfer] [Muennighoff2023DataConstrainedScaling] Same compute, three different answers -- pick the regime explicitly before quoting the optimum.
图 6. 图 2.1 “compute-optimal”是一段 band 而不是一点:loss / inference / data-quality 三条 regime 拉向不同 (N*, D*)

§3 阶段二的替代物:逐任务缩放律 + 标准化多面板

阶段二的核心不是“找一个更好的标量”,而是把决策拆成两类:继续训练/扩算力是外推问题;发版/压缩是回归测试与风险控制问题。Isik et al. [4] 直接在任务分数上拟合缩放律,并把外推误差纳入决策:相同 compute 增量,在不同任务上的边际收益与不确定性不同。Gadre et al. [5] 进一步表明,在 overtraining regime 下,任务曲线经合适变换后也能稳定拟合,为“继续训练是否值得”提供比 PPL 更贴近目标的信号。Bhagia et al. [6] 通过 model ladders 降低建立逐任务曲线的成本,使阶段二评估不必等到最大模型。与此同时,任务曲线不保证单调:McKenzie et al. [16] 与 Wei et al. [17] 展示了 inverse scaling 与 U-shape,说明单一 upstream loss 代理会掩盖任务特异的退化区间。多面板的作用是把“能力、鲁棒、安全、偏见、效率”拆成可审计维度;HELM 将这种做法标准化,避免用一个平均分或一个 PPL 数字下结论。[18][19]

Stage-2 readout: per-task ladder + panel, not a single PPL line A. Per-task ladder (loss -> task score) log-loss (lower better) task acc MMLU (sigmoid + late kink) ARC-c (smoother) GSM8K (delayed step) Each task has its own f(loss) -- one PPL line cannot represent all of them. [Bhagia2024TaskScalingLadders] B. Panel readout (multi-task delta) Task delta vs baseline explained by loss? CI MMLU yes +/-0.4 ARC-c yes +/-0.6 GSM8K partial +/-1.2 HumanEval partial +/-1.5 BBH-hard no +/-2.0 Inverse-scaling no +/-2.5 Panel exposes which tasks PPL still authorizes and which need their own ladder. [Liang2022HELM][Wei2022UShapedInverseScaling] Stage 2 = task ladder + panel. PPL becomes one of many cells, not the front of the readout.
图 7. 图 3.1 阶段二的标准 readout:per-task ladder + 多任务 panel,而不是一根 PPL 线

§4 两类系统性不可比:tokenization 单位问题与目标函数错配

第一类不可比来自单位:PPL 是“每 token 的指数化负对数似然”,token 的定义由 tokenizer 决定。Mielke et al. [9] 的直接含义是:对同一段文本,更细的 token 往往让每 token 预测更“容易”,raw PPL 更低,但这不等价于更强的语言建模能力。多语言模型的训练与评估报告反复遇到这一问题:BLOOM 把跨语言评估与数据覆盖当成一等公民,但指标解释仍必须建立在语言与分词的共同基线上。[10][11] 第二类不可比来自目标错配:对齐阶段优化的是偏好或安全约束,而不是 next-token loss。Bai et al. [12] 与 Bai et al. [13] 展示了偏好/无害性维度上的明显变化;Rafailov et al. [14] 进一步把偏好优化写成直接优化策略的目标函数。与此同时,Gao et al. [15] 指出,把 proxy 优化到极致会损害真实偏好质量,说明阶段二不仅要换指标,还要防止单指标过拟合。把这两类不可比混在一起,例如跨 tokenizer 报 raw PPL,同时比较 chat 模型与 base 模型,会让数字看起来精确,但语义并不稳定。

Two systematic incomparabilities that PPL cannot fix on its own A. Tokenization-unit problem "PPL is per token; tokens are not the same unit" Symptom: - 32k vs 100k vocab => bpb differs even at same model - code / math heavy mix shifts unit length - multilingual changes char/token ratio Mitigations: - compare in bits-per-byte not nats/token - only PPL-compare same tokenizer Anchors: [Mielke2021TokenizationHistory][KhanalCapone2024CompressionTasks] B. Objective-function mismatch "likelihood after SFT/RLHF != likelihood at pretrain" Symptom: - post-train PPL inflates on user-distribution data - DPO / RLHF distort token-level likelihood - reward hacking decouples PPL from quality Mitigations: - never compare PPL across stages - use task-specific evaluators after SFT Anchors: [Bai2022RLHF][Rafailov2023DPO][Gao2022RewardOveroptimization] When either is in play, demote PPL: report bpb, restrict comparison scope, or move to task panels.
图 8. 图 4.1 PPL 解决不了的两类系统性不可比:tokenization 单位 + 目标函数错配

时间线

  1. Kaplan et al. 把验证 loss 的幂律拟合变成预算与训练监控工具[1]
  2. Hoffmann et al. 用验证 loss 给出 Chinchilla compute-optimal 配比[2]
  3. Hong Liu et al. 给出“同 pretraining loss 不同下游”的直接反例[7]
  4. McKenzie et al. 系统化展示 inverse scaling:任务曲线可非单调[16]
  5. Isik et al. 直接在任务分数上拟合缩放律并显式处理外推误差[4]
  6. Porian et al. 把 compute-optimal 分歧归因到训练时长/overtraining 假设[3]
  7. Khanal & Capone 在压缩下展示 PPL 近似不变但任务分数下跌[8]
  8. Bhagia et al. 用 model ladders 降低逐任务缩放律的建立成本[6]

研究立场对比

阵营 A:PPL 仍是主变量(至少用于训练与模型选择)

立场 — 把验证 loss/PPL 视为最可靠的可缩放信号:它可外推 compute 预算、指导参数:token 配比,并在多数任务上与能力提升同向,因此也可用于模型选择的主排序键。

证据:[1][2][25][26][27]

反方 — 反驳点集中在“跨阶段/跨设置”的不可比:Hong Liu et al. [7] 说明同 loss 仍可不同下游;McKenzie et al. [16] 与 Wei et al. [17] 说明任务曲线可非单调;tokenization 使 raw PPL 跨模型不可比。[9] 压缩与对齐阶段也会让行为变化大于 loss 变化。[8][12]

判词 — 更务实的定位:PPL 作为阶段一主变量成立;把它扩展为对外选型/发版主变量会系统性踩到单位问题与目标错配。

阵营 B:PPL 只管阶段一;阶段二必须用逐任务缩放律

立场 — 把“是否继续训练/是否加算力”的问题直接写成逐任务外推:对每个关键任务拟合缩放律,决策基于边际收益与外推误差,而不是基于 upstream loss 的代理关系。

证据:[4][5][6][16][17][23]

反方 — 主要成本在评估与统计稳定性:逐任务曲线需要足够密的模型点与一致的评测协议;若任务面板频繁变动,外推误差会被“指标漂移”放大。[18] 另一个现实问题是:阶段一仍需要 loss 来做训练稳定性控制与数据混合调参,逐任务评估无法替代训练内信号。[1]

判词 — 结论层面的建议:把逐任务缩放律用于“继续训练/扩算力”的决策,优先覆盖 5–15 个最关键任务;其余任务用多面板回归测试兜底。

阵营 C:停止寻找单标量;用标准化多面板定义质量

立场 — 把模型质量拆成可审计维度(能力、鲁棒、安全、公平、效率、场景适配),用标准化面板与报告格式减少“只看一个数”的误导;PPL 只作为训练监控信号保留。

证据:[18][19][20][21][22]

反方 — 面板并不自动解决“决策”问题:当预算有限时仍需要排序与停训准则;如果没有逐任务外推或明确的业务权重,多面板容易退化成“多指标同时看但没人负责”。[4] 另外,面板覆盖越广,评测噪声与协议维护成本越高,需要版本化与变更控制。[18]

判词 — 更稳的落地方式:多面板负责“发版验收与回归测试”,逐任务缩放律负责“继续训练/扩算力”,PPL 负责“训练闭环”。三者分工比争夺一个主标量更省成本。

阵营 D:问题是本体论的——next-token loss 不是你想要的目标

立场 — 把“有用的助手”视为偏好与约束满足问题:helpfulness/harmlessness/指令遵循来自偏好优化与监督信号选择,而不是来自更低的 next-token loss;因此 PPL 与最终质量相关性天然弱。

证据:[12][13][14][15][29][28]

反方 — 反驳点在工程可控性:即便最终目标不是 next-token loss,阶段一仍需要一个稳定、可微、低成本的训练监控量;PPL 在训练稳定性与预算拟合上仍然更可用。[1][2] 另一个风险是把偏好 proxy 优化过头会伤害真实偏好质量,需要把“对齐指标”也做成多面板并加防过拟合约束。[15][18]

判词 — 更可执行的读法:承认目标错配存在,但不要因此放弃 PPL;把它限定在阶段一,把阶段二的目标与验收做成独立面板与回归测试。

实践要点

可执行的清单(带边界条件):
1) 训练 dashboard 保留 loss/log PPL 作为最左侧信号,但只授权它做训练内闭环:early-stop、异常检测、数据混合/修剪、compute allocation。前提必须同时满足:同 tokenizer、同目标函数、同模型家族。[1][2]
2) 做 compute-optimal 拟合时,必须把训练 regime 写进实验卡:是否 overtrain、token budget cap、停训准则;输出必须包含拟合不确定性(例如对最优 token:param 比率给区间),不接受“单条曲线给单点最优”。[3][5]
3) 任何跨 tokenizer/跨语言对外比较,禁止只报 raw PPL;最低要求:BPB 或信息归一化 + 语言均衡任务面板。若做不到 tokenizer-controlled,对外只给定性结论,不给精确排序。[9][10][18]
4) “是否继续训练/是否加算力”用逐任务缩放律而不是 PPL 代理:优先覆盖 5–15 个最关键任务,记录外推误差并把误差当成停训门槛的一部分。[4][6]
5) 遇到 inverse scaling/U-shape 的任务,不要用“平均分”掩盖;把这些任务标成 release blocker 或单独分桶,直到找到数据/提示/评测协议的可控解释。[16][17]
6) 压缩/剪枝验收不要用 PPL 兜底:必须做逐任务回归测试,并额外监控行为分布漂移(例如输出分布的 JS divergence 或等价的 drift 指标),把 drift 作为回滚触发器之一。[8]
7) 对齐阶段(RLHF/DPO/Constitutional)不要把“PPL 没变”当成安全信号;至少要有偏好评测与安全面板,并对 reward hacking/过优化设置早停或正则化约束。[12][14][15][13]
8) 选型/发版文档里禁止用“PPL 更低”作为主理由;主理由必须是面板上的任务收益与风险项,并标注评测版本与变更记录。[18][22] 长文评估侧的方案( NIAH/RULER/LongBench v2 等)在姊妹篇 `long-context-capacity-and-decay` 中详谈;这里只覆盖 PPL 与 stage-1 任务的传递问题。

悬而未决的问题

  • Q1.tokenizer-controlled 的多语言对照实验仍然稀缺:同一模型家族、同一训练数据与目标函数,仅改变 tokenizer 时,raw PPL 与 BPB/信息归一化指标对下游面板的预测差异有多大?需要公开可复现的 artifact。[9][10]
  • Q2.“同 pretraining loss 不同偏好质量”的干净实验还不够多:现有证据更多来自对齐方法差异与 proxy 过优化风险,需要在同 base、同数据、同算力下对齐路径对偏好面板的因果对照。[12][15][14]
  • Q3.压缩导致“PPL 近似不变但任务下跌”的机制需要更细分:是 KV cache 行为、长程依赖、校准、还是推理链路的脆弱性?现有工作多是现象学,需要更细粒度诊断与跨方法复现。[8]
  • Q4.逐任务缩放律用于停训的“最小模型点数/最小评测频率”缺少共识:model ladders 降低成本,但在不同任务噪声水平下,外推误差的稳定估计需要多少点仍不清楚。[6][4]
  • Q5.多面板评估的版本化与变更控制仍是工程短板:当面板任务、提示、评分器更新时,如何保证“回归”与“进步”的语义稳定,并与逐任务缩放律的外推误差对齐?[18][22]
  1. [1]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
  2. [2]
    Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
  3. [3]
    Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon. Resolving Discrepancies in Compute-Optimal Scaling of Language Models. arXiv, 2024论文
  4. [4]
    Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
  5. [5]
    Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao. Language models scale reliably with over-training and on downstream tasks. arXiv, 2024论文
  6. [6]
    Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
  7. [7]
    Hong Liu, Sang Michael Xie, Zhiyuan Li, Tengyu Ma. Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models. arXiv, 2022论文
  8. [8]
  9. [9]
    Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey. Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP. arXiv, 2021论文
  10. [10]
  11. [11]
    Angelina McMillan-Major, Zaid Alyafeai, Stella Biderman, Kimbo Chen, Francesco De Toni. Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources. arXiv, 2022论文
  12. [12]
    Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
  13. [13]
    Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion. Constitutional AI: Harmlessness from AI Feedback. arXiv, 2022论文
  14. [14]
    Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv, 2023论文
  15. [15]
    Leo Gao, John Schulman, Jacob Hilton. Scaling Laws for Reward Model Overoptimization. arXiv, 2022论文
  16. [16]
    Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller. Inverse Scaling: When Bigger Isn't Better. arXiv, 2023论文
  17. [17]
    Jason Wei, Najoung Kim, Yi Tay, Quoc V. Le. Inverse scaling can become U-shaped. arXiv, 2022论文
  18. [18]
    Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu. Holistic Evaluation of Language Models. arXiv, 2022论文
  19. [19]
    Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
  20. [20]
    Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid. Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv, 2022论文
  21. [21]
    Rylan Schaeffer, Brando Miranda, Sanmi Koyejo. Are Emergent Abilities of Large Language Models a Mirage?. arXiv, 2023论文
  22. [22]
    Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
  23. [23]
    Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
  24. [24]
    Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
  25. [25]
    Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
  26. [26]
    Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
  27. [27]
    Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse. Scaling Laws for Autoregressive Generative Modeling. arXiv, 2020论文
  28. [28]
    Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
  29. [29]
    Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
  30. [30]

论文列表

训练闭环:loss/PPL 的可用边界与 compute-optimal(4)

同 tokenizer/同目标函数/同模型家族下,验证集 loss/PPL 的幂律拟合可以支撑预算分配与训练监控;但拟合结论对训练时长假设(是否 overtrain、token cap)敏感,需要把不确定性显式化。

10

Scaling Laws for Neural Language Models

Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B. Brown,Benjamin Chess2020年1月23日
把验证集 cross-entropy 的幂律拟合工程化:用小规模实验外推大规模训练,并把 loss/PPL 作为 early-stop、预算分配与异常检测的默认信号。
10

Training Compute-Optimal Large Language Models

Jordan Hoffmann,Sebastian Borgeaud,Arthur Mensch,Elena Buchatskaya,Trevor Cai2022年3月29日
用验证 loss 定义 compute-optimal,并给出在固定算力下更偏向“更多 token + 更小模型”的配比;同时把“loss 最优是否等于任务最优”留成缺口。
9

Resolving Discrepancies in Compute-Optimal Scaling of Language Models

Tomer Porian,Mitchell Wortsman,Jenia Jitsev,Ludwig Schmidt,Yair Carmon2024年6月27日
把 Kaplan-style 与 Chinchilla-style 的 compute-optimal 分歧归因到训练时长/是否 overtrain 的假设差异,要求预算拟合必须声明 regime 并给出不确定性。
7

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Jack W. Rae,Sebastian Borgeaud,Trevor Cai,Katie Millican,Jordan Hoffmann2021年12月8日
在大规模训练实践中展示 loss 的可预测缩放与训练监控价值,并把“训练内信号”与“对外能力”区分为不同决策层。

阶段二:逐任务缩放律、overtraining 与“是否继续训练”决策(4)

把“继续训练是否值得”从看 PPL 转为看逐任务曲线与外推误差;同时承认任务曲线可能非单调(inverse scaling/U-shape),因此需要任务面板与不确定性控制。

10

Scaling Laws for Downstream Task Performance of Large Language Models

Berivan Isik,Natalia Ponomareva,Hussein Hazimeh,Dimitris Paparas,Sergei Vassilvitskii2024年2月6日
直接对任务分数拟合缩放律并讨论外推策略与拟合形式选择,把“继续训练是否值得”表述为逐任务外推误差控制问题。
9

Language models scale reliably with over-training and on downstream tasks

Samir Yitzhak Gadre,Georgios Smyrnis,Vaishaal Shankar,Suchin Gururangan,Mitchell Wortsman,Rulin Shao2024年3月13日
在 overtraining 设置下展示任务指标也能稳定拟合(经合适变换),强调应显式建模任务而不是把 PPL 当代理变量。
9

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Akshita Bhagia,Jiacheng Liu,Alexander Wettig,David Heineman,Oyvind Tafjord2024年12月5日
用 model ladders 降低逐任务缩放律的建立成本,把决策问题写成“预算分配 + 外推误差控制”,弱化单一 loss 指标。
8

Inverse Scaling: When Bigger Isn't Better

Ian R. McKenzie,Alexander Lyzhov,Michael Pieler,Alicia Parrish,Aaron Mueller2023年6月15日
给出任务随规模变差的实例,说明“loss 单调下降”不能推出“任务单调上升”,阶段二需要逐任务曲线而非单标量。

跨 tokenizer/跨语言:raw PPL 不可比与信息归一化(4)

分词粒度改变“一个 token”携带的信息量,导致 raw PPL 失去统一单位;更可操作的对外比较是 BPB/信息归一化 + 语言均衡任务面板,并尽量做 tokenizer-controlled 实验。

8

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

Sabrina J. Mielke,Zaid Alyafeai,Elizabeth Salesky,Colin Raffel,Manan Dey2021年12月20日
系统解释 tokenization 如何改变建模单位与评估单位,为“raw PPL 不可跨 tokenizer 比较”提供机制层理由与历史脉络。
8

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

BigScience Workshop2022年11月9日
多语言训练与评估报告把跨语言比较的难点显式化:语言分布、tokenization 与评估面板共同决定“好不好”的外部可比性。
6

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Ahmet Üstün,Viraat Aryabumi,Zheng-Xin Yong,Wei-Yin Ko,Daniel D'souza2024年2月12日
instruction tuning 把“跨语言能力”从 pretraining loss 进一步解耦出来,暴露 raw PPL 对多语言对齐质量的解释力不足。
4

Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources

Angelina McMillan-Major,Zaid Alyafeai,Stella Biderman,Kimbo Chen,Francesco De Toni2022年1月25日
把数据来源与语言覆盖文档化,支撑“语言均衡评估面板”与“跨语言对外比较”的可审计性,而不是只报一个 PPL 数字。

post-training 与压缩:行为变化可大于 loss 变化(4)

同 pretraining loss 仍可不同下游;偏好对齐与 RLHF 直接优化偏好目标;剪枝/稀疏化可能保持 PPL 近似不变但任务分数下跌。共同结论是:阶段二必须用任务/行为诊断,而不是把 PPL 当最终代理。

10

Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models

Hong Liu,”Sang Michael Xie,Zhiyuan Li,Tengyu Ma2022年10月25日
给出“同 pretraining loss 仍可不同下游”的反例,并把差异归因到优化路径的隐式偏置与平坦度,削弱“同 PPL 即同能力”的强版本。
9

Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models

Bishwash Khanal,Jeffery M. Capone2024年9月17日
在剪枝/稀疏化下展示 PPL 变化很小但任务分数明显下跌,并提出用分布漂移指标(如 JS divergence)监控行为风险更贴近验收。
8

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

Yuntao Bai,Andy Jones,Kamal Ndousse,Amanda Askell,Anna Chen2022年4月12日
展示 RLHF 可在偏好维度上改变助手质量,而这一变化并不以 next-token loss/PPL 为中心,提示“对齐阶段”需要独立指标。
7

Scaling Data-Constrained Language Models

Niklas Muennighoff,Alexander M. Rush,Boaz Barak,Teven Le Scao,Aleksandra Piktus2023年5月25日
指出数据受限时最优缩放与收益结构会改变,使得“同等 loss 改善”在不同数据 regime 下对应不同的下游回报。