TL;DR
PPL 仍然有用,但可靠边界很窄:同 tokenizer、同目标函数、同模型家族的训练环内。此时 PPL/loss 与训练目标同构,适合 early-stop、异常检测、数据混合/修剪与 compute-optimal 预算拟合。[1][2] 一旦跨 tokenizer/跨语言,raw PPL 失去统一单位,分词粒度会改写数值语义;对外比较至少要补 BPB/信息归一化,并配合语言均衡的任务面板。[9][10] 更关键的解耦来自阶段二:同 pretraining loss 仍可不同下游,[7] 压缩可让 PPL 近似不变但任务分数下跌,[8] 偏好对齐目标也不以 LM loss 为中心。[12][14] 工程上更稳的流程是两阶段:阶段一用 PPL/BPB 管训练与预算;阶段二用逐任务缩放律与标准化多面板(如 HELM)决定继续训练、压缩与发版,并显式记录外推误差与训练 regime 假设(是否 overtrain、token cap)。[4][5][18][3]
核心断言
§0 PPL 的“授权范围”如何被三次重写出来
Kaplan->Hernandez/Chinchilla->same-loss-diff-downstream->task ladders->compression/RLHF
PPL→下游的关系被三次重写。第一次是 [1] / [27]:在固定模型族 + 固定 tokenizer 内,PPL(cross-entropy)被用作全局指南针,(N, D) 幂律稳定且可外推,由此形成后续“低 loss = 好模型”的口径。第二次是 2021–2022 年的边界发现:[23] 将 transfer 纳入 scaling law,却发现 domain mismatch 会使 PPL 与 finetune 性能脱钩;[2] 重拟合 token/param 推荐,并显式化“compute-optimal 是带 regime 区间的决策”;[7] 给出直接反例:同 pretraining loss 仍可对应显著不同的下游性能,implicit bias 才是主导因素。第三次发生在 2023–2024:[21] 区分度量伪影与能力,揭示离散指标制造的“跳变”;[5] 将 over-training 区间下的 PPL→下游变成可外推预测;[6] 把外推从“loss 套同一幂律”改为 per-task model ladder;[8] 与 [15] 则在 stage 2(post-training / 量化压缩 / RLHF) 上彻底切断 PPL→任务分数的因果链。
结果是一个收窄的“授权范围 (authorization domain)”:在 Q1(同 tokenizer + 同 family + 同 stage),PPL 仍是数据混合 sweep 与异常检测的最强单一信号;在 Q2(同 tokenizer 跨 family/optim),PPL 退化为 recipe-bound 部分信号;在 Q3(跨 tokenizer),必须切到 bpb / bpc;在 Q4(stage 2 / 压缩 / RLHF),PPL 不再是有效预测器,需要 task panel + per-task ladder。本节后续把这条边界转成可执行的 decision flow,并把 §1–§4 重组为“哪个 Q 使用哪种替代物”。
§1 PPL 的“授权范围”:训练闭环强,跨阶段/跨设置弱
把 PPL 作为“训练闭环控制量”时,优势来自同构:训练目标就是 next-token cross-entropy,验证 loss 直接估计泛化误差,且采样成本最低。[1] 因此它适合 early-stop、异常检测、数据混合调参:这些决策都在同一目标函数上估计边际收益。[2] 但把 PPL 升格为“对外选型/发版理由”,会把三个不受控变量压进一个数:tokenization(单位变化)、分布差异(transfer gap)、以及阶段二目标(instruction/RLHF/压缩)造成的行为重塑。[9][12][8] 反例不必跨家族:Hong Liu et al. [7] 展示,几乎相同的 pretraining loss 仍可对应不同下游分数;因此“PPL 近似相同 ⇒ 能力近似相同”只在更强条件下成立(例如同优化路径、同正则/数据顺序)。所以阶段划分应更务实:阶段一用 PPL 稳住训练、把预算用满;阶段二把决策权交给任务面板与逐任务曲线。
PPL 不是“没用”,而是“只该对训练闭环负责”。跨 tokenizer、跨语言、跨 post-training 阶段时,它不再是统一单位。
§2 compute-optimal:从“单点最优”改成“带 regime 的区间决策”
Hoffmann et al. [2] 将 compute-optimal 写成可执行配方:在固定 compute 下,用验证 loss 选择参数量与 token 数的配比,结论转向“更多 token、较小模型”。Kaplan et al. [1] 的早期拟合给出不同最优趋势,长期被解读为“哪条缩放律更对”。Porian et al. [3] 给出的更稳读法是:差异主要来自训练时长假设(是否 overtrain、是否训练到某个 loss floor、token budget cap),而不是某个神秘拟合技巧。工程含义有两条:第一,预算拟合必须记录训练 regime,否则“最优配比”既不可复现也不可迁移;第二,compute-optimal 应输出区间与不确定性,而不是单点。否则阶段二一旦引入 overtraining 或不同停训准则,阶段一的“最优”就会产生系统性偏置。[5] 这也解释了为什么一些开源配方在相近 loss 下仍会出现不同任务表现:loss 拟合解决的是训练目标效率,不保证覆盖任务面板风险。
| 变化来源 | PPL 变化是否可解释 | 典型症状 | 更合适的监控/决策量 | 代表证据 |
|---|---|---|---|---|
| 同训练闭环(同 tokenizer/目标/家族) | 是:与训练目标同构 | loss 单调下降,预算/停训可外推 | PPL/loss + scaling fit | |
| 跨 tokenizer/跨语言 | 弱:单位被分词粒度改写 | raw PPL 数值不可比;同文本不同 tokenizer 得到不同量纲 | BPB/信息归一化 + 语言均衡任务面板 | |
| post-training(instruction/RLHF/DPO) | 不充分:优化目标不以 LM loss 为中心 | 偏好/安全/指令遵循变化大于 loss 变化 | 偏好评测 + 安全/鲁棒面板 + 在线 A/B | |
| 压缩/剪枝/稀疏化 | 不可靠:平均似然可能近似不变 | PPL 近似不变但任务分数下跌 | 逐任务回归测试 + 行为分布漂移(如 JS divergence) |
§3 阶段二的替代物:逐任务缩放律 + 标准化多面板
阶段二的核心不是“找一个更好的标量”,而是把决策拆成两类:继续训练/扩算力是外推问题;发版/压缩是回归测试与风险控制问题。Isik et al. [4] 直接在任务分数上拟合缩放律,并把外推误差纳入决策:相同 compute 增量,在不同任务上的边际收益与不确定性不同。Gadre et al. [5] 进一步表明,在 overtraining regime 下,任务曲线经合适变换后也能稳定拟合,为“继续训练是否值得”提供比 PPL 更贴近目标的信号。Bhagia et al. [6] 通过 model ladders 降低建立逐任务曲线的成本,使阶段二评估不必等到最大模型。与此同时,任务曲线不保证单调:McKenzie et al. [16] 与 Wei et al. [17] 展示了 inverse scaling 与 U-shape,说明单一 upstream loss 代理会掩盖任务特异的退化区间。多面板的作用是把“能力、鲁棒、安全、偏见、效率”拆成可审计维度;HELM 将这种做法标准化,避免用一个平均分或一个 PPL 数字下结论。[18][19]
§4 两类系统性不可比:tokenization 单位问题与目标函数错配
第一类不可比来自单位:PPL 是“每 token 的指数化负对数似然”,token 的定义由 tokenizer 决定。Mielke et al. [9] 的直接含义是:对同一段文本,更细的 token 往往让每 token 预测更“容易”,raw PPL 更低,但这不等价于更强的语言建模能力。多语言模型的训练与评估报告反复遇到这一问题:BLOOM 把跨语言评估与数据覆盖当成一等公民,但指标解释仍必须建立在语言与分词的共同基线上。[10][11] 第二类不可比来自目标错配:对齐阶段优化的是偏好或安全约束,而不是 next-token loss。Bai et al. [12] 与 Bai et al. [13] 展示了偏好/无害性维度上的明显变化;Rafailov et al. [14] 进一步把偏好优化写成直接优化策略的目标函数。与此同时,Gao et al. [15] 指出,把 proxy 优化到极致会损害真实偏好质量,说明阶段二不仅要换指标,还要防止单指标过拟合。把这两类不可比混在一起,例如跨 tokenizer 报 raw PPL,同时比较 chat 模型与 base 模型,会让数字看起来精确,但语义并不稳定。
时间线
- Kaplan et al. 把验证 loss 的幂律拟合变成预算与训练监控工具[1]
- Hoffmann et al. 用验证 loss 给出 Chinchilla compute-optimal 配比[2]
- Hong Liu et al. 给出“同 pretraining loss 不同下游”的直接反例[7]
- McKenzie et al. 系统化展示 inverse scaling:任务曲线可非单调[16]
- Isik et al. 直接在任务分数上拟合缩放律并显式处理外推误差[4]
- Porian et al. 把 compute-optimal 分歧归因到训练时长/overtraining 假设[3]
- Khanal & Capone 在压缩下展示 PPL 近似不变但任务分数下跌[8]
- Bhagia et al. 用 model ladders 降低逐任务缩放律的建立成本[6]
研究立场对比
阵营 A:PPL 仍是主变量(至少用于训练与模型选择)
立场 — 把验证 loss/PPL 视为最可靠的可缩放信号:它可外推 compute 预算、指导参数:token 配比,并在多数任务上与能力提升同向,因此也可用于模型选择的主排序键。
反方 — 反驳点集中在“跨阶段/跨设置”的不可比:Hong Liu et al. [7] 说明同 loss 仍可不同下游;McKenzie et al. [16] 与 Wei et al. [17] 说明任务曲线可非单调;tokenization 使 raw PPL 跨模型不可比。[9] 压缩与对齐阶段也会让行为变化大于 loss 变化。[8][12]
判词 — 更务实的定位:PPL 作为阶段一主变量成立;把它扩展为对外选型/发版主变量会系统性踩到单位问题与目标错配。
阵营 B:PPL 只管阶段一;阶段二必须用逐任务缩放律
立场 — 把“是否继续训练/是否加算力”的问题直接写成逐任务外推:对每个关键任务拟合缩放律,决策基于边际收益与外推误差,而不是基于 upstream loss 的代理关系。
反方 — 主要成本在评估与统计稳定性:逐任务曲线需要足够密的模型点与一致的评测协议;若任务面板频繁变动,外推误差会被“指标漂移”放大。[18] 另一个现实问题是:阶段一仍需要 loss 来做训练稳定性控制与数据混合调参,逐任务评估无法替代训练内信号。[1]
判词 — 结论层面的建议:把逐任务缩放律用于“继续训练/扩算力”的决策,优先覆盖 5–15 个最关键任务;其余任务用多面板回归测试兜底。
阵营 C:停止寻找单标量;用标准化多面板定义质量
立场 — 把模型质量拆成可审计维度(能力、鲁棒、安全、公平、效率、场景适配),用标准化面板与报告格式减少“只看一个数”的误导;PPL 只作为训练监控信号保留。
反方 — 面板并不自动解决“决策”问题:当预算有限时仍需要排序与停训准则;如果没有逐任务外推或明确的业务权重,多面板容易退化成“多指标同时看但没人负责”。[4] 另外,面板覆盖越广,评测噪声与协议维护成本越高,需要版本化与变更控制。[18]
判词 — 更稳的落地方式:多面板负责“发版验收与回归测试”,逐任务缩放律负责“继续训练/扩算力”,PPL 负责“训练闭环”。三者分工比争夺一个主标量更省成本。
阵营 D:问题是本体论的——next-token loss 不是你想要的目标
立场 — 把“有用的助手”视为偏好与约束满足问题:helpfulness/harmlessness/指令遵循来自偏好优化与监督信号选择,而不是来自更低的 next-token loss;因此 PPL 与最终质量相关性天然弱。
反方 — 反驳点在工程可控性:即便最终目标不是 next-token loss,阶段一仍需要一个稳定、可微、低成本的训练监控量;PPL 在训练稳定性与预算拟合上仍然更可用。[1][2] 另一个风险是把偏好 proxy 优化过头会伤害真实偏好质量,需要把“对齐指标”也做成多面板并加防过拟合约束。[15][18]
判词 — 更可执行的读法:承认目标错配存在,但不要因此放弃 PPL;把它限定在阶段一,把阶段二的目标与验收做成独立面板与回归测试。
实践要点
可执行的清单(带边界条件):
1) 训练 dashboard 保留 loss/log PPL 作为最左侧信号,但只授权它做训练内闭环:early-stop、异常检测、数据混合/修剪、compute allocation。前提必须同时满足:同 tokenizer、同目标函数、同模型家族。[1][2]
2) 做 compute-optimal 拟合时,必须把训练 regime 写进实验卡:是否 overtrain、token budget cap、停训准则;输出必须包含拟合不确定性(例如对最优 token:param 比率给区间),不接受“单条曲线给单点最优”。[3][5]
3) 任何跨 tokenizer/跨语言对外比较,禁止只报 raw PPL;最低要求:BPB 或信息归一化 + 语言均衡任务面板。若做不到 tokenizer-controlled,对外只给定性结论,不给精确排序。[9][10][18]
4) “是否继续训练/是否加算力”用逐任务缩放律而不是 PPL 代理:优先覆盖 5–15 个最关键任务,记录外推误差并把误差当成停训门槛的一部分。[4][6]
5) 遇到 inverse scaling/U-shape 的任务,不要用“平均分”掩盖;把这些任务标成 release blocker 或单独分桶,直到找到数据/提示/评测协议的可控解释。[16][17]
6) 压缩/剪枝验收不要用 PPL 兜底:必须做逐任务回归测试,并额外监控行为分布漂移(例如输出分布的 JS divergence 或等价的 drift 指标),把 drift 作为回滚触发器之一。[8]
7) 对齐阶段(RLHF/DPO/Constitutional)不要把“PPL 没变”当成安全信号;至少要有偏好评测与安全面板,并对 reward hacking/过优化设置早停或正则化约束。[12][14][15][13]
8) 选型/发版文档里禁止用“PPL 更低”作为主理由;主理由必须是面板上的任务收益与风险项,并标注评测版本与变更记录。[18][22] 长文评估侧的方案( NIAH/RULER/LongBench v2 等)在姊妹篇 `long-context-capacity-and-decay` 中详谈;这里只覆盖 PPL 与 stage-1 任务的传递问题。
悬而未决的问题
- Q1.tokenizer-controlled 的多语言对照实验仍然稀缺:同一模型家族、同一训练数据与目标函数,仅改变 tokenizer 时,raw PPL 与 BPB/信息归一化指标对下游面板的预测差异有多大?需要公开可复现的 artifact。[9][10]
- Q2.“同 pretraining loss 不同偏好质量”的干净实验还不够多:现有证据更多来自对齐方法差异与 proxy 过优化风险,需要在同 base、同数据、同算力下对齐路径对偏好面板的因果对照。[12][15][14]
- Q3.压缩导致“PPL 近似不变但任务下跌”的机制需要更细分:是 KV cache 行为、长程依赖、校准、还是推理链路的脆弱性?现有工作多是现象学,需要更细粒度诊断与跨方法复现。[8]
- Q4.逐任务缩放律用于停训的“最小模型点数/最小评测频率”缺少共识:model ladders 降低成本,但在不同任务噪声水平下,外推误差的稳定估计需要多少点仍不清楚。[6][4]
- Q5.多面板评估的版本化与变更控制仍是工程短板:当面板任务、提示、评分器更新时,如何保证“回归”与“进步”的语义稳定,并与逐任务缩放律的外推误差对齐?[18][22]
- [1]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [2]Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
- [3]Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon. Resolving Discrepancies in Compute-Optimal Scaling of Language Models. arXiv, 2024论文
- [4]Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
- [5]Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao. Language models scale reliably with over-training and on downstream tasks. arXiv, 2024论文
- [6]Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
- [7]Hong Liu, Sang Michael Xie, Zhiyuan Li, Tengyu Ma. Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models. arXiv, 2022论文
- [8]Bishwash Khanal, Jeffery M. Capone. Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models. arXiv, 2024论文
- [9]Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey. Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP. arXiv, 2021论文
- [10]
- [11]Angelina McMillan-Major, Zaid Alyafeai, Stella Biderman, Kimbo Chen, Francesco De Toni. Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources. arXiv, 2022论文
- [12]Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
- [13]Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion. Constitutional AI: Harmlessness from AI Feedback. arXiv, 2022论文
- [14]Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv, 2023论文
- [15]
- [16]Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller. Inverse Scaling: When Bigger Isn't Better. arXiv, 2023论文
- [17]
- [18]Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu. Holistic Evaluation of Language Models. arXiv, 2022论文
- [19]Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
- [20]Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid. Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv, 2022论文
- [21]Rylan Schaeffer, Brando Miranda, Sanmi Koyejo. Are Emergent Abilities of Large Language Models a Mirage?. arXiv, 2023论文
- [22]Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
- [23]Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
- [24]Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
- [25]Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
- [26]Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
- [27]Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse. Scaling Laws for Autoregressive Generative Modeling. arXiv, 2020论文
- [28]Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
- [29]Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
- [30]OpenAI (various speakers). Scaling, training dynamics, and evaluation practices for large language models (public talk materials). OpenAI / public talks, 2023演讲