困惑度与下游性能的缩放关联

把 PPL 从“发版决策者”降级为“训练闭环信号”：阶段一看 loss，阶段二看逐任务曲线与多面板

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据（支持 4 · 反证 8 · 拓展 28）·知识聚类 5·悬问 5

领域综述

PPL/验证集 cross-entropy 在训练闭环里仍然是最便宜、最稳定的信号：同 tokenizer、同目标函数、同模型家族时，它能支撑 early-stop、异常检测、数据混合调参和 compute-optimal 预算拟合。[1][2] 但把 PPL 当“发版决策者”会在三个地方失效：其一，跨 tokenizer/跨语言时 raw PPL 不再是统一单位，分词粒度会改变数值语义，至少需要 BPB/信息归一化并配合语言均衡的任务面板。[9][10] 其二，post-training（instruction/RLHF/偏好对齐）优化的目标不是 next-token loss，行为变化可远大于平均 loss 变化。[12][14] 其三，压缩/剪枝可能让 PPL 近似不变但任务分数下跌，说明“平均似然”不足以覆盖推理链路与鲁棒性退化。[8] 更稳的工程流程是两阶段：阶段一用 PPL/BPB 管训练与预算；阶段二用逐任务缩放律 + 标准化多面板评估决定继续训练、压缩与发版，并显式记录外推误差与训练 regime 假设（是否 overtrain、token cap）。[4][5][18][3]

TL;DR

PPL 仍然有用，但可靠边界很窄：同 tokenizer、同目标函数、同模型家族的训练环内。此时 PPL/loss 与训练目标同构，适合 early-stop、异常检测、数据混合/修剪与 compute-optimal 预算拟合。[1][2] 一旦跨 tokenizer/跨语言，raw PPL 失去统一单位，分词粒度会改写数值语义；对外比较至少要补 BPB/信息归一化，并配合语言均衡的任务面板。[9][10] 更关键的解耦来自阶段二：同 pretraining loss 仍可不同下游，[7] 压缩可让 PPL 近似不变但任务分数下跌，[8] 偏好对齐目标也不以 LM loss 为中心。[12][14] 工程上更稳的流程是两阶段：阶段一用 PPL/BPB 管训练与预算；阶段二用逐任务缩放律与标准化多面板（如 HELM）决定继续训练、压缩与发版，并显式记录外推误差与训练 regime 假设（是否 overtrain、token cap）。[4][5][18][3]

核心断言

#1在同 tokenizer/同目标函数/同模型家族的训练闭环里，验证集 cross-entropy（等价于 log PPL）对“是否继续训练/是否异常/数据混合是否更好”的决策信息密度最高且成本最低；把它用于对外选型会把 tokenization 与 post-training 的变量混进同一个标量里。[1][2][9]

#2compute-optimal 结论不是“单点最优”，而是依赖训练时长假设的区间决策：Kaplan-style 与 Chinchilla-style 的最优配比差异可由是否 overtrain 等 regime 假设解释，因此预算拟合必须同时报告 regime 与拟合不确定性。[3][2][1]

#3raw PPL 不是跨 tokenizer 的统一单位：分词粒度改变每个 token 的信息量，使得“PPL 下降 10%”在不同 tokenizer 下不可同义；对外比较至少要用 BPB/信息归一化，并用语言均衡任务面板校验。[9][10][18]

#4阶段二（post-training/压缩）会系统性打破“更低 PPL ⇒ 更好任务”：同 pretraining loss 仍可不同下游，[7] 剪枝/稀疏化可让 PPL 近似不变但任务分数下跌，[8] RLHF/DPO 的优化目标也不以 LM loss 为中心。[12][14]

#5“是否继续训练/是否发版”更可操作的信号是逐任务缩放律 + 外推误差：在 overtraining 设置下任务指标也能被稳定拟合，[5] 且可用 model ladders 降低建立成本。[6][4]

#6PPL 不是“一个数”，是一个有边界的状态变量;它的授权范围只覆盖 Q1（同 tokenizer + 同 family + 同 stage 的 pretrain），其他 regime 下需要切到 bpb、loss→task 传递函数、per-task ladder 或 task panel [7][6][8]。

#7把 PPL 当作发版决策者是 stage-1 的遗物;现代发版决策应当至少叠加(1) bpb 跨 tokenizer 校准,(2) per-task ladder 在 over-training 区间外推,(3) RLHF / 量化后用 task panel 重新核验排序 [5][15]。

§0 PPL 的“授权范围”如何被三次重写出来

Kaplan->Hernandez/Chinchilla->same-loss-diff-downstream->task ladders->compression/RLHF

PPL→下游的关系被三次重写。第一次是 [1] / [27]：在固定模型族 + 固定 tokenizer 内，PPL（cross-entropy）被用作全局指南针，(N, D) 幂律稳定且可外推，由此形成后续“低 loss = 好模型”的口径。第二次是 2021–2022 年的边界发现：[23] 将 transfer 纳入 scaling law，却发现 domain mismatch 会使 PPL 与 finetune 性能脱钩；[2] 重拟合 token/param 推荐，并显式化“compute-optimal 是带 regime 区间的决策”；[7] 给出直接反例：同 pretraining loss 仍可对应显著不同的下游性能，implicit bias 才是主导因素。第三次发生在 2023–2024：[21] 区分度量伪影与能力，揭示离散指标制造的“跳变”；[5] 将 over-training 区间下的 PPL→下游变成可外推预测；[6] 把外推从“loss 套同一幂律”改为 per-task model ladder；[8] 与 [15] 则在 stage 2(post-training / 量化压缩 / RLHF) 上彻底切断 PPL→任务分数的因果链。

结果是一个收窄的“授权范围 (authorization domain)”：在 Q1（同 tokenizer + 同 family + 同 stage），PPL 仍是数据混合 sweep 与异常检测的最强单一信号；在 Q2（同 tokenizer 跨 family/optim），PPL 退化为 recipe-bound 部分信号；在 Q3（跨 tokenizer），必须切到 bpb / bpc；在 Q4（stage 2 / 压缩 / RLHF），PPL 不再是有效预测器，需要 task panel + per-task ladder。本节后续把这条边界转成可执行的 decision flow，并把 §1–§4 重组为“哪个 Q 使用哪种替代物”。

图 1. 图 0.1 PPL→下游的三次重写时间线

图 2. 图 0.2 PPL 的授权范围:四个 quadrant 决定能不能用它做决策

正在渲染图示…

图 3. 图 0.3 “要不要用 PPL 做决策”的执行式 decision flow

Q1 同 family + 同 tokenizer + 同 stage

0.90[Kaplan2020ScalingLaws][Hoffmann2022Chinchilla]

Q1+ over-training 区间

0.86[Gadre2024OvertrainingDownstream]

Q2 同 tokenizer 跨 family/optim

0.55[HongLiu2022SameLossBetterDownstream]

Q3 跨 tokenizer (raw PPL)

0.20改用 bpb 才可比

Q4 stage-2 (RLHF / quant)

0.10[KhanalCapone2024CompressionTasks][Gao2022RewardOveroptimization]

单位：Pearson r 区间

图 4. 图 0.4 不同 regime 下 PPL→任务分数的报告区间相关性 (illustrative range, 越高越可信)

§1 PPL 的“授权范围”：训练闭环强，跨阶段/跨设置弱

把 PPL 作为“训练闭环控制量”时，优势来自同构：训练目标就是 next-token cross-entropy，验证 loss 直接估计泛化误差，且采样成本最低。[1] 因此它适合 early-stop、异常检测、数据混合调参：这些决策都在同一目标函数上估计边际收益。[2] 但把 PPL 升格为“对外选型/发版理由”，会把三个不受控变量压进一个数：tokenization（单位变化）、分布差异（transfer gap）、以及阶段二目标（instruction/RLHF/压缩）造成的行为重塑。[9][12][8] 反例不必跨家族：Hong Liu et al. [7] 展示，几乎相同的 pretraining loss 仍可对应不同下游分数；因此“PPL 近似相同 ⇒ 能力近似相同”只在更强条件下成立（例如同优化路径、同正则/数据顺序）。所以阶段划分应更务实：阶段一用 PPL 稳住训练、把预算用满；阶段二把决策权交给任务面板与逐任务曲线。

正在渲染图示…

图 5. 图 1.1 PPL 比较的“授权范围”:tokenizer / domain / stage 三道闸

PPL 不是“没用”，而是“只该对训练闭环负责”。跨 tokenizer、跨语言、跨 post-training 阶段时，它不再是统一单位。

§2 compute-optimal：从“单点最优”改成“带 regime 的区间决策”

Hoffmann et al. [2] 将 compute-optimal 写成可执行配方：在固定 compute 下，用验证 loss 选择参数量与 token 数的配比，结论转向“更多 token、较小模型”。Kaplan et al. [1] 的早期拟合给出不同最优趋势，长期被解读为“哪条缩放律更对”。Porian et al. [3] 给出的更稳读法是：差异主要来自训练时长假设（是否 overtrain、是否训练到某个 loss floor、token budget cap），而不是某个神秘拟合技巧。工程含义有两条：第一，预算拟合必须记录训练 regime，否则“最优配比”既不可复现也不可迁移；第二，compute-optimal 应输出区间与不确定性，而不是单点。否则阶段二一旦引入 overtraining 或不同停训准则，阶段一的“最优”就会产生系统性偏置。[5] 这也解释了为什么一些开源配方在相近 loss 下仍会出现不同任务表现：loss 拟合解决的是训练目标效率，不保证覆盖任务面板风险。

变化来源	PPL 变化是否可解释	典型症状	更合适的监控/决策量	代表证据
同训练闭环（同 tokenizer/目标/家族）	是：与训练目标同构	loss 单调下降，预算/停训可外推	PPL/loss + scaling fit	[1][2]
跨 tokenizer/跨语言	弱：单位被分词粒度改写	raw PPL 数值不可比；同文本不同 tokenizer 得到不同量纲	BPB/信息归一化 + 语言均衡任务面板	[9][10]
post-training（instruction/RLHF/DPO）	不充分：优化目标不以 LM loss 为中心	偏好/安全/指令遵循变化大于 loss 变化	偏好评测 + 安全/鲁棒面板 + 在线 A/B	[12][14][13]
压缩/剪枝/稀疏化	不可靠：平均似然可能近似不变	PPL 近似不变但任务分数下跌	逐任务回归测试 + 行为分布漂移（如 JS divergence）	[8]

PPL 与下游性能脱钩的主要来源：哪些变化会让“更低 PPL”不再可推出“更高任务分数”

图 6. 图 2.1 “compute-optimal”是一段 band 而不是一点:loss / inference / data-quality 三条 regime 拉向不同 (N*, D*)

§3 阶段二的替代物：逐任务缩放律 + 标准化多面板

阶段二的核心不是“找一个更好的标量”，而是把决策拆成两类：继续训练/扩算力是外推问题；发版/压缩是回归测试与风险控制问题。Isik et al. [4] 直接在任务分数上拟合缩放律，并把外推误差纳入决策：相同 compute 增量，在不同任务上的边际收益与不确定性不同。Gadre et al. [5] 进一步表明，在 overtraining regime 下，任务曲线经合适变换后也能稳定拟合，为“继续训练是否值得”提供比 PPL 更贴近目标的信号。Bhagia et al. [6] 通过 model ladders 降低建立逐任务曲线的成本，使阶段二评估不必等到最大模型。与此同时，任务曲线不保证单调：McKenzie et al. [16] 与 Wei et al. [17] 展示了 inverse scaling 与 U-shape，说明单一 upstream loss 代理会掩盖任务特异的退化区间。多面板的作用是把“能力、鲁棒、安全、偏见、效率”拆成可审计维度；HELM 将这种做法标准化，避免用一个平均分或一个 PPL 数字下结论。[18][19]

图 7. 图 3.1 阶段二的标准 readout:per-task ladder + 多任务 panel,而不是一根 PPL 线

§4 两类系统性不可比：tokenization 单位问题与目标函数错配

第一类不可比来自单位：PPL 是“每 token 的指数化负对数似然”，token 的定义由 tokenizer 决定。Mielke et al. [9] 的直接含义是：对同一段文本，更细的 token 往往让每 token 预测更“容易”，raw PPL 更低，但这不等价于更强的语言建模能力。多语言模型的训练与评估报告反复遇到这一问题：BLOOM 把跨语言评估与数据覆盖当成一等公民，但指标解释仍必须建立在语言与分词的共同基线上。[10][11] 第二类不可比来自目标错配：对齐阶段优化的是偏好或安全约束，而不是 next-token loss。Bai et al. [12] 与 Bai et al. [13] 展示了偏好/无害性维度上的明显变化；Rafailov et al. [14] 进一步把偏好优化写成直接优化策略的目标函数。与此同时，Gao et al. [15] 指出，把 proxy 优化到极致会损害真实偏好质量，说明阶段二不仅要换指标，还要防止单指标过拟合。把这两类不可比混在一起，例如跨 tokenizer 报 raw PPL，同时比较 chat 模型与 base 模型，会让数字看起来精确，但语义并不稳定。

图 8. 图 4.1 PPL 解决不了的两类系统性不可比:tokenization 单位 + 目标函数错配

时间线

2020-01Kaplan et al. 把验证 loss 的幂律拟合变成预算与训练监控工具[1]
2022-03Hoffmann et al. 用验证 loss 给出 Chinchilla compute-optimal 配比[2]
2022-10Hong Liu et al. 给出“同 pretraining loss 不同下游”的直接反例[7]
2023-06McKenzie et al. 系统化展示 inverse scaling：任务曲线可非单调[16]
2024-02Isik et al. 直接在任务分数上拟合缩放律并显式处理外推误差[4]
2024-06Porian et al. 把 compute-optimal 分歧归因到训练时长/overtraining 假设[3]
2024-09Khanal & Capone 在压缩下展示 PPL 近似不变但任务分数下跌[8]
2024-12Bhagia et al. 用 model ladders 降低逐任务缩放律的建立成本[6]

研究立场对比

阵营 A：PPL 仍是主变量（至少用于训练与模型选择）

立场 — 把验证 loss/PPL 视为最可靠的可缩放信号：它可外推 compute 预算、指导参数:token 配比，并在多数任务上与能力提升同向，因此也可用于模型选择的主排序键。

证据：[1][2][25][26][27]

反方 — 反驳点集中在“跨阶段/跨设置”的不可比：Hong Liu et al. [7] 说明同 loss 仍可不同下游；McKenzie et al. [16] 与 Wei et al. [17] 说明任务曲线可非单调；tokenization 使 raw PPL 跨模型不可比。[9] 压缩与对齐阶段也会让行为变化大于 loss 变化。[8][12]

判词 — 更务实的定位：PPL 作为阶段一主变量成立；把它扩展为对外选型/发版主变量会系统性踩到单位问题与目标错配。

阵营 B：PPL 只管阶段一；阶段二必须用逐任务缩放律

立场 — 把“是否继续训练/是否加算力”的问题直接写成逐任务外推：对每个关键任务拟合缩放律，决策基于边际收益与外推误差，而不是基于 upstream loss 的代理关系。

证据：[4][5][6][16][17][23]

反方 — 主要成本在评估与统计稳定性：逐任务曲线需要足够密的模型点与一致的评测协议；若任务面板频繁变动，外推误差会被“指标漂移”放大。[18] 另一个现实问题是：阶段一仍需要 loss 来做训练稳定性控制与数据混合调参，逐任务评估无法替代训练内信号。[1]

判词 — 结论层面的建议：把逐任务缩放律用于“继续训练/扩算力”的决策，优先覆盖 5–15 个最关键任务；其余任务用多面板回归测试兜底。

阵营 C：停止寻找单标量；用标准化多面板定义质量

立场 — 把模型质量拆成可审计维度（能力、鲁棒、安全、公平、效率、场景适配），用标准化面板与报告格式减少“只看一个数”的误导；PPL 只作为训练监控信号保留。

证据：[18][19][20][21][22]

反方 — 面板并不自动解决“决策”问题：当预算有限时仍需要排序与停训准则；如果没有逐任务外推或明确的业务权重，多面板容易退化成“多指标同时看但没人负责”。[4] 另外，面板覆盖越广，评测噪声与协议维护成本越高，需要版本化与变更控制。[18]

判词 — 更稳的落地方式：多面板负责“发版验收与回归测试”，逐任务缩放律负责“继续训练/扩算力”，PPL 负责“训练闭环”。三者分工比争夺一个主标量更省成本。

阵营 D：问题是本体论的——next-token loss 不是你想要的目标

立场 — 把“有用的助手”视为偏好与约束满足问题：helpfulness/harmlessness/指令遵循来自偏好优化与监督信号选择，而不是来自更低的 next-token loss；因此 PPL 与最终质量相关性天然弱。

证据：[12][13][14][15][29][28]

反方 — 反驳点在工程可控性：即便最终目标不是 next-token loss，阶段一仍需要一个稳定、可微、低成本的训练监控量；PPL 在训练稳定性与预算拟合上仍然更可用。[1][2] 另一个风险是把偏好 proxy 优化过头会伤害真实偏好质量，需要把“对齐指标”也做成多面板并加防过拟合约束。[15][18]

判词 — 更可执行的读法：承认目标错配存在，但不要因此放弃 PPL；把它限定在阶段一，把阶段二的目标与验收做成独立面板与回归测试。

实践要点

可执行的清单（带边界条件）：
1) 训练 dashboard 保留 loss/log PPL 作为最左侧信号，但只授权它做训练内闭环：early-stop、异常检测、数据混合/修剪、compute allocation。前提必须同时满足：同 tokenizer、同目标函数、同模型家族。[1][2]
2) 做 compute-optimal 拟合时，必须把训练 regime 写进实验卡：是否 overtrain、token budget cap、停训准则；输出必须包含拟合不确定性（例如对最优 token:param 比率给区间），不接受“单条曲线给单点最优”。[3][5]
3) 任何跨 tokenizer/跨语言对外比较，禁止只报 raw PPL；最低要求：BPB 或信息归一化 + 语言均衡任务面板。若做不到 tokenizer-controlled，对外只给定性结论，不给精确排序。[9][10][18]
4) “是否继续训练/是否加算力”用逐任务缩放律而不是 PPL 代理：优先覆盖 5–15 个最关键任务，记录外推误差并把误差当成停训门槛的一部分。[4][6]
5) 遇到 inverse scaling/U-shape 的任务，不要用“平均分”掩盖；把这些任务标成 release blocker 或单独分桶，直到找到数据/提示/评测协议的可控解释。[16][17]
6) 压缩/剪枝验收不要用 PPL 兜底：必须做逐任务回归测试，并额外监控行为分布漂移（例如输出分布的 JS divergence 或等价的 drift 指标），把 drift 作为回滚触发器之一。[8]
7) 对齐阶段（RLHF/DPO/Constitutional）不要把“PPL 没变”当成安全信号；至少要有偏好评测与安全面板，并对 reward hacking/过优化设置早停或正则化约束。[12][14][15][13]
8) 选型/发版文档里禁止用“PPL 更低”作为主理由；主理由必须是面板上的任务收益与风险项，并标注评测版本与变更记录。[18][22] 长文评估侧的方案( NIAH/RULER/LongBench v2 等)在姊妹篇 `long-context-capacity-and-decay` 中详谈;这里只覆盖 PPL 与 stage-1 任务的传递问题。

悬而未决的问题

Q1.tokenizer-controlled 的多语言对照实验仍然稀缺：同一模型家族、同一训练数据与目标函数，仅改变 tokenizer 时，raw PPL 与 BPB/信息归一化指标对下游面板的预测差异有多大？需要公开可复现的 artifact。[9][10]
Q2.“同 pretraining loss 不同偏好质量”的干净实验还不够多：现有证据更多来自对齐方法差异与 proxy 过优化风险，需要在同 base、同数据、同算力下对齐路径对偏好面板的因果对照。[12][15][14]
Q3.压缩导致“PPL 近似不变但任务下跌”的机制需要更细分：是 KV cache 行为、长程依赖、校准、还是推理链路的脆弱性？现有工作多是现象学，需要更细粒度诊断与跨方法复现。[8]
Q4.逐任务缩放律用于停训的“最小模型点数/最小评测频率”缺少共识：model ladders 降低成本，但在不同任务噪声水平下，外推误差的稳定估计需要多少点仍不清楚。[6][4]
Q5.多面板评估的版本化与变更控制仍是工程短板：当面板任务、提示、评分器更新时，如何保证“回归”与“进步”的语义稳定，并与逐任务缩放律的外推误差对齐？[18][22]

[1]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
[2]
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[3]
Tomer Porian, Mitchell Wortsman, Jenia Jitsev, Ludwig Schmidt, Yair Carmon. Resolving Discrepancies in Compute-Optimal Scaling of Language Models. arXiv, 2024论文
[4]
Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii. Scaling Laws for Downstream Task Performance of Large Language Models. arXiv, 2024论文
[5]
Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao. Language models scale reliably with over-training and on downstream tasks. arXiv, 2024论文
[6]
Akshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord. Establishing Task Scaling Laws via Compute-Efficient Model Ladders. arXiv, 2024论文
[7]
Hong Liu, Sang Michael Xie, Zhiyuan Li, Tengyu Ma. Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models. arXiv, 2022论文
[8]
Bishwash Khanal, Jeffery M. Capone. Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models. arXiv, 2024论文
[9]
Sabrina J. Mielke, Zaid Alyafeai, Elizabeth Salesky, Colin Raffel, Manan Dey. Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP. arXiv, 2021论文
[10]
BigScience Workshop. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv, 2022论文
[11]
Angelina McMillan-Major, Zaid Alyafeai, Stella Biderman, Kimbo Chen, Francesco De Toni. Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources. arXiv, 2022论文
[12]
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
[13]
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion. Constitutional AI: Harmlessness from AI Feedback. arXiv, 2022论文
[14]
Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv, 2023论文
[15]
Leo Gao, John Schulman, Jacob Hilton. Scaling Laws for Reward Model Overoptimization. arXiv, 2022论文
[16]
Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller. Inverse Scaling: When Bigger Isn't Better. arXiv, 2023论文
[17]
Jason Wei, Najoung Kim, Yi Tay, Quoc V. Le. Inverse scaling can become U-shaped. arXiv, 2022论文
[18]
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu. Holistic Evaluation of Language Models. arXiv, 2022论文
[19]
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
[20]
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid. Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv, 2022论文
[21]
Rylan Schaeffer, Brando Miranda, Sanmi Koyejo. Are Emergent Abilities of Large Language Models a Mirage?. arXiv, 2023论文
[22]
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
[23]
Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
[24]
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
[25]
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
[26]
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
[27]
Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse. Scaling Laws for Autoregressive Generative Modeling. arXiv, 2020论文
[28]
Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
[29]
Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
[30]
OpenAI (various speakers). Scaling, training dynamics, and evaluation practices for large language models (public talk materials). OpenAI / public talks, 2023演讲

论文列表

训练闭环：loss/PPL 的可用边界与 compute-optimal(4)

同 tokenizer/同目标函数/同模型家族下，验证集 loss/PPL 的幂律拟合可以支撑预算分配与训练监控；但拟合结论对训练时长假设（是否 overtrain、token cap）敏感，需要把不确定性显式化。

Scaling Laws for Neural Language Models

Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B. Brown,Benjamin Chess2020年1月23日

把验证集 cross-entropy 的幂律拟合工程化：用小规模实验外推大规模训练，并把 loss/PPL 作为 early-stop、预算分配与异常检测的默认信号。

Training Compute-Optimal Large Language Models

Jordan Hoffmann,Sebastian Borgeaud,Arthur Mensch,Elena Buchatskaya,Trevor Cai2022年3月29日

用验证 loss 定义 compute-optimal，并给出在固定算力下更偏向“更多 token + 更小模型”的配比；同时把“loss 最优是否等于任务最优”留成缺口。

Resolving Discrepancies in Compute-Optimal Scaling of Language Models

Tomer Porian,Mitchell Wortsman,Jenia Jitsev,Ludwig Schmidt,Yair Carmon2024年6月27日

把 Kaplan-style 与 Chinchilla-style 的 compute-optimal 分歧归因到训练时长/是否 overtrain 的假设差异，要求预算拟合必须声明 regime 并给出不确定性。

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Jack W. Rae,Sebastian Borgeaud,Trevor Cai,Katie Millican,Jordan Hoffmann2021年12月8日

在大规模训练实践中展示 loss 的可预测缩放与训练监控价值，并把“训练内信号”与“对外能力”区分为不同决策层。

阶段二：逐任务缩放律、overtraining 与“是否继续训练”决策(4)

把“继续训练是否值得”从看 PPL 转为看逐任务曲线与外推误差；同时承认任务曲线可能非单调（inverse scaling/U-shape），因此需要任务面板与不确定性控制。

Scaling Laws for Downstream Task Performance of Large Language Models

Berivan Isik,Natalia Ponomareva,Hussein Hazimeh,Dimitris Paparas,Sergei Vassilvitskii2024年2月6日

直接对任务分数拟合缩放律并讨论外推策略与拟合形式选择，把“继续训练是否值得”表述为逐任务外推误差控制问题。

Language models scale reliably with over-training and on downstream tasks

Samir Yitzhak Gadre,Georgios Smyrnis,Vaishaal Shankar,Suchin Gururangan,Mitchell Wortsman,Rulin Shao2024年3月13日

在 overtraining 设置下展示任务指标也能稳定拟合（经合适变换），强调应显式建模任务而不是把 PPL 当代理变量。

Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Akshita Bhagia,Jiacheng Liu,Alexander Wettig,David Heineman,Oyvind Tafjord2024年12月5日

用 model ladders 降低逐任务缩放律的建立成本，把决策问题写成“预算分配 + 外推误差控制”，弱化单一 loss 指标。

Inverse Scaling: When Bigger Isn't Better

Ian R. McKenzie,Alexander Lyzhov,Michael Pieler,Alicia Parrish,Aaron Mueller2023年6月15日

给出任务随规模变差的实例，说明“loss 单调下降”不能推出“任务单调上升”，阶段二需要逐任务曲线而非单标量。

跨 tokenizer/跨语言：raw PPL 不可比与信息归一化(4)

分词粒度改变“一个 token”携带的信息量，导致 raw PPL 失去统一单位；更可操作的对外比较是 BPB/信息归一化 + 语言均衡任务面板，并尽量做 tokenizer-controlled 实验。

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

Sabrina J. Mielke,Zaid Alyafeai,Elizabeth Salesky,Colin Raffel,Manan Dey2021年12月20日

系统解释 tokenization 如何改变建模单位与评估单位，为“raw PPL 不可跨 tokenizer 比较”提供机制层理由与历史脉络。

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

BigScience Workshop2022年11月9日

多语言训练与评估报告把跨语言比较的难点显式化：语言分布、tokenization 与评估面板共同决定“好不好”的外部可比性。

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Ahmet Üstün,Viraat Aryabumi,Zheng-Xin Yong,Wei-Yin Ko,Daniel D'souza2024年2月12日

instruction tuning 把“跨语言能力”从 pretraining loss 进一步解耦出来，暴露 raw PPL 对多语言对齐质量的解释力不足。

Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources

Angelina McMillan-Major,Zaid Alyafeai,Stella Biderman,Kimbo Chen,Francesco De Toni2022年1月25日

把数据来源与语言覆盖文档化，支撑“语言均衡评估面板”与“跨语言对外比较”的可审计性，而不是只报一个 PPL 数字。

post-training 与压缩：行为变化可大于 loss 变化(4)

同 pretraining loss 仍可不同下游；偏好对齐与 RLHF 直接优化偏好目标；剪枝/稀疏化可能保持 PPL 近似不变但任务分数下跌。共同结论是：阶段二必须用任务/行为诊断，而不是把 PPL 当最终代理。