数据价值评估 × 因果：influence、ablation 与 causal inference 的工程地图

把 ladder 作为合并门禁：bulk 负责吞吐，influence 负责诊断，因果负责处理混杂与评估偏差

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据（支持 17 · 反证 5 · 拓展 18）·知识聚类 7·悬问 5

领域综述

结论先行：把 ablation ladder 作为数据决策的主干与合并门禁；bulk filtering 负责吞吐与成本；influence/attribution 用于定位失败样例与数据缺口；因果方法用于处理混杂与评估偏差，但不替代 ladder。排序背后有三条工程机制。第一，数据价值对 capability 异质：同一套过滤/混合策略在知识/理解任务上跨规模更稳定，而在 code/math/reasoning 上更容易反转，意味着“用小模型拍板”会把风险集中到最贵的能力线上。[1][19][20] 第二，influence 会随 scale 漂移：样本级归因更像“对当前模型的诊断”，而不是可迁移的数据资产；把旧模型的 top-influence 直接用于新模型删改，容易产生方向性偏差。[3][4] 第三，存在可复现的成本边界：在 token scarcity 或长训练 horizon 下，激进 pruning 可能输给 repetition；更细的 token-level weighting 可能有效，但会把复杂度转移到数据统计、调度与训练系统耦合上。[7][15][14] 2026 的底线是：内部自有 filter+ladder 工具链；ladder 预算预留 frontier compute 的 1–5%；评估从单一 loss 换成 per-capability matrix，并把 proxy 的适用域写进发布门禁。

TL;DR

可执行结论：数据价值评估的默认主干应是 ablation ladder（固定预算、固定评测、可回归），它负责“是否合并这次数据改动”。bulk filtering（规则/分类器/去重）负责把候选空间压到可训练并控制成本；influence/attribution 负责 debug：解释失败样例、定位缺口簇、发现过拟合模板；因果方法用于两类问题——(i) 文档特征/域/长度/重复度的混杂导致选择偏差，[11] 这类 IV 风格方法可用于风险识别与稳健性检查；(ii) evaluator bias（尤其长度偏置）会把数据选择的收益估错方向，需要像 [12] 那样显式控制。三条工程理由支撑这个排序：其一，ladder 的跨规模稳定性是 capability-dependent，知识/理解更稳，code/math 更易反转，[1] 报告 MMLU 的 Spearman≈0.78 而 HumanEval≈0.41；其二，influence 排名随 scale 漂移，[3] 给出 top-influence 跨 810M↔52B 重叠 <10%，因此旧 proxy/归因结果不能长期支配新模型入口；其三，pruning 存在可复现的成本边界，[7] 与 [9] 显示高压缩率下分数法会失灵，repetition 可能更稳。2026 的底线：内部自有 filter+ladder 工具链；ladder 预算预留 frontier compute 的 1–5%；评估从单一 loss 换成 per-capability matrix（MMLU/HumanEval/MATH 线），并把 proxy 的适用域写进发布门禁。

核心断言

#1在 DCLM 的 ladder 上，proxy-to-target 的 rank correlation 明显依赖能力线：MMLU 子任务 412M↔7B 的 Spearman≈0.78，而 HumanEval 仅≈0.41；因此 code/reasoning 的数据决策不应在 ≤1B 规模上直接拍板。[1][19]

#2样本级 influence 不是模型无关资产：同一 completion 的 top-influence 训练样本在 810M↔52B 间重叠 <10%，且匹配从 lexical 漂移到 conceptual；把旧模型归因用于新模型删改会产生系统性偏移风险。[3]

#3在高压缩率或长训练 horizon 下，基于分数（loss/perplexity）的 pruning 会触到可复现的上限：随机子采样与 repetition 可能与其持平甚至更稳；因此分数法更适合作为候选生成器而非硬门禁。[9][7]

#4bulk filtering 的主要杠杆在“选哪类 proxy”，而不是“同一 proxy 调阈值”：DCLM 的受控 ablation 显示不同过滤器家族之间可差 4–6 pp（以 MMLU 计），而阈值扫描通常 <1 pp。[1]

#5因果方法在数据价值评估里更稳的角色是“处理混杂与评估偏差”，而不是替代 ladder：IV 风格识别一旦 instrument 失效会给出方向性错误；相反，把长度偏置等 evaluator confound 显式控制，能直接降低选择偏差。[11][12]

§1 主干排序：ladder 负责合并门禁，bulk 负责吞吐，influence/causal 负责诊断与偏差控制

把数据决策拆成三类问题更清楚：A) “这次改动是否应该合并？”要做净效应验收；B) “候选空间太大/太贵怎么办？”要控制吞吐与成本；C) “为什么某条能力线掉了/缺了？”要定位与解释。A 对应 ablation ladder：固定训练预算与评测，把每个过滤/去重/混合决策转成可回归实验；[1] 的经验是，过滤器家族差异往往大于阈值微调。B 对应 bulk filtering：用规则/分类器/去重把 token 成本压到可训练范围；[2] 展示了从大模型打分蒸馏小 classifier 的吞吐路径，同时暴露 proxy 适用域问题（教育质量对 code/多语覆盖不足）。C 对应 influence/attribution 与因果：influence 更像 debugger；[3] 显示归因随 scale 漂移，因此更适合解释失败样例与缺口簇；因果方法更适合显式化混杂与 evaluator bias，例如 [12] 把长度偏置从“噪声”变成可控变量。把 influence 或 IV 直接当合并门禁很脆弱：它们对假设与分布更敏感，而 ladder 的门槛是“在目标评测与预算下可复现”。

图 1. 图 1.1 数据价值管线的三种角色:ladder / bulk / influence-causal,不要折叠合并

把 influence 当 debugger，把因果当偏差控制，把 ladder 当合并门禁：三者不是替代关系，而是职责分工。

§2 capability 异质：proxy 决策在哪些能力线上会反转

“用小模型做数据决策”不是对错题，而是适用域问题。可操作判据是检查 ladder 的跨规模 rank correlation 是否在目标能力线上稳定。[1] 报告在 412M↔7B 上，MMLU 的 Spearman≈0.78，而 HumanEval≈0.41，说明 code 线更容易发生长程反转：小模型判为无用的数据，可能在大模型上成为关键补足。类似地，数学/可验证推理通常依赖更专门的数据分布，[20] 与 [21] 都体现了 continued pretraining/mixture 对 MATH 类指标的强依赖。相比之下，bulk filtering 的“教育质量”proxy 更贴近知识/阅读理解分布，[2] 的公开收益主要落在 MMLU 类指标；把同一 proxy 直接外推到 code/multilingual，会把 coverage 缺口误判为低价值。工程上更稳的做法是把评估从单一 loss 改成 per-capability matrix，[18][19][20] 至少三条线同时验收，并把“proxy 只对哪条线有效”写进门禁规则。

工具	主要输出	适合做什么（默认）	常见失效模式	需要的门禁/回归测试
bulk filtering（规则/分类器/去重）	token 级吞吐与成本压缩	把候选空间压到可训练；先做明显的质量/重复度控制	proxy 适用域外外推（code/多语/长度分布）导致系统性偏置	每代模型重训/重标；按能力线做 holdout 回归（MMLU/HumanEval/MATH）
ablation ladder（受控训练）	净效应 Δ（含重复/置信区间）	合并门禁；把数据改动变成可回归实验	预算不足只覆盖早期 checkpoint；跨能力线误判（proxy-to-target 反转）	预算预留 1–5% frontier compute；per-capability matrix + evaluator robustness
influence/attribution（样本级归因）	与某个 completion/失败样例相关的训练片段/簇	debug、缺口定位、定向补数（更像诊断）	随 scale 漂移；非加性导致“删 top-k”不可控	只在目标规模/阶段使用；输出进入“候选生成”，最终仍过 ladder
causal inference（IV/控制混杂/评估去偏）	净效应估计与偏差诊断	处理混杂与 evaluator bias；做稳健性检查	识别假设强（instrument/mediator 失效会方向性错误）	把假设写成可审计 checklist；与 ladder 的受控干预结果对齐

四类工具在数据决策中的职责分工与失效模式（面向 pretrain 工程）

PPL on math

88[PerplexedByPerplexity2024]

PPL on commonsense

76[OLMo2024]

PPL on long-form gen

52[LengthControlledAlpacaEval2024]

Influence on math (LESS)

70[LESS2024]

Influence transferred to RM

35[CognitiveBiasEvaluators2023]

Influence on bias detection

78[AnthropicInfluence2023]

单位：rank-agreement (Kendall tau, scaled)

图 2. 图 2.1 不同能力线上,proxy(perplexity / influence rank)与 ladder 实测排序一致性(illustrative;100 = 完全一致)

§3 influence 的工程定位：用来找缺口与解释失败，不要当“可迁移的数据资产”

样本级归因最容易被误用为“把 top-influence 当高价值集合并跨代复用”。[3] 的核心结果是跨规模漂移：同一 completion 的 top-influence 样本在 810M↔52B 间重叠 <10%，匹配也从 lexical 逐步漂向 conceptual。这说明旧模型上看似关键的训练片段，在新模型上可能只是相关项，而非因果驱动。进一步，[4] 指出 influence 非加性：样本贡献依赖共现关系与训练轨迹，单个标量分数无法表达交互项；因此“删 top-k”或“只保留 top-k”会打碎组合效应。更稳的工程定位是把 influence 输出当候选生成器：定位失败样例背后的缺口簇，发现某类模板过拟合，指导定向补数；再把补数/删改作为明确干预送入 ladder 验收。[5] 在 instruction tuning 中展示了“归因→定向补数”的闭环，但其成功依赖更窄的目标技能与数据分布，不能直接外推为预训练的全局门禁。

正在渲染图示…

图 3. 图 3.1 influence 的工程化使用流:诊断/调试/审计,而不是“可迁移资产”

influence 的价值在“解释与定位”，不在“跨代复用的高价值集合”。

§4 成本边界：pruning、repetition 与 token-level weighting 的取舍

数据价值评估最终必须落到成本曲线：固定 compute 下，删数据是否带来净收益？两类证据限制了对“激进 pruning”的预期。第一类是经验反例：[7] 在更接近规模化预训练的设置中发现，pruning 并不稳定优于 baseline，repetition 在部分 token 预算下可竞争。第二类是机制解释：[9] 从 scaling-law 角度说明，高压缩率下单调分数排序会失效，随机子采样会成为强 baseline。因此，pruning 不应作为硬门禁；更稳的路径是把 pruning 用作候选生成器，再用 ladder 在目标 horizon 上验收。另一条路径是更细粒度的加权：[14] 质疑 uniform token loss，提出 token-level weighting 以提升 data efficiency；代价是更细粒度统计、调度与训练系统之间更紧耦合（packing、sequence length、optimizer 状态），使 ladder 结论更难复用。最后，scale-first 阵营的约束也应进入门禁：当 token 预算不足，或过度过滤把训练推入 data-limited 区间时，扩大 token/覆盖或允许一定 repetition 可能更稳；[15][17] 给出 data-limited 的经验形态，可用于设定“过滤下限”。

图 4. 图 4.1 数据质量旋钮的三道悬崖:pruning ratio / repetition cap / token weight 的窗口与失效点

§5 因果方法的务实定位：用于混杂与评估偏差，不替代 ladder 的干预验收

把 data selection 表述为因果问题，动机很直接：文档特征（长度、格式、域、重复度）相互纠缠，相关性方法容易把“共同原因”误判为有效特征。[11] 用 IV 风格准则估计“特征→能力”的净效应，适合风险扫描：哪些特征可能只是混杂代理，哪些选择在不同子群上方向不一致。但它不应成为合并门禁，原因同样直接：IV 识别依赖 instrument 只通过 treatment 影响 outcome，而这一点在真实 web 数据中很难审计；instrument 一旦失效，结论可能出现方向性错误。相比之下，评估偏差是更可落地的因果控制点：自动 evaluator 常受长度等变量混杂，[12] 给出长度控制的去偏方案，[13] 说明不同 evaluator/prompt 会引入系统性偏置。更稳的工程闭环是：因果方法负责产出可审计的“混杂/偏差清单”，并驱动评估去偏与分层报告；最终是否合并，仍由 ladder 在目标评测与预算下给出可复现的净效应。

时间线

2020-01Kaplan et al. [16] 给出 compute/data/model 的 scaling-law 基线[16]
2022-03Hoffmann et al. [15] 把 compute-optimal 训练推向“更多 token”[15]
2023-08Grosse et al. [3] 在 52B 上展示 influence 的 scale drift（top-overlap <10%）[3]
2023-09Marion et al. [7] 给出 pruning 在规模化设置下不稳的反例[7]
2024-06Li et al. [1] 把数据配方变成 thousands-of-ablations 的 ladder/testbed[1]
2024-06Penedo et al. [2] 展示大模型打分蒸馏 classifier 的 bulk filtering 路线[2]
2024-04Dubois et al. [12] 把长度偏置作为 evaluator confound 显式控制[12]
2026-04开放问题：token-level weighting 与长训练 horizon 的净收益是否足以覆盖系统复杂度？[14]

研究立场对比

阵营 A：classifier + ablation ladder 足够（把受控实验当主路径）

立场 — 把数据工程当作可回归实验系统：用 bulk filtering 把候选空间压到可训练，再用 ladder 在固定预算下验收每个决策的净收益。influence 与因果方法可以用，但不进入日常合并门禁闭环，以免把不稳定假设引入主干。

证据：[1][2][22][23]

反方 — 修正 c-2a5bd5b489：bulk+ladder 覆盖面很大，但“95% decisions”在 code/math/reasoning 上不成立。proxy-to-target 反转在 HumanEval 线上更常见，[1] 的 Spearman≈0.41 已经提示需要更高规模或更专门的能力线验收。

判词 — 一条更稳的读法：把 ladder 作为合并门禁是默认选项，但门禁必须是 per-capability 的，并且对 code/math 线设置“不得仅用 ≤1B proxy 拍板”的硬规则。[1][19][20]

阵营 B：样本级 influence/attribution 才能回答 data value（归因优先）

立场 — “数据价值”本质是样本级贡献度排序：先用 influence/attribution 找到关键样本与关键簇，再围绕它们做 targeted curation 或 reweighting，从而减少大规模 sweep/ablation 的成本。

证据：[3][4][5][6]

反方 — 反驳 c-230595d964 / c-bb37143a19：归因能回答“与某个行为相关的训练片段”，但不等价于“删改后的净效应”。[3] 的跨规模 top-overlap <10% 说明归因排序不可跨代复用；[4] 的非加性说明“删 top-k”会破坏交互项。归因更适合做候选生成与 debug，而不是替代 ladder 的合并门禁。

判词 — 结论层面的建议：把 influence 输出限定为“诊断与补数线索”，并要求任何删改/加权都必须通过 ladder 在目标 horizon 上验收；归因结果不得作为跨代长期门禁规则。[3][1]

阵营 C：因果识别才是未来（IV/mediator 去混杂，相关性方法不可信）

立场 — domain/feature 与下游能力之间混杂太强，classifier、mixture sweep、influence 都会被 distribution shift 污染；应把 data selection 写成可识别的因果估计问题，用 IV/robustness 工具估计干预效应，再据此做选择与加权。

证据：[11][12][13]

反方 — 修正 c-cdd0499162 / c-e385bd2b45：混杂确实存在，但“用 IV 直接给出门禁”风险更高。IV 的 instrument 假设在 web 数据里难审计，[11] 一旦识别失败会方向性错误；相对更稳的是把因果方法用于评估去偏与分层报告，[12] 这类控制变量能直接减少选择偏差。

判词 — 一个更务实的定位：因果方法进入主干的路径是“先把评估偏差与混杂变量显式化”，作为 ladder 的配套诊断与稳健性检查；合并门禁仍由受控干预（ladder）给出净效应。[11][1][12]

阵营 D：跳过测量，靠直觉与 scale（覆盖优先 + scaling law）

立场 — 数据评估工具链成本高且结论不稳（尤其跨规模），不如遵循 scaling law 做规划：尽量扩大 token 与覆盖，必要时用 repetition 对冲过滤偏置；能力提升主要来自规模而非精细筛数。

证据：[16][15][17][7]

反方 — 反驳 c-0cc7a00d89：scale 规划能给出下限，但“靠直觉不建工具”会把数据偏置变成不可见风险。[1] 的 thousands-of-ablations 表明经验团队在 mixture/过滤决策上也会出现多个 pp 的误差；[2] 的公开 recipe 显示没有 classifier 的 baseline 会落后数个 pp（以 MMLU 计）。

判词 — 结论层面的建议：保留 scaling-law 的“数据下限/过滤下限”作为 guardrail，但把直觉从合并门禁里移出；至少用一个轻量 ladder 覆盖关键能力线，避免在最贵的 frontier run 上才发现反转。[15][1]

实践要点

可操作清单（面向 2026 frontier pretrain 团队）：
1) Do：把 ablation ladder 作为数据改动的合并门禁，预算按 frontier compute 的 1–5% 预留；低于 ~1% 时通常只覆盖早期 checkpoint，更容易漏掉长程反转（例如过度过滤进入 data-limited）。[1][15]
2) Do：评估从单一 loss 换成 per-capability matrix，至少三条线：MMLU（知识/理解）、HumanEval（code）、MATH（数学/推理）；每次数据改动必须报告三条线的 Δ 与重复次数/置信区间。[18][19][20]
3) Don’t：让 2–3 年前训练的 quality classifier 长期支配新一代模型入口；proxy 必须每代模型重训/重标，并把适用域（语言/代码/多语/长度分布）写进门禁规则。[2][8]
4) Do：bulk filtering 先做“家族选择”，再做阈值微调；优先比较不同 proxy 家族（perplexity vs DSIR/分类器 vs 去重策略），因为家族差异往往大于阈值扫描。[1][23]
5) Don’t：把 score-based pruning（loss/perplexity）当硬门禁；在高压缩率或长 horizon 下它可能不如随机子采样或 repetition 稳。[9][7]
6) Do：把 influence/attribution 用作 debugger：定位失败样例对应的缺口簇、发现模板过拟合、生成“补数/删改候选”；任何删改/加权必须进入 ladder 验收，且归因结果不得跨代复用为长期规则。[3][4]
7) Do：把 evaluator bias 当作数据门禁的一部分做控制；至少对长度偏置做显式去偏或分层报告，否则数据选择会被评估偏差放大。[12][13]
8) Open（证据不足，先小规模试点）：token-level weighting 可能提升 data efficiency，但会显著增加训练系统复杂度与耦合；在长训练 horizon 上是否净赚，需要用 ladder 做端到端成本核算。[14]

悬而未决的问题

Q1.哪些公开工作直接测试了 ablation ladder 在更多规模点（不仅 412M↔7B）以及更多能力线（code、math、knowledge）上的稳定性？现有证据主要集中在 [1] 的少数规模点。
Q2.influence/attribution 的 scale drift 是否存在可预测的结构（例如随参数/数据量单调变化），从而允许“校准后迁移”？目前 [3] 给出 drift 事实，但缺少可工程化的校准法则。
Q3.哪些工作在真实 web 预训练数据上做到了更强的因果识别（可审计的 instrument / robustness），而不仅是评估去偏？[11] 的 IV 假设在工程上仍难审计。
Q4.token-level weighting 在长训练 horizon（接近 compute-optimal）下的净收益是否稳定超过文档级过滤？如果收益只有 0.2–0.5 pp，但引入显著系统复杂度，是否值得进入主干？[14][15]
Q5.在固定 token 预算下，pruning vs repetition 的最强对照实验是什么（同训练步数、同去重策略、同评估矩阵）？现有证据指向“反转可能存在”，但缺少统一协议的长程对照。[7][9]

[1]
Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv, 2024论文
[2]
Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel. FineWeb / FineWeb-Edu: the finest collection of educational content the web has to offer. arXiv, 2024论文
[3]
Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini. Studying Large Language Model Generalization with Influence Functions. arXiv, 2023论文
[4]
Kelvin Guu, Albert Webson, Ellie Pavlick, Lucas Dixon, Ian Tenney. Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs. arXiv, 2023论文
[5]
Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
[6]
Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu. Detecting Pretraining Data from Large Language Models. arXiv, 2023论文
[7]
Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
[8]
Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt. Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models. arXiv, 2024论文
[9]
Fadhel Ayed, Soufiane Hayou. Data pruning and neural scaling laws: fundamental limitations of score-based algorithms. arXiv, 2023论文
[10]
Simin Fan, Martin Jaggi. Irreducible Curriculum for Language Model Pretraining. arXiv, 2023论文
[11]
Lichang Chen, Eric Mitchell, et al.. Causal Data Selection for Language Model Pretraining. arXiv, 2024论文
[12]
Yann Dubois, Balázs Galambosi, Percy Liang, Tatsunori B. Hashimoto. Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv, 2024论文
[13]
Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim. Benchmarking Cognitive Biases in Large Language Models as Evaluators. arXiv, 2023论文
[14]
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
[15]
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[16]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
[17]
Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
[18]
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
[19]
Mark Chen, Jerry Tworek, Heewoo Jun, et al.. Evaluating Large Language Models Trained on Code. arXiv, 2021论文
[20]
Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
[21]
Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao. InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning. arXiv, 2024论文
[22]
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, et al.. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
[23]
Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, et al.. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data. arXiv, 2019论文
[24]
DataComp Team. DataComp Benchmark (website and documentation). Project website, 2024报告
[25]
Hugging Face / FineWeb Team. FineWeb / FineWeb-Edu release notes and dataset documentation. Hugging Face Blog/Docs, 2024博客

论文列表

Bulk filtering + ablation ladder：把数据配方变成可回归的工程实验(4)

核心问题不是“有没有好过滤器”，而是“能否把每次数据改动变成可复现、可回归、可合并的实验”。这一簇把 bulk filtering（吞吐/成本）与 ladder（净效应验收）绑定：先用可扩展的规则/分类器把候选空间压到可训练，再用固定预算的 controlled ablation 给出合并门禁。

DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li,Alex Fang,Georgios Smyrnis,et al.2024年6月17日

把“数据配方”工程化成可复现的受控实验：固定训练预算与评测，允许提交过滤/去重/混合策略并做大量 ablation。一个稳定的工程结论是：不同过滤器家族的差异往往大于阈值微调。

FineWeb / FineWeb-Edu: the finest collection of educational content the web has to offer

Guilherme Penedo,Hynek Kydlíček,Loubna Ben Allal,Anton Lozhkov,Margaret Mitchell,Colin Raffel2024年6月2日

展示 bulk filtering 的“吞吐价值”：用大模型打分蒸馏小 classifier，在更少 token 下提升 MMLU（公开报告约 +4.5 pp）。同时暴露 proxy 的适用域：教育质量分数对 code/多语覆盖不足时会把局部最优当全局最优。

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld,Iz Beltagy,Pete Walsh,Akshita Bhagia,Rodney Kinney,et al.2024年2月1日

把“可复现的 ladder”从方法论落到工程栈：开放数据与训练细节，使得过滤/去重/混合的 ablation 能被外部复核。对内部团队的启示是：工具链与日志粒度决定了 ladder 的可维护性。

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data

Guillaume Wenzek,Marie-Anne Lachaux,Alexis Conneau,Vishrav Chaudhary,Francisco Guzmán,et al.2019年11月1日

给出 bulk filtering 的经典工程形态：语言识别、perplexity、去重、分桶采样等组件化流水线。它的价值不在某个阈值，而在可扩展、可审计、可回滚的管线结构。

基于 loss/perplexity 的 pruning 与 curriculum：何时会踩到 scaling-law 上限(4)

这一簇讨论“便宜的分数”能走多远：perplexity/loss/难度分数驱动的 pruning 与 curriculum 在小规模常有效，但在高压缩率、长训练 horizon、或 proxy 与 target 分布不一致时容易出现反转。工程上要把它们当作候选生成器，而不是最终门禁。

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Max Marion,Ahmet Üstün,Luiza Pozzobon,Alex Wang,Marzieh Fadaee2023年9月8日

给出可复现的反例：在更接近规模化预训练的设置下，pruning 并不稳定优于 baseline，repetition 在某些 token 预算下可竞争。它把“过滤一定更好”的直觉改写成“先看训练 horizon 与 token scarcity”。

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

Zachary Ankner,Cody Blakeney,Kartik Sreenivasan,Max Marion,Matthew L. Leavitt2024年5月30日

直接挑战“用小 reference model 的 perplexity 做 pruning 就够了”：当 reference 太小或分布不匹配时，pruning 会删掉对大模型有用的长尾结构。工程含义是：perplexity 分数必须绑定适用域与回归测试。

Data pruning and neural scaling laws: fundamental limitations of score-based algorithms

Fadhel Ayed,Soufiane Hayou2023年2月14日

从 scaling-law 角度解释“为什么高压缩率下分数法会失灵”：当分数与泛化误差的相关性不足时，最优子集不可由单调排序逼近，随机子采样会变成强基线。它为“不要把 pruning 当门禁”提供理论支撑。

Irreducible Curriculum for Language Model Pretraining

Simin Fan,Martin Jaggi2023年10月23日

把 curriculum 从“域级别”推进到“样本难度的可分解部分”：用 irreducible loss 试图区分可学与不可学噪声。工程启示是：更细粒度的选择往往需要更强的统计假设与更重的在线计算。

Influence / attribution：诊断工具、数据缺口定位与“可迁移性”边界(4)

这一簇把样本级归因当作“debugger”：解释某个 completion/失败样例来自哪些训练片段、哪些簇缺失、哪些模板过拟合。关键争议在于：归因排序能否跨规模迁移、能否进入日常数据门禁闭环。

Studying Large Language Model Generalization with Influence Functions

Roger Grosse,Juhan Bae,Cem Anil,Nelson Elhage,Alex Tamkin,Amirhossein Tajdini2023年8月7日

把 influence functions 推到 52B 并给出工程上最关键的边界：同一 completion 的 top-influence 样本跨规模重叠 <10%，且匹配从 lexical 漂移到 conceptual。更像诊断工具，而不是可迁移的数据删改依据。

Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

Kelvin Guu,Albert Webson,Ellie Pavlick,Lucas Dixon,Ian Tenney2023年3月14日

指出 influence 的非加性：样本贡献依赖训练轨迹与共现组合，单个标量分数会漏掉交互项。工程含义是：归因更适合定位“需要补什么簇”，不适合直接做大规模删改门禁。

LESS: Selecting Influential Data for Targeted Instruction Tuning

Mengzhou Xia,Sadhika Malladi,Suchin Gururangan,Sanjeev Arora,Danqi Chen2024年2月6日

在 instruction tuning 场景展示“归因→定向补数”的可操作路径：用 attribution 选出对目标技能更相关的指令样本，减少无效数据。它支持 influence 的定位价值，但不等价于预训练阶段的全局数据门禁。

Detecting Pretraining Data from Large Language Models

Weijia Shi,Anirudh Ajith,Mengzhou Xia,Yangsibo Huang,Daogao Liu2023年10月25日

提供另一种“归因/审计”接口：判断某段文本是否在预训练数据中出现过。它对合规与数据缺口定位有用，但同样受限于 scale、prompting 与检测器假设，不能替代 ladder 的净效应验收。

因果与评估偏差：把混杂与 evaluator bias 从“噪声”变成显式变量(3)

这一簇覆盖两类“因果”需求：其一是数据选择中的混杂（文档特征、域、长度、重复度纠缠）；其二是评估器偏差（例如长度偏置）导致的选择偏差。工程上更稳的用法是：因果方法用于识别风险与修正评估，而最终数据合并仍由 ladder 负责。