TL;DR
可执行结论:数据价值评估的默认主干应是 ablation ladder(固定预算、固定评测、可回归),它负责“是否合并这次数据改动”。bulk filtering(规则/分类器/去重)负责把候选空间压到可训练并控制成本;influence/attribution 负责 debug:解释失败样例、定位缺口簇、发现过拟合模板;因果方法用于两类问题——(i) 文档特征/域/长度/重复度的混杂导致选择偏差,[11] 这类 IV 风格方法可用于风险识别与稳健性检查;(ii) evaluator bias(尤其长度偏置)会把数据选择的收益估错方向,需要像 [12] 那样显式控制。三条工程理由支撑这个排序:其一,ladder 的跨规模稳定性是 capability-dependent,知识/理解更稳,code/math 更易反转,[1] 报告 MMLU 的 Spearman≈0.78 而 HumanEval≈0.41;其二,influence 排名随 scale 漂移,[3] 给出 top-influence 跨 810M↔52B 重叠 <10%,因此旧 proxy/归因结果不能长期支配新模型入口;其三,pruning 存在可复现的成本边界,[7] 与 [9] 显示高压缩率下分数法会失灵,repetition 可能更稳。2026 的底线:内部自有 filter+ladder 工具链;ladder 预算预留 frontier compute 的 1–5%;评估从单一 loss 换成 per-capability matrix(MMLU/HumanEval/MATH 线),并把 proxy 的适用域写进发布门禁。
核心断言
§1 主干排序:ladder 负责合并门禁,bulk 负责吞吐,influence/causal 负责诊断与偏差控制
把数据决策拆成三类问题更清楚:A) “这次改动是否应该合并?”要做净效应验收;B) “候选空间太大/太贵怎么办?”要控制吞吐与成本;C) “为什么某条能力线掉了/缺了?”要定位与解释。A 对应 ablation ladder:固定训练预算与评测,把每个过滤/去重/混合决策转成可回归实验;[1] 的经验是,过滤器家族差异往往大于阈值微调。B 对应 bulk filtering:用规则/分类器/去重把 token 成本压到可训练范围;[2] 展示了从大模型打分蒸馏小 classifier 的吞吐路径,同时暴露 proxy 适用域问题(教育质量对 code/多语覆盖不足)。C 对应 influence/attribution 与因果:influence 更像 debugger;[3] 显示归因随 scale 漂移,因此更适合解释失败样例与缺口簇;因果方法更适合显式化混杂与 evaluator bias,例如 [12] 把长度偏置从“噪声”变成可控变量。把 influence 或 IV 直接当合并门禁很脆弱:它们对假设与分布更敏感,而 ladder 的门槛是“在目标评测与预算下可复现”。
把 influence 当 debugger,把因果当偏差控制,把 ladder 当合并门禁:三者不是替代关系,而是职责分工。
§2 capability 异质:proxy 决策在哪些能力线上会反转
“用小模型做数据决策”不是对错题,而是适用域问题。可操作判据是检查 ladder 的跨规模 rank correlation 是否在目标能力线上稳定。[1] 报告在 412M↔7B 上,MMLU 的 Spearman≈0.78,而 HumanEval≈0.41,说明 code 线更容易发生长程反转:小模型判为无用的数据,可能在大模型上成为关键补足。类似地,数学/可验证推理通常依赖更专门的数据分布,[20] 与 [21] 都体现了 continued pretraining/mixture 对 MATH 类指标的强依赖。相比之下,bulk filtering 的“教育质量”proxy 更贴近知识/阅读理解分布,[2] 的公开收益主要落在 MMLU 类指标;把同一 proxy 直接外推到 code/multilingual,会把 coverage 缺口误判为低价值。工程上更稳的做法是把评估从单一 loss 改成 per-capability matrix,[18][19][20] 至少三条线同时验收,并把“proxy 只对哪条线有效”写进门禁规则。
| 工具 | 主要输出 | 适合做什么(默认) | 常见失效模式 | 需要的门禁/回归测试 |
|---|---|---|---|---|
| bulk filtering(规则/分类器/去重) | token 级吞吐与成本压缩 | 把候选空间压到可训练;先做明显的质量/重复度控制 | proxy 适用域外外推(code/多语/长度分布)导致系统性偏置 | 每代模型重训/重标;按能力线做 holdout 回归(MMLU/HumanEval/MATH) |
| ablation ladder(受控训练) | 净效应 Δ(含重复/置信区间) | 合并门禁;把数据改动变成可回归实验 | 预算不足只覆盖早期 checkpoint;跨能力线误判(proxy-to-target 反转) | 预算预留 1–5% frontier compute;per-capability matrix + evaluator robustness |
| influence/attribution(样本级归因) | 与某个 completion/失败样例相关的训练片段/簇 | debug、缺口定位、定向补数(更像诊断) | 随 scale 漂移;非加性导致“删 top-k”不可控 | 只在目标规模/阶段使用;输出进入“候选生成”,最终仍过 ladder |
| causal inference(IV/控制混杂/评估去偏) | 净效应估计与偏差诊断 | 处理混杂与 evaluator bias;做稳健性检查 | 识别假设强(instrument/mediator 失效会方向性错误) | 把假设写成可审计 checklist;与 ladder 的受控干预结果对齐 |
§3 influence 的工程定位:用来找缺口与解释失败,不要当“可迁移的数据资产”
样本级归因最容易被误用为“把 top-influence 当高价值集合并跨代复用”。[3] 的核心结果是跨规模漂移:同一 completion 的 top-influence 样本在 810M↔52B 间重叠 <10%,匹配也从 lexical 逐步漂向 conceptual。这说明旧模型上看似关键的训练片段,在新模型上可能只是相关项,而非因果驱动。进一步,[4] 指出 influence 非加性:样本贡献依赖共现关系与训练轨迹,单个标量分数无法表达交互项;因此“删 top-k”或“只保留 top-k”会打碎组合效应。更稳的工程定位是把 influence 输出当候选生成器:定位失败样例背后的缺口簇,发现某类模板过拟合,指导定向补数;再把补数/删改作为明确干预送入 ladder 验收。[5] 在 instruction tuning 中展示了“归因→定向补数”的闭环,但其成功依赖更窄的目标技能与数据分布,不能直接外推为预训练的全局门禁。
influence 的价值在“解释与定位”,不在“跨代复用的高价值集合”。
§4 成本边界:pruning、repetition 与 token-level weighting 的取舍
数据价值评估最终必须落到成本曲线:固定 compute 下,删数据是否带来净收益?两类证据限制了对“激进 pruning”的预期。第一类是经验反例:[7] 在更接近规模化预训练的设置中发现,pruning 并不稳定优于 baseline,repetition 在部分 token 预算下可竞争。第二类是机制解释:[9] 从 scaling-law 角度说明,高压缩率下单调分数排序会失效,随机子采样会成为强 baseline。因此,pruning 不应作为硬门禁;更稳的路径是把 pruning 用作候选生成器,再用 ladder 在目标 horizon 上验收。另一条路径是更细粒度的加权:[14] 质疑 uniform token loss,提出 token-level weighting 以提升 data efficiency;代价是更细粒度统计、调度与训练系统之间更紧耦合(packing、sequence length、optimizer 状态),使 ladder 结论更难复用。最后,scale-first 阵营的约束也应进入门禁:当 token 预算不足,或过度过滤把训练推入 data-limited 区间时,扩大 token/覆盖或允许一定 repetition 可能更稳;[15][17] 给出 data-limited 的经验形态,可用于设定“过滤下限”。
§5 因果方法的务实定位:用于混杂与评估偏差,不替代 ladder 的干预验收
把 data selection 表述为因果问题,动机很直接:文档特征(长度、格式、域、重复度)相互纠缠,相关性方法容易把“共同原因”误判为有效特征。[11] 用 IV 风格准则估计“特征→能力”的净效应,适合风险扫描:哪些特征可能只是混杂代理,哪些选择在不同子群上方向不一致。但它不应成为合并门禁,原因同样直接:IV 识别依赖 instrument 只通过 treatment 影响 outcome,而这一点在真实 web 数据中很难审计;instrument 一旦失效,结论可能出现方向性错误。相比之下,评估偏差是更可落地的因果控制点:自动 evaluator 常受长度等变量混杂,[12] 给出长度控制的去偏方案,[13] 说明不同 evaluator/prompt 会引入系统性偏置。更稳的工程闭环是:因果方法负责产出可审计的“混杂/偏差清单”,并驱动评估去偏与分层报告;最终是否合并,仍由 ladder 在目标评测与预算下给出可复现的净效应。
时间线
- 开放问题:token-level weighting 与长训练 horizon 的净收益是否足以覆盖系统复杂度?[14]
研究立场对比
阵营 A:classifier + ablation ladder 足够(把受控实验当主路径)
立场 — 把数据工程当作可回归实验系统:用 bulk filtering 把候选空间压到可训练,再用 ladder 在固定预算下验收每个决策的净收益。influence 与因果方法可以用,但不进入日常合并门禁闭环,以免把不稳定假设引入主干。
反方 — 修正 c-2a5bd5b489:bulk+ladder 覆盖面很大,但“95% decisions”在 code/math/reasoning 上不成立。proxy-to-target 反转在 HumanEval 线上更常见,[1] 的 Spearman≈0.41 已经提示需要更高规模或更专门的能力线验收。
判词 — 一条更稳的读法:把 ladder 作为合并门禁是默认选项,但门禁必须是 per-capability 的,并且对 code/math 线设置“不得仅用 ≤1B proxy 拍板”的硬规则。[1][19][20]
阵营 B:样本级 influence/attribution 才能回答 data value(归因优先)
立场 — “数据价值”本质是样本级贡献度排序:先用 influence/attribution 找到关键样本与关键簇,再围绕它们做 targeted curation 或 reweighting,从而减少大规模 sweep/ablation 的成本。
反方 — 反驳 c-230595d964 / c-bb37143a19:归因能回答“与某个行为相关的训练片段”,但不等价于“删改后的净效应”。[3] 的跨规模 top-overlap <10% 说明归因排序不可跨代复用;[4] 的非加性说明“删 top-k”会破坏交互项。归因更适合做候选生成与 debug,而不是替代 ladder 的合并门禁。
判词 — 结论层面的建议:把 influence 输出限定为“诊断与补数线索”,并要求任何删改/加权都必须通过 ladder 在目标 horizon 上验收;归因结果不得作为跨代长期门禁规则。[3][1]
阵营 C:因果识别才是未来(IV/mediator 去混杂,相关性方法不可信)
立场 — domain/feature 与下游能力之间混杂太强,classifier、mixture sweep、influence 都会被 distribution shift 污染;应把 data selection 写成可识别的因果估计问题,用 IV/robustness 工具估计干预效应,再据此做选择与加权。
反方 — 修正 c-cdd0499162 / c-e385bd2b45:混杂确实存在,但“用 IV 直接给出门禁”风险更高。IV 的 instrument 假设在 web 数据里难审计,[11] 一旦识别失败会方向性错误;相对更稳的是把因果方法用于评估去偏与分层报告,[12] 这类控制变量能直接减少选择偏差。
判词 — 一个更务实的定位:因果方法进入主干的路径是“先把评估偏差与混杂变量显式化”,作为 ladder 的配套诊断与稳健性检查;合并门禁仍由受控干预(ladder)给出净效应。[11][1][12]
阵营 D:跳过测量,靠直觉与 scale(覆盖优先 + scaling law)
立场 — 数据评估工具链成本高且结论不稳(尤其跨规模),不如遵循 scaling law 做规划:尽量扩大 token 与覆盖,必要时用 repetition 对冲过滤偏置;能力提升主要来自规模而非精细筛数。
反方 — 反驳 c-0cc7a00d89:scale 规划能给出下限,但“靠直觉不建工具”会把数据偏置变成不可见风险。[1] 的 thousands-of-ablations 表明经验团队在 mixture/过滤决策上也会出现多个 pp 的误差;[2] 的公开 recipe 显示没有 classifier 的 baseline 会落后数个 pp(以 MMLU 计)。
判词 — 结论层面的建议:保留 scaling-law 的“数据下限/过滤下限”作为 guardrail,但把直觉从合并门禁里移出;至少用一个轻量 ladder 覆盖关键能力线,避免在最贵的 frontier run 上才发现反转。[15][1]
实践要点
可操作清单(面向 2026 frontier pretrain 团队):
1) Do:把 ablation ladder 作为数据改动的合并门禁,预算按 frontier compute 的 1–5% 预留;低于 ~1% 时通常只覆盖早期 checkpoint,更容易漏掉长程反转(例如过度过滤进入 data-limited)。[1][15]
2) Do:评估从单一 loss 换成 per-capability matrix,至少三条线:MMLU(知识/理解)、HumanEval(code)、MATH(数学/推理);每次数据改动必须报告三条线的 Δ 与重复次数/置信区间。[18][19][20]
3) Don’t:让 2–3 年前训练的 quality classifier 长期支配新一代模型入口;proxy 必须每代模型重训/重标,并把适用域(语言/代码/多语/长度分布)写进门禁规则。[2][8]
4) Do:bulk filtering 先做“家族选择”,再做阈值微调;优先比较不同 proxy 家族(perplexity vs DSIR/分类器 vs 去重策略),因为家族差异往往大于阈值扫描。[1][23]
5) Don’t:把 score-based pruning(loss/perplexity)当硬门禁;在高压缩率或长 horizon 下它可能不如随机子采样或 repetition 稳。[9][7]
6) Do:把 influence/attribution 用作 debugger:定位失败样例对应的缺口簇、发现模板过拟合、生成“补数/删改候选”;任何删改/加权必须进入 ladder 验收,且归因结果不得跨代复用为长期规则。[3][4]
7) Do:把 evaluator bias 当作数据门禁的一部分做控制;至少对长度偏置做显式去偏或分层报告,否则数据选择会被评估偏差放大。[12][13]
8) Open(证据不足,先小规模试点):token-level weighting 可能提升 data efficiency,但会显著增加训练系统复杂度与耦合;在长训练 horizon 上是否净赚,需要用 ladder 做端到端成本核算。[14]
悬而未决的问题
- Q1.哪些公开工作直接测试了 ablation ladder 在更多规模点(不仅 412M↔7B)以及更多能力线(code、math、knowledge)上的稳定性?现有证据主要集中在 [1] 的少数规模点。
- Q2.influence/attribution 的 scale drift 是否存在可预测的结构(例如随参数/数据量单调变化),从而允许“校准后迁移”?目前 [3] 给出 drift 事实,但缺少可工程化的校准法则。
- Q3.哪些工作在真实 web 预训练数据上做到了更强的因果识别(可审计的 instrument / robustness),而不仅是评估去偏?[11] 的 IV 假设在工程上仍难审计。
- Q4.token-level weighting 在长训练 horizon(接近 compute-optimal)下的净收益是否稳定超过文档级过滤?如果收益只有 0.2–0.5 pp,但引入显著系统复杂度,是否值得进入主干?[14][15]
- Q5.在固定 token 预算下,pruning vs repetition 的最强对照实验是什么(同训练步数、同去重策略、同评估矩阵)?现有证据指向“反转可能存在”,但缺少统一协议的长程对照。[7][9]
- [1]Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv, 2024论文
- [2]Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel. FineWeb / FineWeb-Edu: the finest collection of educational content the web has to offer. arXiv, 2024论文
- [3]Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini. Studying Large Language Model Generalization with Influence Functions. arXiv, 2023论文
- [4]Kelvin Guu, Albert Webson, Ellie Pavlick, Lucas Dixon, Ian Tenney. Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs. arXiv, 2023论文
- [5]Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
- [6]Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu. Detecting Pretraining Data from Large Language Models. arXiv, 2023论文
- [7]Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
- [8]Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt. Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models. arXiv, 2024论文
- [9]Fadhel Ayed, Soufiane Hayou. Data pruning and neural scaling laws: fundamental limitations of score-based algorithms. arXiv, 2023论文
- [10]
- [11]Lichang Chen, Eric Mitchell, et al.. Causal Data Selection for Language Model Pretraining. arXiv, 2024论文
- [12]Yann Dubois, Balázs Galambosi, Percy Liang, Tatsunori B. Hashimoto. Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv, 2024论文
- [13]Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim. Benchmarking Cognitive Biases in Large Language Models as Evaluators. arXiv, 2023论文
- [14]Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
- [15]Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
- [16]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [17]Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
- [18]Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
- [19]Mark Chen, Jerry Tworek, Heewoo Jun, et al.. Evaluating Large Language Models Trained on Code. arXiv, 2021论文
- [20]Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
- [21]Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao. InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning. arXiv, 2024论文
- [22]Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, et al.. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
- [23]Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, et al.. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data. arXiv, 2019论文
- [24]
- [25]Hugging Face / FineWeb Team. FineWeb / FineWeb-Edu release notes and dataset documentation. Hugging Face Blog/Docs, 2024博客