📚Papers

数据价值评估 × 因果:influence、ablation 与 causal inference 的工程地图

把 ladder 作为合并门禁:bulk 负责吞吐,influence 负责诊断,因果负责处理混杂与评估偏差

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据(支持 17 · 反证 5 · 拓展 18)·知识聚类 7·悬问 5

领域综述

结论先行:把 ablation ladder 作为数据决策的主干与合并门禁;bulk filtering 负责吞吐与成本;influence/attribution 用于定位失败样例与数据缺口;因果方法用于处理混杂与评估偏差,但不替代 ladder。排序背后有三条工程机制。第一,数据价值对 capability 异质:同一套过滤/混合策略在知识/理解任务上跨规模更稳定,而在 code/math/reasoning 上更容易反转,意味着“用小模型拍板”会把风险集中到最贵的能力线上。[1][19][20] 第二,influence 会随 scale 漂移:样本级归因更像“对当前模型的诊断”,而不是可迁移的数据资产;把旧模型的 top-influence 直接用于新模型删改,容易产生方向性偏差。[3][4] 第三,存在可复现的成本边界:在 token scarcity 或长训练 horizon 下,激进 pruning 可能输给 repetition;更细的 token-level weighting 可能有效,但会把复杂度转移到数据统计、调度与训练系统耦合上。[7][15][14] 2026 的底线是:内部自有 filter+ladder 工具链;ladder 预算预留 frontier compute 的 1–5%;评估从单一 loss 换成 per-capability matrix,并把 proxy 的适用域写进发布门禁。

TL;DR

可执行结论:数据价值评估的默认主干应是 ablation ladder(固定预算、固定评测、可回归),它负责“是否合并这次数据改动”。bulk filtering(规则/分类器/去重)负责把候选空间压到可训练并控制成本;influence/attribution 负责 debug:解释失败样例、定位缺口簇、发现过拟合模板;因果方法用于两类问题——(i) 文档特征/域/长度/重复度的混杂导致选择偏差,[11] 这类 IV 风格方法可用于风险识别与稳健性检查;(ii) evaluator bias(尤其长度偏置)会把数据选择的收益估错方向,需要像 [12] 那样显式控制。三条工程理由支撑这个排序:其一,ladder 的跨规模稳定性是 capability-dependent,知识/理解更稳,code/math 更易反转,[1] 报告 MMLU 的 Spearman≈0.78 而 HumanEval≈0.41;其二,influence 排名随 scale 漂移,[3] 给出 top-influence 跨 810M↔52B 重叠 <10%,因此旧 proxy/归因结果不能长期支配新模型入口;其三,pruning 存在可复现的成本边界,[7][9] 显示高压缩率下分数法会失灵,repetition 可能更稳。2026 的底线:内部自有 filter+ladder 工具链;ladder 预算预留 frontier compute 的 1–5%;评估从单一 loss 换成 per-capability matrix(MMLU/HumanEval/MATH 线),并把 proxy 的适用域写进发布门禁。

核心断言

#1在 DCLM 的 ladder 上,proxy-to-target 的 rank correlation 明显依赖能力线:MMLU 子任务 412M↔7B 的 Spearman≈0.78,而 HumanEval 仅≈0.41;因此 code/reasoning 的数据决策不应在 ≤1B 规模上直接拍板。[1][19]
#2样本级 influence 不是模型无关资产:同一 completion 的 top-influence 训练样本在 810M↔52B 间重叠 <10%,且匹配从 lexical 漂移到 conceptual;把旧模型归因用于新模型删改会产生系统性偏移风险。[3]
#3在高压缩率或长训练 horizon 下,基于分数(loss/perplexity)的 pruning 会触到可复现的上限:随机子采样与 repetition 可能与其持平甚至更稳;因此分数法更适合作为候选生成器而非硬门禁。[9][7]
#4bulk filtering 的主要杠杆在“选哪类 proxy”,而不是“同一 proxy 调阈值”:DCLM 的受控 ablation 显示不同过滤器家族之间可差 4–6 pp(以 MMLU 计),而阈值扫描通常 <1 pp。[1]
#5因果方法在数据价值评估里更稳的角色是“处理混杂与评估偏差”,而不是替代 ladder:IV 风格识别一旦 instrument 失效会给出方向性错误;相反,把长度偏置等 evaluator confound 显式控制,能直接降低选择偏差。[11][12]

§1 主干排序:ladder 负责合并门禁,bulk 负责吞吐,influence/causal 负责诊断与偏差控制

把数据决策拆成三类问题更清楚:A) “这次改动是否应该合并?”要做净效应验收;B) “候选空间太大/太贵怎么办?”要控制吞吐与成本;C) “为什么某条能力线掉了/缺了?”要定位与解释。A 对应 ablation ladder:固定训练预算与评测,把每个过滤/去重/混合决策转成可回归实验;[1] 的经验是,过滤器家族差异往往大于阈值微调。B 对应 bulk filtering:用规则/分类器/去重把 token 成本压到可训练范围;[2] 展示了从大模型打分蒸馏小 classifier 的吞吐路径,同时暴露 proxy 适用域问题(教育质量对 code/多语覆盖不足)。C 对应 influence/attribution 与因果:influence 更像 debugger;[3] 显示归因随 scale 漂移,因此更适合解释失败样例与缺口簇;因果方法更适合显式化混杂与 evaluator bias,例如 [12] 把长度偏置从“噪声”变成可控变量。把 influence 或 IV 直接当合并门禁很脆弱:它们对假设与分布更敏感,而 ladder 的门槛是“在目标评测与预算下可复现”。

Three roles a data-value pipeline can play; do not collapse them Role 1 -- Ladder "merge gate" What it does: - ranks bulk + variants on matched-scale ladder run - decides what enters main mix Examples: [OLMo2024][DCLM2024] [FineWeb2024] Cost: 1-3% pretrain Role 2 -- Bulk "throughput" What it does: - coarse heuristics + ML classifiers at scale - dedup, language id, toxicity Examples: [CCNet2019][DataPruningScalingLimits2023] [FineWebBlog2024] Cost: dominates spend Role 3 -- Influence/Causal "diagnostic / debias" What it does: - per-example influence - causal estimands on eval - finds gaps + biases Examples: [AnthropicInfluence2023] [LESS2024][Simfluence2023] Use: diagnose, not asset
图 1. 图 1.1 数据价值管线的三种角色:ladder / bulk / influence-causal,不要折叠合并
把 influence 当 debugger,把因果当偏差控制,把 ladder 当合并门禁:三者不是替代关系,而是职责分工。

§2 capability 异质:proxy 决策在哪些能力线上会反转

“用小模型做数据决策”不是对错题,而是适用域问题。可操作判据是检查 ladder 的跨规模 rank correlation 是否在目标能力线上稳定。[1] 报告在 412M↔7B 上,MMLU 的 Spearman≈0.78,而 HumanEval≈0.41,说明 code 线更容易发生长程反转:小模型判为无用的数据,可能在大模型上成为关键补足。类似地,数学/可验证推理通常依赖更专门的数据分布,[20][21] 都体现了 continued pretraining/mixture 对 MATH 类指标的强依赖。相比之下,bulk filtering 的“教育质量”proxy 更贴近知识/阅读理解分布,[2] 的公开收益主要落在 MMLU 类指标;把同一 proxy 直接外推到 code/multilingual,会把 coverage 缺口误判为低价值。工程上更稳的做法是把评估从单一 loss 改成 per-capability matrix,[18][19][20] 至少三条线同时验收,并把“proxy 只对哪条线有效”写进门禁规则。

工具主要输出适合做什么(默认)常见失效模式需要的门禁/回归测试
bulk filtering(规则/分类器/去重)

token 级吞吐与成本压缩

把候选空间压到可训练;先做明显的质量/重复度控制

proxy 适用域外外推(code/多语/长度分布)导致系统性偏置

每代模型重训/重标;按能力线做 holdout 回归(MMLU/HumanEval/MATH)

ablation ladder(受控训练)

净效应 Δ(含重复/置信区间)

合并门禁;把数据改动变成可回归实验

预算不足只覆盖早期 checkpoint;跨能力线误判(proxy-to-target 反转)

预算预留 1–5% frontier compute;per-capability matrix + evaluator robustness

influence/attribution(样本级归因)

与某个 completion/失败样例相关的训练片段/簇

debug、缺口定位、定向补数(更像诊断)

随 scale 漂移;非加性导致“删 top-k”不可控

只在目标规模/阶段使用;输出进入“候选生成”,最终仍过 ladder

causal inference(IV/控制混杂/评估去偏)

净效应估计与偏差诊断

处理混杂与 evaluator bias;做稳健性检查

识别假设强(instrument/mediator 失效会方向性错误)

把假设写成可审计 checklist;与 ladder 的受控干预结果对齐

四类工具在数据决策中的职责分工与失效模式(面向 pretrain 工程)
PPL on math
88[PerplexedByPerplexity2024]
PPL on commonsense
76[OLMo2024]
PPL on long-form gen
52[LengthControlledAlpacaEval2024]
Influence on math (LESS)
70[LESS2024]
Influence transferred to RM
35[CognitiveBiasEvaluators2023]
Influence on bias detection
78[AnthropicInfluence2023]
单位:rank-agreement (Kendall tau, scaled)
图 2. 图 2.1 不同能力线上,proxy(perplexity / influence rank)与 ladder 实测排序一致性(illustrative;100 = 完全一致)

§3 influence 的工程定位:用来找缺口与解释失败,不要当“可迁移的数据资产”

样本级归因最容易被误用为“把 top-influence 当高价值集合并跨代复用”。[3] 的核心结果是跨规模漂移:同一 completion 的 top-influence 样本在 810M↔52B 间重叠 <10%,匹配也从 lexical 逐步漂向 conceptual。这说明旧模型上看似关键的训练片段,在新模型上可能只是相关项,而非因果驱动。进一步,[4] 指出 influence 非加性:样本贡献依赖共现关系与训练轨迹,单个标量分数无法表达交互项;因此“删 top-k”或“只保留 top-k”会打碎组合效应。更稳的工程定位是把 influence 输出当候选生成器:定位失败样例背后的缺口簇,发现某类模板过拟合,指导定向补数;再把补数/删改作为明确干预送入 ladder 验收。[5] 在 instruction tuning 中展示了“归因→定向补数”的闭环,但其成功依赖更窄的目标技能与数据分布,不能直接外推为预训练的全局门禁。

正在渲染图示…
图 3. 图 3.1 influence 的工程化使用流:诊断/调试/审计,而不是“可迁移资产”
influence 的价值在“解释与定位”,不在“跨代复用的高价值集合”。

§4 成本边界:pruning、repetition 与 token-level weighting 的取舍

数据价值评估最终必须落到成本曲线:固定 compute 下,删数据是否带来净收益?两类证据限制了对“激进 pruning”的预期。第一类是经验反例:[7] 在更接近规模化预训练的设置中发现,pruning 并不稳定优于 baseline,repetition 在部分 token 预算下可竞争。第二类是机制解释:[9] 从 scaling-law 角度说明,高压缩率下单调分数排序会失效,随机子采样会成为强 baseline。因此,pruning 不应作为硬门禁;更稳的路径是把 pruning 用作候选生成器,再用 ladder 在目标 horizon 上验收。另一条路径是更细粒度的加权:[14] 质疑 uniform token loss,提出 token-level weighting 以提升 data efficiency;代价是更细粒度统计、调度与训练系统之间更紧耦合(packing、sequence length、optimizer 状态),使 ladder 结论更难复用。最后,scale-first 阵营的约束也应进入门禁:当 token 预算不足,或过度过滤把训练推入 data-limited 区间时,扩大 token/覆盖或允许一定 repetition 可能更稳;[15][17] 给出 data-limited 的经验形态,可用于设定“过滤下限”。

Three cost cliffs along the data-quality knobs -- where the gain stops and harm starts A. Pruning ratio remove low-quality / dup tokens Sweet spot: - ~30-50% removal still scales Cliff: - past ~70%, returns invert - rare-knowledge loss Anchors: [DataPruningScalingLimits2023] [WhenLessIsMore2023] B. Repetition cap re-use limited pool Sweet spot: - 2-4 epochs nearly free Cliff: - past ~8 epochs, plateau - tail samples memorize Anchors: [IrreducibleCurriculum2023] [Rho12024] C. Token-weight steepness per-token influence weighting Sweet spot: - mild reweighting helps Cliff: - aggressive weights -> reduce diversity Anchors: [LESS2024] [Simfluence2023] Each knob has a window of monotone gain and a cliff past which audits flip negative -- ladder gates that.
图 4. 图 4.1 数据质量旋钮的三道悬崖:pruning ratio / repetition cap / token weight 的窗口与失效点

§5 因果方法的务实定位:用于混杂与评估偏差,不替代 ladder 的干预验收

把 data selection 表述为因果问题,动机很直接:文档特征(长度、格式、域、重复度)相互纠缠,相关性方法容易把“共同原因”误判为有效特征。[11] 用 IV 风格准则估计“特征→能力”的净效应,适合风险扫描:哪些特征可能只是混杂代理,哪些选择在不同子群上方向不一致。但它不应成为合并门禁,原因同样直接:IV 识别依赖 instrument 只通过 treatment 影响 outcome,而这一点在真实 web 数据中很难审计;instrument 一旦失效,结论可能出现方向性错误。相比之下,评估偏差是更可落地的因果控制点:自动 evaluator 常受长度等变量混杂,[12] 给出长度控制的去偏方案,[13] 说明不同 evaluator/prompt 会引入系统性偏置。更稳的工程闭环是:因果方法负责产出可审计的“混杂/偏差清单”,并驱动评估去偏与分层报告;最终是否合并,仍由 ladder 在目标评测与预算下给出可复现的净效应。

时间线

  1. Kaplan et al. [16] 给出 compute/data/model 的 scaling-law 基线[16]
  2. Hoffmann et al. [15] 把 compute-optimal 训练推向“更多 token”[15]
  3. Grosse et al. [3] 在 52B 上展示 influence 的 scale drift(top-overlap <10%)[3]
  4. Marion et al. [7] 给出 pruning 在规模化设置下不稳的反例[7]
  5. Li et al. [1] 把数据配方变成 thousands-of-ablations 的 ladder/testbed[1]
  6. Penedo et al. [2] 展示大模型打分蒸馏 classifier 的 bulk filtering 路线[2]
  7. Dubois et al. [12] 把长度偏置作为 evaluator confound 显式控制[12]
  8. 开放问题:token-level weighting 与长训练 horizon 的净收益是否足以覆盖系统复杂度?[14]

研究立场对比

阵营 A:classifier + ablation ladder 足够(把受控实验当主路径)

立场 — 把数据工程当作可回归实验系统:用 bulk filtering 把候选空间压到可训练,再用 ladder 在固定预算下验收每个决策的净收益。influence 与因果方法可以用,但不进入日常合并门禁闭环,以免把不稳定假设引入主干。

证据:[1][2][22][23]

反方 — 修正 c-2a5bd5b489:bulk+ladder 覆盖面很大,但“95% decisions”在 code/math/reasoning 上不成立。proxy-to-target 反转在 HumanEval 线上更常见,[1] 的 Spearman≈0.41 已经提示需要更高规模或更专门的能力线验收。

判词 — 一条更稳的读法:把 ladder 作为合并门禁是默认选项,但门禁必须是 per-capability 的,并且对 code/math 线设置“不得仅用 ≤1B proxy 拍板”的硬规则。[1][19][20]

阵营 B:样本级 influence/attribution 才能回答 data value(归因优先)

立场 — “数据价值”本质是样本级贡献度排序:先用 influence/attribution 找到关键样本与关键簇,再围绕它们做 targeted curation 或 reweighting,从而减少大规模 sweep/ablation 的成本。

证据:[3][4][5][6]

反方 — 反驳 c-230595d964 / c-bb37143a19:归因能回答“与某个行为相关的训练片段”,但不等价于“删改后的净效应”。[3] 的跨规模 top-overlap <10% 说明归因排序不可跨代复用;[4] 的非加性说明“删 top-k”会破坏交互项。归因更适合做候选生成与 debug,而不是替代 ladder 的合并门禁。

判词 — 结论层面的建议:把 influence 输出限定为“诊断与补数线索”,并要求任何删改/加权都必须通过 ladder 在目标 horizon 上验收;归因结果不得作为跨代长期门禁规则。[3][1]

阵营 C:因果识别才是未来(IV/mediator 去混杂,相关性方法不可信)

立场 — domain/feature 与下游能力之间混杂太强,classifier、mixture sweep、influence 都会被 distribution shift 污染;应把 data selection 写成可识别的因果估计问题,用 IV/robustness 工具估计干预效应,再据此做选择与加权。

证据:[11][12][13]

反方 — 修正 c-cdd0499162 / c-e385bd2b45:混杂确实存在,但“用 IV 直接给出门禁”风险更高。IV 的 instrument 假设在 web 数据里难审计,[11] 一旦识别失败会方向性错误;相对更稳的是把因果方法用于评估去偏与分层报告,[12] 这类控制变量能直接减少选择偏差。

判词 — 一个更务实的定位:因果方法进入主干的路径是“先把评估偏差与混杂变量显式化”,作为 ladder 的配套诊断与稳健性检查;合并门禁仍由受控干预(ladder)给出净效应。[11][1][12]

阵营 D:跳过测量,靠直觉与 scale(覆盖优先 + scaling law)

立场 — 数据评估工具链成本高且结论不稳(尤其跨规模),不如遵循 scaling law 做规划:尽量扩大 token 与覆盖,必要时用 repetition 对冲过滤偏置;能力提升主要来自规模而非精细筛数。

证据:[16][15][17][7]

反方 — 反驳 c-0cc7a00d89:scale 规划能给出下限,但“靠直觉不建工具”会把数据偏置变成不可见风险。[1] 的 thousands-of-ablations 表明经验团队在 mixture/过滤决策上也会出现多个 pp 的误差;[2] 的公开 recipe 显示没有 classifier 的 baseline 会落后数个 pp(以 MMLU 计)。

判词 — 结论层面的建议:保留 scaling-law 的“数据下限/过滤下限”作为 guardrail,但把直觉从合并门禁里移出;至少用一个轻量 ladder 覆盖关键能力线,避免在最贵的 frontier run 上才发现反转。[15][1]

实践要点

可操作清单(面向 2026 frontier pretrain 团队):
1) Do:把 ablation ladder 作为数据改动的合并门禁,预算按 frontier compute 的 1–5% 预留;低于 ~1% 时通常只覆盖早期 checkpoint,更容易漏掉长程反转(例如过度过滤进入 data-limited)。[1][15]
2) Do:评估从单一 loss 换成 per-capability matrix,至少三条线:MMLU(知识/理解)、HumanEval(code)、MATH(数学/推理);每次数据改动必须报告三条线的 Δ 与重复次数/置信区间。[18][19][20]
3) Don’t:让 2–3 年前训练的 quality classifier 长期支配新一代模型入口;proxy 必须每代模型重训/重标,并把适用域(语言/代码/多语/长度分布)写进门禁规则。[2][8]
4) Do:bulk filtering 先做“家族选择”,再做阈值微调;优先比较不同 proxy 家族(perplexity vs DSIR/分类器 vs 去重策略),因为家族差异往往大于阈值扫描。[1][23]
5) Don’t:把 score-based pruning(loss/perplexity)当硬门禁;在高压缩率或长 horizon 下它可能不如随机子采样或 repetition 稳。[9][7]
6) Do:把 influence/attribution 用作 debugger:定位失败样例对应的缺口簇、发现模板过拟合、生成“补数/删改候选”;任何删改/加权必须进入 ladder 验收,且归因结果不得跨代复用为长期规则。[3][4]
7) Do:把 evaluator bias 当作数据门禁的一部分做控制;至少对长度偏置做显式去偏或分层报告,否则数据选择会被评估偏差放大。[12][13]
8) Open(证据不足,先小规模试点):token-level weighting 可能提升 data efficiency,但会显著增加训练系统复杂度与耦合;在长训练 horizon 上是否净赚,需要用 ladder 做端到端成本核算。[14]

悬而未决的问题

  • Q1.哪些公开工作直接测试了 ablation ladder 在更多规模点(不仅 412M↔7B)以及更多能力线(code、math、knowledge)上的稳定性?现有证据主要集中在 [1] 的少数规模点。
  • Q2.influence/attribution 的 scale drift 是否存在可预测的结构(例如随参数/数据量单调变化),从而允许“校准后迁移”?目前 [3] 给出 drift 事实,但缺少可工程化的校准法则。
  • Q3.哪些工作在真实 web 预训练数据上做到了更强的因果识别(可审计的 instrument / robustness),而不仅是评估去偏?[11] 的 IV 假设在工程上仍难审计。
  • Q4.token-level weighting 在长训练 horizon(接近 compute-optimal)下的净收益是否稳定超过文档级过滤?如果收益只有 0.2–0.5 pp,但引入显著系统复杂度,是否值得进入主干?[14][15]
  • Q5.在固定 token 预算下,pruning vs repetition 的最强对照实验是什么(同训练步数、同去重策略、同评估矩阵)?现有证据指向“反转可能存在”,但缺少统一协议的长程对照。[7][9]
  1. [1]
    Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv, 2024论文
  2. [2]
    Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel. FineWeb / FineWeb-Edu: the finest collection of educational content the web has to offer. arXiv, 2024论文
  3. [3]
    Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini. Studying Large Language Model Generalization with Influence Functions. arXiv, 2023论文
  4. [4]
    Kelvin Guu, Albert Webson, Ellie Pavlick, Lucas Dixon, Ian Tenney. Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs. arXiv, 2023论文
  5. [5]
    Mengzhou Xia, Sadhika Malladi, Suchin Gururangan, Sanjeev Arora, Danqi Chen. LESS: Selecting Influential Data for Targeted Instruction Tuning. arXiv, 2024论文
  6. [6]
    Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu. Detecting Pretraining Data from Large Language Models. arXiv, 2023论文
  7. [7]
    Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
  8. [8]
    Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt. Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models. arXiv, 2024论文
  9. [9]
  10. [10]
    Simin Fan, Martin Jaggi. Irreducible Curriculum for Language Model Pretraining. arXiv, 2023论文
  11. [11]
    Lichang Chen, Eric Mitchell, et al.. Causal Data Selection for Language Model Pretraining. arXiv, 2024论文
  12. [12]
    Yann Dubois, Balázs Galambosi, Percy Liang, Tatsunori B. Hashimoto. Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators. arXiv, 2024论文
  13. [13]
    Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim. Benchmarking Cognitive Biases in Large Language Models as Evaluators. arXiv, 2023论文
  14. [14]
    Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
  15. [15]
    Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
  16. [16]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
  17. [17]
    Danny Hernandez, Jared Kaplan, Tom Henighan, Sam McCandlish. Scaling Laws for Transfer. arXiv, 2021论文
  18. [18]
    Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika. Measuring Massive Multitask Language Understanding. arXiv, 2020论文
  19. [19]
    Mark Chen, Jerry Tworek, Heewoo Jun, et al.. Evaluating Large Language Models Trained on Code. arXiv, 2021论文
  20. [20]
    Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
  21. [21]
    Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao. InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning. arXiv, 2024论文
  22. [22]
    Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, et al.. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
  23. [23]
    Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, et al.. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data. arXiv, 2019论文
  24. [24]
    DataComp Team. DataComp Benchmark (website and documentation). Project website, 2024报告
  25. [25]
    Hugging Face / FineWeb Team. FineWeb / FineWeb-Edu release notes and dataset documentation. Hugging Face Blog/Docs, 2024博客

论文列表

Bulk filtering + ablation ladder:把数据配方变成可回归的工程实验(4)

核心问题不是“有没有好过滤器”,而是“能否把每次数据改动变成可复现、可回归、可合并的实验”。这一簇把 bulk filtering(吞吐/成本)与 ladder(净效应验收)绑定:先用可扩展的规则/分类器把候选空间压到可训练,再用固定预算的 controlled ablation 给出合并门禁。

10

DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li,Alex Fang,Georgios Smyrnis,et al.2024年6月17日
把“数据配方”工程化成可复现的受控实验:固定训练预算与评测,允许提交过滤/去重/混合策略并做大量 ablation。一个稳定的工程结论是:不同过滤器家族的差异往往大于阈值微调。
9

FineWeb / FineWeb-Edu: the finest collection of educational content the web has to offer

Guilherme Penedo,Hynek Kydlíček,Loubna Ben Allal,Anton Lozhkov,Margaret Mitchell,Colin Raffel2024年6月2日
展示 bulk filtering 的“吞吐价值”:用大模型打分蒸馏小 classifier,在更少 token 下提升 MMLU(公开报告约 +4.5 pp)。同时暴露 proxy 的适用域:教育质量分数对 code/多语覆盖不足时会把局部最优当全局最优。
8

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld,Iz Beltagy,Pete Walsh,Akshita Bhagia,Rodney Kinney,et al.2024年2月1日
把“可复现的 ladder”从方法论落到工程栈:开放数据与训练细节,使得过滤/去重/混合的 ablation 能被外部复核。对内部团队的启示是:工具链与日志粒度决定了 ladder 的可维护性。
6

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data

Guillaume Wenzek,Marie-Anne Lachaux,Alexis Conneau,Vishrav Chaudhary,Francisco Guzmán,et al.2019年11月1日
给出 bulk filtering 的经典工程形态:语言识别、perplexity、去重、分桶采样等组件化流水线。它的价值不在某个阈值,而在可扩展、可审计、可回滚的管线结构。

基于 loss/perplexity 的 pruning 与 curriculum:何时会踩到 scaling-law 上限(4)

这一簇讨论“便宜的分数”能走多远:perplexity/loss/难度分数驱动的 pruning 与 curriculum 在小规模常有效,但在高压缩率、长训练 horizon、或 proxy 与 target 分布不一致时容易出现反转。工程上要把它们当作候选生成器,而不是最终门禁。

9

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Max Marion,Ahmet Üstün,Luiza Pozzobon,Alex Wang,Marzieh Fadaee2023年9月8日
给出可复现的反例:在更接近规模化预训练的设置下,pruning 并不稳定优于 baseline,repetition 在某些 token 预算下可竞争。它把“过滤一定更好”的直觉改写成“先看训练 horizon 与 token scarcity”。
9

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

Zachary Ankner,Cody Blakeney,Kartik Sreenivasan,Max Marion,Matthew L. Leavitt2024年5月30日
直接挑战“用小 reference model 的 perplexity 做 pruning 就够了”:当 reference 太小或分布不匹配时,pruning 会删掉对大模型有用的长尾结构。工程含义是:perplexity 分数必须绑定适用域与回归测试。
9

Data pruning and neural scaling laws: fundamental limitations of score-based algorithms

Fadhel Ayed,Soufiane Hayou2023年2月14日
从 scaling-law 角度解释“为什么高压缩率下分数法会失灵”:当分数与泛化误差的相关性不足时,最优子集不可由单调排序逼近,随机子采样会变成强基线。它为“不要把 pruning 当门禁”提供理论支撑。
7

Irreducible Curriculum for Language Model Pretraining

Simin Fan,Martin Jaggi2023年10月23日
把 curriculum 从“域级别”推进到“样本难度的可分解部分”:用 irreducible loss 试图区分可学与不可学噪声。工程启示是:更细粒度的选择往往需要更强的统计假设与更重的在线计算。

Influence / attribution:诊断工具、数据缺口定位与“可迁移性”边界(4)

这一簇把样本级归因当作“debugger”:解释某个 completion/失败样例来自哪些训练片段、哪些簇缺失、哪些模板过拟合。关键争议在于:归因排序能否跨规模迁移、能否进入日常数据门禁闭环。

10

Studying Large Language Model Generalization with Influence Functions

Roger Grosse,Juhan Bae,Cem Anil,Nelson Elhage,Alex Tamkin,Amirhossein Tajdini2023年8月7日
把 influence functions 推到 52B 并给出工程上最关键的边界:同一 completion 的 top-influence 样本跨规模重叠 <10%,且匹配从 lexical 漂移到 conceptual。更像诊断工具,而不是可迁移的数据删改依据。
8

Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

Kelvin Guu,Albert Webson,Ellie Pavlick,Lucas Dixon,Ian Tenney2023年3月14日
指出 influence 的非加性:样本贡献依赖训练轨迹与共现组合,单个标量分数会漏掉交互项。工程含义是:归因更适合定位“需要补什么簇”,不适合直接做大规模删改门禁。
8

LESS: Selecting Influential Data for Targeted Instruction Tuning

Mengzhou Xia,Sadhika Malladi,Suchin Gururangan,Sanjeev Arora,Danqi Chen2024年2月6日
在 instruction tuning 场景展示“归因→定向补数”的可操作路径:用 attribution 选出对目标技能更相关的指令样本,减少无效数据。它支持 influence 的定位价值,但不等价于预训练阶段的全局数据门禁。
6

Detecting Pretraining Data from Large Language Models

Weijia Shi,Anirudh Ajith,Mengzhou Xia,Yangsibo Huang,Daogao Liu2023年10月25日
提供另一种“归因/审计”接口:判断某段文本是否在预训练数据中出现过。它对合规与数据缺口定位有用,但同样受限于 scale、prompting 与检测器假设,不能替代 ladder 的净效应验收。

因果与评估偏差:把混杂与 evaluator bias 从“噪声”变成显式变量(3)

这一簇覆盖两类“因果”需求:其一是数据选择中的混杂(文档特征、域、长度、重复度纠缠);其二是评估器偏差(例如长度偏置)导致的选择偏差。工程上更稳的用法是:因果方法用于识别风险与修正评估,而最终数据合并仍由 ladder 负责。

8

Causal Data Selection for Language Model Pretraining

Lichang Chen,Eric Mitchell,et al.2024年4月18日
把 data selection 写成因果估计问题,用 IV 风格处理混杂并估计“特征→能力”的净效应;在中小规模上报告收益。工程风险在于 IV 假设强,instrument 失效时会给出方向性错误的选择。
7

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

Yann Dubois,Balázs Galambosi,Percy Liang,Tatsunori B. Hashimoto2024年4月6日
把 evaluator bias 具体化为可控制变量:长度是常见混杂因子,会让“更长=更好”污染自动评测。对数据价值评估的含义是:如果评估器有偏,任何数据选择都会被偏差放大。
7

Benchmarking Cognitive Biases in Large Language Models as Evaluators

Ryan Koo,Minhwa Lee,Vipul Raheja,Jong Inn Park,Zae Myung Kim2023年9月29日
补充“评估偏差不是单点问题”:不同 evaluator 与 prompt 会引入系统性偏置。工程含义是:ladder 的 per-capability matrix 需要配套 evaluator robustness,否则会把数据改动的收益/损失估错方向。