📚Papers

数据配比:把 ratio 当成可优化的控制变量,而不是经验玄学

把 ratio 当作可记账的控制变量:dedup → 分桶 → 按算力选搜索 → curriculum

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

35 篇扩展证据(支持 12 · 拓展 22 · 切线 1)·知识聚类 8·悬问 5

领域综述

数据配比在工程里经常被写成一张“固定比例表”,但更稳的理解是:ratio 是训练过程中的控制变量,必须和去重、分桶、搜索预算、训练阶段一起记账,否则很难解释回归、也很难回滚。第一条底线是先 dedup 再谈 ratio:document-level dedup 至少要做,能做就加语义去重/多样化,否则 web 域的 effective token 会被重复样本虚高,优化学到的是重复度而不是信息密度,并且近重复会把评测集污染成“训练集的影子”[1][2][3]。第二条是把桶切细:2–3 个粗桶会把信号平均化,回归/在线调权都变得不可控;更实用的默认值是 15–30 个 buckets,并且所有占比都用 post-dedup 的 effective count 报数[4][5]。第三条是按算力选搜索:中小团队更常见的最优解是启发式 warm start + 2–3 轮 ablation,再用 RegMix/混合规律做离线校准;复杂 utility 估计器与在线方法要默认怀疑,除非能承担额外阶段与稳定记账[7][8][9][10]。最后,ratio 更像 curriculum:公开配方显示后期对 code/math/reasoning 做 3–5× 上采样更像“尾段补能力”,而不是全程恒定[13];质量过滤往往先拿走最大收益,但“更干净”不单调更好,也不替代稀缺域的配比与阶段调度[12][11]

TL;DR

结论层面的建议:不要把 data mixture 写成一次性比例表。更稳的做法是把 ratio 当作控制变量,围绕“有效 token、桶定义、搜索成本、训练阶段”建立可记账与可回滚的流程。
(1) 先 dedup 再谈 ratio:至少 document-level dedup;能做就加语义去重/多样化。否则 web 域的 effective count 会被重复样本虚高,优化学到的是重复度而不是信息密度;近重复还可能污染评估抬高指标[1][2][3]
(2) 默认切到 15–30 个 buckets,并在 post-dedup 空间报占比:桶太粗会让回归与在线调权被平均化,调参不可控也难回滚[4][5]
(3) 按算力选搜索:中小团队优先启发式 warm start + 2–3 轮 ablation,再用 RegMix/混合规律做离线校准;复杂 utility 估计器与在线方法要默认怀疑,除非能承担额外阶段与稳定记账[7][8][9][10]
(4) 把 ratio 写成 curriculum:公开配方显示后期对 code/math/reasoning 做 3–5× 上采样更像“尾段补能力”,而不是全程恒定[13]。质量过滤通常先拿走最大收益,但“更干净”不单调更好,也不替代稀缺域的配比与阶段调度[12][11]

核心断言

#1在 web-heavy 预训练里,不做 document/semantic dedup 会把某些桶的 effective token 虚高到“看起来占比更大但信息密度更低”,导致基于 token-share 的配比搜索偏向冗余;并且近重复会把评测集污染成训练集的子集,造成虚假的 mixture 收益[1][2][3]
#2把 mixture 从 2–3 个粗桶改成 15–30 个可解释 buckets,能把“平均化的全局 loss”拆成可诊断的 per-domain 信号,使回归/在线调权的回滚边界清晰;domain 构造比直接调权更先决定可控性[4][5]
#3离线搜索 w* 的工程可行区间通常是“proxy 模型群 + 回归/规律外推”,而不是复杂 utility 估计器:在若干设置下,LLM-utility mixing 的稳定性不如 token-count/启发式 warm start[9][7]
#4公开配方更像“分阶段轨迹”而非恒定比例:Llama 3 报告后期对 code/math/reasoning 做约 3–5× 上采样,符合“尾段补稀缺能力”的机制;把 ratio 写成时间函数比追一个全程固定 w* 更贴近训练动态[13][15][16]
#5“质量优先、ratio 次要”在低质 web 主导时更常成立,但一旦过滤把稀缺域进一步稀释,剩余自由度主要落在配比、重复上限与 curriculum;继续加大过滤强度无法替代对 code/math/多语等桶的显式上采样[11][12][13][14]
#6Mixture 已经不是 noise 项也不是 trick:在 (N, D, vocab, mixture) 四轴 sweep 下,mixture 是与 (N, D) 同级的预测变量。BiMix 给出可解析嵌套形式 [8],DoReMi 把它做成 Group-DRO 可学权重 [10],RegMix 在 1M-级 sweep 上回归预测 [7]
#7Mixture 是轨迹而非单一向量:Llama-3 在 anneal/cool-down 阶段把 math 权重从 ~8% 拉到 ~25%,证明“质量优先”不等于“配比恒定”;与之对比,[9] 显示在没有更强 effective-token 记账时复杂 utility 估计器反而拖累 ratio。

§0 演进谱系:从手调比例到可拟合的控制变量

CCNet -> Pile -> DoReMi -> RegMix/BiMix/DataComp-LM -> Llama-3 trajectory -> Organize-the-Web

数据 mixture 在 LLM 中的优化路径,是从“手调比例”走向“可拟合控制变量”的曲线。[17] 标准化了 web filter,但 mixture 仍靠手调;[18] 引入显式 domain bucket,为后续“分桶 + 调权”建立坐标系,但 ratio 选择仍依赖团队经验。2023 年起,mixture 首次成为可学习对象:[10] 在小代理模型上用 Group-DRO 学 domain weight,将 8B 训练步数缩短 ~2.6×;[2][1] 将“effective token”从“原始 token”中剥离,使 mixture 的分母不再受近重复污染。到 2024 年,mixture 成为 scaling 第三轴:[7] 用 1M 级 sweep 上的回归代理预测最优 mixture;[8] 将 mixture-vector → loss 写成可解析、可与 N/D 幂律嵌套的形式,使大模型 loss 无需实跑即可预测;[11] 通过受控实验把“filtered web ≥ noisy diverse”量化为 ≥7 pp 的下游差距。

2025 年的趋势,是把 mixture 从“向量”升格为“轨迹”:[13] 公开记录了从 web-heavy 到 math/anneal-heavy 的阶段迁移;[9] 给出 utility-mixing 的偏负面对照——在缺少更强 effective-token 记账时,复杂估计器会拖累配比;[4] 进一步前置 domain 构造,强调可解释与可回滚:桶没切好之前,更复杂的搜索器只会放大 noise。现代 mixture 工程因此是一条 dedup → bucket → 小成本 sweep + mixing law 拟合 → curriculum 的流水线,而不是“配比靠拍脑袋 / 跑大 sweep”两个端点。

Pretraining-mixture optimisation: from hand-tuned ratios to predictable scaling-law fits Top: paradigm shift. Bottom: how the mixture vector alpha is decided. 2019 2020 2023 H1 2024 H1 2024 H2 2025 H1 2025+ CCNet The Pile DoReMi RegMix / DataComp-LM BiMix mixing law Llama-3 / Held utility Organize the Web [CCNet2019] [Pile2020] [DoReMi2023] [RegMix2024][DataCompLM2024] [BiMix2024] [MetaLlama32024][Held2025UtilityMix] [OrganizeWeb2025] filter, then mix by hand explicit buckets Group-DRO learn alpha regression on small sweep analytic L = f(N, D, alpha) trajectory + utility est. domain construction first handcrafted handcrafted learned ratio predicted ratio closed-form law phase-aware data-product first
图 1. 图 0.1 Mixture 优化的范式迁移:手调->学习权重->可拟合 mixing law->可控轨迹
正在渲染图示…
图 2. 图 0.2 现代 mixture 流水线:dedup -> bucket -> small-cost sweep + 拟合 -> curriculum
Pile · web
23[Pile2020]
Pile · code
7[Pile2020]
Pile · math
1.50[Pile2020]
DoReMi (learned) · web
38[DoReMi2023]
DoReMi (learned) · code
16[DoReMi2023]
Llama-3 final · web
50[MetaLlama32024]
Llama-3 final · code
17[MetaLlama32024]
Llama-3 final · math
8[MetaLlama32024]
Llama-3 anneal · math
25[MetaLlama32024] cool-down
单位:%
图 3. 图 0.3 不同 recipe 的 web vs code vs math 权重(Pile / DoReMi / Llama-3 / DataComp-LM 报告值)
# BiMix mixing law (sketch). alpha is the mixture vector over K domains;
# coefficients are fit per (N, D) on a small ladder, then snapped to large N/D.
def bimix_loss(alpha, N, D, fit):
    a, b, c, k_n, k_d = fit['a'], fit['b'], fit['c'], fit['k_n'], fit['k_d']
    domain_term = sum(a[i] * alpha[i]**k_d[i] for i in range(len(alpha)))
    scale_term  = b * N**(-k_n) + c * D**(-k_d['joint'])
    return domain_term + scale_term

# Practical use:
# 1. fit on a 1M-100M scale ladder x 8-16 mixture rows
# 2. predict loss on N=8B, D=2T for 1024 candidate alpha vectors
# 3. sanity-check on 1B / 200B before committing the full run
图 4. 图 0.4 BiMix 把 mixture-vector → loss 写成两段可拟合幂律,便于在小成本 sweep 上预测大模型 loss

§1 先把 effective token 记账:dedup 不是清洁癖,是配比的坐标系

把 ratio 当作优化变量时,最常见的隐性 bug 是把“原始 token 数”当作可用预算。D4 将这个问题工程化:document-level dedup + 多样化后,在 matched-loss 条件下训练更快,说明重复样本消耗算力却不提供等量新信息[1]。SemDeDup 进一步说明,近重复(语义相似但不完全相同)也会占用训练步数;且这种冗余在 web 域分布不均,直接改写各域的有效密度[2]。由此两类决策同时失真:其一,“按 token 占比配比”的离线搜索会偏向冗余更高的桶,因为它们看起来更大;其二,评测污染会把某些桶的收益抬高为虚假增益。Shi et al. 的检测工作给出可操作的警告:模型输出能反推训练数据痕迹,因此评测集与训练集的近重复必须进入同一套去重与版本记账;否则 mixture 调参会被泄漏牵引[3]。更稳的流程是:所有 domain share 都用 post-dedup effective count 报数,并把 dedup/过滤流水线版本号写进配方与实验记录;否则“换了去重阈值”会让 w* 的含义漂移,回归与回滚都失去参照系[1][2]

"Effective tokens" is the coordinate system that mixture search actually runs on Stage 1. Raw tokens crawl + corpus union - CC + GitHub + arXiv - multi-language - per-domain raw N_d Anchors [CCNet2019] [Pile2020] -> Stage 2. Dedup-survived strong doc + paragraph - MinHash / SemDeDup - per-domain N_d^dedup - already shifts mixture Anchors [SemDeDup2023] [FineWeb2024] -> Stage 3. Discount applied repetition / quality - 2-4 epochs ~ free - per-domain N_d^eff - low quality discounted Anchors [OrganizeWeb2025] [QuRating2024] -> Stage 4. Mixture-weighted w_d * N_d^eff - search over w_d - closed-form law - this is what loss(N,D,w) sees Anchors [DoReMi2023][RegMix2024] [BiMix2024][DataCompLM2024] Search at stage 4 only makes sense if stage 1-3 are accounted; otherwise w* fits noise.
图 5. 图 1.1 effective token 漏斗:raw -> dedup -> 折扣 -> mixture 权重,这是搜索 w* 真正运行的坐标系
ratio 不是“原始 token 的比例”,而是“去重与过滤之后、能产生有效梯度的 token 的比例”。

§2 桶切得够细,调权才可控:domain 构造优先于 w*

很多配比失败不是“算法不行”,而是 bucket 太粗:把 web、books、code 这类粗源当作 bucket,会把质量层、主题、语言差异平均掉,使回归或在线调权只能学到模糊的平均效应。Organize the Web 的关键贡献是前置 domain 构造:先把 web 组织成可解释域,再做过滤与配比,把诊断粒度从 source 提升到 domain[4]。一旦 domain 成为一等对象,评估也必须按同一粒度对齐;Paloma 提供 per-domain perplexity 切片,使“桶定义—训练配比—评估信号”形成闭环,而不是只依赖全局 loss[5]。另一条路径是让 bucket 从数据中长出来:无监督 domain discovery 学到 latent buckets,往往更贴近梯度统计中的真实分组,减少手工 taxonomy 的任意性[6]。工程上更稳的默认值是 15–30 个 buckets:少于 ~10 个时,回归/调权信号容易被平均化;多于 ~50 个时,记账与采样器复杂度会拖慢迭代,且每桶样本不足会放大估计噪声。这个区间不是定理,但它把“可控性”和“迭代速度”放在同一张账上[4][5]

正在渲染图示…
图 6. 图 2.1 桶设计决策树:mixture 的“单位”比 w* 更先决定可控性

§3 选 w* 还是选流程:离线搜索、在线调权、启发式 warm start 的成本结构

把 domain weight 当作一阶变量有三条路线:离线搜索、在线/自适应调权、启发式 + 少量 ablation。RegMix 把搜索压缩进“可承受的离线阶段”:训练许多小模型,随机采样 mixture,用回归拟合 mixture→loss 的局部响应面,再外推到更大规模[7]。它的优势是可复现、可解释,便于预算规划;代价是必须稳定桶定义与版本记账,否则回归目标会随数据流水线漂移[7][4]。DoReMi 把权重学习写成 Group DRO:用 proxy 训练估计各域损失并做 minimax 更新,目标是提升最差域并加速收敛[10];它更贴近“训练中非平稳”的现实,但增加在线信号通道与实现复杂度,记账不稳时更难定位失败原因。第三条路线把复杂度留给工程:用公开配方 warm start,再做 2–3 轮 ablation 校准 stage 切分与上采样倍率。Held et al. 的对照结果给出一个现实约束:LLM 估计 utility 的复杂方法在若干设置下不如简单 token-count/启发式规则稳定[9]。因此,务实分工是:中小团队先把桶切细、把记账做稳,再用启发式 + 少量对照实验找到可回滚的旋钮;只有在能承担额外阶段并保证版本稳定时,才把离线回归或在线调权引入主干训练[9][7][10]

路线核心机制额外成本(相对固定配方)对桶/记账的敏感性常见失败模式
离线回归/规律外推

proxy 模型群拟合 mixture→loss,再外推 w*

需要额外训练 N 个小模型 + 数据版本冻结

高:桶定义漂移会让回归目标漂移

w* 迁移失败;回归学到的是“版本差异”而非 mixture 效应

在线/自适应调权

用 per-domain loss/minimax 更新权重

训练环路更复杂;需要稳定 per-domain 统计

中-高:统计口径一变就难定位回归

权重振荡;被噪声桶牵引;实现细节导致不可复现

启发式 warm start + 少量 ablation

用公开配方/经验先验,再做 2–3 轮对照校准

最低:主要成本是几次对照训练

中:仍需要稳定桶与 post-dedup 记账

容易停在局部最优;对长尾桶的收益不易量化

三类 mixture 优化路线的成本与失败模式(面向工程决策)
正在渲染图示…
图 7. 图 3.1 选 w* 的 cost vs signal:heuristic / RegMix / DoReMi / Aioli 的取舍流

§4 ratio 作为时间函数:质量优先不等于“配比不重要”

“先修质量再调 ratio”在低质 web 主导时通常最划算:DataComp-LM 的受控实验将其量化为可复现结论——噪声占主导时,过滤/选择的收益更稳定,细调 mixture 的边际收益会被噪声吞没[11];FineWeb 将 web 提纯工程化,使“先把 web 质量抬到不会主导梯度”成为可执行默认项[12]。但把 ratio 降为二级旋钮会遮蔽一个结构性后果:过滤通常先削减总量,而稀缺域(code/math/多语/科学)过滤后更稀缺,剩余自由度主要转向配比、重复上限与 curriculum。公开配方给出直接证据:Llama 3 将 mixture 写成多阶段轨迹,后期对 code/math/reasoning 做约 3–5× 上采样,更像“尾段补稀缺能力”,而不是全程恒定比例[13]。continued pretraining 的专用模型也符合这一机制:Code Llama 与 Llemma 都在通用底座上继续用稀缺域混合训练补齐能力,等价于在后期显式上采样某些桶[15][16]。因此,更稳的工程表述是:质量过滤先把训练带入有效区间;进入有效区间后,ratio/curriculum 决定能力方向与长尾覆盖,尤其决定稀缺桶的上采样倍率与阶段边界[11][13][14]

时间线

  1. CCNet 把 web 过滤流水线标准化:先提纯再谈规模[17]
  2. The Pile 用显式 buckets 组织多源语料,早期公开配方范式[18]
  3. SemDeDup 把“近重复”纳入预算:effective token 概念更具体[2]
  4. DoReMi 把 domain weight 写成 Group DRO 的可学习变量[10]
  5. DataComp-LM 用受控实验量化“质量优先”的收益区间[11]
  6. Llama 3 公开阶段性 mixture:ratio 从向量变成轨迹[13]
  7. Held et al. 对 utility mixing 给出偏负面对照:复杂估计器需要更强记账[9]
  8. Organize the Web 把 domain 构造前置,强调可解释与可回滚[4]

研究立场对比

阵营 A:先做形式化搜索(回归/规律/鲁棒优化),再做工程

立场 — domain weight 是一阶优化变量,应该像学习率一样系统搜索:用 proxy 模型群拟合响应面(RegMix)或用 mixing law 外推(BiMix),并用 worst-case/Group DRO 类目标把“别让某些桶塌陷”写进优化问题[7][8][26]

证据:[7][8][26]

反方 — 形式化方法对桶定义与数据版本极敏感:桶太粗会平均化信号,版本漂移会让回归目标漂移;在记账不稳的现实流水线里,复杂方法可能把“版本差异”当作可学习信号[4][9]

判词 — 更务实的定位:把形式化搜索当作“离线校准器”,而不是主干训练的默认组件。先把 dedup、分桶与版本冻结做稳,再用少量 proxy 点拟合敏感度与预算;否则 w* 的可复现性与可回滚性很难保证[7][4]

阵营 B:启发式 + curriculum 更稳;2–3 轮 ablation 常常够用

立场 — 真实工程里最稀缺的是稳定记账与迭代速度,不是算法新颖性。公开配方(LLaMA、Gopher、Llama 3、OLMo)提供了强先验:先 web-heavy,再在尾段对 code/math/reasoning 上采样;用少量对照实验校准 stage 边界与倍率,比追一个全程固定 w* 更可控[19][20][13][21]

证据:[19][20][13][21]

反方 — 启发式容易把“当前评测集”过拟合成配方;当桶定义变化(例如新增多语/长尾主题)或目标从平均性能转向最差桶时,缺少形式化目标会让 trade-off 难以解释[5][26]

判词 — 结论层面的建议:把启发式当默认起点,但必须配套“细桶 + per-domain 评估 + 版本化记账”。没有这三件套,ablation 的结论不可迁移,配方也不可回滚[4][5][21]

阵营 C:在线/自适应 mixing 优于一次性离线比例

立场 — mixture 是非平稳问题:训练阶段变化会改变各桶的边际收益,因此应当边训边调。DoReMi 用 Group DRO 学权重,目标是提升最差域并加速收敛;Irreducible Curriculum 进一步把选择粒度下沉到样本层,试图用不可约损失信号组织 curriculum[10][22]

证据:[10][22][23]

反方 — 在线方法的额外通道(per-domain loss、采样器状态、延迟统计)会放大记账不稳的风险;当桶定义、去重阈值或过滤器版本频繁迭代时,权重振荡与不可复现更常见,且回滚成本更高[9][4]

判词 — 一个更稳的落点:在线调权只在“桶定义冻结 + 统计口径稳定 + 有专门回滚机制”时进入主干训练;否则先用阶段性 curriculum 表达非平稳性,把动态性写进 schedule 而不是写进在线算法[13][4]

阵营 D:ratio 是二级效应;质量/选择是一阶(但 clean 不单调)

立场 — 在真实 web 池里,最大收益常来自过滤与选择:先把低质噪声移除,训练才进入有效区间。DataComp-LM 用受控实验支持“质量优先”的收益区间,FineWeb 与 CCNet 提供可复现的过滤流水线;同时,基于小参考模型的 perplexity pruning 与 learned quality scoring(QuRating)把选择做成可扩展组件[11][12][17][25][24]

证据:[11][12][17][24][25]

反方 — 把“更干净”当作单目标会忽略稀缺域与能力定向:过滤往往先砍掉量,导致 code/math/多语等域更稀缺;此时继续加大过滤强度无法替代显式配比与阶段性上采样。Llama 3 的后期 3–5× 上采样与 code/math continued pretraining 的证据都指向:进入有效区间后,ratio/curriculum 决定能力方向[13][15][16][14]

判词 — 更可执行的建议:先用过滤把 web 拉到“不会主导梯度”的质量线;跨过这条线后,把预算从“继续变干净”转向“稀缺桶的阶段性上采样与重复上限”,并用 per-domain 评估监控副作用[12][11][13][5]

实践要点

可执行清单(带边界):
1) 先 dedup 再报 ratio:至少 document-level dedup;能做就加语义去重/多样化。所有 domain 占比用 post-dedup effective count 报数,并把 dedup/过滤流水线版本号写进配方与实验记录[1][2][3]
2) 默认切到 15–30 个 buckets 再做任何回归/在线调权:不要在 2–3 个粗桶上直接跑 RegMix/DoReMi,信号会被平均化且难回滚;优先让桶定义与评估切片对齐(例如用 Paloma 的 per-domain perplexity)[4][5][7][10]
3) 先把 web 质量抬到“不会主导梯度”的水平,再花精力调 ratio:当低质 web 占主导时,过滤/选择往往比细调 mixture 更稳[12][11][17]
4) 不要把“更干净”当作单目标:过滤会让稀缺域更稀缺;跨过质量线后,把旋钮转向稀缺桶的上采样倍率、重复上限与阶段边界[13][15][16]
5) 中小团队的默认搜索策略:启发式 warm start + 2–3 轮 ablation(每轮只改一个旋钮),再用 RegMix/规律外推做离线校准;复杂 utility 估计器默认不进主干训练,除非能承担额外阶段与稳定记账[9][7]
6) 如果要做在线调权,先满足三条前置条件:桶定义冻结、统计口径稳定、回滚机制明确;否则用阶段性 curriculum 表达非平稳性,而不是把动态性塞进在线算法[10][13][4]
7) 每次改过滤器/去重阈值/桶 taxonomy,都把它当作“坐标系变化”:先跑一轮小规模 per-domain 诊断(Paloma 切片或自建切片),确认变化来自数据而不是评测泄漏,再谈 w* 迁移[5][3]

悬而未决的问题

  • Q1.哪篇 LM 论文在同一套 token/accounting 预算下,直接对比“形式化离线搜索/ mixing law”与“启发式 warm start + 2–3 轮 ablation”,并给出可复现的胜负边界?目前更多是间接证据与工程经验[7][9]
  • Q2.哪些 dedup/semantic-dedup 研究明确展示:去冗余会把 post-dedup 的 domain effective count 改到足以改变最优 mixture share(而不只是“训练更快”)?现有结果更多停在有效 token 的概念层[1][2]
  • Q3.支持“15–30 buckets”或 learned latent domains 优于粗 source buckets 的直接证据还偏少:需要在可控回归/在线调权/回滚成本三者上做 head-to-head 的实验[4][6]
  • Q4.在线/自适应 mixing 在全量预训练里何时能稳定胜过离线比例?需要同时报告额外开销(统计、采样器、实现复杂度)与失败案例,而不仅是最终指标[10][22]
  • Q5.“更干净不单调更好”的最强证据链仍不够集中:需要把质量过滤的收益曲线与稀缺域上采样的收益曲线放在同一受控框架里,给出可迁移的阈值与 trade-off[11][13]
  1. [1]
    Kushal Tirumala, Daniel Simig, Armen Aghajanyan, Ari Morcos. D4: Improving LLM Pretraining via Document De-Duplication and Diversification. arXiv, 2023论文
  2. [2]
    Amro Abbas, Kushal Tirumala, Dániel Simig, Surya Ganguli, Ari S. Morcos. SemDeDup: Data-efficient learning at web-scale through semantic deduplication. arXiv, 2023论文
  3. [3]
    Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu. Detecting Pretraining Data from Large Language Models. arXiv, 2023论文
  4. [4]
    Alexander Wettig, Kyle Lo, Sewon Min, Hannaneh Hajishirzi, Danqi Chen. Organize the Web: Constructing Domains Enhances Pre-Training Data Curation. arXiv, 2025论文
  5. [5]
  6. [6]
    Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff. Scaling Expert Language Models with Unsupervised Domain Discovery. arXiv, 2023论文
  7. [7]
    Qian Liu, Xiaosen Zeng, Oscar Sainz. RegMix: Data Mixture as Regression for Language Model Pre-training. arXiv, 2024论文
  8. [8]
  9. [9]
    William Held, Bhargavi Paranjape, Punit Singh Koura, Mike Lewis, Frank Zhang. Optimizing Pretraining Data Mixtures with LLM-Estimated Utility. arXiv, 2025论文
  10. [10]
    Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. arXiv, 2023论文
  11. [11]
    Jeffrey Li, Alex Fang, Georgios Smyrnis. DataComp-LM: In search of the next generation of training sets for language models. arXiv, 2024论文
  12. [12]
    Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. arXiv, 2024论文
  13. [13]
    Meta AI. The Llama 3 Herd of Models. Meta AI Technical Report, 2024报告
  14. [14]
    Jackson Petty, Sjoerd van Steenkiste, Tal Linzen. How Does Code Pretraining Affect Language Model Task Performance?. arXiv, 2024论文
  15. [15]
    Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv, 2023论文
  16. [16]
    Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
  17. [17]
    Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data. arXiv, 2019论文
  18. [18]
    Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
  19. [19]
    Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
  20. [20]
    Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
  21. [21]
    Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
  22. [22]
    Simin Fan, Martin Jaggi. Irreducible Curriculum for Language Model Pretraining. arXiv, 2023论文
  23. [23]
    Angela H. Jiang, Daniel L.-K. Wong, Giulio Zhou, David G. Andersen, Jeffrey Dean. Accelerating Deep Learning by Focusing on the Biggest Losers. arXiv, 2019论文
  24. [24]
    Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen. QuRating: Selecting High-Quality Data for Training Language Models. arXiv, 2024论文
  25. [25]
    Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt. Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models. arXiv, 2024论文
  26. [26]
    Paul Michel, Sebastian Ruder, Dani Yogatama. Balancing Average and Worst-case Accuracy in Multitask Learning. arXiv, 2021论文
  27. [27]
    Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
  28. [28]
    Zhuo Chen, Yuxuan Miao, Supryadi, Deyi Xiong. Data Mixing for Large Language Models Pretraining: A Survey and Outlook. arXiv, 2026论文

论文列表

去重、污染与 effective token 记账(3)

先把“可用 token”定义清楚:document/semantic 去重会改变各域的有效样本密度与梯度贡献;污染检测提醒评测与配比必须共享同一套版本化记账。

10

D4: Improving LLM Pretraining via Document De-Duplication and Diversification

Kushal Tirumala,Daniel Simig,Armen Aghajanyan,Ari Morcos2023年8月23日
把 document-level dedup 与语义多样化做成可落地流水线,并用 matched-loss 的训练速度变化说明:重复度会抬高“看起来的数据量”,从而让基于 token 占比的 mixture 决策失真。
9

SemDeDup: Data-efficient learning at web-scale through semantic deduplication

Amro Abbas,Kushal Tirumala,Dániel Simig,Surya Ganguli,Ari S. Morcos2023年3月16日
用 embedding 相似度做语义去重,证明“非完全重复”同样会消耗训练预算;对 mixture 来说,它改变了各域的有效样本密度与梯度贡献。
8

Detecting Pretraining Data from Large Language Models

Weijia Shi,Anirudh Ajith,Mengzhou Xia,Yangsibo Huang,Daogao Liu2023年10月25日
给出可操作的污染检测思路:模型输出可反推训练数据痕迹,意味着评测集与训练集的近重复必须纳入同一套去重与版本记账,否则 mixture 调参会被“评测泄漏”误导。

分桶与 domain 构造:让 ratio 可诊断、可回滚(3)

把“域”做成一等对象:细桶能避免信号被平均化,并让 per-domain 诊断与回滚有抓手;也可以用无监督方法学习 latent domains。

10

Organize the Web: Constructing Domains Enhances Pre-Training Data Curation

Alexander Wettig,Kyle Lo,Sewon Min,Hannaneh Hajishirzi,Danqi Chen2025年2月14日
把“domain 构造”提升为一等操作:先组织 web 语料形成可解释域,再做过滤与配比。机制上减少粗桶平均化,让诊断与回滚有抓手。
7

Paloma: A Benchmark for Evaluating Language Model Fit Across Domains

Team Paloma2023年9月1日
提供可复用的 per-domain perplexity 切片,让“桶定义—评估切片—回归目标”能对齐;这类对齐比单纯追全局 loss 更能定位 mixture 调参的收益与副作用。
7

Scaling Expert Language Models with Unsupervised Domain Discovery

Suchin Gururangan,Margaret Li,Mike Lewis,Weijia Shi,Tim Althoff2023年3月24日
用无监督 domain discovery 学出 latent buckets,提示“手工粗桶”并非最优;对 mixture 来说,学习到的桶更可能对应梯度统计的真实分组,从而让调权更稳定。

质量优先与 curriculum:静态比例到时间函数(4)

质量过滤常常先拿走最大收益,但“更干净”并不单调;公开配方与 continued pretraining 显示后期对稀缺域上采样更像补齐能力的尾段策略。

10

DataComp-LM: In search of the next generation of training sets for language models

Jeffrey Li,Alex Fang,Georgios Smyrnis2024年6月17日
用受控实验量化“先修质量再谈 ratio”:当低质 web 占主导时,过滤/选择比细调 mixture 更稳;同时暗示稀缺域仍需要显式配比或 curriculum 才能补齐能力。
10

The Llama 3 Herd of Models

Meta AI2024年7月23日
提供阶段性 mixture 的公开证据:前期 web-heavy,后期将 code/math/reasoning 提到约 3–5×。它把 ratio 从静态向量改写为训练时间函数。
9

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Guilherme Penedo,Hynek Kydlíček,Loubna Ben allal,Anton Lozhkov,Margaret Mitchell2024年6月25日
展示大规模 web 过滤/提纯的工程路径与收益,支持“先把 web 质量抬到不会主导梯度”的默认流程;同时让稀缺域更容易成为后续瓶颈,需要显式配比。
8

How Does Code Pretraining Affect Language Model Task Performance?

Jackson Petty,Sjoerd van Steenkiste,Tal Linzen2024年9月6日
把“加 code”从经验配方变成可测量的干预:不仅看 code 基准,也测非 code 任务的迁移与副作用,为“尾段上采样 code”的边界条件提供证据。