TL;DR
结论层面的建议:不要把 data mixture 写成一次性比例表。更稳的做法是把 ratio 当作控制变量,围绕“有效 token、桶定义、搜索成本、训练阶段”建立可记账与可回滚的流程。
(1) 先 dedup 再谈 ratio:至少 document-level dedup;能做就加语义去重/多样化。否则 web 域的 effective count 会被重复样本虚高,优化学到的是重复度而不是信息密度;近重复还可能污染评估抬高指标[1][2][3]。
(2) 默认切到 15–30 个 buckets,并在 post-dedup 空间报占比:桶太粗会让回归与在线调权被平均化,调参不可控也难回滚[4][5]。
(3) 按算力选搜索:中小团队优先启发式 warm start + 2–3 轮 ablation,再用 RegMix/混合规律做离线校准;复杂 utility 估计器与在线方法要默认怀疑,除非能承担额外阶段与稳定记账[7][8][9][10]。
(4) 把 ratio 写成 curriculum:公开配方显示后期对 code/math/reasoning 做 3–5× 上采样更像“尾段补能力”,而不是全程恒定[13]。质量过滤通常先拿走最大收益,但“更干净”不单调更好,也不替代稀缺域的配比与阶段调度[12][11]。
核心断言
§0 演进谱系:从手调比例到可拟合的控制变量
CCNet -> Pile -> DoReMi -> RegMix/BiMix/DataComp-LM -> Llama-3 trajectory -> Organize-the-Web
数据 mixture 在 LLM 中的优化路径,是从“手调比例”走向“可拟合控制变量”的曲线。[17] 标准化了 web filter,但 mixture 仍靠手调;[18] 引入显式 domain bucket,为后续“分桶 + 调权”建立坐标系,但 ratio 选择仍依赖团队经验。2023 年起,mixture 首次成为可学习对象:[10] 在小代理模型上用 Group-DRO 学 domain weight,将 8B 训练步数缩短 ~2.6×;[2]、[1] 将“effective token”从“原始 token”中剥离,使 mixture 的分母不再受近重复污染。到 2024 年,mixture 成为 scaling 第三轴:[7] 用 1M 级 sweep 上的回归代理预测最优 mixture;[8] 将 mixture-vector → loss 写成可解析、可与 N/D 幂律嵌套的形式,使大模型 loss 无需实跑即可预测;[11] 通过受控实验把“filtered web ≥ noisy diverse”量化为 ≥7 pp 的下游差距。
2025 年的趋势,是把 mixture 从“向量”升格为“轨迹”:[13] 公开记录了从 web-heavy 到 math/anneal-heavy 的阶段迁移;[9] 给出 utility-mixing 的偏负面对照——在缺少更强 effective-token 记账时,复杂估计器会拖累配比;[4] 进一步前置 domain 构造,强调可解释与可回滚:桶没切好之前,更复杂的搜索器只会放大 noise。现代 mixture 工程因此是一条 dedup → bucket → 小成本 sweep + mixing law 拟合 → curriculum 的流水线,而不是“配比靠拍脑袋 / 跑大 sweep”两个端点。
# BiMix mixing law (sketch). alpha is the mixture vector over K domains;
# coefficients are fit per (N, D) on a small ladder, then snapped to large N/D.
def bimix_loss(alpha, N, D, fit):
a, b, c, k_n, k_d = fit['a'], fit['b'], fit['c'], fit['k_n'], fit['k_d']
domain_term = sum(a[i] * alpha[i]**k_d[i] for i in range(len(alpha)))
scale_term = b * N**(-k_n) + c * D**(-k_d['joint'])
return domain_term + scale_term
# Practical use:
# 1. fit on a 1M-100M scale ladder x 8-16 mixture rows
# 2. predict loss on N=8B, D=2T for 1024 candidate alpha vectors
# 3. sanity-check on 1B / 200B before committing the full run
§1 先把 effective token 记账:dedup 不是清洁癖,是配比的坐标系
把 ratio 当作优化变量时,最常见的隐性 bug 是把“原始 token 数”当作可用预算。D4 将这个问题工程化:document-level dedup + 多样化后,在 matched-loss 条件下训练更快,说明重复样本消耗算力却不提供等量新信息[1]。SemDeDup 进一步说明,近重复(语义相似但不完全相同)也会占用训练步数;且这种冗余在 web 域分布不均,直接改写各域的有效密度[2]。由此两类决策同时失真:其一,“按 token 占比配比”的离线搜索会偏向冗余更高的桶,因为它们看起来更大;其二,评测污染会把某些桶的收益抬高为虚假增益。Shi et al. 的检测工作给出可操作的警告:模型输出能反推训练数据痕迹,因此评测集与训练集的近重复必须进入同一套去重与版本记账;否则 mixture 调参会被泄漏牵引[3]。更稳的流程是:所有 domain share 都用 post-dedup effective count 报数,并把 dedup/过滤流水线版本号写进配方与实验记录;否则“换了去重阈值”会让 w* 的含义漂移,回归与回滚都失去参照系[1][2]。
ratio 不是“原始 token 的比例”,而是“去重与过滤之后、能产生有效梯度的 token 的比例”。
§2 桶切得够细,调权才可控:domain 构造优先于 w*
很多配比失败不是“算法不行”,而是 bucket 太粗:把 web、books、code 这类粗源当作 bucket,会把质量层、主题、语言差异平均掉,使回归或在线调权只能学到模糊的平均效应。Organize the Web 的关键贡献是前置 domain 构造:先把 web 组织成可解释域,再做过滤与配比,把诊断粒度从 source 提升到 domain[4]。一旦 domain 成为一等对象,评估也必须按同一粒度对齐;Paloma 提供 per-domain perplexity 切片,使“桶定义—训练配比—评估信号”形成闭环,而不是只依赖全局 loss[5]。另一条路径是让 bucket 从数据中长出来:无监督 domain discovery 学到 latent buckets,往往更贴近梯度统计中的真实分组,减少手工 taxonomy 的任意性[6]。工程上更稳的默认值是 15–30 个 buckets:少于 ~10 个时,回归/调权信号容易被平均化;多于 ~50 个时,记账与采样器复杂度会拖慢迭代,且每桶样本不足会放大估计噪声。这个区间不是定理,但它把“可控性”和“迭代速度”放在同一张账上[4][5]。
§3 选 w* 还是选流程:离线搜索、在线调权、启发式 warm start 的成本结构
把 domain weight 当作一阶变量有三条路线:离线搜索、在线/自适应调权、启发式 + 少量 ablation。RegMix 把搜索压缩进“可承受的离线阶段”:训练许多小模型,随机采样 mixture,用回归拟合 mixture→loss 的局部响应面,再外推到更大规模[7]。它的优势是可复现、可解释,便于预算规划;代价是必须稳定桶定义与版本记账,否则回归目标会随数据流水线漂移[7][4]。DoReMi 把权重学习写成 Group DRO:用 proxy 训练估计各域损失并做 minimax 更新,目标是提升最差域并加速收敛[10];它更贴近“训练中非平稳”的现实,但增加在线信号通道与实现复杂度,记账不稳时更难定位失败原因。第三条路线把复杂度留给工程:用公开配方 warm start,再做 2–3 轮 ablation 校准 stage 切分与上采样倍率。Held et al. 的对照结果给出一个现实约束:LLM 估计 utility 的复杂方法在若干设置下不如简单 token-count/启发式规则稳定[9]。因此,务实分工是:中小团队先把桶切细、把记账做稳,再用启发式 + 少量对照实验找到可回滚的旋钮;只有在能承担额外阶段并保证版本稳定时,才把离线回归或在线调权引入主干训练[9][7][10]。
| 路线 | 核心机制 | 额外成本(相对固定配方) | 对桶/记账的敏感性 | 常见失败模式 |
|---|---|---|---|---|
| 离线回归/规律外推 | proxy 模型群拟合 mixture→loss,再外推 w* | 需要额外训练 N 个小模型 + 数据版本冻结 | 高:桶定义漂移会让回归目标漂移 | w* 迁移失败;回归学到的是“版本差异”而非 mixture 效应 |
| 在线/自适应调权 | 用 per-domain loss/minimax 更新权重 | 训练环路更复杂;需要稳定 per-domain 统计 | 中-高:统计口径一变就难定位回归 | 权重振荡;被噪声桶牵引;实现细节导致不可复现 |
| 启发式 warm start + 少量 ablation | 用公开配方/经验先验,再做 2–3 轮对照校准 | 最低:主要成本是几次对照训练 | 中:仍需要稳定桶与 post-dedup 记账 | 容易停在局部最优;对长尾桶的收益不易量化 |
§4 ratio 作为时间函数:质量优先不等于“配比不重要”
“先修质量再调 ratio”在低质 web 主导时通常最划算:DataComp-LM 的受控实验将其量化为可复现结论——噪声占主导时,过滤/选择的收益更稳定,细调 mixture 的边际收益会被噪声吞没[11];FineWeb 将 web 提纯工程化,使“先把 web 质量抬到不会主导梯度”成为可执行默认项[12]。但把 ratio 降为二级旋钮会遮蔽一个结构性后果:过滤通常先削减总量,而稀缺域(code/math/多语/科学)过滤后更稀缺,剩余自由度主要转向配比、重复上限与 curriculum。公开配方给出直接证据:Llama 3 将 mixture 写成多阶段轨迹,后期对 code/math/reasoning 做约 3–5× 上采样,更像“尾段补稀缺能力”,而不是全程恒定比例[13]。continued pretraining 的专用模型也符合这一机制:Code Llama 与 Llemma 都在通用底座上继续用稀缺域混合训练补齐能力,等价于在后期显式上采样某些桶[15][16]。因此,更稳的工程表述是:质量过滤先把训练带入有效区间;进入有效区间后,ratio/curriculum 决定能力方向与长尾覆盖,尤其决定稀缺桶的上采样倍率与阶段边界[11][13][14]。
时间线
- CCNet 把 web 过滤流水线标准化:先提纯再谈规模[17]
- The Pile 用显式 buckets 组织多源语料,早期公开配方范式[18]
- SemDeDup 把“近重复”纳入预算:effective token 概念更具体[2]
- DoReMi 把 domain weight 写成 Group DRO 的可学习变量[10]
- DataComp-LM 用受控实验量化“质量优先”的收益区间[11]
- Llama 3 公开阶段性 mixture:ratio 从向量变成轨迹[13]
- Held et al. 对 utility mixing 给出偏负面对照:复杂估计器需要更强记账[9]
- Organize the Web 把 domain 构造前置,强调可解释与可回滚[4]
研究立场对比
阵营 A:先做形式化搜索(回归/规律/鲁棒优化),再做工程
立场 — domain weight 是一阶优化变量,应该像学习率一样系统搜索:用 proxy 模型群拟合响应面(RegMix)或用 mixing law 外推(BiMix),并用 worst-case/Group DRO 类目标把“别让某些桶塌陷”写进优化问题[7][8][26]。
反方 — 形式化方法对桶定义与数据版本极敏感:桶太粗会平均化信号,版本漂移会让回归目标漂移;在记账不稳的现实流水线里,复杂方法可能把“版本差异”当作可学习信号[4][9]。
判词 — 更务实的定位:把形式化搜索当作“离线校准器”,而不是主干训练的默认组件。先把 dedup、分桶与版本冻结做稳,再用少量 proxy 点拟合敏感度与预算;否则 w* 的可复现性与可回滚性很难保证[7][4]。
阵营 B:启发式 + curriculum 更稳;2–3 轮 ablation 常常够用
立场 — 真实工程里最稀缺的是稳定记账与迭代速度,不是算法新颖性。公开配方(LLaMA、Gopher、Llama 3、OLMo)提供了强先验:先 web-heavy,再在尾段对 code/math/reasoning 上采样;用少量对照实验校准 stage 边界与倍率,比追一个全程固定 w* 更可控[19][20][13][21]。
反方 — 启发式容易把“当前评测集”过拟合成配方;当桶定义变化(例如新增多语/长尾主题)或目标从平均性能转向最差桶时,缺少形式化目标会让 trade-off 难以解释[5][26]。
判词 — 结论层面的建议:把启发式当默认起点,但必须配套“细桶 + per-domain 评估 + 版本化记账”。没有这三件套,ablation 的结论不可迁移,配方也不可回滚[4][5][21]。
阵营 C:在线/自适应 mixing 优于一次性离线比例
立场 — mixture 是非平稳问题:训练阶段变化会改变各桶的边际收益,因此应当边训边调。DoReMi 用 Group DRO 学权重,目标是提升最差域并加速收敛;Irreducible Curriculum 进一步把选择粒度下沉到样本层,试图用不可约损失信号组织 curriculum[10][22]。
反方 — 在线方法的额外通道(per-domain loss、采样器状态、延迟统计)会放大记账不稳的风险;当桶定义、去重阈值或过滤器版本频繁迭代时,权重振荡与不可复现更常见,且回滚成本更高[9][4]。
判词 — 一个更稳的落点:在线调权只在“桶定义冻结 + 统计口径稳定 + 有专门回滚机制”时进入主干训练;否则先用阶段性 curriculum 表达非平稳性,把动态性写进 schedule 而不是写进在线算法[13][4]。
阵营 D:ratio 是二级效应;质量/选择是一阶(但 clean 不单调)
立场 — 在真实 web 池里,最大收益常来自过滤与选择:先把低质噪声移除,训练才进入有效区间。DataComp-LM 用受控实验支持“质量优先”的收益区间,FineWeb 与 CCNet 提供可复现的过滤流水线;同时,基于小参考模型的 perplexity pruning 与 learned quality scoring(QuRating)把选择做成可扩展组件[11][12][17][25][24]。
反方 — 把“更干净”当作单目标会忽略稀缺域与能力定向:过滤往往先砍掉量,导致 code/math/多语等域更稀缺;此时继续加大过滤强度无法替代显式配比与阶段性上采样。Llama 3 的后期 3–5× 上采样与 code/math continued pretraining 的证据都指向:进入有效区间后,ratio/curriculum 决定能力方向[13][15][16][14]。
判词 — 更可执行的建议:先用过滤把 web 拉到“不会主导梯度”的质量线;跨过这条线后,把预算从“继续变干净”转向“稀缺桶的阶段性上采样与重复上限”,并用 per-domain 评估监控副作用[12][11][13][5]。
实践要点
可执行清单(带边界):
1) 先 dedup 再报 ratio:至少 document-level dedup;能做就加语义去重/多样化。所有 domain 占比用 post-dedup effective count 报数,并把 dedup/过滤流水线版本号写进配方与实验记录[1][2][3]。
2) 默认切到 15–30 个 buckets 再做任何回归/在线调权:不要在 2–3 个粗桶上直接跑 RegMix/DoReMi,信号会被平均化且难回滚;优先让桶定义与评估切片对齐(例如用 Paloma 的 per-domain perplexity)[4][5][7][10]。
3) 先把 web 质量抬到“不会主导梯度”的水平,再花精力调 ratio:当低质 web 占主导时,过滤/选择往往比细调 mixture 更稳[12][11][17]。
4) 不要把“更干净”当作单目标:过滤会让稀缺域更稀缺;跨过质量线后,把旋钮转向稀缺桶的上采样倍率、重复上限与阶段边界[13][15][16]。
5) 中小团队的默认搜索策略:启发式 warm start + 2–3 轮 ablation(每轮只改一个旋钮),再用 RegMix/规律外推做离线校准;复杂 utility 估计器默认不进主干训练,除非能承担额外阶段与稳定记账[9][7]。
6) 如果要做在线调权,先满足三条前置条件:桶定义冻结、统计口径稳定、回滚机制明确;否则用阶段性 curriculum 表达非平稳性,而不是把动态性塞进在线算法[10][13][4]。
7) 每次改过滤器/去重阈值/桶 taxonomy,都把它当作“坐标系变化”:先跑一轮小规模 per-domain 诊断(Paloma 切片或自建切片),确认变化来自数据而不是评测泄漏,再谈 w* 迁移[5][3]。
悬而未决的问题
- Q1.哪篇 LM 论文在同一套 token/accounting 预算下,直接对比“形式化离线搜索/ mixing law”与“启发式 warm start + 2–3 轮 ablation”,并给出可复现的胜负边界?目前更多是间接证据与工程经验[7][9]。
- Q2.哪些 dedup/semantic-dedup 研究明确展示:去冗余会把 post-dedup 的 domain effective count 改到足以改变最优 mixture share(而不只是“训练更快”)?现有结果更多停在有效 token 的概念层[1][2]。
- Q3.支持“15–30 buckets”或 learned latent domains 优于粗 source buckets 的直接证据还偏少:需要在可控回归/在线调权/回滚成本三者上做 head-to-head 的实验[4][6]。
- Q4.在线/自适应 mixing 在全量预训练里何时能稳定胜过离线比例?需要同时报告额外开销(统计、采样器、实现复杂度)与失败案例,而不仅是最终指标[10][22]。
- Q5.“更干净不单调更好”的最强证据链仍不够集中:需要把质量过滤的收益曲线与稀缺域上采样的收益曲线放在同一受控框架里,给出可迁移的阈值与 trade-off[11][13]。
- [1]Kushal Tirumala, Daniel Simig, Armen Aghajanyan, Ari Morcos. D4: Improving LLM Pretraining via Document De-Duplication and Diversification. arXiv, 2023论文
- [2]Amro Abbas, Kushal Tirumala, Dániel Simig, Surya Ganguli, Ari S. Morcos. SemDeDup: Data-efficient learning at web-scale through semantic deduplication. arXiv, 2023论文
- [3]Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu. Detecting Pretraining Data from Large Language Models. arXiv, 2023论文
- [4]Alexander Wettig, Kyle Lo, Sewon Min, Hannaneh Hajishirzi, Danqi Chen. Organize the Web: Constructing Domains Enhances Pre-Training Data Curation. arXiv, 2025论文
- [5]Allen Institute for AI. Paloma: per-domain perplexity evaluation for language models (repository). GitHub, 2023文章
- [6]Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff. Scaling Expert Language Models with Unsupervised Domain Discovery. arXiv, 2023论文
- [7]Qian Liu, Xiaosen Zeng, Oscar Sainz. RegMix: Data Mixture as Regression for Language Model Pre-training. arXiv, 2024论文
- [8]
- [9]William Held, Bhargavi Paranjape, Punit Singh Koura, Mike Lewis, Frank Zhang. Optimizing Pretraining Data Mixtures with LLM-Estimated Utility. arXiv, 2025论文
- [10]Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. arXiv, 2023论文
- [11]Jeffrey Li, Alex Fang, Georgios Smyrnis. DataComp-LM: In search of the next generation of training sets for language models. arXiv, 2024论文
- [12]Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. arXiv, 2024论文
- [13]
- [14]Jackson Petty, Sjoerd van Steenkiste, Tal Linzen. How Does Code Pretraining Affect Language Model Task Performance?. arXiv, 2024论文
- [15]Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv, 2023论文
- [16]Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
- [17]Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán. CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data. arXiv, 2019论文
- [18]Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
- [19]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
- [20]Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
- [21]Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
- [22]
- [23]Angela H. Jiang, Daniel L.-K. Wong, Giulio Zhou, David G. Andersen, Jeffrey Dean. Accelerating Deep Learning by Focusing on the Biggest Losers. arXiv, 2019论文
- [24]Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen. QuRating: Selecting High-Quality Data for Training Language Models. arXiv, 2024论文
- [25]Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt. Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models. arXiv, 2024论文
- [26]Paul Michel, Sebastian Ruder, Dani Yogatama. Balancing Average and Worst-case Accuracy in Multitask Learning. arXiv, 2021论文
- [27]Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
- [28]Zhuo Chen, Yuxuan Miao, Supryadi, Deyi Xiong. Data Mixing for Large Language Models Pretraining: A Survey and Outlook. arXiv, 2026论文