TL;DR
可执行结论:把 mid-train 当作主干预训练之后的标准阶段,目标是分布迁移而非“再多训一点”。一个稳的起步预算是总 compute 的 10–30%:<10% 往往迁移不稳,>30% 需要用通用评测与长尾覆盖证明没有被目标域挤压再加码。[1][2] synthetic 的默认角色是 distribution shaping:优先用 rephrase/seed 约束/多 style 生成把学习信号集中到可验证、结构化、覆盖目标任务的子分布。[3][24] 在 math/code 上,能扩展的关键不是 teacher 文风,而是 verifier 强度:executable verification、unit test、step-level verification 能系统性压掉错误样本,使合成闭环更像“数据工厂”而不是“文风蒸馏”。[4][19][18] collapse 风险更像数据池策略:MAD 指出 replace real 的递归训练会先丢尾部模式;只要真实数据持续 accumulate,collapse 不是必然。[7][6] 工程红线:real/synthetic 累计而非替换,训练池中真实数据长期保留(经验阈值先不低于 ~30%),并单独监控长尾样本是否被 ranking 或 teacher 风格挤掉。[5][7]
核心断言
§1 Mid-train 的定位:从“可选插件”到“分布迁移阶段”
把 mid-train 固化为标准阶段,直接收益是把“学广覆盖”和“拉目标分布”解耦,避免在同一个混合锅里同时压长尾覆盖和专项指标。[2] 把 long context、code、reasoning 的目标分布显式接到 mid-training 接口;[1] 先用 web-heavy 打底,再用 synthetic textbook 与专项阶段做可控迁移,等价于把数据配方改写成可调参的训练调度问题。相对一次性混合训练,阶段化更便于做两类诊断:1) backbone 是否 undertrained,否则 mid-train 收益会和“补足基础训练”混在一起;2) mid-train 是否挤压通用能力,因此需要通用评测与长尾覆盖监控。compute 预算上,10–30% 更像工程默认值:低于 10% 常见现象是迁移不稳、对采样噪声敏感;高于 30% 则必须证明目标域收益不是靠牺牲通用覆盖换来的。[1][4] 这也符合 compute-optimal 的直觉:先把主干训练到接近 compute-optimal,再讨论后段分布拉动;否则归因会失真。[10][11]
阶段化的价值不在“多训一段”,而在把分布迁移变成可调度、可诊断、可回滚的工程接口。[2][1]
§2 synthetic 的两条路:distribution shaping vs 真实池内的强过滤
把 synthetic 的收益拆开,配方选择会更清楚。一条路是 distribution shaping:保留真实内容锚点,只调整表达结构或密度,把单位 token 的学习信号压得更集中。[3] 的 rephrase 属于这一类:事实不变、结构改变,把“读网页”的统计分布推向更像“读教材/百科”;[24] 进一步强调多 style 并行,避免单一 teacher 文风压窄表达空间。另一条路是获得“更干净的数据分布”,但不一定要生成:在超大候选池里做 ranking、proxy 选择与 pruning,常能得到类似质量提升,同时避开 teacher 偏差与递归风险。[5][21][22] 关键分歧在于能力瓶颈的位置:如果瓶颈是“候选池里已有足够好样本,只是没有选出来”,过滤更划算;如果瓶颈是“目标分布稀缺,候选池本身不够”,rephrase 或 verifier loop 才需要主动扩展高价值子分布。[4][3] 因此,更稳的工程策略是先回答一个可检验问题:目标域样本在候选池中的可得性(coverage)是否足够;coverage 足够时优先过滤,coverage 不足时再用可控 synthetic 补齐并整形。[5][23]
| 手段 | 核心机制 | 主要风险 | 更适合的场景 |
|---|---|---|---|
| 强过滤 / ranking | 受限于候选池:稀缺目标分布可能根本不存在;过强 proxy 可能挤掉长尾。[5] | 目标域在 web/代码池里本就有足够覆盖,只是噪声大、重复多。[22] | |
| rephrase / 教材化 shaping | teacher 文风偏差、表达空间收缩;需要多 style 与质量门控。[24] | ||
| verifier 闭环合成 | verifier 覆盖不足时会过拟合可验证子集;自然语言任务缺少硬信号。[18] | math/code/形式化推理等 correctness 可判定领域;可承受更高 synthetic ratio。[4] |
§3 collapse 不是口号:replace vs accumulate 决定尾部分布是否先死
把 collapse 争论落到可操作层面,关键是区分“替换”和“累积”。MAD [7] 的机制结论是:训练数据一旦被模型生成数据递归替换,退化会先出现在尾部分布(mode dropping),因为尾部样本本来稀少,更容易在替换中被平均化。相对地,[6] 给出更工程化的边界:只要真实数据持续 accumulate(而不是被替换),递归训练退化就不是必然。两者合起来形成一条更稳的红线:不要采用“纯 synthetic 替换真实池”的策略;工业上更可用的做法,是把真实数据作为长期锚点,把 synthetic 作为用于增密和补齐覆盖的增量层,并把池更新规则落实为可审计的配比与去重策略。[7][6] 这也解释了为什么“synthetic ratio 可以无限上升”缺乏公开支撑:现有证据更多说明在特定条件下(accumulate real、或 verifier 强的子域)风险可控,而不是证明它对任意任务和任意生成方式成立。[4][18] 工程监控上,平均 loss 不够;必须单独跟踪 tail coverage,例如低频语言/领域、长文档、罕见格式是否在 mid-train 后被挤掉。[2][5]
更像红线的是“replace real”,而不是“用了 synthetic”。把真实数据当锚点,才有讨论 synthetic ratio 的空间。[7][6]
§4 synthetic 能扩展到哪里:verifier 强的子域 vs 缺少 correctness signal 的推理
公开证据更支持一个分域结论:synthetic 在 math/code 中更容易持续扩展,因为 correctness signal 更硬、更容易自动化。[4] 将 executable verification 接入合成链路,本质上把“样本质量”从 teacher 的主观偏好改写为可判定约束;[19] 用 unit test 做同样的事;[18] 则把 step-level verification 用作过程监督,降低多步推理中的局部错误累积。相比之下,自然语言 reasoning 与 agentic 轨迹缺少同等级 verifier:即使 teacher 更强,也更容易把偏好误当“正确性”,从而固化风格收缩并稳定复制错误模式。[7][24] 这不意味着自然语言不能使用 synthetic,而是配方应定位为 shaping:用 rephrase 保留事实锚点,用多 style 抵抗文风收缩,并让真实数据持续 accumulate,作为尾部锚点。[3][6] 更务实的工程分界是:当任务能提供可执行/可判定反馈时,可以提高 synthetic ratio,并投入更多 mid-train compute;当反馈主要是偏好或弱 proxy 时,应把 synthetic 用作增密与覆盖补齐,避免把它当作无限扩容的主粮。[4][5]
时间线
- compute-optimal 训练把“先把底座训到位”变成可量化约束[10]
- synthetic-first 在小模型/代码上形成可复现配方(教材化 + 过滤)[13]
- 长上下文被验证需要 continued pretraining 的显式分布迁移阶段[9]
- rephrase 被工程化为 distribution shaping,而不只是数据增强[3]
- executable verification 接入合成闭环,强调 verifier 强度而非 teacher 文风[4]
- collapse 争论转向 accumulate-not-replace 的池策略边界[6]
- 强过滤/排序被系统化为可替代部分 synthetic 的主路线[5]
- mid-training 被公开为工业级标准部件(long context/code/reasoning)[2]
研究立场对比
阵营 A:synthetic-first(数据受限时可当主路线)
立场 — 高质量 synthetic(教材化、练习、解释)单位 token 信息密度更高,尤其在小模型与结构化领域(code/math)可以部分替代大规模粗糙 web;mid-train 不是必要条件,关键是把 token 变“更可学”。[13][1][14]
反方 — 反驳 c-b93955c99f:公开配方并未证明“synthetic 可替代真实世界覆盖”。当 synthetic 变成替换而不是增量层时,尾部分布更容易先死,且 teacher 文风偏差会被稳定复制。[7][6] 更稳的读法是:synthetic-first 适用于数据受限与可验证子域,但仍需要真实锚点与池策略约束。
判词 — 一个更务实的定位:synthetic-first 只在两类条件下当主路线——(1) 明确数据受限且目标分布高度结构化;(2) 有硬 verifier 或可审计的 seed 约束。离开这两条,把它当通用 pretrain 主粮风险更高。[4][7]
阵营 B:web-heavy backbone +(real/synthetic)mid-train(更稳的工业配方)
立场 — 先用 web-heavy backbone 学广覆盖与长尾,再用 mid-train 做目标域分布回拉;synthetic 主要用于 shaping 与补齐覆盖,而不是替换真实语料。mid-train 的价值在于可控迁移与可诊断的取舍。[2][1][9]
反方 — 修正 c-958f96c37a:高密度 synthetic 的收益容易与“底座 undertrained”混淆。若 backbone 没训到位,任何后段配方都会看起来有效;因此需要先用 compute-optimal 与训练轨迹信号把底座训到接近饱和,再评估 mid-train 的净增益。[10][11]
判词 — 结论层面的建议:把这条路线当默认工业配方。它把风险从“是否生成”转成“如何调度与监控”,更容易落到 compute 划分、池策略与 tail coverage 指标上。[5][7]
阵营 C:尽量少 synthetic;更强过滤 + 更多真实数据足够
立场 — synthetic 引入 teacher 偏差与风格收缩,且可能触发递归退化;与其生成,不如扩大真实抓取、去重、强过滤与数据剪枝,在真实候选池内得到更干净的分布。[21][22][5]
反方 — 反驳 c-1da7d58c52:过滤只能在已有候选池里选,无法主动扩展稀缺分布。对 math/code/长上下文等目标域,公开经验更像“过滤 + 合成/重写 + mid-train”组合,而不是单靠过滤就够。[4][3][9]
判词 — 更稳的落地方式:把过滤当默认底盘,把 synthetic 当“覆盖不足时的补齐工具”。先用 DataComp-LM 式的 ranking 证明候选池覆盖不足,再引入 rephrase 或 verifier loop,而不是一上来就自由生成。[5][3]
阵营 D:synthetic 近乎无限可扩展;collapse 多是旧问题
立场 — 只要 teacher 足够强、采样与反馈足够好,synthetic ratio 可以持续上升;再结合“accumulate real 可破除 collapse”,就可以把真实数据压到很小的 seed。[17][6]
反方 — 反驳 c-8768256855 / c-fea6da20b0 / c-588cd52729:现有公开证据只支持“在 accumulate real 的池策略下,退化不是必然”,并不等价于“synthetic 可无限替代真实”。MAD [7] 仍给出 replace real 时尾部先死的机制;此外,code/math 的 verifier 经验不能直接外推到自然语言 reasoning,因为 correctness signal 形态不同。[7][18][4]
判词 — 一个更稳的读法:把这条路线当作“需要更多 controlled experiment 的假设”,只在 verifier 强、池策略可审计、且 tail coverage 监控完备时小步试探;不要把它当默认前提写进主干配方。[7][5]
实践要点
可操作清单(do/don’t):
1) Do:每个 frontier run 默认预留 mid-train,起步预算按总 compute 的 10–30% 规划;<10% 先别期待稳定迁移,>30% 先用通用评测 + tail coverage 证明没有被目标分布挤压再加码。[1][2][4]
2) Don’t:在 backbone 明显 undertrained 时讨论 mid-train 或 synthetic 配方归因;先用 compute-optimal/训练轨迹把底座训到位,否则收益会与“补足基础训练”混在一起。[10][11]
3) Do:把 synthetic 的默认角色设为 distribution shaping;优先选 rephrase 或 seed 约束生成,保留真实内容锚点,降低 hallucination 与文风收缩风险。[3][24]
4) Do:把“更干净的数据”优先交给 filtering/ranking;只有当候选池 coverage 不足时才引入 synthetic 去补齐稀缺分布。[5][21]
5) Don’t:不要做 replace real 的递归训练;数据池策略用 accumulate-not-replace,训练池中真实数据长期保留,经验下限先不低于 ~30%,并对长尾域单独做采样与评估看护。[7][6]
6) Do:在 math/code 上优先投资 verifier 强度而不是 teacher 文风:executable verification、unit test、step-level verification 能系统性压错,允许更高 synthetic ratio 与更长 mid-train。[4][19][18]
7) Don’t:把 code/math 的 verifier 闭环经验直接外推到自然语言 reasoning/agentic 轨迹;缺少硬 correctness signal 时,把 synthetic 作为增密与覆盖补齐,不要当无限扩容主粮。[18][7]
8) Do:mid-train 后单独监控“被挤压的能力”:长文档、低频语言/领域、罕见格式的 tail coverage;只看平均 loss 或少数基准容易漏掉 mode dropping。[7][2][5]
悬而未决的问题
- Q1.2024+ 是否存在公开证据支持“高比例 synthetic 在大规模上长期稳定扩展”?需要明确条件:accumulate real 的比例下限、去重策略、以及 tail coverage 的监控口径。[6][7]
- Q2.mid-train 的 mixture/reweighting 策略如何在“拉目标域”同时保住长尾?DoReMi [12] 给出 mixture 优化框架,但缺少针对 tail retention 的公开 ablation。
- Q3.10–30% mid-train compute 区间的“稳定迁移阈值”是否可跨规模复用?需要公开的 controlled experiment:同一 backbone、同一目标域,系统扫描 0–50% compute split 并报告通用能力与 tail coverage 曲线。[1][2]
- Q4.replace vs accumulate 导致“尾部先死”的证据目前多来自特定设定;需要更贴近工业数据池的对照:带去重、带过滤、带 rephrase 的混合池,替换规则如何影响 tail domains。[7][5]
- Q5.verifier-loop 的关键 ablation 仍缺:verifier 强度、style 多样性、错误样本率与最终收益之间的可预测关系是什么?现有工作多展示端到端增益,但缺少可迁移的“错误预算”指标。[4][18]
- [1]Abdin, Jacobs, El-Nouby, et al.. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. arXiv, 2024报告
- [2]
- [3]Maini, Seto, Bai, et al.. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. arXiv, 2024论文
- [4]Shao, Wang, Zhu, et al.. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
- [5]Li, Fang, Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv / DataComp, 2024论文
- [6]Gerstgrasser, Schaeffer, et al.. Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. arXiv, 2024论文
- [7]
- [8]Azerbayev, Schoelkopf, Paster, et al.. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
- [9]
- [10]
- [11]
- [12]Xie, Pham, Dong, et al.. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. arXiv, 2023论文
- [13]
- [14]Yu, Jiang, Shi, et al.. MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models. arXiv, 2023论文
- [15]Luo, Sun, Xu, et al.. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct. arXiv, 2023论文
- [16]Li, Chen, Shen, et al.. Explanations from Large Language Models Make Small Reasoners Better. arXiv, 2022论文
- [17]
- [18]
- [19]
- [20]
- [21]Penedo, Malartic, Hesslow, et al.. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
- [22]Marion, Üstün, Pozzobon, et al.. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
- [23]Paster, Dos Santos, Azerbayev, et al.. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
- [24]Hugging Face. Cosmopedia: How to Create Large-Scale Synthetic Data for Pretraining. Hugging Face Blog, 2024博客