📚Papers

合成数据 × Mid-train:Pretrain 的工程蓝图

把 mid-train 固化成分布迁移阶段;synthetic 用于可控 shaping,而不是 token 堆量

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

22 篇扩展证据(支持 9 · 拓展 9 · 切线 4)·知识聚类 5·悬问 5

领域综述

一个更稳的工程读法:把 mid-train 固化成“主干预训练之后的分布迁移阶段”,synthetic 的默认角色是 distribution shaping——把学习信号集中到可验证、结构化、覆盖目标任务的子分布,而不是单纯把 token 规模堆上去。[2][1][3] 给出可复用的分阶段配方:web-heavy backbone 负责广覆盖与长尾,mid-train 负责 code/math/long-context/reasoning 的定向拉分布。预算上,一个可执行起点是把总 compute 的 10–30% 留给 mid-train:<10% 往往不足以形成稳定迁移,>30% 则需要用通用评测与长尾覆盖证明没有被目标分布挤压再加码。[1][4] 风险边界不应简化成“synthetic 好/坏”,而更像数据池策略:MAD 指出 recursive 纯 synthetic 替换会先丢尾部分布,[6] 则说明只要真实数据持续 accumulate,collapse 不是必然。工程红线因此是 accumulate-not-replace,并长期保留真实数据锚点(经验阈值可先不低于 ~30%),同时单独监控 ranking/teacher 风格是否挤掉长尾样本。[7][6][5]

TL;DR

可执行结论:把 mid-train 当作主干预训练之后的标准阶段,目标是分布迁移而非“再多训一点”。一个稳的起步预算是总 compute 的 10–30%:<10% 往往迁移不稳,>30% 需要用通用评测与长尾覆盖证明没有被目标域挤压再加码。[1][2] synthetic 的默认角色是 distribution shaping:优先用 rephrase/seed 约束/多 style 生成把学习信号集中到可验证、结构化、覆盖目标任务的子分布。[3][24] 在 math/code 上,能扩展的关键不是 teacher 文风,而是 verifier 强度:executable verification、unit test、step-level verification 能系统性压掉错误样本,使合成闭环更像“数据工厂”而不是“文风蒸馏”。[4][19][18] collapse 风险更像数据池策略:MAD 指出 replace real 的递归训练会先丢尾部模式;只要真实数据持续 accumulate,collapse 不是必然。[7][6] 工程红线:real/synthetic 累计而非替换,训练池中真实数据长期保留(经验阈值先不低于 ~30%),并单独监控长尾样本是否被 ranking 或 teacher 风格挤掉。[5][7]

核心断言

#1把总 compute 的 10–30% 预留给 mid-train 更像“可复用默认值”:<10% 常见现象是目标域指标波动大且迁移不稳;>30% 需要用通用评测与长尾覆盖证明没有被目标分布挤压再加码。[1][2][4]
#2synthetic 的可扩展收益更常来自 distribution shaping(rephrase、seed 约束、多 style),而不是“无约束自由生成更多 token”;前者保留真实内容锚点,降低 hallucination 与文风收缩风险。[3][24][5]
#3collapse 的主要风险点是 replace real 而不是 synthetic 本身:递归替换会先丢尾部模式;只要真实数据持续 accumulate,退化不是必然。[7][6]
#4在 math/code 上,verifier 强度比 teacher 强度更决定合成闭环的上限:executable verification、unit test、step-level verification 能把错误样本率压到可控区间,从而允许更高 synthetic ratio;自然语言 reasoning 缺少同等级 correctness signal 时更容易早饱和。[4][19][18]
#5“synthetic 的收益=更干净的数据”经常与“更强过滤/排序”混淆:在超大候选池内做 ranking/pruning 能在不引入 teacher 偏差的情况下获得相近的质量增益,但它无法主动扩展稀缺分布(如可验证 math 轨迹)。[5][21][4]

§1 Mid-train 的定位:从“可选插件”到“分布迁移阶段”

把 mid-train 固化为标准阶段,直接收益是把“学广覆盖”和“拉目标分布”解耦,避免在同一个混合锅里同时压长尾覆盖和专项指标。[2] 把 long context、code、reasoning 的目标分布显式接到 mid-training 接口;[1] 先用 web-heavy 打底,再用 synthetic textbook 与专项阶段做可控迁移,等价于把数据配方改写成可调参的训练调度问题。相对一次性混合训练,阶段化更便于做两类诊断:1) backbone 是否 undertrained,否则 mid-train 收益会和“补足基础训练”混在一起;2) mid-train 是否挤压通用能力,因此需要通用评测与长尾覆盖监控。compute 预算上,10–30% 更像工程默认值:低于 10% 常见现象是迁移不稳、对采样噪声敏感;高于 30% 则必须证明目标域收益不是靠牺牲通用覆盖换来的。[1][4] 这也符合 compute-optimal 的直觉:先把主干训练到接近 compute-optimal,再讨论后段分布拉动;否则归因会失真。[10][11]

Where mid-train sits: distribution shaping between coverage and alignment Pretrain trillions of tokens CC + code + math [ScalingLaws2020] [Chinchilla2022] goal: coverage / loss Mid-train (this analysis) 10s -- 100s B tokens, last ~10-30% heavy synthetic + filtered domain distribution shaping: [Cosmopedia2024][WRAP2024] in-pool filtering: [DataCompLM2024][RefinedWeb2023] goal: shift distribution toward target Post-train SFT / DPO / RL M -- 10s of M examples [LetsVerify2023] [RLTF2023] goal: behaviors, alignment Mid-train binds: synthetic shaping + pool filtering before alignment can take effect collapse risk concentrates here when replace-mode synthetic data dominates [CollapseInevitable2024][MAD2023]
图 1. 图 1.1 Mid-train 在 pretrain / post-train 之间的位置:分布迁移阶段
阶段化的价值不在“多训一段”,而在把分布迁移变成可调度、可诊断、可回滚的工程接口。[2][1]

§2 synthetic 的两条路:distribution shaping vs 真实池内的强过滤

把 synthetic 的收益拆开,配方选择会更清楚。一条路是 distribution shaping:保留真实内容锚点,只调整表达结构或密度,把单位 token 的学习信号压得更集中。[3] 的 rephrase 属于这一类:事实不变、结构改变,把“读网页”的统计分布推向更像“读教材/百科”;[24] 进一步强调多 style 并行,避免单一 teacher 文风压窄表达空间。另一条路是获得“更干净的数据分布”,但不一定要生成:在超大候选池里做 ranking、proxy 选择与 pruning,常能得到类似质量提升,同时避开 teacher 偏差与递归风险。[5][21][22] 关键分歧在于能力瓶颈的位置:如果瓶颈是“候选池里已有足够好样本,只是没有选出来”,过滤更划算;如果瓶颈是“目标分布稀缺,候选池本身不够”,rephrase 或 verifier loop 才需要主动扩展高价值子分布。[4][3] 因此,更稳的工程策略是先回答一个可检验问题:目标域样本在候选池中的可得性(coverage)是否足够;coverage 足够时优先过滤,coverage 不足时再用可控 synthetic 补齐并整形。[5][23]

手段核心机制主要风险更适合的场景
强过滤 / ranking

在真实候选池内重排与剪枝,提升平均质量与去重覆盖。[5][21]

受限于候选池:稀缺目标分布可能根本不存在;过强 proxy 可能挤掉长尾。[5]

目标域在 web/代码池里本就有足够覆盖,只是噪声大、重复多。[22]

rephrase / 教材化 shaping

保留事实锚点,改变表达结构/密度,集中学习信号。[3][24]

teacher 文风偏差、表达空间收缩;需要多 style 与质量门控。[24]

需要可控拉分布但不想丢真实锚点;适合 mid-train 的定向迁移。[3][1]

verifier 闭环合成

生成→执行/证明/单测→过滤/重采样→再训练,系统性压错。[4][19]

verifier 覆盖不足时会过拟合可验证子集;自然语言任务缺少硬信号。[18]

math/code/形式化推理等 correctness 可判定领域;可承受更高 synthetic ratio。[4]

三类“提升单位 token 学习信号”的手段:它们解决的问题不同
正在渲染图示…
图 2. 图 2.1 Mid-train 数据两条路:distribution shaping vs in-pool filtering

§3 collapse 不是口号:replace vs accumulate 决定尾部分布是否先死

把 collapse 争论落到可操作层面,关键是区分“替换”和“累积”。MAD [7] 的机制结论是:训练数据一旦被模型生成数据递归替换,退化会先出现在尾部分布(mode dropping),因为尾部样本本来稀少,更容易在替换中被平均化。相对地,[6] 给出更工程化的边界:只要真实数据持续 accumulate(而不是被替换),递归训练退化就不是必然。两者合起来形成一条更稳的红线:不要采用“纯 synthetic 替换真实池”的策略;工业上更可用的做法,是把真实数据作为长期锚点,把 synthetic 作为用于增密和补齐覆盖的增量层,并把池更新规则落实为可审计的配比与去重策略。[7][6] 这也解释了为什么“synthetic ratio 可以无限上升”缺乏公开支撑:现有证据更多说明在特定条件下(accumulate real、或 verifier 强的子域)风险可控,而不是证明它对任意任务和任意生成方式成立。[4][18] 工程监控上,平均 loss 不够;必须单独跟踪 tail coverage,例如低频语言/领域、长文档、罕见格式是否在 mid-train 后被挤掉。[2][5]

更像红线的是“replace real”,而不是“用了 synthetic”。把真实数据当锚点,才有讨论 synthetic ratio 的空间。[7][6]

§4 synthetic 能扩展到哪里:verifier 强的子域 vs 缺少 correctness signal 的推理

公开证据更支持一个分域结论:synthetic 在 math/code 中更容易持续扩展,因为 correctness signal 更硬、更容易自动化。[4] 将 executable verification 接入合成链路,本质上把“样本质量”从 teacher 的主观偏好改写为可判定约束;[19] 用 unit test 做同样的事;[18] 则把 step-level verification 用作过程监督,降低多步推理中的局部错误累积。相比之下,自然语言 reasoning 与 agentic 轨迹缺少同等级 verifier:即使 teacher 更强,也更容易把偏好误当“正确性”,从而固化风格收缩并稳定复制错误模式。[7][24] 这不意味着自然语言不能使用 synthetic,而是配方应定位为 shaping:用 rephrase 保留事实锚点,用多 style 抵抗文风收缩,并让真实数据持续 accumulate,作为尾部锚点。[3][6] 更务实的工程分界是:当任务能提供可执行/可判定反馈时,可以提高 synthetic ratio,并投入更多 mid-train compute;当反馈主要是偏好或弱 proxy 时,应把 synthetic 用作增密与覆盖补齐,避免把它当作无限扩容的主粮。[4][5]

Math (formal verifier)
95[Llemma2023][DeepSeekMath2024]
Code (exec verifier)
90[RLTF2023]
Reasoning steps (process supervision)
70[LetsVerify2023]
World knowledge
35[CollapseInevitable2024]
Long-tail facts
20[MAD2023]
Open-ended creative
25[ExplanationsSmallReasoners2022]
单位:scaling headroom
图 3. 图 4.1 不同子域上 synthetic 的可扩展性 (illustrative;100 = 强 verifier 下 synthetic 完全替代 real 的 frontier)

时间线

  1. compute-optimal 训练把“先把底座训到位”变成可量化约束[10]
  2. synthetic-first 在小模型/代码上形成可复现配方(教材化 + 过滤)[13]
  3. 长上下文被验证需要 continued pretraining 的显式分布迁移阶段[9]
  4. rephrase 被工程化为 distribution shaping,而不只是数据增强[3]
  5. executable verification 接入合成闭环,强调 verifier 强度而非 teacher 文风[4]
  6. collapse 争论转向 accumulate-not-replace 的池策略边界[6]
  7. 强过滤/排序被系统化为可替代部分 synthetic 的主路线[5]
  8. mid-training 被公开为工业级标准部件(long context/code/reasoning)[2]

研究立场对比

阵营 A:synthetic-first(数据受限时可当主路线)

立场 — 高质量 synthetic(教材化、练习、解释)单位 token 信息密度更高,尤其在小模型与结构化领域(code/math)可以部分替代大规模粗糙 web;mid-train 不是必要条件,关键是把 token 变“更可学”。[13][1][14]

证据:[13][1][14][15][16]

反方 — 反驳 c-b93955c99f:公开配方并未证明“synthetic 可替代真实世界覆盖”。当 synthetic 变成替换而不是增量层时,尾部分布更容易先死,且 teacher 文风偏差会被稳定复制。[7][6] 更稳的读法是:synthetic-first 适用于数据受限与可验证子域,但仍需要真实锚点与池策略约束。

判词 — 一个更务实的定位:synthetic-first 只在两类条件下当主路线——(1) 明确数据受限且目标分布高度结构化;(2) 有硬 verifier 或可审计的 seed 约束。离开这两条,把它当通用 pretrain 主粮风险更高。[4][7]

阵营 B:web-heavy backbone +(real/synthetic)mid-train(更稳的工业配方)

立场 — 先用 web-heavy backbone 学广覆盖与长尾,再用 mid-train 做目标域分布回拉;synthetic 主要用于 shaping 与补齐覆盖,而不是替换真实语料。mid-train 的价值在于可控迁移与可诊断的取舍。[2][1][9]

证据:[2][1][9][8][10]

反方 — 修正 c-958f96c37a:高密度 synthetic 的收益容易与“底座 undertrained”混淆。若 backbone 没训到位,任何后段配方都会看起来有效;因此需要先用 compute-optimal 与训练轨迹信号把底座训到接近饱和,再评估 mid-train 的净增益。[10][11]

判词 — 结论层面的建议:把这条路线当默认工业配方。它把风险从“是否生成”转成“如何调度与监控”,更容易落到 compute 划分、池策略与 tail coverage 指标上。[5][7]

阵营 C:尽量少 synthetic;更强过滤 + 更多真实数据足够

立场 — synthetic 引入 teacher 偏差与风格收缩,且可能触发递归退化;与其生成,不如扩大真实抓取、去重、强过滤与数据剪枝,在真实候选池内得到更干净的分布。[21][22][5]

证据:[21][22][5][23]

反方 — 反驳 c-1da7d58c52:过滤只能在已有候选池里选,无法主动扩展稀缺分布。对 math/code/长上下文等目标域,公开经验更像“过滤 + 合成/重写 + mid-train”组合,而不是单靠过滤就够。[4][3][9]

判词 — 更稳的落地方式:把过滤当默认底盘,把 synthetic 当“覆盖不足时的补齐工具”。先用 DataComp-LM 式的 ranking 证明候选池覆盖不足,再引入 rephrase 或 verifier loop,而不是一上来就自由生成。[5][3]

阵营 D:synthetic 近乎无限可扩展;collapse 多是旧问题

立场 — 只要 teacher 足够强、采样与反馈足够好,synthetic ratio 可以持续上升;再结合“accumulate real 可破除 collapse”,就可以把真实数据压到很小的 seed。[17][6]

证据:[17][6][20]

反方 — 反驳 c-8768256855 / c-fea6da20b0 / c-588cd52729:现有公开证据只支持“在 accumulate real 的池策略下,退化不是必然”,并不等价于“synthetic 可无限替代真实”。MAD [7] 仍给出 replace real 时尾部先死的机制;此外,code/math 的 verifier 经验不能直接外推到自然语言 reasoning,因为 correctness signal 形态不同。[7][18][4]

判词 — 一个更稳的读法:把这条路线当作“需要更多 controlled experiment 的假设”,只在 verifier 强、池策略可审计、且 tail coverage 监控完备时小步试探;不要把它当默认前提写进主干配方。[7][5]

实践要点

可操作清单(do/don’t):
1) Do:每个 frontier run 默认预留 mid-train,起步预算按总 compute 的 10–30% 规划;<10% 先别期待稳定迁移,>30% 先用通用评测 + tail coverage 证明没有被目标分布挤压再加码。[1][2][4]
2) Don’t:在 backbone 明显 undertrained 时讨论 mid-train 或 synthetic 配方归因;先用 compute-optimal/训练轨迹把底座训到位,否则收益会与“补足基础训练”混在一起。[10][11]
3) Do:把 synthetic 的默认角色设为 distribution shaping;优先选 rephrase 或 seed 约束生成,保留真实内容锚点,降低 hallucination 与文风收缩风险。[3][24]
4) Do:把“更干净的数据”优先交给 filtering/ranking;只有当候选池 coverage 不足时才引入 synthetic 去补齐稀缺分布。[5][21]
5) Don’t:不要做 replace real 的递归训练;数据池策略用 accumulate-not-replace,训练池中真实数据长期保留,经验下限先不低于 ~30%,并对长尾域单独做采样与评估看护。[7][6]
6) Do:在 math/code 上优先投资 verifier 强度而不是 teacher 文风:executable verification、unit test、step-level verification 能系统性压错,允许更高 synthetic ratio 与更长 mid-train。[4][19][18]
7) Don’t:把 code/math 的 verifier 闭环经验直接外推到自然语言 reasoning/agentic 轨迹;缺少硬 correctness signal 时,把 synthetic 作为增密与覆盖补齐,不要当无限扩容主粮。[18][7]
8) Do:mid-train 后单独监控“被挤压的能力”:长文档、低频语言/领域、罕见格式的 tail coverage;只看平均 loss 或少数基准容易漏掉 mode dropping。[7][2][5]

悬而未决的问题

  • Q1.2024+ 是否存在公开证据支持“高比例 synthetic 在大规模上长期稳定扩展”?需要明确条件:accumulate real 的比例下限、去重策略、以及 tail coverage 的监控口径。[6][7]
  • Q2.mid-train 的 mixture/reweighting 策略如何在“拉目标域”同时保住长尾?DoReMi [12] 给出 mixture 优化框架,但缺少针对 tail retention 的公开 ablation。
  • Q3.10–30% mid-train compute 区间的“稳定迁移阈值”是否可跨规模复用?需要公开的 controlled experiment:同一 backbone、同一目标域,系统扫描 0–50% compute split 并报告通用能力与 tail coverage 曲线。[1][2]
  • Q4.replace vs accumulate 导致“尾部先死”的证据目前多来自特定设定;需要更贴近工业数据池的对照:带去重、带过滤、带 rephrase 的混合池,替换规则如何影响 tail domains。[7][5]
  • Q5.verifier-loop 的关键 ablation 仍缺:verifier 强度、style 多样性、错误样本率与最终收益之间的可预测关系是什么?现有工作多展示端到端增益,但缺少可迁移的“错误预算”指标。[4][18]
  1. [1]
    Abdin, Jacobs, El-Nouby, et al.. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. arXiv, 2024报告
  2. [2]
    Grattafiori, Dubey, Jauhri, et al.. The Llama 3 Herd of Models. arXiv / Meta AI, 2024论文
  3. [3]
  4. [4]
  5. [5]
    Li, Fang, Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv / DataComp, 2024论文
  6. [6]
  7. [7]
    Shumailov, et al.. Model Autophagy Disorder: When AI Eats Itself. Nature, 2024论文
  8. [8]
    Azerbayev, Schoelkopf, Paster, et al.. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
  9. [9]
    Xiong, Liu, Molybog, et al.. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
  10. [10]
    Hoffmann, Borgeaud, Mensch, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
  11. [11]
    Kaplan, McCandlish, Henighan, et al.. Scaling Laws for Neural Language Models. arXiv, 2020论文
  12. [12]
  13. [13]
    Gunasekar, Zhang, Aneja, et al.. Textbooks Are All You Need. arXiv, 2023论文
  14. [14]
  15. [15]
  16. [16]
  17. [17]
    Huang, Gu, Hou, et al.. Large Language Models Can Self-Improve. arXiv, 2022论文
  18. [18]
    Lightman, Kosaraju, Burda, et al.. Let's Verify Step by Step. arXiv, 2023论文
  19. [19]
    Liu, Zhu, Xiao, et al.. RLTF: Reinforcement Learning from Unit Test Feedback. arXiv, 2023论文
  20. [20]
    Polu, Han, Zheng, et al.. Formal Mathematics Statement Curriculum Learning. arXiv, 2022论文
  21. [21]
  22. [22]
    Marion, Üstün, Pozzobon, et al.. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
  23. [23]
    Paster, Dos Santos, Azerbayev, et al.. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
  24. [24]

论文列表

分阶段训练:backbone → mid-train 的工业接口(4)

把 mid-train 从“可选插件”变成可调度的标准阶段:先用 web-heavy backbone 学广覆盖与长尾,再用 continued pretraining 把分布拉向长上下文、代码、数学等目标域。关注点是 compute 划分、迁移稳定性、以及通用能力是否被挤压。

10

The Llama 3 Herd of Models

Aaron Grattafiori,Abhimanyu Dubey,Abhinav Jauhri2024年7月31日
把 mid-training 明确成可复用部件:在主干预训练后,用分阶段数据与目标(如 long context、code、reasoning)做分布回拉,并把“阶段化”从经验变成可讨论的工程接口。
10

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Marah Abdin,Sam Ade Jacobs,Alaaeldin El-Nouby2024年4月22日
把“web-heavy 打底 + synthetic 提纯 + 专项阶段拉分布”写成可复用 recipe,强调 mid-train 的价值在于可控的分布迁移,而不是把所有数据一次性混成一锅。
8

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog2023年9月27日
把 long-context 能力与“更长序列 + 长文本 continued pretraining”绑定:仅改 RoPE/位置编码不够,需要显式的 mid-train 分布迁移阶段来让模型学会在长序列上分配注意力与记忆。
8

Llemma: An Open Language Model For Mathematics

Zhangir Azerbayev,Hailey Schoelkopf,Keiran Paster2023年10月16日
提供“通用/代码底座 → 数学 mid-train”的可复现实例:continued pretraining 能把能力拉向数学分布,但也提示需要监控通用语言能力是否被目标域挤压。

合成数据作为 distribution shaping:rephrase、教材化与风格多样性(3)

把 synthetic 的收益拆成两类:1) 保留真实内容锚点、改变表达结构(rephrase)来提高单位 token 的学习信号;2) 教材化/练习化来提高信息密度。关键变量是 seed 真实性、风格多样性与是否可控地覆盖目标子分布。

10

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Pratyush Maini,David Seto,Yushi Bai2024年1月29日
把 rephrase 从“数据增强”推进到“表达层面的分布整形”:保留事实内容但改变表达结构,使学习信号更集中,适合作为 mid-train 的可控拉分布工具。
9

Textbooks Are All You Need

Suriya Gunasekar,Yi Zhang,Jyoti Aneja2023年6月20日
给出 synthetic-first 的代表性论据:在小模型与 code 场景下,教材化/练习化 token 的信息密度更高,可在数据受限时部分替代粗糙 web token。
7

Cosmopedia: How to Create Large-Scale Synthetic Data for Pretraining

Cosmopedia authors2024年6月1日
强调 style 多样性与主题覆盖:用多 style 并行生成缓解单一 teacher 文风导致的表达空间收缩,更适合做 mid-train 的可控分布拉动而非替换真实语料。

Verifier 驱动的合成闭环:math/code 的可扩展路径(4)

在 math/code 领域,合成数据更容易做成闭环:生成 → 执行/证明/单测验证 → 过滤/重采样 → 继续训练。可扩展的关键不是 teacher 文风,而是 verifier 强度与错误样本抑制能力。

10

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao,Peiyi Wang,Qihao Zhu2024年2月5日
把 continued pretraining、合成链路与 executable verification 串成闭环:通过 verifier 系统性压掉错误样本,使 synthetic 与真实 math corpus 能一起构成可持续的 mid-train 配方。
8

Let's Verify Step by Step

Hunter Lightman,Vineet Kosaraju,Yura Burda2023年5月31日
把“过程级 correctness signal”工程化:用 step-level verifier 训练可减少多步推理错误,提示 reasoning 的可扩展合成更依赖 verifier 形态而非单纯更多解释文本。
7

RLTF: Reinforcement Learning from Unit Test Feedback

Jiate Liu,Yiqin Zhu,Kaiwen Xiao2023年7月10日
用 unit test 作为硬反馈把 code 生成闭环化:把“能运行/能通过测试”变成训练信号,属于 verifier 强于 teacher 的典型场景。
6

Formal Mathematics Statement Curriculum Learning

Stanislas Polu,Jesse Michael Han,Kunhao Zheng2022年2月3日
展示 expert iteration(search+learn)在 formal math 上的闭环优势:同 compute 下,交替搜索与学习优于只搜索,说明“合成→验证→再训练”的增益来自反馈结构。

过滤 vs 合成、以及 collapse 的数据池策略(4)

把争论从“synthetic 是否有原罪”转成两条更可操作的轴:1) 很多收益是否可由更强 filtering/ranking 在真实候选池内实现;2) collapse 风险更像 replace vs accumulate 的池更新规则,并与长尾保留直接相关。

9

DataComp-LM: In search of the next generation of training sets for language models

Jiacheng Li,Alex Fang,Lefteris Smyrnis2024年6月17日
把 filtering/ranking 提升为主路线:在超大候选池上做 proxy 选择与排序即可得到强数据子集,提醒“synthetic 带来的干净 token”常与“更强过滤”混淆。
8

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

Matteo Gerstgrasser,Rylan Schaeffer2024年4月1日
把 collapse 从“synthetic 原罪”改写为“池更新策略”:只要真实数据持续 accumulate,递归训练的退化不再是必然;风险集中在 replace real 的策略上。
8

Model Autophagy Disorder: When AI Eats Itself

Ilia Shumailov, 2023年5月1日
给出“先丢尾部模式”的机制化证据:递归训练在 replace real 的设置下会优先损失长尾分布,提示监控指标应包含 tail coverage 而不只看平均 loss。
7

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo,Quentin Malartic,Daniel Hesslow2023年6月1日
支持“少合成、多过滤”的路线:通过强过滤与数据工程,web-only 也能达到或超过混合 curated 的效果,为反方提供了可执行替代方案。