合成数据 × Mid-train：Pretrain 的工程蓝图

把 mid-train 固化成分布迁移阶段；synthetic 用于可控 shaping，而不是 token 堆量

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

22 篇扩展证据（支持 9 · 拓展 9 · 切线 4）·知识聚类 5·悬问 5

领域综述

一个更稳的工程读法：把 mid-train 固化成“主干预训练之后的分布迁移阶段”，synthetic 的默认角色是 distribution shaping——把学习信号集中到可验证、结构化、覆盖目标任务的子分布，而不是单纯把 token 规模堆上去。[2][1][3] 给出可复用的分阶段配方：web-heavy backbone 负责广覆盖与长尾，mid-train 负责 code/math/long-context/reasoning 的定向拉分布。预算上，一个可执行起点是把总 compute 的 10–30% 留给 mid-train：<10% 往往不足以形成稳定迁移，>30% 则需要用通用评测与长尾覆盖证明没有被目标分布挤压再加码。[1][4] 风险边界不应简化成“synthetic 好/坏”，而更像数据池策略：MAD 指出 recursive 纯 synthetic 替换会先丢尾部分布，[6] 则说明只要真实数据持续 accumulate，collapse 不是必然。工程红线因此是 accumulate-not-replace，并长期保留真实数据锚点（经验阈值可先不低于 ~30%），同时单独监控 ranking/teacher 风格是否挤掉长尾样本。[7][6][5]

TL;DR

可执行结论：把 mid-train 当作主干预训练之后的标准阶段，目标是分布迁移而非“再多训一点”。一个稳的起步预算是总 compute 的 10–30%：<10% 往往迁移不稳，>30% 需要用通用评测与长尾覆盖证明没有被目标域挤压再加码。[1][2] synthetic 的默认角色是 distribution shaping：优先用 rephrase/seed 约束/多 style 生成把学习信号集中到可验证、结构化、覆盖目标任务的子分布。[3][24] 在 math/code 上，能扩展的关键不是 teacher 文风，而是 verifier 强度：executable verification、unit test、step-level verification 能系统性压掉错误样本，使合成闭环更像“数据工厂”而不是“文风蒸馏”。[4][19][18] collapse 风险更像数据池策略：MAD 指出 replace real 的递归训练会先丢尾部模式；只要真实数据持续 accumulate，collapse 不是必然。[7][6] 工程红线：real/synthetic 累计而非替换，训练池中真实数据长期保留（经验阈值先不低于 ~30%），并单独监控长尾样本是否被 ranking 或 teacher 风格挤掉。[5][7]

核心断言

#1把总 compute 的 10–30% 预留给 mid-train 更像“可复用默认值”：<10% 常见现象是目标域指标波动大且迁移不稳；>30% 需要用通用评测与长尾覆盖证明没有被目标分布挤压再加码。[1][2][4]

#2synthetic 的可扩展收益更常来自 distribution shaping（rephrase、seed 约束、多 style），而不是“无约束自由生成更多 token”；前者保留真实内容锚点，降低 hallucination 与文风收缩风险。[3][24][5]

#3collapse 的主要风险点是 replace real 而不是 synthetic 本身：递归替换会先丢尾部模式；只要真实数据持续 accumulate，退化不是必然。[7][6]

#4在 math/code 上，verifier 强度比 teacher 强度更决定合成闭环的上限：executable verification、unit test、step-level verification 能把错误样本率压到可控区间，从而允许更高 synthetic ratio；自然语言 reasoning 缺少同等级 correctness signal 时更容易早饱和。[4][19][18]

#5“synthetic 的收益=更干净的数据”经常与“更强过滤/排序”混淆：在超大候选池内做 ranking/pruning 能在不引入 teacher 偏差的情况下获得相近的质量增益，但它无法主动扩展稀缺分布（如可验证 math 轨迹）。[5][21][4]

§1 Mid-train 的定位：从“可选插件”到“分布迁移阶段”

把 mid-train 固化为标准阶段，直接收益是把“学广覆盖”和“拉目标分布”解耦，避免在同一个混合锅里同时压长尾覆盖和专项指标。[2] 把 long context、code、reasoning 的目标分布显式接到 mid-training 接口；[1] 先用 web-heavy 打底，再用 synthetic textbook 与专项阶段做可控迁移，等价于把数据配方改写成可调参的训练调度问题。相对一次性混合训练，阶段化更便于做两类诊断：1) backbone 是否 undertrained，否则 mid-train 收益会和“补足基础训练”混在一起；2) mid-train 是否挤压通用能力，因此需要通用评测与长尾覆盖监控。compute 预算上，10–30% 更像工程默认值：低于 10% 常见现象是迁移不稳、对采样噪声敏感；高于 30% 则必须证明目标域收益不是靠牺牲通用覆盖换来的。[1][4] 这也符合 compute-optimal 的直觉：先把主干训练到接近 compute-optimal，再讨论后段分布拉动；否则归因会失真。[10][11]

图 1. 图 1.1 Mid-train 在 pretrain / post-train 之间的位置:分布迁移阶段

阶段化的价值不在“多训一段”，而在把分布迁移变成可调度、可诊断、可回滚的工程接口。[2][1]

§2 synthetic 的两条路：distribution shaping vs 真实池内的强过滤

把 synthetic 的收益拆开，配方选择会更清楚。一条路是 distribution shaping：保留真实内容锚点，只调整表达结构或密度，把单位 token 的学习信号压得更集中。[3] 的 rephrase 属于这一类：事实不变、结构改变，把“读网页”的统计分布推向更像“读教材/百科”；[24] 进一步强调多 style 并行，避免单一 teacher 文风压窄表达空间。另一条路是获得“更干净的数据分布”，但不一定要生成：在超大候选池里做 ranking、proxy 选择与 pruning，常能得到类似质量提升，同时避开 teacher 偏差与递归风险。[5][21][22] 关键分歧在于能力瓶颈的位置：如果瓶颈是“候选池里已有足够好样本，只是没有选出来”，过滤更划算；如果瓶颈是“目标分布稀缺，候选池本身不够”，rephrase 或 verifier loop 才需要主动扩展高价值子分布。[4][3] 因此，更稳的工程策略是先回答一个可检验问题：目标域样本在候选池中的可得性（coverage）是否足够；coverage 足够时优先过滤，coverage 不足时再用可控 synthetic 补齐并整形。[5][23]

手段	核心机制	主要风险	更适合的场景
强过滤 / ranking	在真实候选池内重排与剪枝，提升平均质量与去重覆盖。[5][21]	受限于候选池：稀缺目标分布可能根本不存在；过强 proxy 可能挤掉长尾。[5]	目标域在 web/代码池里本就有足够覆盖，只是噪声大、重复多。[22]
rephrase / 教材化 shaping	保留事实锚点，改变表达结构/密度，集中学习信号。[3][24]	teacher 文风偏差、表达空间收缩；需要多 style 与质量门控。[24]	需要可控拉分布但不想丢真实锚点；适合 mid-train 的定向迁移。[3][1]
verifier 闭环合成	生成→执行/证明/单测→过滤/重采样→再训练，系统性压错。[4][19]	verifier 覆盖不足时会过拟合可验证子集；自然语言任务缺少硬信号。[18]	math/code/形式化推理等 correctness 可判定领域；可承受更高 synthetic ratio。[4]

三类“提升单位 token 学习信号”的手段：它们解决的问题不同

正在渲染图示…

图 2. 图 2.1 Mid-train 数据两条路:distribution shaping vs in-pool filtering

§3 collapse 不是口号：replace vs accumulate 决定尾部分布是否先死

把 collapse 争论落到可操作层面，关键是区分“替换”和“累积”。MAD [7] 的机制结论是：训练数据一旦被模型生成数据递归替换，退化会先出现在尾部分布（mode dropping），因为尾部样本本来稀少，更容易在替换中被平均化。相对地，[6] 给出更工程化的边界：只要真实数据持续 accumulate（而不是被替换），递归训练退化就不是必然。两者合起来形成一条更稳的红线：不要采用“纯 synthetic 替换真实池”的策略；工业上更可用的做法，是把真实数据作为长期锚点，把 synthetic 作为用于增密和补齐覆盖的增量层，并把池更新规则落实为可审计的配比与去重策略。[7][6] 这也解释了为什么“synthetic ratio 可以无限上升”缺乏公开支撑：现有证据更多说明在特定条件下（accumulate real、或 verifier 强的子域）风险可控，而不是证明它对任意任务和任意生成方式成立。[4][18] 工程监控上，平均 loss 不够；必须单独跟踪 tail coverage，例如低频语言/领域、长文档、罕见格式是否在 mid-train 后被挤掉。[2][5]

更像红线的是“replace real”，而不是“用了 synthetic”。把真实数据当锚点，才有讨论 synthetic ratio 的空间。[7][6]

§4 synthetic 能扩展到哪里：verifier 强的子域 vs 缺少 correctness signal 的推理

公开证据更支持一个分域结论：synthetic 在 math/code 中更容易持续扩展，因为 correctness signal 更硬、更容易自动化。[4] 将 executable verification 接入合成链路，本质上把“样本质量”从 teacher 的主观偏好改写为可判定约束；[19] 用 unit test 做同样的事；[18] 则把 step-level verification 用作过程监督，降低多步推理中的局部错误累积。相比之下，自然语言 reasoning 与 agentic 轨迹缺少同等级 verifier：即使 teacher 更强，也更容易把偏好误当“正确性”，从而固化风格收缩并稳定复制错误模式。[7][24] 这不意味着自然语言不能使用 synthetic，而是配方应定位为 shaping：用 rephrase 保留事实锚点，用多 style 抵抗文风收缩，并让真实数据持续 accumulate，作为尾部锚点。[3][6] 更务实的工程分界是：当任务能提供可执行/可判定反馈时，可以提高 synthetic ratio，并投入更多 mid-train compute；当反馈主要是偏好或弱 proxy 时，应把 synthetic 用作增密与覆盖补齐，避免把它当作无限扩容的主粮。[4][5]

Math (formal verifier)

95[Llemma2023][DeepSeekMath2024]

Code (exec verifier)

90[RLTF2023]

Reasoning steps (process supervision)

70[LetsVerify2023]

World knowledge

35[CollapseInevitable2024]

Long-tail facts

20[MAD2023]

Open-ended creative

25[ExplanationsSmallReasoners2022]

单位：scaling headroom

图 3. 图 4.1 不同子域上 synthetic 的可扩展性 (illustrative;100 = 强 verifier 下 synthetic 完全替代 real 的 frontier)

时间线

2022-03compute-optimal 训练把“先把底座训到位”变成可量化约束[10]
2023-06synthetic-first 在小模型/代码上形成可复现配方（教材化 + 过滤）[13]
2023-09长上下文被验证需要 continued pretraining 的显式分布迁移阶段[9]
2024-01rephrase 被工程化为 distribution shaping，而不只是数据增强[3]
2024-02executable verification 接入合成闭环，强调 verifier 强度而非 teacher 文风[4]
2024-04collapse 争论转向 accumulate-not-replace 的池策略边界[6]
2024-06强过滤/排序被系统化为可替代部分 synthetic 的主路线[5]
2024-07mid-training 被公开为工业级标准部件（long context/code/reasoning）[2]

研究立场对比

阵营 A：synthetic-first（数据受限时可当主路线）

立场 — 高质量 synthetic（教材化、练习、解释）单位 token 信息密度更高，尤其在小模型与结构化领域（code/math）可以部分替代大规模粗糙 web；mid-train 不是必要条件，关键是把 token 变“更可学”。[13][1][14]

证据：[13][1][14][15][16]

反方 — 反驳 c-b93955c99f：公开配方并未证明“synthetic 可替代真实世界覆盖”。当 synthetic 变成替换而不是增量层时，尾部分布更容易先死，且 teacher 文风偏差会被稳定复制。[7][6] 更稳的读法是：synthetic-first 适用于数据受限与可验证子域，但仍需要真实锚点与池策略约束。

判词 — 一个更务实的定位：synthetic-first 只在两类条件下当主路线——(1) 明确数据受限且目标分布高度结构化；(2) 有硬 verifier 或可审计的 seed 约束。离开这两条，把它当通用 pretrain 主粮风险更高。[4][7]

阵营 B：web-heavy backbone +（real/synthetic）mid-train（更稳的工业配方）

立场 — 先用 web-heavy backbone 学广覆盖与长尾，再用 mid-train 做目标域分布回拉；synthetic 主要用于 shaping 与补齐覆盖，而不是替换真实语料。mid-train 的价值在于可控迁移与可诊断的取舍。[2][1][9]

证据：[2][1][9][8][10]

反方 — 修正 c-958f96c37a：高密度 synthetic 的收益容易与“底座 undertrained”混淆。若 backbone 没训到位，任何后段配方都会看起来有效；因此需要先用 compute-optimal 与训练轨迹信号把底座训到接近饱和，再评估 mid-train 的净增益。[10][11]

判词 — 结论层面的建议：把这条路线当默认工业配方。它把风险从“是否生成”转成“如何调度与监控”，更容易落到 compute 划分、池策略与 tail coverage 指标上。[5][7]

阵营 C：尽量少 synthetic；更强过滤 + 更多真实数据足够

立场 — synthetic 引入 teacher 偏差与风格收缩，且可能触发递归退化；与其生成，不如扩大真实抓取、去重、强过滤与数据剪枝，在真实候选池内得到更干净的分布。[21][22][5]

证据：[21][22][5][23]

反方 — 反驳 c-1da7d58c52：过滤只能在已有候选池里选，无法主动扩展稀缺分布。对 math/code/长上下文等目标域，公开经验更像“过滤 + 合成/重写 + mid-train”组合，而不是单靠过滤就够。[4][3][9]

判词 — 更稳的落地方式：把过滤当默认底盘，把 synthetic 当“覆盖不足时的补齐工具”。先用 DataComp-LM 式的 ranking 证明候选池覆盖不足，再引入 rephrase 或 verifier loop，而不是一上来就自由生成。[5][3]

阵营 D：synthetic 近乎无限可扩展；collapse 多是旧问题

立场 — 只要 teacher 足够强、采样与反馈足够好，synthetic ratio 可以持续上升；再结合“accumulate real 可破除 collapse”，就可以把真实数据压到很小的 seed。[17][6]

证据：[17][6][20]

反方 — 反驳 c-8768256855 / c-fea6da20b0 / c-588cd52729：现有公开证据只支持“在 accumulate real 的池策略下，退化不是必然”，并不等价于“synthetic 可无限替代真实”。MAD [7] 仍给出 replace real 时尾部先死的机制；此外，code/math 的 verifier 经验不能直接外推到自然语言 reasoning，因为 correctness signal 形态不同。[7][18][4]

判词 — 一个更稳的读法：把这条路线当作“需要更多 controlled experiment 的假设”，只在 verifier 强、池策略可审计、且 tail coverage 监控完备时小步试探；不要把它当默认前提写进主干配方。[7][5]

实践要点

可操作清单（do/don’t）：
1) Do：每个 frontier run 默认预留 mid-train，起步预算按总 compute 的 10–30% 规划；<10% 先别期待稳定迁移，>30% 先用通用评测 + tail coverage 证明没有被目标分布挤压再加码。[1][2][4]
2) Don’t：在 backbone 明显 undertrained 时讨论 mid-train 或 synthetic 配方归因；先用 compute-optimal/训练轨迹把底座训到位，否则收益会与“补足基础训练”混在一起。[10][11]
3) Do：把 synthetic 的默认角色设为 distribution shaping；优先选 rephrase 或 seed 约束生成，保留真实内容锚点，降低 hallucination 与文风收缩风险。[3][24]
4) Do：把“更干净的数据”优先交给 filtering/ranking；只有当候选池 coverage 不足时才引入 synthetic 去补齐稀缺分布。[5][21]
5) Don’t：不要做 replace real 的递归训练；数据池策略用 accumulate-not-replace，训练池中真实数据长期保留，经验下限先不低于 ~30%，并对长尾域单独做采样与评估看护。[7][6]
6) Do：在 math/code 上优先投资 verifier 强度而不是 teacher 文风：executable verification、unit test、step-level verification 能系统性压错，允许更高 synthetic ratio 与更长 mid-train。[4][19][18]
7) Don’t：把 code/math 的 verifier 闭环经验直接外推到自然语言 reasoning/agentic 轨迹；缺少硬 correctness signal 时，把 synthetic 作为增密与覆盖补齐，不要当无限扩容主粮。[18][7]
8) Do：mid-train 后单独监控“被挤压的能力”：长文档、低频语言/领域、罕见格式的 tail coverage；只看平均 loss 或少数基准容易漏掉 mode dropping。[7][2][5]

悬而未决的问题

Q1.2024+ 是否存在公开证据支持“高比例 synthetic 在大规模上长期稳定扩展”？需要明确条件：accumulate real 的比例下限、去重策略、以及 tail coverage 的监控口径。[6][7]
Q2.mid-train 的 mixture/reweighting 策略如何在“拉目标域”同时保住长尾？DoReMi [12] 给出 mixture 优化框架，但缺少针对 tail retention 的公开 ablation。
Q3.10–30% mid-train compute 区间的“稳定迁移阈值”是否可跨规模复用？需要公开的 controlled experiment：同一 backbone、同一目标域，系统扫描 0–50% compute split 并报告通用能力与 tail coverage 曲线。[1][2]
Q4.replace vs accumulate 导致“尾部先死”的证据目前多来自特定设定；需要更贴近工业数据池的对照：带去重、带过滤、带 rephrase 的混合池，替换规则如何影响 tail domains。[7][5]
Q5.verifier-loop 的关键 ablation 仍缺：verifier 强度、style 多样性、错误样本率与最终收益之间的可预测关系是什么？现有工作多展示端到端增益，但缺少可迁移的“错误预算”指标。[4][18]

[1]
Abdin, Jacobs, El-Nouby, et al.. Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. arXiv, 2024报告
[2]
Grattafiori, Dubey, Jauhri, et al.. The Llama 3 Herd of Models. arXiv / Meta AI, 2024论文
[3]
Maini, Seto, Bai, et al.. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. arXiv, 2024论文
[4]
Shao, Wang, Zhu, et al.. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
[5]
Li, Fang, Smyrnis, et al.. DataComp-LM: In search of the next generation of training sets for language models. arXiv / DataComp, 2024论文
[6]
Gerstgrasser, Schaeffer, et al.. Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. arXiv, 2024论文
[7]
Shumailov, et al.. Model Autophagy Disorder: When AI Eats Itself. Nature, 2024论文
[8]
Azerbayev, Schoelkopf, Paster, et al.. Llemma: An Open Language Model For Mathematics. arXiv, 2023论文
[9]
Xiong, Liu, Molybog, et al.. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
[10]
Hoffmann, Borgeaud, Mensch, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[11]
Kaplan, McCandlish, Henighan, et al.. Scaling Laws for Neural Language Models. arXiv, 2020论文
[12]
Xie, Pham, Dong, et al.. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. arXiv, 2023论文
[13]
Gunasekar, Zhang, Aneja, et al.. Textbooks Are All You Need. arXiv, 2023论文
[14]
Yu, Jiang, Shi, et al.. MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models. arXiv, 2023论文
[15]
Luo, Sun, Xu, et al.. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct. arXiv, 2023论文
[16]
Li, Chen, Shen, et al.. Explanations from Large Language Models Make Small Reasoners Better. arXiv, 2022论文
[17]
Huang, Gu, Hou, et al.. Large Language Models Can Self-Improve. arXiv, 2022论文
[18]
Lightman, Kosaraju, Burda, et al.. Let's Verify Step by Step. arXiv, 2023论文
[19]
Liu, Zhu, Xiao, et al.. RLTF: Reinforcement Learning from Unit Test Feedback. arXiv, 2023论文
[20]
Polu, Han, Zheng, et al.. Formal Mathematics Statement Curriculum Learning. arXiv, 2022论文
[21]
Penedo, Malartic, Hesslow, et al.. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
[22]
Marion, Üstün, Pozzobon, et al.. When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale. arXiv, 2023论文
[23]
Paster, Dos Santos, Azerbayev, et al.. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
[24]
Hugging Face. Cosmopedia: How to Create Large-Scale Synthetic Data for Pretraining. Hugging Face Blog, 2024博客

论文列表

分阶段训练：backbone → mid-train 的工业接口(4)

把 mid-train 从“可选插件”变成可调度的标准阶段：先用 web-heavy backbone 学广覆盖与长尾，再用 continued pretraining 把分布拉向长上下文、代码、数学等目标域。关注点是 compute 划分、迁移稳定性、以及通用能力是否被挤压。

The Llama 3 Herd of Models

Aaron Grattafiori,Abhimanyu Dubey,Abhinav Jauhri2024年7月31日

把 mid-training 明确成可复用部件：在主干预训练后，用分阶段数据与目标（如 long context、code、reasoning）做分布回拉，并把“阶段化”从经验变成可讨论的工程接口。

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Marah Abdin,Sam Ade Jacobs,Alaaeldin El-Nouby2024年4月22日

把“web-heavy 打底 + synthetic 提纯 + 专项阶段拉分布”写成可复用 recipe，强调 mid-train 的价值在于可控的分布迁移，而不是把所有数据一次性混成一锅。

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog2023年9月27日

把 long-context 能力与“更长序列 + 长文本 continued pretraining”绑定：仅改 RoPE/位置编码不够，需要显式的 mid-train 分布迁移阶段来让模型学会在长序列上分配注意力与记忆。

Llemma: An Open Language Model For Mathematics

Zhangir Azerbayev,Hailey Schoelkopf,Keiran Paster2023年10月16日

提供“通用/代码底座 → 数学 mid-train”的可复现实例：continued pretraining 能把能力拉向数学分布，但也提示需要监控通用语言能力是否被目标域挤压。

合成数据作为 distribution shaping：rephrase、教材化与风格多样性(3)

把 synthetic 的收益拆成两类：1) 保留真实内容锚点、改变表达结构（rephrase）来提高单位 token 的学习信号；2) 教材化/练习化来提高信息密度。关键变量是 seed 真实性、风格多样性与是否可控地覆盖目标子分布。

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Pratyush Maini,David Seto,Yushi Bai2024年1月29日

把 rephrase 从“数据增强”推进到“表达层面的分布整形”：保留事实内容但改变表达结构，使学习信号更集中，适合作为 mid-train 的可控拉分布工具。

Textbooks Are All You Need

Suriya Gunasekar,Yi Zhang,Jyoti Aneja2023年6月20日

给出 synthetic-first 的代表性论据：在小模型与 code 场景下，教材化/练习化 token 的信息密度更高，可在数据受限时部分替代粗糙 web token。

Cosmopedia: How to Create Large-Scale Synthetic Data for Pretraining

Cosmopedia authors2024年6月1日

强调 style 多样性与主题覆盖：用多 style 并行生成缓解单一 teacher 文风导致的表达空间收缩，更适合做 mid-train 的可控分布拉动而非替换真实语料。

Verifier 驱动的合成闭环：math/code 的可扩展路径(4)

在 math/code 领域，合成数据更容易做成闭环：生成 → 执行/证明/单测验证 → 过滤/重采样 → 继续训练。可扩展的关键不是 teacher 文风，而是 verifier 强度与错误样本抑制能力。

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Zhihong Shao,Peiyi Wang,Qihao Zhu2024年2月5日

把 continued pretraining、合成链路与 executable verification 串成闭环：通过 verifier 系统性压掉错误样本，使 synthetic 与真实 math corpus 能一起构成可持续的 mid-train 配方。

Let's Verify Step by Step

Hunter Lightman,Vineet Kosaraju,Yura Burda2023年5月31日

把“过程级 correctness signal”工程化：用 step-level verifier 训练可减少多步推理错误，提示 reasoning 的可扩展合成更依赖 verifier 形态而非单纯更多解释文本。

RLTF: Reinforcement Learning from Unit Test Feedback

Jiate Liu,Yiqin Zhu,Kaiwen Xiao2023年7月10日

用 unit test 作为硬反馈把 code 生成闭环化：把“能运行/能通过测试”变成训练信号，属于 verifier 强于 teacher 的典型场景。

Formal Mathematics Statement Curriculum Learning

Stanislas Polu,Jesse Michael Han,Kunhao Zheng2022年2月3日

展示 expert iteration（search+learn）在 formal math 上的闭环优势：同 compute 下，交替搜索与学习优于只搜索，说明“合成→验证→再训练”的增益来自反馈结构。

过滤 vs 合成、以及 collapse 的数据池策略(4)

把争论从“synthetic 是否有原罪”转成两条更可操作的轴：1) 很多收益是否可由更强 filtering/ranking 在真实候选池内实现；2) collapse 风险更像 replace vs accumulate 的池更新规则，并与长尾保留直接相关。