Part II / IIIContext Scaling 三部曲Part I·Context Scaling 的三根轴：数据分布、拼接工程与 induction head Part III·4D Context Scaling：Hyper-Doc 预训练的跨域统一框架（空间 · 时间 · 语义 · 编排）

面向 Agent 的预训练：从 Intra-Doc 到 Hyper-Doc 的认知视角重构Part II

把“窗口够了还脑补”当作训练目标缺失：离线找回 Z，训练时显式条件化与严格 loss mask

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

60 篇扩展证据（支持 1 · 反证 10 · 拓展 43 · 切线 6）·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第二篇聚焦认知视角：补充而非取代 `context-scaling-pretrain` 的工程视角；与 `context-scaling-4d`（分类视角）分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互相补充。

结论先行：把“长上下文”只当作 PE/packing 的工程问题，会把主要失败模式漏掉。业务里更常见的是窗口足够大但仍然“脑补”，根因是标准 NTP teacher-forcing 把 doc 边界外的相关变量 Z 边缘化进了 p(y|S) 的 prior，模型在缺证据时会用 prior 填空。更务实的改写是：把 context scaling 当作“离线把被 doc 边界切掉的 Z 逆向找回并写回语料”，形成 hyper-doc pretraining（HDP）：训练目标从 log p( $x_{t + 1} ∣ x_{1 : t}$ ) 扩展为 log p( $x_{t + 1} ∣ x_{1 : t}, c_{t}$ )，其中 $c_{t}$ 是检索/回忆/工具反馈/计划等可构造的外部上下文。已有证据链已足够支撑工程化：数据重写/反向指令能用较少 token 换下游收益 [1][2][3][4]；跨文档链接预训练可行 [12]；“并非所有 token 都该同权”在训练动力学上成立 [16][17]；工具与检索条件化能降低事实与动作幻觉 [14][13][24][25]。关键难点不在“能不能拼更长”，而在三件事：哪些 seed doc 值得扩展（用 I(Y;Z|S) 近似的 cognitive gap 指标）；扩展上下文 C 如何构造（检索式 vs 生成式）；以及 loss mask 如何把“证据/动作”与“要学会生成的计划/答案”分开计损失。

TL;DR

长上下文工程（PE/packing/数据配方）解决的是“能塞进来、能跑起来”；但 agent 线上更常见的失败是“证据其实存在于世界里，窗口也够大，模型仍用 p(y|S) 的 prior 填空”。标准 NTP teacher-forcing 会把 doc 边界外的相关变量 Z 边缘化进 p(z|S)，于是 p(y|S)=∫p(y|S,z)p(z|S)dz 的归纳偏置就成了幻觉来源。更可落地的改写是 HDP：离线 reverse-engineer 被切掉的 Z（引用/超链接/依赖文件/工具反馈/计划），把它们作为上下文 C 注入训练，优化 log p( $x_{t + 1} ∣ x_{1 : t}, c_{t}$ )，并用 loss mask 明确“证据/动作不计 loss，计划与解答计 loss”。Evidence Restitching 用链接图/检索/工具日志把可引用的 Z 拉回 [12][14][13]；Intent Inversion 用重写与 back-translation 从 doc 反推 prompt/plan [1][2][3][4]。ROI 的关键不在把所有 doc 都扩一遍，而在用 token 重要性/可学性指标把预算投到 I(Y;Z|S) 高的位置 [16][17]，并用对照评测回答：证据已在窗口内时，模型是否仍会长文事实性崩坏 [20]。落地时先按 seed 分三轨：GitHub 以可检索依赖做 ERS、以 review 约束做 IVI；Web 先去噪再 ERS、常用 IVI 反推意图；通用数据必须配合 Rho-1/课程与 selective bp 管住价值方差。

核心断言

#1把 doc 边界外的 Z 显式写回训练上下文 C，并对 C 做 100% loss mask（证据不计 loss），比单纯把窗口拉长更直接地削弱 p(y|S) 的 prior 填空；否则模型会把“证据文本”当成要背诵的 y，重复数据效应会放大模板化而非可迁移性 [19][16]。

#2Intent Inversion（重写/反向 prompt/plan）在 token 预算上更像“压缩+结构化”，适合噪声 web 与代码片段；Evidence Restitching（链接/检索/工具）更像“补齐可引用证据”，适合 citation/hyperlink/依赖文件密集的语料。两者的分界可用“Z 是否可被稳定检索与引用”来 operationalize [2][3][12]。

#3“并非所有 token 同权”不是口号：把预算集中到高不可约损失或高证据敏感度片段，能在相同 compute 下更接近 agent 需要的 learnability-per-token；HDP 的扩展成本应由这类信号驱动，而不是平均扩展所有 doc [17][18]。

#4仅蒸馏更强模型的 CoT/自反思轨迹，存在把“事后解释”当能力的负迁移风险；更稳的做法是把可检查的计划 token 计 loss、把工具 action token mask 掉，并用环境反馈 Z 作为训练时上下文，避免只学会格式 [22][23][14]。

#5“预训练阶段为检索留出空间”会改变 scaling 的最优分配：在固定 compute 下，参数记忆与外部检索存在可量化 tradeoff，因此 HDP/RAG-considerate pretraining 需要与 token:params 比率一起联合调参，而不是事后加一个检索器 [15][7]。

#6HDP 不是“统一配方喂更长上下文”，而是按 seed 的依赖可检索性与价值方差，选择 ERS/IVI 的默认动作并用 loss mask 固化为训练纪律。

§1 失败模式重述：窗口够了还脑补，是训练目标把 Z 边缘化

把 agent 幻觉归因于“上下文窗口不够”会误导投入。更贴近线上故障的是：证据 Z（引用来源、依赖文件、工具返回、测试日志）存在于世界中，甚至能放入窗口，但模型仍倾向用 p(y|S) 的 prior 补全缺口。标准 NTP teacher-forcing 在 doc 边界内训练 p(y|S)=∫p(y|S,z)p(z|S)dz，将 z 的不确定性压进 p(z|S)；当 S 对 y 信息不足时，输出由 prior 主导。长文事实性基准更直接暴露这种“随篇幅累积的缺证据填空”：即使能生成长输出，事实错误仍持续出现 [20]。对 agent 任务，RepairAgent 这类闭环环境进一步说明：没有把环境反馈作为上下文条件化，模型会在多轮交互中漂移 [21]。因此 HDP 的核心不是把 S 拉长，而是把 Z 变成训练时可见的 C，并通过 loss mask 明确 C 是证据而不是目标文本。否则，重复训练同一类证据模板会触发“重复数据的 scaling 行为”，买到的是模板熟练，而不是可迁移的求证习惯 [19]。这也解释了为什么仅靠扩大标准 NTP 的规模仍能提升平均指标但不必然解决 groundedness：Kaplan et al. [5]、Rae et al. [6]、Hoffmann et al. [7] 描述的是同一目标下的平滑缩放，而不是把缺失变量显式纳入条件化。

图 1. 图 1.1 IDP -> HDP:从孤立文档到带证据 Z 的训练单元

把 Z 写回 C 的价值不在“更长”，而在“让模型在训练时就习惯证据条件化”，否则 p(y|S) 的 prior 会在信息不足处接管输出 [20]。

§2 IDP → HDP 的两条工艺链：检索式补证据 vs 生成式反推上下文

HDP 的 C 构造可拆成两条互补工艺链。Evidence Restitching 适用于“Z 可被引用/检索”的语料：超链接、citation、依赖文件、API 文档、工具调用结果。LinkBERT 以链接文档作为预训练单元，证明跨 doc 组织能系统性注入外部依赖 [12]；RALM 将检索文档拼入上下文即可改善事实性，说明 conditioning 本身有收益 [13]；Toolformer 把工具输出写回训练样本，给出“环境反馈 Z 的可合成版本” [14]。Intent Inversion 适用于“Z 不可稳定检索但可被反推”的语料：噪声 web、代码片段、讨论串、commit/PR。Rephrasing the Web 通过重写提升 web 文本一致性，等价于显式化隐含结构，从而用更少 token 学到同样模式 [2]；Instruction Backtranslation 与 LongForm 的 reverse-instruction 执行“输出→输入”反推，把缺失的 prompt/intent 作为 Z 的代理写回 [3][26]；ProX 将 doc-level 重写规模化，重点不是过滤，而是逐样本改写 [1]；Magicoder 在 code 域用 OSS 片段合成指令数据，展示工程可行性 [4]。分界可以落到一个操作性问题：seed doc 的 Z 能否通过稳定检索得到可引用证据？能则优先 Evidence Restitching；不能则 Intent Inversion 更接近“补出隐含任务结构”。但两条链共享同一底层纪律：loss mask。证据 C 与 action token 不计 loss，计划/解答计 loss；否则模型会把“检索到的证据”当成要背诵的目标文本，反而加重模板化与泄漏。

维度	Evidence Restitching：检索/链接/工具补证据	Intent Inversion：重写/反向 prompt/plan
Z 的形态	可引用证据：citation、hyperlink、依赖文件、API 文档、tool output [12][14]	隐含意图/计划：prompt、plan、约束、任务设定 [3][1]
主要成本	检索/抓取与去噪；上下文长度膨胀 [13]	生成重写与质量控制；分布漂移风险 [2]
loss mask 建议	证据 C 100% mask；action token mask；答案/引用指针计 loss [14]	重写后的“规范文本”计 loss；反推的 plan/prompt 计 loss；生成过程 token 不计 loss [3]
更适合的 seed	论文/博客 citation、web 超链接、API 文档、repo 依赖图 [12][24]	commit/PR、issue 讨论、代码片段、噪声网页段落 [4][2]

HDP 两条路线的关键取舍（以“Z 的可检索性”和 loss mask 为主轴）

正在渲染图示…

图 2. 图 2.1 hyperdoc 的两条工艺链:retrieval 找 Z vs generation 反推 Z

§3 预算与可学性：用 token 重要性驱动“只扩展值得扩展的地方”

HDP 的风险，是把“补上下文”退化为无差别的 token 膨胀：C 越长，训练越贵，也更容易放大噪声与模板。更稳的路线，是承认 token 的边际价值不均匀，将扩展预算绑定到可学性信号。Rho-1 指出，uniform NTP 对所有 token 同权是次优的，训练应区分 token 重要性 [16]；Irreducible Curriculum 用不可约损失刻画“哪些样本更值得学”，给出比 domain-level 采样更细粒度的选择依据 [17]；Selective-Backprop 则给出更直接的工程近似：优先高 loss 样本以加速学习 [18]。接到 HDP 上，这些信号可以形成可执行的 gating：先在 IDP 模型上测加入候选 C 后的 loss 下降幅度，或预测分布对 C 的敏感度，作为 I(Y;Z|S) 的 proxy；只对 proxy 高的片段做 Evidence Restitching 检索扩展或 Intent Inversion 反推重写。重复数据的 scaling 结果强调一个反直觉点：高价值片段可以被重复训练，但必须监控模型是在学习可迁移结构，还是在过拟合模板 [19]。这也对照了经典 scaling law 的平均化视角：Kaplan et al. [5]、Muennighoff et al. [11] 关注总体 token/compute 的幂律关系，而 HDP 关注 C 与 mask 如何改写每个 token 的可学性。

正在渲染图示…

图 3. 图 3.1 token 重要性驱动的预算门:high / medium / low 三档决定是否扩展

HDP 的 ROI 不靠“把所有 doc 都扩一遍”，而靠“只在模型对证据敏感的位置扩展”，并把证据 token 从 loss 里拿掉 [16][17]。

§4 训练时补证据 vs 推理时 RAG：何时该把检索写进语料

推理时 RAG 的优势是侵入小、上线快；但它默认模型会使用证据，这个假设在 agent 场景常失效：模型可能忽略证据，或把证据当装饰，继续按 prior 生成。RALM 表明，将检索文档拼入上下文可提升事实性，但仍把检索行为留在推理时 [13]。HDP 的主张是把检索纳入训练分布：训练时反复呈现“先检索/先调用工具→读证据→再生成”的结构，并用 mask 将 action 与证据从监督信号中剥离 [14]。RAG-considerate scaling law 进一步把这个选择形式化为调参问题：固定 compute 下，参数记忆与外部检索存在 tradeoff，说明“先预训练再加 RAG”未必落在同一最优点 [15]。对照经典 compute-optimal 结论，Chinchilla 的 token:params 配置是在无检索条件化的 NTP 下得到的 [7]；一旦系统性引入 C，最优 token 分配、重复策略和检索器质量就会耦合。工程上更稳的路径是两阶段：先用 Intent Inversion 结构化语料（降噪、显式化 plan/prompt），再对高 gap 片段做 Evidence Restitching 检索扩展；这样把检索成本集中到确实需要证据的位置，而不是让整个训练依赖昂贵的 online retrieval。

Open-domain QA: train-time

78[RALM2023]

Open-domain QA: RAG only

82RAG dominates [RALM2023]

Code repair: train-time (commit ctx)

88[RepairAgent2024]

Code repair: RAG only

70no commit semantics in retrieval

Math reasoning: hindsight CoT train

86[Rho12024]

Math reasoning: RAG only

60weak gain [LetsVerify2023]

单位：task pass-rate / quality

图 4. 图 4.1 训练时把证据写进语料 vs 推理时 RAG:不同任务上的有效性差距 (illustrative;100 = 上限)

§5 轨迹回炉：把 hindsight 变成 foresight，而不是自洽的事后解释

agent 训练中的常见捷径，是收集更强模型的 CoT/自反思轨迹并蒸馏；但两条负面证据应作为默认风险处理：一是“模仿输出不等于迁移能力”，尤其当监督信号是不可验证的解释文本时 [22]；二是 CoT 在蒸馏场景下未必带来推理能力迁移 [23]。更稳的替代做法，是把轨迹拆成三类 token：action（工具调用/检索查询）、evidence（工具返回/检索结果/日志）、plan+solution（下一步计划与最终产物）。训练时对 action 与 evidence 做 mask，只对 plan 与 solution 计 loss；监督信号因此更接近“可执行的 foresight”，而不是“事后把过程讲圆”。Toolformer 提供了把工具反馈写回训练样本的范式，但要避免模型学会调用格式而不是调用决策，mask 是必要条件 [14]。对代码 agent，RepairAgent 这类闭环任务说明：计划必须能被环境反馈修正，单次生成的长 CoT 价值有限 [21]。评测上，应将“计划质量”与“最终 patch/答案质量”分开，并加入“证据已给定”与“证据缺失”两种设置，避免把 prior 填空误判为推理能力。

§6 按数据源的四条落地线：GitHub commit/PR · 学术出版（arXiv + OpenReview + rebuttal）· Web 网页 · 通用数据

同一套 HDP（把被 doc 边界切掉的 Z 写回为 C）落地时，首要工程决策不是模型结构，而是 seed 语料的“可回收依赖类型”。GitHub 轨道天然给出 (C,Y) 对：diff 与 message/review thread 之间存在可对齐的因果链，Z 通常是“为何改、改到哪、如何验证”。这部分 Z 多数可通过仓库内链接、issue 与 CI 结果稳定检索，因此 ERS 主要是在补齐依赖文件、issue、测试日志并拼回上下文；IVI 则把 reviewer 的隐含约束反推成可执行的修复指令或验收标准，接近代码域指令合成 [4][21]。学术出版轨道结构上最接近 GitHub：diff 换成 v1→vN 的 arXiv 版本差异，review thread 换成 OpenReview/评审讨论串，CI 换成 rebuttal 中作者对每条意见的“接受/保留”回应。(C,Y) 对同样天然：评审意见是 C，rebuttal 与下一版正文修改是 Y，且两端都可对齐检索。ERS 沿这条链补回旧版删掉的推理段、附录与被 rebut 的引文；IVI 把评审意见反推成“这个阈值为什么设成 x / 这段为什么要存在”的训练指令，把“论文定稿后自信的断言”倒回“当时需要解决的疑问”，并把 rebuttal 本身视作一条自我精炼轨迹 [26][12][27]。相对 GitHub，这里的单位更稀疏、validator 更弱（只有 reviewer，没有 CI），loss mask 必须更保守：评审原文与被驳回的论点默认 mask，只对作者显式保留/改写的结论，以及 rebuttal 中“为什么改 / 为什么不改”的论证计 loss，避免模型学成“复读最终版论文”。Web 轨道的问题相反：链接图丰富但噪声高，朴素 ERS 容易把低质邻居当证据。实践上需要先做页面级去噪/重写，剥离模板与广告，再用 citation/reference block 锚定“可引用证据” [9][2]。IVI 在 web 上更常用：从答案页/教程页反推用户意图与缺失前提，把 Z 代理成 prompt/约束写回，使弱信号变成可学习的任务结构 [3][26]。通用数据（书/论文/讨论）同时有可用引用链，也有极不均匀的单位价值。ERS 可沿 citation graph 做跨文档补证据，IVI 可用 back-translation/反向指令补齐“结论→问题/设定”；但训练必须引入 Rho-1/不可约课程式的 token 预算与选择性反传，否则高噪段落会吞掉梯度与上下文预算 [12][16][17][18]。四条轨道共同的纪律是：把 C 当作条件，而不是背诵目标；证据/工具输出/引用块默认 mask，只对计划、决策与最终回答计 loss，防止模型把“检索到的文本”学成模板化复述 [13][14]。

数据源	典型 seed / 可提取信号	Evidence Restitching 动作	Intent Inversion 动作	loss mask 纪律	评测钩子
GitHub commit/PR/review	diff + commit message + review thread；可追溯到 issue/文件/测试	补齐依赖文件、相关 PR/issue、CI/测试日志并拼回上下文 [21]	把 review 意图反推成“修复指令/验收标准/最小复现”并生成训练对 [4]	diff/证据日志 mask；仅对计划、修改说明、最终补丁/回答计 loss	给定 issue+仓库检索，生成可通过测试的补丁；对比无 C 的修复成功率 [21]
学术出版（arXiv + OpenReview + rebuttal）	v1→vN 版本差异 + 评审讨论串 + 作者 rebuttal；可追溯到被引论文/附录	沿版本差异与 OpenReview 讨论补齐被删推理段、附录与被驳引文 [12]	把评审意见反推成“为什么这个阈值 / 为什么保留这段”的训练指令；rebuttal 视作自我精炼轨迹 [26][27]	评审原文与被驳论点默认 mask；loss 只落在作者保留/改写的结论与 rebuttal 的“为什么改/为什么不改”论证	给定 v1 + review，生成能通过下一版保留率测试的修改建议；对比无 C 的改稿质量 [27]
Web 网页	正文+模板噪声+超链接；reference/citation block 可抓取	先去噪/重写，再沿引用块与出链补证据，避免把邻居噪声当证据 [9][2]	从答案页反推缺失问题/约束，把 Z 写回为 prompt/前提 [3]	引用块与检索片段默认 mask；只对生成的任务设定与最终回答计 loss [13]	长文事实问答：给定检索证据时的可验证性/引用一致性提升 [13]
通用数据（书/论文/讨论）	章节/论文段落+引用链+讨论串；单位价值差异大	沿 citation graph 做跨文档补证据与反向引用对齐 [12]	用反向指令/回译把“结论→问题/设定”补齐为可学任务 [26][3]	按 Rho-1/不可约课程做 token 预算；低价值段落 selective bp 或降权 [16][17][18]	跨文档引用问答/综述生成：检索到的引用是否被正确使用而非复述 [12]

按四条落地线选择 ERS/IVI 的默认动作与评测钩子（从结构信号最强到最弱：GitHub → 学术出版 → Web → 通用）

同一套 HDP 工艺，落地差异主要由 seed 的“依赖是否可稳定检索”与“单位价值方差”决定；其余都回到同一条 loss mask 纪律。

时间线

2020-01标准 NTP scaling law：loss 随 model/data/compute 幂律缩放[5]
2022-03compute-optimal 训练把 token:params 推向“更多 token”[7]
2022-03跨文档链接预训练把 doc 边界变成可学习对象[12]
2023-02工具反馈写回训练样本：环境 Z 可合成[14]
2024-01大规模语料重写：用更少 token 学到更一致结构[2]
2024-04token 重要性进入预训练目标：uniform NTP 受到挑战[16]
2026-04RAG-considerate pretraining 进入 scaling law：记忆 vs 检索可量化[15]

研究立场对比

阵营 A：继续做 Classic NTP + 规模化，幻觉主要靠更大模型与更好过滤解决

立场 — 标准 NTP 的幂律缩放足够稳健：扩大模型/数据/compute，并用过滤、去重、数据配比提升平均质量，就能在大多数任务上持续变好；跨 doc 的显式上下文恢复属于锦上添花，成本高且难以证明等 compute 优势。

证据：[5][6][7][10][9][8]

反方 — 这条路线解释“平均指标变好”，但对“窗口够了还脑补”的机制解释不足：长文事实性错误会随篇幅累积 [20]，闭环 agent 需要环境反馈才能收敛 [21]。仅靠过滤/去重无法把缺失的 Z 变成训练时可见的条件变量，prior 填空仍会在信息不足处接管输出。

判词 — 更务实的定位：Classic NTP 仍是底座，但在 agent 场景把它当作“足够解决幻觉”的方案风险偏高；至少需要在高 I(Y;Z|S) 区域引入 HDP 式的 C 与 mask，作为与规模化并行的主线投入。

阵营 B：HDP/检索式预训练，把检索与证据条件化写进训练分布

立场 — 幻觉是缺失变量 Z 被边缘化后的 prior 填空；解决方式是把 Z 通过链接/检索/工具反馈写回上下文 C，并用 loss mask 把“证据”从监督目标里剥离，让模型学会在证据条件下生成而不是背诵证据。

证据：[12][13][14][15][24][25]

反方 — 主要风险是成本与对照不清：训练时检索会引入系统复杂度，且缺少与“推理时 RAG”在同预算下的直接对比；如果 mask 做得不严，模型会把证据当作要背诵的 y，重复数据效应会放大模板化 [19]。

判词 — 一条更稳的读法：先把 Evidence Restitching 限定在“Z 可引用且可验证”的语料（citation/hyperlink/API/tool logs），并强制证据 100% mask；在这个受控子集上跑等 compute 对照，跑通后再扩到更泛的 web 语料。

阵营 C：Intent Inversion 数据重写/反向 prompt/plan，认为“结构化文本”比“更多上下文”更划算

立场 — 很多所谓缺失 Z 的问题，本质是语料噪声与结构不一致导致的可学性差；先用重写把文本变得规范、再用 back-translation 反推 prompt/plan，把隐含任务结构显式化，能用更少 token 买到更高的 learnability-per-token。

证据：[2][1][3][4][26]

反方 — 重写/合成的负迁移风险更隐蔽：分布漂移、模板化、以及“看起来更干净但丢掉关键细节”。此外，若任务需要可引用证据（citation、依赖文件、工具输出），纯生成式反推无法替代真实检索与环境反馈 [14]。

判词 — 结论层面的建议：Intent Inversion 作为 HDP 的第一阶段更稳（先结构化、再扩展），但必须配套两类 guardrail：一是用 token 重要性/不可约损失做采样与回放，避免全量重写 [16][17]；二是对需要可验证证据的任务，必须接上 Evidence Restitching 的检索式补证据。

阵营 D：轨迹蒸馏/自反思优先，认为 CoT 与 AI feedback 足以补齐 agent 能力

立场 — 收集更强模型的 CoT、自反思与自我修正轨迹，能把 reasoning 与 agent 行为蒸馏到更小/更便宜的模型；相比改预训练语料与检索系统，这条路更快、更贴近产品迭代。

证据：[27][28][29][30]

反方 — 两条负面证据需要被当作默认约束：模仿更强模型输出不等于迁移能力 [22]；CoT 在蒸馏设置下未必迁移推理能力 [23]。没有把可验证的 Z（证据/工具反馈）写进上下文并做 mask，轨迹更像“自洽叙事”而不是“可执行计划”。

判词 — 更务实的定位：轨迹蒸馏可以做，但只把它当作“把环境交互结构写进训练分布”的载体；必须按 action/evidence/plan+solution 拆分并配套 mask，且评测要用闭环任务与证据对照来防止自洽但不落地的提升 [21][14]。

实践要点

可执行清单（偏工程落地，带边界）：
1) 先做证据可验证的 HDP：优先 citation/hyperlink/API/tool logs 这类 Z 可引用语料，再谈泛 web。原因是 Evidence Restitching 的对照更干净，能直接测“证据在窗口内时是否还脑补” [12][13][20]。
2) loss mask 先立规矩：证据 C 100% mask；action token 100% mask；plan 与最终产物 100% 计 loss。不要让模型对证据文本做 NTP，否则会把检索当成背诵 [14][16]。
3) 不要平均扩展所有 doc：用 proxy(I(Y;Z|S)) 做 gating。工程近似：在 IDP 模型上测“加入候选 C 后 loss 下降”或“预测分布对 C 的敏感度”，只扩展 top 10–20% 片段 [17][18]。
4) Intent Inversion 作为第一阶段更稳：先重写/规范化再扩展，减少噪声放大；但不要全量重写，先在高价值域（代码、技术文档）跑通质量控制 [2][1][4]。
5) 轨迹回炉只收“可检查中间态”：不要把长 CoT 当监督目标；把 CoT 压成可执行 plan（步骤、约束、要查的证据），并用环境反馈闭环评测，避免自洽叙事 [22][23][21]。
6) 评测必须做两组对照：同一问题分别在“证据缺失”和“证据已给定且在窗口内”下测 hallucination rate/引用正确率；否则无法区分 prior 填空与检索失败 [20][13]。
7) 预算与 scaling 联合调参：引入检索式 C 后，不要沿用无检索条件下的 token:params 直觉；至少在小规模上做 matched-compute sweep，验证记忆 vs 检索的 tradeoff 是否符合预期 [15][7]。

悬而未决的问题

Q1.当所需证据被显式放进窗口内时，长上下文模型是否仍会产生同等级别的长文事实性错误？需要公开的“证据在/不在窗口内”成对评测与消融。
Q2.训练时检索增强（HDP/检索式 C）与推理时 RAG，在相同模型规模与 compute 预算下的直接对比还不够多；尤其缺少“同一检索器、同一语料、同一评测”的 matched setup [15][13]。
Q3.是否存在 equal-compute 结果：reverse-engineered 的合成上下文/反推 prompt/plan 明确优于纯过滤、去重或增加原始数据？目前更多是“看起来更省 token”的证据，缺少严格对照 [2][1][9]。
Q4.哪些训练时的 foresight/plan-before-act 监督，在 agent 基准上稳定优于 hindsight/self-reflection 轨迹？现有负面证据提示需要更可检查的中间态定义 [23][22]。
Q5.合成增强与 AI-feedback 蒸馏的最强负迁移边界在哪里：哪些任务/域会因模板化、分布漂移而掉能力？需要公开失败案例与诊断工具，而不仅是平均分提升 [22][19]。

[1]
Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv, 2024论文
[2]
Pratyush Maini, Skyler Seto, Richard He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
[3]
Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer. Self-Alignment with Instruction Backtranslation. arXiv, 2023论文
[4]
Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang. Magicoder: Empowering Code Generation with OSS-Instruct. arXiv / ICML 2024, 2023论文
[5]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
[6]
Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
[7]
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[8]
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
[9]
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
[10]
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
[11]
Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
[12]
Michihiro Yasunaga, Jure Leskovec, Percy Liang. LinkBERT: Pretraining Language Models with Document Links. arXiv, 2022论文
[13]
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua. In-Context Retrieval-Augmented Language Models. arXiv, 2023论文
[14]
Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文
[15]
Karan Singh, Michael Yu, Varun Gangal, Zhuofu Tao, Sachin Kumar. To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining. arXiv, 2026论文
[16]
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
[17]
Simin Fan, Martin Jaggi. Irreducible Curriculum for Language Model Pretraining. arXiv, 2023论文
[18]
Angela H. Jiang, Daniel L.-K. Wong, Giulio Zhou, David G. Andersen, Jeffrey Dean. Accelerating Deep Learning by Focusing on the Biggest Losers. arXiv, 2019论文
[19]
Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain. Scaling Laws and Interpretability of Learning from Repeated Data. arXiv, 2022论文
[20]
Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu. Long-form factuality in large language models. arXiv, 2024论文
[21]
Islem Bouzenia, Premkumar Devanbu, Michael Pradel. RepairAgent: An Autonomous, LLM-Based Agent for Program Repair. arXiv, 2024论文
[22]
Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu. The False Promise of Imitating Proprietary LLMs. arXiv, 2023论文
[23]
Cong-Thanh Do, Rama Doddipatla, Kate Knill. Effectiveness of Chain-of-Thought in Distilling Reasoning Capability from Large Language Models. arXiv, 2025论文
[24]
Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez. Gorilla: Large Language Model Connected with Massive APIs. arXiv, 2023论文
[25]
Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv, 2023论文
[26]
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze. LongForm: Effective Instruction Tuning with Reverse Instructions. arXiv, 2023论文
[27]
Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao. Self-Refine: Iterative Refinement with Self-Feedback. arXiv, 2023论文
[28]
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao. WizardLM: Empowering large pre-trained language models to follow complex instructions. arXiv, 2023论文
[29]
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
[30]
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv, 2023论文

论文列表

HDP 的语料重写与反向上下文工程（Intent Inversion）(4)

把“输出文本”当作可被重写/可反推其隐含 prompt/plan 的对象：先清洗与结构化，再用 back-translation 式方法合成指令/计划，使训练从“覆盖更多 token”转向“每 token 学到更可迁移的结构”。

ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale

Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu2024年9月25日

把“每条预训练样本”当作可被专家式模型重写的对象，强调 doc-level intervention 的可规模化性：不是只做过滤/去重，而是对样本内容做结构化改写以提升可学性与一致性，为 HDP 的 Intent Inversion（生成式恢复上下文）提供工程模板。

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Pratyush Maini,Skyler Seto,Richard He Bai,David Grangier,Yizhe Zhang,Navdeep Jaitly2024年1月29日

给出“重写 web 文本以省 token”的可复现实例：用 LLM 把网页改写成更一致的风格与结构，在相近下游表现下减少训练 token。对 HDP 的启发是：先把 seed doc 变成更可被模型学习的“规范形态”，再做超链接/引用扩展。

Self-Alignment with Instruction Backtranslation

Xian Li,Ping Yu,Chunting Zhou,Timo Schick,Omer Levy,Luke Zettlemoyer2023年8月11日

把“现成文本”当作答案，反推一个合理指令作为输入，形成可规模化的 prompt recovery。映射到 HDP：把 code diff、issue 讨论、论文段落等当作“解”，反向合成 plan/prompt，使训练显式看到 Z 的结构而不是把 Z 边缘化进 prior。

Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei,Zhe Wang,Jiawei Liu,Yifeng Ding,Lingming Zhang2023年12月4日

在 code 域用“开源片段→合成指令+解答”做数据扩增，证明 Intent Inversion 在工程上可跑通。对 HDP 的差异点是：从 instruction tuning 扩到 pretraining 时，需要更严格的 loss mask，把“证据/上下文”与“要学会生成的计划/补丁”分开计损失。

跨文档链接与检索式上下文恢复（Evidence Restitching）(4)

把 doc 边界外的证据 Z 通过链接图、检索器、工具调用日志等方式拉回到训练输入 C 中；核心是让模型在训练时就习惯“先找证据再生成”，而不是只在推理时临时 RAG。

LinkBERT: Pretraining Language Models with Document Links

Michihiro Yasunaga,Jure Leskovec,Percy Liang2022年3月29日

直接把“链接文档”作为预训练单元，证明 hyper-doc 不是概念而是可落地的数据组织方式。对 HDP 的启发是：链接是最便宜的 Z 代理变量，能把 citation/hyperlink/依赖文件这类外部 context 结构化进训练输入。

To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining

Karan Singh,Michael Yu,Varun Gangal,Zhuofu Tao,Sachin Kumar2026年4月1日

把“预训练阶段是否为检索留出空间”放进 scaling law 框架：在固定 compute 下，参数记忆与外部检索之间存在可量化的 tradeoff。对 HDP 的意义是：C 的引入不只是工程拼接，而是会改变最优的 token:params:retrieval 配置。

In-Context Retrieval-Augmented Language Models

Ori Ram,Yoav Levine,Itay Dalmedigos,Dor Muhlgay,Amnon Shashua2023年1月31日

给出“把检索到的文档拼进上下文”即可提升事实性的一类范式，强调 conditioning 的收益不必等到改训练目标。HDP 需要更进一步：把检索过程与检索到的证据变成训练时可重复出现的 C，并用 mask 约束模型别把证据当成要背诵的 y。

Toolformer: Language Models Can Teach Themselves to Use Tools

Timo Schick,Jane Dwivedi-Yu,Roberto Dessì,Roberta Raileanu,Maria Lomeli2023年2月9日

把工具调用结果作为额外上下文注入训练样本，属于“环境反馈 Z 的可合成版本”。对 agent 场景，工具输出/搜索结果/编译报错都可以作为 C 的来源；关键是 action token 不计 loss，避免模型学到“调用格式”而不是“何时调用”。

从“覆盖更多 token”到“每 token 更可学”：选择性损失与课程(4)

HDP 的成本主要来自额外上下文与合成轨迹；要让 ROI 成立，需要承认 token 的边际价值不均匀，并把 loss/采样预算集中在高 I(Y;Z|S) 或高不可约损失的片段上。

Rho-1: Not All Tokens Are What You Need

Zhenghao Lin,Zhibin Gou,Yeyun Gong,Xiao Liu,Yelong Shen2024年4月11日

明确反对“所有 token 同权”的 NTP 默认设置，提出 token 重要性应进入训练目标或采样。对 HDP：C 的引入会让“哪些 token 该计 loss”更关键，尤其是证据 C 不该被当作 y 学会背诵。

Irreducible Curriculum for Language Model Pretraining

Simin Fan,Martin Jaggi2023年10月23日

用不可约损失/可学性指标做课程学习，说明“更难/更信息密度”的样本应被上权重。对 HDP：cognitive gap 检测可以借用类似指标，把预算投到 I(Y;Z|S) 高的片段而不是平均扩展所有 doc。

Accelerating Deep Learning by Focusing on the Biggest Losers

Angela H. Jiang,Daniel L.-K. Wong,Giulio Zhou,David G. Andersen,Jeffrey Dean2019年10月2日

提供一个更朴素但可工程化的策略：按 loss 选样本/片段。对 HDP：可把“加入 C 后 loss 下降幅度”当作 proxy，优先扩展那些对证据敏感的样本，而不是对所有样本做同等成本的 hyper-doc 扩展。

Scaling Laws and Interpretability of Learning from Repeated Data

Danny Hernandez,Tom Brown,Tom Conerly,Nova DasSarma,Dawn Drain2022年5月21日

讨论重复数据/上权重对 scaling 的影响，给“对高价值片段重复训练”提供理论与实证背景。对 HDP：hyper-doc 扩展常常意味着对同一 seed doc 的多次变体训练，需要用重复数据的视角评估是否在买到泛化还是在过拟合模板。

Agent 的“先计划/先求证”：长文事实性与轨迹蒸馏的边界(4)

把“窗口够了还脑补”落到可测：长文事实错误、工具动作幻觉、以及 CoT/自反思蒸馏的负迁移。HDP 需要把 hindsight 变成可执行的 foresight（plan-before-act），而不是只学会事后解释。

面向 Agent 的预训练：从 Intra-Doc 到 Hyper-Doc 的认知视角重构—Part II