📚Papers

面向 Agent 的预训练:从 Intra-Doc 到 Hyper-Doc 的认知视角重构Part II

把“窗口够了还脑补”当作训练目标缺失:离线找回 Z,训练时显式条件化与严格 loss mask

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

60 篇扩展证据(支持 1 · 反证 10 · 拓展 43 · 切线 6)·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第二篇聚焦认知视角:补充而非取代 `context-scaling-pretrain` 的工程视角;与 `context-scaling-4d`(分类视角)分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互相补充。

结论先行:把“长上下文”只当作 PE/packing 的工程问题,会把主要失败模式漏掉。业务里更常见的是窗口足够大但仍然“脑补”,根因是标准 NTP teacher-forcing 把 doc 边界外的相关变量 Z 边缘化进了 p(y|S) 的 prior,模型在缺证据时会用 prior 填空。更务实的改写是:把 context scaling 当作“离线把被 doc 边界切掉的 Z 逆向找回并写回语料”,形成 hyper-doc pretraining(HDP):训练目标从 log p() 扩展为 log p(),其中 是检索/回忆/工具反馈/计划等可构造的外部上下文。已有证据链已足够支撑工程化:数据重写/反向指令能用较少 token 换下游收益 [1][2][3][4];跨文档链接预训练可行 [12];“并非所有 token 都该同权”在训练动力学上成立 [16][17];工具与检索条件化能降低事实与动作幻觉 [14][13][24][25]。关键难点不在“能不能拼更长”,而在三件事:哪些 seed doc 值得扩展(用 I(Y;Z|S) 近似的 cognitive gap 指标);扩展上下文 C 如何构造(检索式 vs 生成式);以及 loss mask 如何把“证据/动作”与“要学会生成的计划/答案”分开计损失。

TL;DR

长上下文工程(PE/packing/数据配方)解决的是“能塞进来、能跑起来”;但 agent 线上更常见的失败是“证据其实存在于世界里,窗口也够大,模型仍用 p(y|S) 的 prior 填空”。标准 NTP teacher-forcing 会把 doc 边界外的相关变量 Z 边缘化进 p(z|S),于是 p(y|S)=∫p(y|S,z)p(z|S)dz 的归纳偏置就成了幻觉来源。更可落地的改写是 HDP:离线 reverse-engineer 被切掉的 Z(引用/超链接/依赖文件/工具反馈/计划),把它们作为上下文 C 注入训练,优化 log p(),并用 loss mask 明确“证据/动作不计 loss,计划与解答计 loss”。Evidence Restitching 用链接图/检索/工具日志把可引用的 Z 拉回 [12][14][13];Intent Inversion 用重写与 back-translation 从 doc 反推 prompt/plan [1][2][3][4]。ROI 的关键不在把所有 doc 都扩一遍,而在用 token 重要性/可学性指标把预算投到 I(Y;Z|S) 高的位置 [16][17],并用对照评测回答:证据已在窗口内时,模型是否仍会长文事实性崩坏 [20]。 落地时先按 seed 分三轨:GitHub 以可检索依赖做 ERS、以 review 约束做 IVI;Web 先去噪再 ERS、常用 IVI 反推意图;通用数据必须配合 Rho-1/课程与 selective bp 管住价值方差。

核心断言

#1把 doc 边界外的 Z 显式写回训练上下文 C,并对 C 做 100% loss mask(证据不计 loss),比单纯把窗口拉长更直接地削弱 p(y|S) 的 prior 填空;否则模型会把“证据文本”当成要背诵的 y,重复数据效应会放大模板化而非可迁移性 [19][16]
#2Intent Inversion(重写/反向 prompt/plan)在 token 预算上更像“压缩+结构化”,适合噪声 web 与代码片段;Evidence Restitching(链接/检索/工具)更像“补齐可引用证据”,适合 citation/hyperlink/依赖文件密集的语料。两者的分界可用“Z 是否可被稳定检索与引用”来 operationalize [2][3][12]
#3“并非所有 token 同权”不是口号:把预算集中到高不可约损失或高证据敏感度片段,能在相同 compute 下更接近 agent 需要的 learnability-per-token;HDP 的扩展成本应由这类信号驱动,而不是平均扩展所有 doc [17][18]
#4仅蒸馏更强模型的 CoT/自反思轨迹,存在把“事后解释”当能力的负迁移风险;更稳的做法是把可检查的计划 token 计 loss、把工具 action token mask 掉,并用环境反馈 Z 作为训练时上下文,避免只学会格式 [22][23][14]
#5“预训练阶段为检索留出空间”会改变 scaling 的最优分配:在固定 compute 下,参数记忆与外部检索存在可量化 tradeoff,因此 HDP/RAG-considerate pretraining 需要与 token:params 比率一起联合调参,而不是事后加一个检索器 [15][7]
#6HDP 不是“统一配方喂更长上下文”,而是按 seed 的依赖可检索性与价值方差,选择 ERS/IVI 的默认动作并用 loss mask 固化为训练纪律。

§1 失败模式重述:窗口够了还脑补,是训练目标把 Z 边缘化

把 agent 幻觉归因于“上下文窗口不够”会误导投入。更贴近线上故障的是:证据 Z(引用来源、依赖文件、工具返回、测试日志)存在于世界中,甚至能放入窗口,但模型仍倾向用 p(y|S) 的 prior 补全缺口。标准 NTP teacher-forcing 在 doc 边界内训练 p(y|S)=∫p(y|S,z)p(z|S)dz,将 z 的不确定性压进 p(z|S);当 S 对 y 信息不足时,输出由 prior 主导。长文事实性基准更直接暴露这种“随篇幅累积的缺证据填空”:即使能生成长输出,事实错误仍持续出现 [20]。对 agent 任务,RepairAgent 这类闭环环境进一步说明:没有把环境反馈作为上下文条件化,模型会在多轮交互中漂移 [21]。因此 HDP 的核心不是把 S 拉长,而是把 Z 变成训练时可见的 C,并通过 loss mask 明确 C 是证据而不是目标文本。否则,重复训练同一类证据模板会触发“重复数据的 scaling 行为”,买到的是模板熟练,而不是可迁移的求证习惯 [19]。这也解释了为什么仅靠扩大标准 NTP 的规模仍能提升平均指标但不必然解决 groundedness:Kaplan et al. [5]、Rae et al. [6]、Hoffmann et al. [7] 描述的是同一目标下的平滑缩放,而不是把缺失变量显式纳入条件化。

IDP -> HDP: from raw documents to context-augmented training units IDP (independent doc pretrain) Each doc trained in isolation Token: t in doc D Context: D[:t] Failure mode: - model must hallucinate Z (commit graph, paper refs, prior-art, rebuttal answers) Loss objective: P(t | D[:t]) Z is marginalized [Pile2020][RefinedWeb2023] -> HDP (hyperdoc pretrain) Doc augmented with retrieved or generated context Token: t in doc D Context: Z + D[:t] where Z is from one of: Route R (retrieval-style): - adjacent commit / PR for code [RepairAgent2024] - linked papers for arXiv [LinkBERT2022] - backlink for a web page [RefinedWeb2023] Route G (generation-style): - backtranslate Z from D [InstrBacktranslation2023] - rephrase / hindsight chain [RephrasingWeb2024][SelfRefine2023] Loss: P(t | Z, D[:t]) -- Z explicit, model stops hallucinating it
图 1. 图 1.1 IDP -> HDP:从孤立文档到带证据 Z 的训练单元
把 Z 写回 C 的价值不在“更长”,而在“让模型在训练时就习惯证据条件化”,否则 p(y|S) 的 prior 会在信息不足处接管输出 [20]

§2 IDP → HDP 的两条工艺链:检索式补证据 vs 生成式反推上下文

HDP 的 C 构造可拆成两条互补工艺链。Evidence Restitching 适用于“Z 可被引用/检索”的语料:超链接、citation、依赖文件、API 文档、工具调用结果。LinkBERT 以链接文档作为预训练单元,证明跨 doc 组织能系统性注入外部依赖 [12];RALM 将检索文档拼入上下文即可改善事实性,说明 conditioning 本身有收益 [13];Toolformer 把工具输出写回训练样本,给出“环境反馈 Z 的可合成版本” [14]。Intent Inversion 适用于“Z 不可稳定检索但可被反推”的语料:噪声 web、代码片段、讨论串、commit/PR。Rephrasing the Web 通过重写提升 web 文本一致性,等价于显式化隐含结构,从而用更少 token 学到同样模式 [2];Instruction Backtranslation 与 LongForm 的 reverse-instruction 执行“输出→输入”反推,把缺失的 prompt/intent 作为 Z 的代理写回 [3][26];ProX 将 doc-level 重写规模化,重点不是过滤,而是逐样本改写 [1];Magicoder 在 code 域用 OSS 片段合成指令数据,展示工程可行性 [4]。分界可以落到一个操作性问题:seed doc 的 Z 能否通过稳定检索得到可引用证据?能则优先 Evidence Restitching;不能则 Intent Inversion 更接近“补出隐含任务结构”。但两条链共享同一底层纪律:loss mask。证据 C 与 action token 不计 loss,计划/解答计 loss;否则模型会把“检索到的证据”当成要背诵的目标文本,反而加重模板化与泄漏。

维度Evidence Restitching:检索/链接/工具补证据Intent Inversion:重写/反向 prompt/plan
Z 的形态

可引用证据:citation、hyperlink、依赖文件、API 文档、tool output [12][14]

隐含意图/计划:prompt、plan、约束、任务设定 [3][1]

主要成本

检索/抓取与去噪;上下文长度膨胀 [13]

生成重写与质量控制;分布漂移风险 [2]

loss mask 建议

证据 C 100% mask;action token mask;答案/引用指针计 loss [14]

重写后的“规范文本”计 loss;反推的 plan/prompt 计 loss;生成过程 token 不计 loss [3]

更适合的 seed

论文/博客 citation、web 超链接、API 文档、repo 依赖图 [12][24]

commit/PR、issue 讨论、代码片段、噪声网页段落 [4][2]

HDP 两条路线的关键取舍(以“Z 的可检索性”和 loss mask 为主轴)
正在渲染图示…
图 2. 图 2.1 hyperdoc 的两条工艺链:retrieval 找 Z vs generation 反推 Z

§3 预算与可学性:用 token 重要性驱动“只扩展值得扩展的地方”

HDP 的风险,是把“补上下文”退化为无差别的 token 膨胀:C 越长,训练越贵,也更容易放大噪声与模板。更稳的路线,是承认 token 的边际价值不均匀,将扩展预算绑定到可学性信号。Rho-1 指出,uniform NTP 对所有 token 同权是次优的,训练应区分 token 重要性 [16];Irreducible Curriculum 用不可约损失刻画“哪些样本更值得学”,给出比 domain-level 采样更细粒度的选择依据 [17];Selective-Backprop 则给出更直接的工程近似:优先高 loss 样本以加速学习 [18]。接到 HDP 上,这些信号可以形成可执行的 gating:先在 IDP 模型上测加入候选 C 后的 loss 下降幅度,或预测分布对 C 的敏感度,作为 I(Y;Z|S) 的 proxy;只对 proxy 高的片段做 Evidence Restitching 检索扩展或 Intent Inversion 反推重写。重复数据的 scaling 结果强调一个反直觉点:高价值片段可以被重复训练,但必须监控模型是在学习可迁移结构,还是在过拟合模板 [19]。这也对照了经典 scaling law 的平均化视角:Kaplan et al. [5]、Muennighoff et al. [11] 关注总体 token/compute 的幂律关系,而 HDP 关注 C 与 mask 如何改写每个 token 的可学性。

正在渲染图示…
图 3. 图 3.1 token 重要性驱动的预算门:high / medium / low 三档决定是否扩展
HDP 的 ROI 不靠“把所有 doc 都扩一遍”,而靠“只在模型对证据敏感的位置扩展”,并把证据 token 从 loss 里拿掉 [16][17]

§4 训练时补证据 vs 推理时 RAG:何时该把检索写进语料

推理时 RAG 的优势是侵入小、上线快;但它默认模型会使用证据,这个假设在 agent 场景常失效:模型可能忽略证据,或把证据当装饰,继续按 prior 生成。RALM 表明,将检索文档拼入上下文可提升事实性,但仍把检索行为留在推理时 [13]。HDP 的主张是把检索纳入训练分布:训练时反复呈现“先检索/先调用工具→读证据→再生成”的结构,并用 mask 将 action 与证据从监督信号中剥离 [14]。RAG-considerate scaling law 进一步把这个选择形式化为调参问题:固定 compute 下,参数记忆与外部检索存在 tradeoff,说明“先预训练再加 RAG”未必落在同一最优点 [15]。对照经典 compute-optimal 结论,Chinchilla 的 token:params 配置是在无检索条件化的 NTP 下得到的 [7];一旦系统性引入 C,最优 token 分配、重复策略和检索器质量就会耦合。工程上更稳的路径是两阶段:先用 Intent Inversion 结构化语料(降噪、显式化 plan/prompt),再对高 gap 片段做 Evidence Restitching 检索扩展;这样把检索成本集中到确实需要证据的位置,而不是让整个训练依赖昂贵的 online retrieval。

Open-domain QA: train-time
78[RALM2023]
Open-domain QA: RAG only
82RAG dominates [RALM2023]
Code repair: train-time (commit ctx)
88[RepairAgent2024]
Code repair: RAG only
70no commit semantics in retrieval
Math reasoning: hindsight CoT train
86[Rho12024]
Math reasoning: RAG only
60weak gain [LetsVerify2023]
单位:task pass-rate / quality
图 4. 图 4.1 训练时把证据写进语料 vs 推理时 RAG:不同任务上的有效性差距 (illustrative;100 = 上限)

§5 轨迹回炉:把 hindsight 变成 foresight,而不是自洽的事后解释

agent 训练中的常见捷径,是收集更强模型的 CoT/自反思轨迹并蒸馏;但两条负面证据应作为默认风险处理:一是“模仿输出不等于迁移能力”,尤其当监督信号是不可验证的解释文本时 [22];二是 CoT 在蒸馏场景下未必带来推理能力迁移 [23]。更稳的替代做法,是把轨迹拆成三类 token:action(工具调用/检索查询)、evidence(工具返回/检索结果/日志)、plan+solution(下一步计划与最终产物)。训练时对 action 与 evidence 做 mask,只对 plan 与 solution 计 loss;监督信号因此更接近“可执行的 foresight”,而不是“事后把过程讲圆”。Toolformer 提供了把工具反馈写回训练样本的范式,但要避免模型学会调用格式而不是调用决策,mask 是必要条件 [14]。对代码 agent,RepairAgent 这类闭环任务说明:计划必须能被环境反馈修正,单次生成的长 CoT 价值有限 [21]。评测上,应将“计划质量”与“最终 patch/答案质量”分开,并加入“证据已给定”与“证据缺失”两种设置,避免把 prior 填空误判为推理能力。

§6 按数据源的四条落地线:GitHub commit/PR · 学术出版(arXiv + OpenReview + rebuttal)· Web 网页 · 通用数据

同一套 HDP(把被 doc 边界切掉的 Z 写回为 C)落地时,首要工程决策不是模型结构,而是 seed 语料的“可回收依赖类型”。GitHub 轨道天然给出 (C,Y) 对:diff 与 message/review thread 之间存在可对齐的因果链,Z 通常是“为何改、改到哪、如何验证”。这部分 Z 多数可通过仓库内链接、issue 与 CI 结果稳定检索,因此 ERS 主要是在补齐依赖文件、issue、测试日志并拼回上下文;IVI 则把 reviewer 的隐含约束反推成可执行的修复指令或验收标准,接近代码域指令合成 [4][21]。学术出版轨道结构上最接近 GitHub:diff 换成 v1→vN 的 arXiv 版本差异,review thread 换成 OpenReview/评审讨论串,CI 换成 rebuttal 中作者对每条意见的“接受/保留”回应。(C,Y) 对同样天然:评审意见是 C,rebuttal 与下一版正文修改是 Y,且两端都可对齐检索。ERS 沿这条链补回旧版删掉的推理段、附录与被 rebut 的引文;IVI 把评审意见反推成“这个阈值为什么设成 x / 这段为什么要存在”的训练指令,把“论文定稿后自信的断言”倒回“当时需要解决的疑问”,并把 rebuttal 本身视作一条自我精炼轨迹 [26][12][27]。相对 GitHub,这里的单位更稀疏、validator 更弱(只有 reviewer,没有 CI),loss mask 必须更保守:评审原文与被驳回的论点默认 mask,只对作者显式保留/改写的结论,以及 rebuttal 中“为什么改 / 为什么不改”的论证计 loss,避免模型学成“复读最终版论文”。Web 轨道的问题相反:链接图丰富但噪声高,朴素 ERS 容易把低质邻居当证据。实践上需要先做页面级去噪/重写,剥离模板与广告,再用 citation/reference block 锚定“可引用证据” [9][2]。IVI 在 web 上更常用:从答案页/教程页反推用户意图与缺失前提,把 Z 代理成 prompt/约束写回,使弱信号变成可学习的任务结构 [3][26]。通用数据(书/论文/讨论)同时有可用引用链,也有极不均匀的单位价值。ERS 可沿 citation graph 做跨文档补证据,IVI 可用 back-translation/反向指令补齐“结论→问题/设定”;但训练必须引入 Rho-1/不可约课程式的 token 预算与选择性反传,否则高噪段落会吞掉梯度与上下文预算 [12][16][17][18]。四条轨道共同的纪律是:把 C 当作条件,而不是背诵目标;证据/工具输出/引用块默认 mask,只对计划、决策与最终回答计 loss,防止模型把“检索到的文本”学成模板化复述 [13][14]

数据源典型 seed / 可提取信号Evidence Restitching 动作Intent Inversion 动作loss mask 纪律评测钩子
GitHub commit/PR/review

diff + commit message + review thread;可追溯到 issue/文件/测试

补齐依赖文件、相关 PR/issue、CI/测试日志并拼回上下文 [21]

把 review 意图反推成“修复指令/验收标准/最小复现”并生成训练对 [4]

diff/证据日志 mask;仅对计划、修改说明、最终补丁/回答计 loss

给定 issue+仓库检索,生成可通过测试的补丁;对比无 C 的修复成功率 [21]

学术出版(arXiv + OpenReview + rebuttal)

v1→vN 版本差异 + 评审讨论串 + 作者 rebuttal;可追溯到被引论文/附录

沿版本差异与 OpenReview 讨论补齐被删推理段、附录与被驳引文 [12]

把评审意见反推成“为什么这个阈值 / 为什么保留这段”的训练指令;rebuttal 视作自我精炼轨迹 [26][27]

评审原文与被驳论点默认 mask;loss 只落在作者保留/改写的结论与 rebuttal 的“为什么改/为什么不改”论证

给定 v1 + review,生成能通过下一版保留率测试的修改建议;对比无 C 的改稿质量 [27]

Web 网页

正文+模板噪声+超链接;reference/citation block 可抓取

先去噪/重写,再沿引用块与出链补证据,避免把邻居噪声当证据 [9][2]

从答案页反推缺失问题/约束,把 Z 写回为 prompt/前提 [3]

引用块与检索片段默认 mask;只对生成的任务设定与最终回答计 loss [13]

长文事实问答:给定检索证据时的可验证性/引用一致性提升 [13]

通用数据(书/论文/讨论)

章节/论文段落+引用链+讨论串;单位价值差异大

沿 citation graph 做跨文档补证据与反向引用对齐 [12]

用反向指令/回译把“结论→问题/设定”补齐为可学任务 [26][3]

按 Rho-1/不可约课程做 token 预算;低价值段落 selective bp 或降权 [16][17][18]

跨文档引用问答/综述生成:检索到的引用是否被正确使用而非复述 [12]

按四条落地线选择 ERS/IVI 的默认动作与评测钩子(从结构信号最强到最弱:GitHub → 学术出版 → Web → 通用)
同一套 HDP 工艺,落地差异主要由 seed 的“依赖是否可稳定检索”与“单位价值方差”决定;其余都回到同一条 loss mask 纪律。

时间线

  1. 标准 NTP scaling law:loss 随 model/data/compute 幂律缩放[5]
  2. compute-optimal 训练把 token:params 推向“更多 token”[7]
  3. 跨文档链接预训练把 doc 边界变成可学习对象[12]
  4. 工具反馈写回训练样本:环境 Z 可合成[14]
  5. 大规模语料重写:用更少 token 学到更一致结构[2]
  6. token 重要性进入预训练目标:uniform NTP 受到挑战[16]
  7. RAG-considerate pretraining 进入 scaling law:记忆 vs 检索可量化[15]

研究立场对比

阵营 A:继续做 Classic NTP + 规模化,幻觉主要靠更大模型与更好过滤解决

立场 — 标准 NTP 的幂律缩放足够稳健:扩大模型/数据/compute,并用过滤、去重、数据配比提升平均质量,就能在大多数任务上持续变好;跨 doc 的显式上下文恢复属于锦上添花,成本高且难以证明等 compute 优势。

证据:[5][6][7][10][9][8]

反方 — 这条路线解释“平均指标变好”,但对“窗口够了还脑补”的机制解释不足:长文事实性错误会随篇幅累积 [20],闭环 agent 需要环境反馈才能收敛 [21]。仅靠过滤/去重无法把缺失的 Z 变成训练时可见的条件变量,prior 填空仍会在信息不足处接管输出。

判词 — 更务实的定位:Classic NTP 仍是底座,但在 agent 场景把它当作“足够解决幻觉”的方案风险偏高;至少需要在高 I(Y;Z|S) 区域引入 HDP 式的 C 与 mask,作为与规模化并行的主线投入。

阵营 B:HDP/检索式预训练,把检索与证据条件化写进训练分布

立场 — 幻觉是缺失变量 Z 被边缘化后的 prior 填空;解决方式是把 Z 通过链接/检索/工具反馈写回上下文 C,并用 loss mask 把“证据”从监督目标里剥离,让模型学会在证据条件下生成而不是背诵证据。

证据:[12][13][14][15][24][25]

反方 — 主要风险是成本与对照不清:训练时检索会引入系统复杂度,且缺少与“推理时 RAG”在同预算下的直接对比;如果 mask 做得不严,模型会把证据当作要背诵的 y,重复数据效应会放大模板化 [19]

判词 — 一条更稳的读法:先把 Evidence Restitching 限定在“Z 可引用且可验证”的语料(citation/hyperlink/API/tool logs),并强制证据 100% mask;在这个受控子集上跑等 compute 对照,跑通后再扩到更泛的 web 语料。

阵营 C:Intent Inversion 数据重写/反向 prompt/plan,认为“结构化文本”比“更多上下文”更划算

立场 — 很多所谓缺失 Z 的问题,本质是语料噪声与结构不一致导致的可学性差;先用重写把文本变得规范、再用 back-translation 反推 prompt/plan,把隐含任务结构显式化,能用更少 token 买到更高的 learnability-per-token。

证据:[2][1][3][4][26]

反方 — 重写/合成的负迁移风险更隐蔽:分布漂移、模板化、以及“看起来更干净但丢掉关键细节”。此外,若任务需要可引用证据(citation、依赖文件、工具输出),纯生成式反推无法替代真实检索与环境反馈 [14]

判词 — 结论层面的建议:Intent Inversion 作为 HDP 的第一阶段更稳(先结构化、再扩展),但必须配套两类 guardrail:一是用 token 重要性/不可约损失做采样与回放,避免全量重写 [16][17];二是对需要可验证证据的任务,必须接上 Evidence Restitching 的检索式补证据。

阵营 D:轨迹蒸馏/自反思优先,认为 CoT 与 AI feedback 足以补齐 agent 能力

立场 — 收集更强模型的 CoT、自反思与自我修正轨迹,能把 reasoning 与 agent 行为蒸馏到更小/更便宜的模型;相比改预训练语料与检索系统,这条路更快、更贴近产品迭代。

证据:[27][28][29][30]

反方 — 两条负面证据需要被当作默认约束:模仿更强模型输出不等于迁移能力 [22];CoT 在蒸馏设置下未必迁移推理能力 [23]。没有把可验证的 Z(证据/工具反馈)写进上下文并做 mask,轨迹更像“自洽叙事”而不是“可执行计划”。

判词 — 更务实的定位:轨迹蒸馏可以做,但只把它当作“把环境交互结构写进训练分布”的载体;必须按 action/evidence/plan+solution 拆分并配套 mask,且评测要用闭环任务与证据对照来防止自洽但不落地的提升 [21][14]

实践要点

可执行清单(偏工程落地,带边界):
1) 先做证据可验证的 HDP:优先 citation/hyperlink/API/tool logs 这类 Z 可引用语料,再谈泛 web。原因是 Evidence Restitching 的对照更干净,能直接测“证据在窗口内时是否还脑补” [12][13][20]
2) loss mask 先立规矩:证据 C 100% mask;action token 100% mask;plan 与最终产物 100% 计 loss。不要让模型对证据文本做 NTP,否则会把检索当成背诵 [14][16]
3) 不要平均扩展所有 doc:用 proxy(I(Y;Z|S)) 做 gating。工程近似:在 IDP 模型上测“加入候选 C 后 loss 下降”或“预测分布对 C 的敏感度”,只扩展 top 10–20% 片段 [17][18]
4) Intent Inversion 作为第一阶段更稳:先重写/规范化再扩展,减少噪声放大;但不要全量重写,先在高价值域(代码、技术文档)跑通质量控制 [2][1][4]
5) 轨迹回炉只收“可检查中间态”:不要把长 CoT 当监督目标;把 CoT 压成可执行 plan(步骤、约束、要查的证据),并用环境反馈闭环评测,避免自洽叙事 [22][23][21]
6) 评测必须做两组对照:同一问题分别在“证据缺失”和“证据已给定且在窗口内”下测 hallucination rate/引用正确率;否则无法区分 prior 填空与检索失败 [20][13]
7) 预算与 scaling 联合调参:引入检索式 C 后,不要沿用无检索条件下的 token:params 直觉;至少在小规模上做 matched-compute sweep,验证记忆 vs 检索的 tradeoff 是否符合预期 [15][7]

悬而未决的问题

  • Q1.当所需证据被显式放进窗口内时,长上下文模型是否仍会产生同等级别的长文事实性错误?需要公开的“证据在/不在窗口内”成对评测与消融。
  • Q2.训练时检索增强(HDP/检索式 C)与推理时 RAG,在相同模型规模与 compute 预算下的直接对比还不够多;尤其缺少“同一检索器、同一语料、同一评测”的 matched setup [15][13]
  • Q3.是否存在 equal-compute 结果:reverse-engineered 的合成上下文/反推 prompt/plan 明确优于纯过滤、去重或增加原始数据?目前更多是“看起来更省 token”的证据,缺少严格对照 [2][1][9]
  • Q4.哪些训练时的 foresight/plan-before-act 监督,在 agent 基准上稳定优于 hindsight/self-reflection 轨迹?现有负面证据提示需要更可检查的中间态定义 [23][22]
  • Q5.合成增强与 AI-feedback 蒸馏的最强负迁移边界在哪里:哪些任务/域会因模板化、分布漂移而掉能力?需要公开失败案例与诊断工具,而不仅是平均分提升 [22][19]
  1. [1]
    Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv, 2024论文
  2. [2]
    Pratyush Maini, Skyler Seto, Richard He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
  3. [3]
    Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer. Self-Alignment with Instruction Backtranslation. arXiv, 2023论文
  4. [4]
    Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang. Magicoder: Empowering Code Generation with OSS-Instruct. arXiv / ICML 2024, 2023论文
  5. [5]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
  6. [6]
    Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
  7. [7]
    Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
  8. [8]
    Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
  9. [9]
    Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
  10. [10]
    Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
  11. [11]
    Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
  12. [12]
    Michihiro Yasunaga, Jure Leskovec, Percy Liang. LinkBERT: Pretraining Language Models with Document Links. arXiv, 2022论文
  13. [13]
    Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua. In-Context Retrieval-Augmented Language Models. arXiv, 2023论文
  14. [14]
    Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文
  15. [15]
    Karan Singh, Michael Yu, Varun Gangal, Zhuofu Tao, Sachin Kumar. To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining. arXiv, 2026论文
  16. [16]
    Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
  17. [17]
    Simin Fan, Martin Jaggi. Irreducible Curriculum for Language Model Pretraining. arXiv, 2023论文
  18. [18]
    Angela H. Jiang, Daniel L.-K. Wong, Giulio Zhou, David G. Andersen, Jeffrey Dean. Accelerating Deep Learning by Focusing on the Biggest Losers. arXiv, 2019论文
  19. [19]
    Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain. Scaling Laws and Interpretability of Learning from Repeated Data. arXiv, 2022论文
  20. [20]
    Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu. Long-form factuality in large language models. arXiv, 2024论文
  21. [21]
    Islem Bouzenia, Premkumar Devanbu, Michael Pradel. RepairAgent: An Autonomous, LLM-Based Agent for Program Repair. arXiv, 2024论文
  22. [22]
    Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu. The False Promise of Imitating Proprietary LLMs. arXiv, 2023论文
  23. [23]
  24. [24]
    Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez. Gorilla: Large Language Model Connected with Massive APIs. arXiv, 2023论文
  25. [25]
    Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv, 2023论文
  26. [26]
    Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze. LongForm: Effective Instruction Tuning with Reverse Instructions. arXiv, 2023论文
  27. [27]
    Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao. Self-Refine: Iterative Refinement with Self-Feedback. arXiv, 2023论文
  28. [28]
    Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao. WizardLM: Empowering large pre-trained language models to follow complex instructions. arXiv, 2023论文
  29. [29]
    Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
  30. [30]
    Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv, 2023论文

论文列表

HDP 的语料重写与反向上下文工程(Intent Inversion)(4)

把“输出文本”当作可被重写/可反推其隐含 prompt/plan 的对象:先清洗与结构化,再用 back-translation 式方法合成指令/计划,使训练从“覆盖更多 token”转向“每 token 学到更可迁移的结构”。

10

ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale

Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu2024年9月25日
把“每条预训练样本”当作可被专家式模型重写的对象,强调 doc-level intervention 的可规模化性:不是只做过滤/去重,而是对样本内容做结构化改写以提升可学性与一致性,为 HDP 的 Intent Inversion(生成式恢复上下文)提供工程模板。
9

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Pratyush Maini,Skyler Seto,Richard He Bai,David Grangier,Yizhe Zhang,Navdeep Jaitly2024年1月29日
给出“重写 web 文本以省 token”的可复现实例:用 LLM 把网页改写成更一致的风格与结构,在相近下游表现下减少训练 token。对 HDP 的启发是:先把 seed doc 变成更可被模型学习的“规范形态”,再做超链接/引用扩展。
8

Self-Alignment with Instruction Backtranslation

Xian Li,Ping Yu,Chunting Zhou,Timo Schick,Omer Levy,Luke Zettlemoyer2023年8月11日
把“现成文本”当作答案,反推一个合理指令作为输入,形成可规模化的 prompt recovery。映射到 HDP:把 code diff、issue 讨论、论文段落等当作“解”,反向合成 plan/prompt,使训练显式看到 Z 的结构而不是把 Z 边缘化进 prior。
8

Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei,Zhe Wang,Jiawei Liu,Yifeng Ding,Lingming Zhang2023年12月4日
在 code 域用“开源片段→合成指令+解答”做数据扩增,证明 Intent Inversion 在工程上可跑通。对 HDP 的差异点是:从 instruction tuning 扩到 pretraining 时,需要更严格的 loss mask,把“证据/上下文”与“要学会生成的计划/补丁”分开计损失。

从“覆盖更多 token”到“每 token 更可学”:选择性损失与课程(4)

HDP 的成本主要来自额外上下文与合成轨迹;要让 ROI 成立,需要承认 token 的边际价值不均匀,并把 loss/采样预算集中在高 I(Y;Z|S) 或高不可约损失的片段上。

8

Rho-1: Not All Tokens Are What You Need

Zhenghao Lin,Zhibin Gou,Yeyun Gong,Xiao Liu,Yelong Shen2024年4月11日
明确反对“所有 token 同权”的 NTP 默认设置,提出 token 重要性应进入训练目标或采样。对 HDP:C 的引入会让“哪些 token 该计 loss”更关键,尤其是证据 C 不该被当作 y 学会背诵。
7

Irreducible Curriculum for Language Model Pretraining

Simin Fan,Martin Jaggi2023年10月23日
用不可约损失/可学性指标做课程学习,说明“更难/更信息密度”的样本应被上权重。对 HDP:cognitive gap 检测可以借用类似指标,把预算投到 I(Y;Z|S) 高的片段而不是平均扩展所有 doc。
6

Accelerating Deep Learning by Focusing on the Biggest Losers

Angela H. Jiang,Daniel L.-K. Wong,Giulio Zhou,David G. Andersen,Jeffrey Dean2019年10月2日
提供一个更朴素但可工程化的策略:按 loss 选样本/片段。对 HDP:可把“加入 C 后 loss 下降幅度”当作 proxy,优先扩展那些对证据敏感的样本,而不是对所有样本做同等成本的 hyper-doc 扩展。
6

Scaling Laws and Interpretability of Learning from Repeated Data

Danny Hernandez,Tom Brown,Tom Conerly,Nova DasSarma,Dawn Drain2022年5月21日
讨论重复数据/上权重对 scaling 的影响,给“对高价值片段重复训练”提供理论与实证背景。对 HDP:hyper-doc 扩展常常意味着对同一 seed doc 的多次变体训练,需要用重复数据的视角评估是否在买到泛化还是在过拟合模板。

Agent 的“先计划/先求证”:长文事实性与轨迹蒸馏的边界(4)

把“窗口够了还脑补”落到可测:长文事实错误、工具动作幻觉、以及 CoT/自反思蒸馏的负迁移。HDP 需要把 hindsight 变成可执行的 foresight(plan-before-act),而不是只学会事后解释。

8

Long-form factuality in large language models

Jerry Wei,Chengrun Yang,Xinying Song,Yifeng Lu,Nathan Hu2024年3月27日
把“长输出的事实性”单独拉出来评测,暴露出即使模型能生成长文,事实错误仍会随篇幅累积。对 HDP:这类错误更像缺失 Z 的 prior 填空,而不是窗口不够;评测上应把“证据已在窗口内”与“证据缺失”分开。
7

RepairAgent: An Autonomous, LLM-Based Agent for Program Repair

Islem Bouzenia,Premkumar Devanbu,Michael Pradel2024年3月25日
展示 agent 在真实环境中需要多轮“读日志—改代码—再验证”的闭环,单靠 prompt prior 不够。对 HDP:训练数据应包含工具反馈/测试失败等 Z,并通过 mask 让模型学会在反馈驱动下更新计划,而不是把反馈当成可背诵文本。
7

The False Promise of Imitating Proprietary LLMs

Arnav Gudibande,Eric Wallace,Charlie Snell,Xinyang Geng,Hao Liu2023年5月25日
对“只蒸馏更强模型输出就能迁移能力”给出负面证据。对 HDP:如果只把 agent 轨迹当作文本来模仿,可能学到表面格式与事后解释;需要把可验证的 Z(工具反馈、引用证据)纳入 C,并用评测区分“会说”与“会做”。
7

Effectiveness of Chain-of-Thought in Distilling Reasoning Capability from Large Language Models

Cong-Thanh Do,Rama Doddipatla,Kate Knill2025年11月7日
直接质疑 CoT 用于蒸馏时是否真的迁移推理能力。对 HDP:更稳的做法是把 CoT 从“解释文本”改成“可执行计划/可检查中间状态”,并把计划 token 计 loss、工具 action token 不计 loss,减少自洽但不落地的轨迹。