TL;DR
长上下文工程(PE/packing/数据配方)解决的是“能塞进来、能跑起来”;但 agent 线上更常见的失败是“证据其实存在于世界里,窗口也够大,模型仍用 p(y|S) 的 prior 填空”。标准 NTP teacher-forcing 会把 doc 边界外的相关变量 Z 边缘化进 p(z|S),于是 p(y|S)=∫p(y|S,z)p(z|S)dz 的归纳偏置就成了幻觉来源。更可落地的改写是 HDP:离线 reverse-engineer 被切掉的 Z(引用/超链接/依赖文件/工具反馈/计划),把它们作为上下文 C 注入训练,优化 log p(),并用 loss mask 明确“证据/动作不计 loss,计划与解答计 loss”。Evidence Restitching 用链接图/检索/工具日志把可引用的 Z 拉回 [12][14][13];Intent Inversion 用重写与 back-translation 从 doc 反推 prompt/plan [1][2][3][4]。ROI 的关键不在把所有 doc 都扩一遍,而在用 token 重要性/可学性指标把预算投到 I(Y;Z|S) 高的位置 [16][17],并用对照评测回答:证据已在窗口内时,模型是否仍会长文事实性崩坏 [20]。 落地时先按 seed 分三轨:GitHub 以可检索依赖做 ERS、以 review 约束做 IVI;Web 先去噪再 ERS、常用 IVI 反推意图;通用数据必须配合 Rho-1/课程与 selective bp 管住价值方差。
核心断言
§1 失败模式重述:窗口够了还脑补,是训练目标把 Z 边缘化
把 agent 幻觉归因于“上下文窗口不够”会误导投入。更贴近线上故障的是:证据 Z(引用来源、依赖文件、工具返回、测试日志)存在于世界中,甚至能放入窗口,但模型仍倾向用 p(y|S) 的 prior 补全缺口。标准 NTP teacher-forcing 在 doc 边界内训练 p(y|S)=∫p(y|S,z)p(z|S)dz,将 z 的不确定性压进 p(z|S);当 S 对 y 信息不足时,输出由 prior 主导。长文事实性基准更直接暴露这种“随篇幅累积的缺证据填空”:即使能生成长输出,事实错误仍持续出现 [20]。对 agent 任务,RepairAgent 这类闭环环境进一步说明:没有把环境反馈作为上下文条件化,模型会在多轮交互中漂移 [21]。因此 HDP 的核心不是把 S 拉长,而是把 Z 变成训练时可见的 C,并通过 loss mask 明确 C 是证据而不是目标文本。否则,重复训练同一类证据模板会触发“重复数据的 scaling 行为”,买到的是模板熟练,而不是可迁移的求证习惯 [19]。这也解释了为什么仅靠扩大标准 NTP 的规模仍能提升平均指标但不必然解决 groundedness:Kaplan et al. [5]、Rae et al. [6]、Hoffmann et al. [7] 描述的是同一目标下的平滑缩放,而不是把缺失变量显式纳入条件化。
把 Z 写回 C 的价值不在“更长”,而在“让模型在训练时就习惯证据条件化”,否则 p(y|S) 的 prior 会在信息不足处接管输出 [20]。
§2 IDP → HDP 的两条工艺链:检索式补证据 vs 生成式反推上下文
HDP 的 C 构造可拆成两条互补工艺链。Evidence Restitching 适用于“Z 可被引用/检索”的语料:超链接、citation、依赖文件、API 文档、工具调用结果。LinkBERT 以链接文档作为预训练单元,证明跨 doc 组织能系统性注入外部依赖 [12];RALM 将检索文档拼入上下文即可改善事实性,说明 conditioning 本身有收益 [13];Toolformer 把工具输出写回训练样本,给出“环境反馈 Z 的可合成版本” [14]。Intent Inversion 适用于“Z 不可稳定检索但可被反推”的语料:噪声 web、代码片段、讨论串、commit/PR。Rephrasing the Web 通过重写提升 web 文本一致性,等价于显式化隐含结构,从而用更少 token 学到同样模式 [2];Instruction Backtranslation 与 LongForm 的 reverse-instruction 执行“输出→输入”反推,把缺失的 prompt/intent 作为 Z 的代理写回 [3][26];ProX 将 doc-level 重写规模化,重点不是过滤,而是逐样本改写 [1];Magicoder 在 code 域用 OSS 片段合成指令数据,展示工程可行性 [4]。分界可以落到一个操作性问题:seed doc 的 Z 能否通过稳定检索得到可引用证据?能则优先 Evidence Restitching;不能则 Intent Inversion 更接近“补出隐含任务结构”。但两条链共享同一底层纪律:loss mask。证据 C 与 action token 不计 loss,计划/解答计 loss;否则模型会把“检索到的证据”当成要背诵的目标文本,反而加重模板化与泄漏。
| 维度 | Evidence Restitching:检索/链接/工具补证据 | Intent Inversion:重写/反向 prompt/plan |
|---|---|---|
| Z 的形态 | ||
| 主要成本 | 检索/抓取与去噪;上下文长度膨胀 [13] | 生成重写与质量控制;分布漂移风险 [2] |
| loss mask 建议 | 证据 C 100% mask;action token mask;答案/引用指针计 loss [14] | 重写后的“规范文本”计 loss;反推的 plan/prompt 计 loss;生成过程 token 不计 loss [3] |
| 更适合的 seed |
§3 预算与可学性:用 token 重要性驱动“只扩展值得扩展的地方”
HDP 的风险,是把“补上下文”退化为无差别的 token 膨胀:C 越长,训练越贵,也更容易放大噪声与模板。更稳的路线,是承认 token 的边际价值不均匀,将扩展预算绑定到可学性信号。Rho-1 指出,uniform NTP 对所有 token 同权是次优的,训练应区分 token 重要性 [16];Irreducible Curriculum 用不可约损失刻画“哪些样本更值得学”,给出比 domain-level 采样更细粒度的选择依据 [17];Selective-Backprop 则给出更直接的工程近似:优先高 loss 样本以加速学习 [18]。接到 HDP 上,这些信号可以形成可执行的 gating:先在 IDP 模型上测加入候选 C 后的 loss 下降幅度,或预测分布对 C 的敏感度,作为 I(Y;Z|S) 的 proxy;只对 proxy 高的片段做 Evidence Restitching 检索扩展或 Intent Inversion 反推重写。重复数据的 scaling 结果强调一个反直觉点:高价值片段可以被重复训练,但必须监控模型是在学习可迁移结构,还是在过拟合模板 [19]。这也对照了经典 scaling law 的平均化视角:Kaplan et al. [5]、Muennighoff et al. [11] 关注总体 token/compute 的幂律关系,而 HDP 关注 C 与 mask 如何改写每个 token 的可学性。
HDP 的 ROI 不靠“把所有 doc 都扩一遍”,而靠“只在模型对证据敏感的位置扩展”,并把证据 token 从 loss 里拿掉 [16][17]。
§4 训练时补证据 vs 推理时 RAG:何时该把检索写进语料
推理时 RAG 的优势是侵入小、上线快;但它默认模型会使用证据,这个假设在 agent 场景常失效:模型可能忽略证据,或把证据当装饰,继续按 prior 生成。RALM 表明,将检索文档拼入上下文可提升事实性,但仍把检索行为留在推理时 [13]。HDP 的主张是把检索纳入训练分布:训练时反复呈现“先检索/先调用工具→读证据→再生成”的结构,并用 mask 将 action 与证据从监督信号中剥离 [14]。RAG-considerate scaling law 进一步把这个选择形式化为调参问题:固定 compute 下,参数记忆与外部检索存在 tradeoff,说明“先预训练再加 RAG”未必落在同一最优点 [15]。对照经典 compute-optimal 结论,Chinchilla 的 token:params 配置是在无检索条件化的 NTP 下得到的 [7];一旦系统性引入 C,最优 token 分配、重复策略和检索器质量就会耦合。工程上更稳的路径是两阶段:先用 Intent Inversion 结构化语料(降噪、显式化 plan/prompt),再对高 gap 片段做 Evidence Restitching 检索扩展;这样把检索成本集中到确实需要证据的位置,而不是让整个训练依赖昂贵的 online retrieval。
§5 轨迹回炉:把 hindsight 变成 foresight,而不是自洽的事后解释
agent 训练中的常见捷径,是收集更强模型的 CoT/自反思轨迹并蒸馏;但两条负面证据应作为默认风险处理:一是“模仿输出不等于迁移能力”,尤其当监督信号是不可验证的解释文本时 [22];二是 CoT 在蒸馏场景下未必带来推理能力迁移 [23]。更稳的替代做法,是把轨迹拆成三类 token:action(工具调用/检索查询)、evidence(工具返回/检索结果/日志)、plan+solution(下一步计划与最终产物)。训练时对 action 与 evidence 做 mask,只对 plan 与 solution 计 loss;监督信号因此更接近“可执行的 foresight”,而不是“事后把过程讲圆”。Toolformer 提供了把工具反馈写回训练样本的范式,但要避免模型学会调用格式而不是调用决策,mask 是必要条件 [14]。对代码 agent,RepairAgent 这类闭环任务说明:计划必须能被环境反馈修正,单次生成的长 CoT 价值有限 [21]。评测上,应将“计划质量”与“最终 patch/答案质量”分开,并加入“证据已给定”与“证据缺失”两种设置,避免把 prior 填空误判为推理能力。
§6 按数据源的四条落地线:GitHub commit/PR · 学术出版(arXiv + OpenReview + rebuttal)· Web 网页 · 通用数据
同一套 HDP(把被 doc 边界切掉的 Z 写回为 C)落地时,首要工程决策不是模型结构,而是 seed 语料的“可回收依赖类型”。GitHub 轨道天然给出 (C,Y) 对:diff 与 message/review thread 之间存在可对齐的因果链,Z 通常是“为何改、改到哪、如何验证”。这部分 Z 多数可通过仓库内链接、issue 与 CI 结果稳定检索,因此 ERS 主要是在补齐依赖文件、issue、测试日志并拼回上下文;IVI 则把 reviewer 的隐含约束反推成可执行的修复指令或验收标准,接近代码域指令合成 [4][21]。学术出版轨道结构上最接近 GitHub:diff 换成 v1→vN 的 arXiv 版本差异,review thread 换成 OpenReview/评审讨论串,CI 换成 rebuttal 中作者对每条意见的“接受/保留”回应。(C,Y) 对同样天然:评审意见是 C,rebuttal 与下一版正文修改是 Y,且两端都可对齐检索。ERS 沿这条链补回旧版删掉的推理段、附录与被 rebut 的引文;IVI 把评审意见反推成“这个阈值为什么设成 x / 这段为什么要存在”的训练指令,把“论文定稿后自信的断言”倒回“当时需要解决的疑问”,并把 rebuttal 本身视作一条自我精炼轨迹 [26][12][27]。相对 GitHub,这里的单位更稀疏、validator 更弱(只有 reviewer,没有 CI),loss mask 必须更保守:评审原文与被驳回的论点默认 mask,只对作者显式保留/改写的结论,以及 rebuttal 中“为什么改 / 为什么不改”的论证计 loss,避免模型学成“复读最终版论文”。Web 轨道的问题相反:链接图丰富但噪声高,朴素 ERS 容易把低质邻居当证据。实践上需要先做页面级去噪/重写,剥离模板与广告,再用 citation/reference block 锚定“可引用证据” [9][2]。IVI 在 web 上更常用:从答案页/教程页反推用户意图与缺失前提,把 Z 代理成 prompt/约束写回,使弱信号变成可学习的任务结构 [3][26]。通用数据(书/论文/讨论)同时有可用引用链,也有极不均匀的单位价值。ERS 可沿 citation graph 做跨文档补证据,IVI 可用 back-translation/反向指令补齐“结论→问题/设定”;但训练必须引入 Rho-1/不可约课程式的 token 预算与选择性反传,否则高噪段落会吞掉梯度与上下文预算 [12][16][17][18]。四条轨道共同的纪律是:把 C 当作条件,而不是背诵目标;证据/工具输出/引用块默认 mask,只对计划、决策与最终回答计 loss,防止模型把“检索到的文本”学成模板化复述 [13][14]。
| 数据源 | 典型 seed / 可提取信号 | Evidence Restitching 动作 | Intent Inversion 动作 | loss mask 纪律 | 评测钩子 |
|---|---|---|---|---|---|
| GitHub commit/PR/review | diff + commit message + review thread;可追溯到 issue/文件/测试 | 补齐依赖文件、相关 PR/issue、CI/测试日志并拼回上下文 [21] | 把 review 意图反推成“修复指令/验收标准/最小复现”并生成训练对 [4] | diff/证据日志 mask;仅对计划、修改说明、最终补丁/回答计 loss | 给定 issue+仓库检索,生成可通过测试的补丁;对比无 C 的修复成功率 [21] |
| 学术出版(arXiv + OpenReview + rebuttal) | v1→vN 版本差异 + 评审讨论串 + 作者 rebuttal;可追溯到被引论文/附录 | 沿版本差异与 OpenReview 讨论补齐被删推理段、附录与被驳引文 [12] | 评审原文与被驳论点默认 mask;loss 只落在作者保留/改写的结论与 rebuttal 的“为什么改/为什么不改”论证 | 给定 v1 + review,生成能通过下一版保留率测试的修改建议;对比无 C 的改稿质量 [27] | |
| Web 网页 | 正文+模板噪声+超链接;reference/citation block 可抓取 | 从答案页反推缺失问题/约束,把 Z 写回为 prompt/前提 [3] | 引用块与检索片段默认 mask;只对生成的任务设定与最终回答计 loss [13] | 长文事实问答:给定检索证据时的可验证性/引用一致性提升 [13] | |
| 通用数据(书/论文/讨论) | 章节/论文段落+引用链+讨论串;单位价值差异大 | 沿 citation graph 做跨文档补证据与反向引用对齐 [12] | 跨文档引用问答/综述生成:检索到的引用是否被正确使用而非复述 [12] |
同一套 HDP 工艺,落地差异主要由 seed 的“依赖是否可稳定检索”与“单位价值方差”决定;其余都回到同一条 loss mask 纪律。
时间线
研究立场对比
阵营 A:继续做 Classic NTP + 规模化,幻觉主要靠更大模型与更好过滤解决
立场 — 标准 NTP 的幂律缩放足够稳健:扩大模型/数据/compute,并用过滤、去重、数据配比提升平均质量,就能在大多数任务上持续变好;跨 doc 的显式上下文恢复属于锦上添花,成本高且难以证明等 compute 优势。
反方 — 这条路线解释“平均指标变好”,但对“窗口够了还脑补”的机制解释不足:长文事实性错误会随篇幅累积 [20],闭环 agent 需要环境反馈才能收敛 [21]。仅靠过滤/去重无法把缺失的 Z 变成训练时可见的条件变量,prior 填空仍会在信息不足处接管输出。
判词 — 更务实的定位:Classic NTP 仍是底座,但在 agent 场景把它当作“足够解决幻觉”的方案风险偏高;至少需要在高 I(Y;Z|S) 区域引入 HDP 式的 C 与 mask,作为与规模化并行的主线投入。
阵营 B:HDP/检索式预训练,把检索与证据条件化写进训练分布
立场 — 幻觉是缺失变量 Z 被边缘化后的 prior 填空;解决方式是把 Z 通过链接/检索/工具反馈写回上下文 C,并用 loss mask 把“证据”从监督目标里剥离,让模型学会在证据条件下生成而不是背诵证据。
反方 — 主要风险是成本与对照不清:训练时检索会引入系统复杂度,且缺少与“推理时 RAG”在同预算下的直接对比;如果 mask 做得不严,模型会把证据当作要背诵的 y,重复数据效应会放大模板化 [19]。
判词 — 一条更稳的读法:先把 Evidence Restitching 限定在“Z 可引用且可验证”的语料(citation/hyperlink/API/tool logs),并强制证据 100% mask;在这个受控子集上跑等 compute 对照,跑通后再扩到更泛的 web 语料。
阵营 C:Intent Inversion 数据重写/反向 prompt/plan,认为“结构化文本”比“更多上下文”更划算
立场 — 很多所谓缺失 Z 的问题,本质是语料噪声与结构不一致导致的可学性差;先用重写把文本变得规范、再用 back-translation 反推 prompt/plan,把隐含任务结构显式化,能用更少 token 买到更高的 learnability-per-token。
反方 — 重写/合成的负迁移风险更隐蔽:分布漂移、模板化、以及“看起来更干净但丢掉关键细节”。此外,若任务需要可引用证据(citation、依赖文件、工具输出),纯生成式反推无法替代真实检索与环境反馈 [14]。
判词 — 结论层面的建议:Intent Inversion 作为 HDP 的第一阶段更稳(先结构化、再扩展),但必须配套两类 guardrail:一是用 token 重要性/不可约损失做采样与回放,避免全量重写 [16][17];二是对需要可验证证据的任务,必须接上 Evidence Restitching 的检索式补证据。
阵营 D:轨迹蒸馏/自反思优先,认为 CoT 与 AI feedback 足以补齐 agent 能力
立场 — 收集更强模型的 CoT、自反思与自我修正轨迹,能把 reasoning 与 agent 行为蒸馏到更小/更便宜的模型;相比改预训练语料与检索系统,这条路更快、更贴近产品迭代。
反方 — 两条负面证据需要被当作默认约束:模仿更强模型输出不等于迁移能力 [22];CoT 在蒸馏设置下未必迁移推理能力 [23]。没有把可验证的 Z(证据/工具反馈)写进上下文并做 mask,轨迹更像“自洽叙事”而不是“可执行计划”。
判词 — 更务实的定位:轨迹蒸馏可以做,但只把它当作“把环境交互结构写进训练分布”的载体;必须按 action/evidence/plan+solution 拆分并配套 mask,且评测要用闭环任务与证据对照来防止自洽但不落地的提升 [21][14]。
实践要点
可执行清单(偏工程落地,带边界):
1) 先做证据可验证的 HDP:优先 citation/hyperlink/API/tool logs 这类 Z 可引用语料,再谈泛 web。原因是 Evidence Restitching 的对照更干净,能直接测“证据在窗口内时是否还脑补” [12][13][20]。
2) loss mask 先立规矩:证据 C 100% mask;action token 100% mask;plan 与最终产物 100% 计 loss。不要让模型对证据文本做 NTP,否则会把检索当成背诵 [14][16]。
3) 不要平均扩展所有 doc:用 proxy(I(Y;Z|S)) 做 gating。工程近似:在 IDP 模型上测“加入候选 C 后 loss 下降”或“预测分布对 C 的敏感度”,只扩展 top 10–20% 片段 [17][18]。
4) Intent Inversion 作为第一阶段更稳:先重写/规范化再扩展,减少噪声放大;但不要全量重写,先在高价值域(代码、技术文档)跑通质量控制 [2][1][4]。
5) 轨迹回炉只收“可检查中间态”:不要把长 CoT 当监督目标;把 CoT 压成可执行 plan(步骤、约束、要查的证据),并用环境反馈闭环评测,避免自洽叙事 [22][23][21]。
6) 评测必须做两组对照:同一问题分别在“证据缺失”和“证据已给定且在窗口内”下测 hallucination rate/引用正确率;否则无法区分 prior 填空与检索失败 [20][13]。
7) 预算与 scaling 联合调参:引入检索式 C 后,不要沿用无检索条件下的 token:params 直觉;至少在小规模上做 matched-compute sweep,验证记忆 vs 检索的 tradeoff 是否符合预期 [15][7]。
悬而未决的问题
- Q1.当所需证据被显式放进窗口内时,长上下文模型是否仍会产生同等级别的长文事实性错误?需要公开的“证据在/不在窗口内”成对评测与消融。
- Q2.训练时检索增强(HDP/检索式 C)与推理时 RAG,在相同模型规模与 compute 预算下的直接对比还不够多;尤其缺少“同一检索器、同一语料、同一评测”的 matched setup [15][13]。
- Q3.是否存在 equal-compute 结果:reverse-engineered 的合成上下文/反推 prompt/plan 明确优于纯过滤、去重或增加原始数据?目前更多是“看起来更省 token”的证据,缺少严格对照 [2][1][9]。
- Q4.哪些训练时的 foresight/plan-before-act 监督,在 agent 基准上稳定优于 hindsight/self-reflection 轨迹?现有负面证据提示需要更可检查的中间态定义 [23][22]。
- Q5.合成增强与 AI-feedback 蒸馏的最强负迁移边界在哪里:哪些任务/域会因模板化、分布漂移而掉能力?需要公开失败案例与诊断工具,而不仅是平均分提升 [22][19]。
- [1]Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv, 2024论文
- [2]Pratyush Maini, Skyler Seto, Richard He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
- [3]Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer. Self-Alignment with Instruction Backtranslation. arXiv, 2023论文
- [4]Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang. Magicoder: Empowering Code Generation with OSS-Instruct. arXiv / ICML 2024, 2023论文
- [5]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [6]Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann. Scaling Language Models: Methods, Analysis & Insights from Training Gopher. arXiv, 2021论文
- [7]Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai. Training Compute-Optimal Large Language Models. arXiv, 2022论文
- [8]Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
- [9]Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. arXiv, 2023论文
- [10]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
- [11]Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus. Scaling Data-Constrained Language Models. arXiv, 2023论文
- [12]Michihiro Yasunaga, Jure Leskovec, Percy Liang. LinkBERT: Pretraining Language Models with Document Links. arXiv, 2022论文
- [13]Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua. In-Context Retrieval-Augmented Language Models. arXiv, 2023论文
- [14]Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文
- [15]Karan Singh, Michael Yu, Varun Gangal, Zhuofu Tao, Sachin Kumar. To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining. arXiv, 2026论文
- [16]Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen. Rho-1: Not All Tokens Are What You Need. arXiv, 2024论文
- [17]
- [18]Angela H. Jiang, Daniel L.-K. Wong, Giulio Zhou, David G. Andersen, Jeffrey Dean. Accelerating Deep Learning by Focusing on the Biggest Losers. arXiv, 2019论文
- [19]Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain. Scaling Laws and Interpretability of Learning from Repeated Data. arXiv, 2022论文
- [20]Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu. Long-form factuality in large language models. arXiv, 2024论文
- [21]Islem Bouzenia, Premkumar Devanbu, Michael Pradel. RepairAgent: An Autonomous, LLM-Based Agent for Program Repair. arXiv, 2024论文
- [22]Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu. The False Promise of Imitating Proprietary LLMs. arXiv, 2023论文
- [23]Cong-Thanh Do, Rama Doddipatla, Kate Knill. Effectiveness of Chain-of-Thought in Distilling Reasoning Capability from Large Language Models. arXiv, 2025论文
- [24]Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez. Gorilla: Large Language Model Connected with Massive APIs. arXiv, 2023论文
- [25]Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv, 2023论文
- [26]Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze. LongForm: Effective Instruction Tuning with Reverse Instructions. arXiv, 2023论文
- [27]Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao. Self-Refine: Iterative Refinement with Self-Feedback. arXiv, 2023论文
- [28]Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao. WizardLM: Empowering large pre-trained language models to follow complex instructions. arXiv, 2023论文
- [29]Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
- [30]Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv, 2023论文