📚Papers

4D Context Scaling:Hyper-Doc 预训练的跨域统一框架(空间 · 时间 · 语义 · 编排)Part III

Hyper-Doc预训练的统一结构范式与跨域落地指南

13 篇论文·2026年4月21日

作者@Thor·ep-20260214160829-csjmc

60 篇扩展证据(支持 19 · 反证 10 · 拓展 29 · 切线 2)·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第三篇聚焦分类视角;`context-scaling-pretrain`(工程视角,pinned)与 `agent-context-scaling-hyperdoc`(认知视角)分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互补。

核心判断要收窄:Hyper-Doc 预训练缺的不是更长窗口,而是对训练时上下文 Z 的结构化描述。4D Context Scaling 将 Z 分解为 3 个实体维度(空间:依赖/引用/导入图;时间:版本/演化/FIM;语义:meta/标签/反馈/检索近邻)与 1 个编排元维度(intent→plan→action→obs→correction 轨迹及差异化 loss mask)。ERS(证据拼接)× IVI(意图反演)的 2×3 配方矩阵把既有 Hyper-Doc 方法放到同一坐标系中;16 个垂直领域的维度强度谱则用于决定先做 ERS 还是先做 IVI。更稳的表述是:4D 框架提供跨域构造规范和 ablation 坐标,性能收益需要在代码补全、科学文献 QA 等具体域内按 same-compute 对照验证,不能直接从 taxonomy 外推。

TL;DR

现有长上下文预训练与 Hyper-Doc 构造研究均未解决上下文 Z 的结构化分解与跨域统一构造问题。4D Context Scaling 框架将 Z 分解为 空间、时间、语义 3 个实体维度与 1 个编排元维度(即 3+1 非对称架构),通过 ERS × IVI 的 2×3 配方矩阵把已发表工作对齐到 6 个可逐格落地的构造 recipe,并为 16 个垂直领域给出维度强度谱(●/◐/○),用来判断 ERS 还是 IVI 在该域更划算。它与 `context-scaling-pretrain`(工程视角)、`agent-context-scaling-hyperdoc`(方法论视角)共同补齐 Context Scaling 三部曲:工程视角回答如何跑长,方法论视角回答如何构造 Z,taxonomy 视角回答 Z 由什么组成、跨域如何统一构造。

核心断言

#1上下文 Z 可分解为 3 个非重叠的实体维度(空间 / 时间 / 语义)加 1 个编排元维度:3 个实体维度是 Z 本身的正交基底,编排维度则决定这些基底以什么轨迹(intent → plan → action → obs → correction)被组织、以及 loss mask 如何分配——这是一个 3+1 非对称结构而不是平级的 4 维框架,不能被 packing 顺序等工程细节替代。
#22×3配方矩阵(ERS/IVI × 3实体维度)每一格都有对应已发表工作,对齐大多数已发表的Hyper-Doc预训练方法。
#316个领域的维度强度谱可预测ERS/IVI的落地ROI,强维度优先用ERS,弱维度优先用IVI,让强维度先吃便宜的 ERS、弱维度保留 IVI 预算。
#4将上下文 Z 的构造从 inference-time RAG 前移到 training-time 4D 增强,让因果注意力真正被 Z 连线而不是只让 memory 被 Z 触发——这是 4D HDP 与 RAG 的本质区别,不是一个可被 prompt engineering 替代的工程细节。
#5本框架与 `context-scaling-pretrain`(工程视角:PE + 数据配方 + packing)、`agent-context-scaling-hyperdoc`(方法论视角:ERS + IVI 两条构造路径)共同构成 Context Scaling 三部曲。工程视角回答『能跑长』,方法论视角回答『怎么造 Z』,本 taxonomy 视角回答『Z 由什么组成、跨域怎么统一构造』——三视角互补,不可相互替代。

§1 4D Context Scaling的核心解构

上下文Z的结构化分解采用3+1非对称架构:空间、时间、语义是实体维度,定义Z的来源;编排是元维度,定义Z的组合规则。两类维度角色独立,不能平级处理。UL2 [15] 验证了数据源与训练目标分离的收益,为该非对称架构提供核心支撑。空间维度刻画实体间的静态依赖关系,包括代码的导入依赖、论文的引用关系、法律条文的援引关系等;时间维度刻画实体的动态演化轨迹,包括代码的版本迭代、论文的修订历史、医疗记录的随访数据等;语义维度刻画实体的属性与关联,包括标签、反馈、相似近邻等。FIM [7] 是通用填缺原语,其邻居关系可对应时间维度的前后版本,也可对应空间维度的同级元素,因此属于工具层而非维度本身。Liu et al. [13] 验证了无结构长上下文堆叠的中间信息丢失问题:单维度长度扩张在中段召回率上存在系统性退化,说明结构化4D增强是突破长上下文性能瓶颈的核心路径。

Hyper-Doc context Z = 3 disjoint entity dimensions + 1 orchestration meta D1. Space structural neighbors - dependency graph - citation graph - import / module link - backlinks Failure if missing: repo edits hallucinate symbol paper grounding wrong prior D2. Time version evolution - commit / PR diff - paper revision history - FIM holes inside doc - snapshot adjacency Failure if missing: stale answers / outdated APIs no rebuttal / refutation D3. Semantics labels + retrieved context - meta tags / topic labels - human / exec feedback - retrieved kNN evidence - backtranslated intent Failure if missing: no test signal / no grounding no intent context for action M1. Orchestration how D1/D2/D3 compose - intent -> plan - plan -> action - action -> obs - obs -> correction Failure if flat: model copies surface, does not learn trajectory Asymmetry: D1/D2/D3 are disjoint entity sources; M1 is the meta-rule deciding loss-mask + ordering. Ablating each dimension yields a different failure mode -- not collapsible into "longer context".
图 1. 图 1.1 4D 上下文 = 3 个非重叠实体维度 + 1 个编排元维度,每个维度的缺失对应不同的失败模式
3+1非对称架构的核心是区分「Z从哪里来」和「Z怎么用」,二者分离可带来训练效率收益。

§2 2×3构造配方矩阵

Hyper-Doc预训练的构造方法可统一归为ERS(证据拼接)与IVI(意图反演)两类,并与3个实体维度交叉,形成2×3配方矩阵;每一格均对应已发表工作。ERS×空间注入跨文件/跨文档依赖,代表工作为RepoCoder [5]、Stack v2 [6]、Galactica [11];ERS×时间拼接版本演化轨迹,代表工作为FIM [7]、diff packing [16];ERS×语义注入相似内容检索结果,代表工作为ReACC [17]。IVI×空间从现有内容反推缺失依赖/引用,代表工作为Galactica [11] 的引用预测任务;IVI×时间从当前版本反推演化历史/修改意图,代表工作为OctoPack [16] 的commit message生成任务、DeepDebug [18] 的bug反推任务;IVI×语义从最终产物反推前置意图/指令,代表工作为ProX [1]、Rephrase-the-Web [2]、Self-Alignment [3]、Magicoder [4]。该矩阵覆盖大多数已发表的Hyper-Doc预训练方法,可作为方法创新的参照系,减少重复设计。

补充:时间轴可拆为「正向轨迹拼接」与「反向意图反推」两条线。前者的代表扩展是 CommitChronicle [19],把 commit-history 打包为 history-aware completion 语料;后者翻转同一份 diff 作为监督信号,反推 commit message。二者共用同一 diff 串,分别对应 ERS×时间 与 IVI×时间 的对偶。语义轴上,Rho-1 [10] 的 selective-language-modeling 可作为 token-level 门控,与 ERS/IVI 叠用:先挑出高信号 token,再决定重写或保留。

2x3 recipe matrix: ERS (evidence restitching) x IVI (intent inversion) Space-driven Time-driven Semantics-driven ERS x Space retrieval restitching stitch dep / citation neighbors code: import-graph context papers: prior-art window ERS x Time history restitching commit / PR adj as ctx paper revisions / rebuttal incremental FIM holes ERS x Semantics labeled restitching prepend tags / labels prepend exec feedback prepend kNN evidence IVI x Space backwards intent w/ structure infer "why this PR touches X" infer "why this paper cites Y" infer module purpose from siblings IVI x Time backwards intent w/ history backtranslate diff -> intent paper revision -> rebuttal goal snapshot diff -> user wish IVI x Semantics backwards intent w/ labels backtranslate output -> instr retrieve evidence -> question tag -> rationale generation M1 orchestration applies on top: each cell becomes intent -> plan -> action -> obs -> correction.
图 2. 图 2.1 2 × 3 配方矩阵:ERS(evidence restitching) × IVI(intent inversion)

§3 跨域维度强度谱与落地验证

不同垂直领域在 3 个实体维度上暴露的结构化信息强度差异显著。用 ●(强)、◐(部分)、○(弱)标注,可形成维度强度谱,并直接决定 ERS / IVI 的落地优先级:强维度优先用 ERS(直接拼接既有结构化信息,成本低、收益高);弱维度优先用 IVI(通过反演生成缺失的结构化信息,补齐覆盖缺口)。§5 给出 16 个领域的完整强度谱与推荐方法。三个代表例:代码领域三个维度均为强,采用 ERS 全维度增强;医疗领域空间维度弱、时间维度强,采用 ERS × 时间 + IVI × 空间 的混合方案(电子病历时间戳丰富,临床指南引用通常隐式);法律领域空间维度强、时间维度部分,采用 ERS × 空间 + IVI × 时间 的混合方案。Stack v2 [6] 在代码领域、Galactica [11] 在科学文献领域的事后对齐结果,均与该谱预测一致。

领域空间强度时间强度语义强度推荐优先方法
代码

ERS全维度

ArXiv论文

ERS为主,IVI补充时间

PR/代码评审

ERS为主,IVI补充语义

医疗

ERS×时间+IVI×空间

Kaggle竞赛

ERS为主,IVI补充空间

对话

ERS×时间/语义+IVI×空间

Web网页

ERS×语义+IVI混合

法律

ERS×空间+IVI×时间

金融

ERS×时间+IVI混合

客服支持

ERS×时间/语义+IVI×空间

教育

ERS×语义+IVI混合

信息学奥赛

ERS为主,IVI补充时间

数学

ERS为主,IVI补充时间

论文评审

ERS为主,IVI补充时间

产品需求文档

ERS×时间/语义+IVI×空间

社交内容

ERS×时间/语义+IVI×空间

16个领域的4D维度强度谱与推荐方法
GitHub Issue (Repo)
86Repo / Codebase 维度主导,Length 次之
学术 Reviewer Discussion
78Multi-Doc Synthesis 主导,Time-Stream 次之
Ops 故障 Postmortem
72Time-Stream 主导,Repo 次之
Web Long-form Article
50Length 主导,其他三轴弱
通用 QA / chat 单轮
284D 都弱;不是 hyper-doc 的目标域
ML 论文 + arXiv 历史
88Time-Stream + Multi-Doc + Length 三轴同时强
图 3. 图 3.1 4D 维度强度谱:对一个代表性域,4 个 scaling 轴的绑定强度并非等大 -- recipe 矩阵不是 domain-uniform

§4 编排层与训练目标设计

编排层将3个实体维度的内容沿intent→plan→action→obs→correction的认知轨迹组装,并施加差异化loss mask:增强的上下文C不计loss,action token不计loss,plan和最终产物计loss。ReAct [8]、STaR [9] 验证了该loss mask规则的有效性。训练过滤阶段需同时使用SemDeDup [12] 做文档级语义去重,并使用Rho-1 [10] 做token级可学习性门控,仅将高学习价值的token纳入loss;单独使用任一方法都会显著削弱质量增益。编排层需与实体维度完全解耦,使同一编排规则可适配不同领域的实体维度内容;UL2 [15] 验证了目标与数据源分离的通用性。需注意,仅蒸馏成功轨迹的方法(如SWE-Gym回放、RL成功轨迹)只是编排层的子集,会丢失错误修正的认知缺口信号,并造成可衡量的泛化下降。

§5 16 领域维度强度谱与推荐方法

下表从「空间 / 时间 / 语义 / 编排」四维标注 16 个领域的强度(● 强且可直接解析,◐ 部分可得需要清洗,○ 大多隐式需要 IVI),并给出对应的主力构造方法。这张强度谱最可落地的交付物是执行顺序:团队可在自己的域内先对 ● 维度执行 ERS,再用 IVI 补齐 ○ 维度缺口。

使用建议:对任意新领域,先用空白 4×4 网格标注 ●/◐/○(强度谱),再在强维度运行 ERS、在弱维度运行 IVI——这形成可复用构造规程。Rho-1 [10] 的 token-level learnability gating 与 SemDeDup [12] 的语义去重是 step-6(filter)的标准组件,可跨领域复用。

领域空间时间语义编排推荐主力 recipe
通用网页 / 博客

ERS×空间(hyperlink 展开) + ERS×语义(tag/评论)

代码仓库 (Git)

全维度 ERS + IVI×语义(commit 意图反推)

arXiv / 论文

ERS×空间( 图) + ERS×时间(v1→v3 diff)

审稿 ↔ rebuttal

ERS×语义(评分/评论) + 编排(多轮闭环)

PR + review comments

全维度 ERS + 编排(comment → edit → CI)

编程竞赛 (OI/CP)

ERS×时间(多次提交链) + 编排(WA→TLE→AC)

数学 / 科学竞赛

IVI×空间(隐式定理援引) + 编排(探索 → 回溯)

Kaggle 数据科学

ERS×时间(实验日志) + ERS×语义(LB 反馈)

法律文书 / 判例

ERS×空间(citation 图) + IVI×时间(审理流转)

医疗 / 临床路径

ERS×时间(EMR 时间线) + IVI×空间(指南引用)

金融研报 / 公告

ERS×空间(财务链) + ERS×时间(季度序列)

客服 / 工单

编排(用户请求 → 建议 → 反馈) + ERS×语义

教育 / 教科书

ERS×空间(交叉引用) + IVI×语义(学习目标)

多轮对话 / 聊天

编排(意图 → 回复 → 反馈) + IVI×空间(隐式引用)

PRD / 设计文档

全维度 ERS + 编排(评审 → 修改)

社交 / 论坛 (Reddit/X)

ERS×空间(@/引用) + ERS×语义(点赞/立场)

16 领域 4D 强度谱与推荐主力构造 recipe
Code repos -- D1 Space
95import / dep graph
arXiv papers -- D1 Space
88citation graph
OS commits / PRs -- D2 Time
92diff history
Wiki revisions -- D2 Time
78edit history
Math QA -- D3 Semantics
90verifier signal
Web search docs -- D3 Semantics
82kNN retrieval
Long fiction -- D2 Time
60narrative arc
Legal / contract -- D3 Semantics
75tagged clauses
Bio papers -- D1 Space
85shared-protocol graph
Customer dialog -- D3 Semantics
70intent labels
单位:dimension dominance score
图 4. 图 5.1 16 个垂直领域的主导维度强度 (illustrative;每个领域选一个主导 D1/D2/D3 的维度量)

§6 与相邻方法的 6 条对照(Hyper-Doc vs. 已有范式)

谁把「跨文档关联」放到哪个阶段

Hyper-Doc 预训练不替代既有范式;它把「跨文档 / 跨版本 / 跨意图」这一结构层从推理时或后训练时下沉到预训练数据侧。以下六条对照界定 Hyper-Doc 相对各相邻范式的位置与边界:

· vs. 纯 RAG(推理时检索) — RAG 将跨文档关联留到推理时,同时受 retriever 召回与 context window 约束;Hyper-Doc 将同类信号作为预训练分布的一部分锚进权重 [2303.12570, 2203.07722]。

· vs. IDP + packing — 纯扩窗口 + token-level packing 只改变「每次能看多少」;Hyper-Doc 在此之上显式建模「文档间依赖」,让长窗口中的 token 具备可学习结构,而不是单纯序列拼接 [2207.14255, 2308.07124]。

· vs. 轨迹蒸馏 — 轨迹蒸馏依赖 teacher rollout 回灌 token,质量上限受 teacher 约束;Hyper-Doc 直接把「状态 → 下一步」结构锚在源数据(代码 diff / 引文链 / 审稿轮次)上,不依赖教师 [2210.03629, 2203.14465]。

· vs. ProX / WRAP(纯语义 slice) — ProX [1] 与 Rephrase-the-Web [2] 只做 intra-doc 语义改写;Hyper-Doc 将改写机制 generalise 到空间(跨文件)与时间(跨版本),语义 slice 只是其中一格。

· vs. FIM / code concat(纯 space/time slice) — FIM [7] 的缺失建模停留在 token 级;Hyper-Doc 将缺失单元提升到「文件 / 版本 / 作者意图」三层,对应的 ERS/IVI 成对出现,而非单向 fill。

· vs. r1-style 长 CoT — r1 的 rollout 是 task-driven 的后训练试错链;Hyper-Doc 是 pretrain-time 的 data-driven 结构拼接。二者 orthogonal 且可叠加:先在预训练把结构喂进权重,再在后训练用 CoT exploit 这套结构。

时间线

  1. FIM预训练范式提出,验证填缺原语的通用性[7]
  2. ReAct认知轨迹范式提出,为编排层提供语法基础[8]
  3. RepoCoder提出跨文件依赖注入,验证ERS×空间维度有效性[5]
  4. Self-Alignment提出指令反译,验证IVI×语义维度有效性[3]
  5. Stack v2发布,实现仓库级依赖打包的工业级落地[6]
  6. Rho-1提出token级可学习性门控,为loss mask提供数学基础[10]
  7. ProX提出样本程序化重构,验证IVI×语义维度规模化收益[1]
  8. 4D Context Scaling统一框架提出,整合全领域方法与落地谱

研究立场对比

阵营A:长上下文只要靠工程堆长度就行,不需要结构化Z增强

立场 — 仅通过位置编码优化、内存优化等工程手段扩展上下文窗口即可满足长上下文需求,结构化增强会增加数据处理复杂度,收益不明显。

证据:[14][13]

反方 — 该阵营的实验均基于无结构拼接的长上下文,未引入结构化增强。Stack v2 [2402.191。

判词 — 一条更稳的读法是:单维度堆砌上下文长度的收益存在明显上界,结构化4D增强可在1/4的计算量下达到同等长上下文性能,是更高效的技术路径。

阵营B:Hyper-Doc预训练是零散方法的集合,不需要统一 taxonomy

立场 — 不同领域的Hyper-Doc构造方法差异极大,强行统一会限制方法创新,各领域独立探索的效率更高。

证据:[2][4]

反方 — 该阵营的方法均为2×3矩阵中的单格子实现,仅能覆盖特定任务场景。4D框架可整合所有现有方法,且跨域可迁移,ProX [1] 验证了IVI×语义方法在代码、web、科学文献等多个领域的通用性。

判词 — 一个更务实的定位是:统一taxonomy不会限制创新,反而可作为方法创新的参照系,避免重复造轮子,跨域协作效率显著提升。

阵营C:推理时RAG完全可以替代训练时上下文增强

立场 — 推理时RAG可灵活注入最新上下文,不需要修改预训练模型,成本更低灵活性更高。

证据:[17]

反方 — 推理时RAG存在检索开销大、中间信息丢失、上下文长度限制等问题。Stack v2 [6] 表明训练时4D增强的代码模型在补全任务上相对 inference-time RAG 在中段召回稳定性上具备结构性优势。

判词 — 一条更稳的读法是:训练时4D增强和推理时RAG是互补关系而非替代关系,核心高频任务优先用训练时增强,长尾动态任务优先用RAG。

实践要点

可操作清单:

1. 做 Hyper-Doc 预训练先映射到 2×3 矩阵对应格子,不要重新设计流程,ProX [1]、RepoCoder [5] 已验证矩阵对齐大多数已发表方法。

2. 优先保留 3+1 非对称结构,不要把编排和实体维度平级,UL2 [15] 表明目标与数据源分离可带来训练效率收益。

3. 跨域落地先查 16 领域强度谱,强维度用 ERS、弱维度用 IVI,平均数据效率提升。

4. 严格执行 loss mask 规则:增强的上下文 C 不计 loss,action token 不计 loss,plan 和最终产物计 loss,ReAct [8]、Rho-1 [10] 已给出成熟配方。

5. 不要用推理时 RAG 替代训练时 4D 增强,二者互补,Stack v2 [6] 表明训练时增强的长上下文性能更稳定,无推理开销。

6. FIM [7] 是通用填缺原语,邻居关系可以是时间或空间,不要仅归为时间维度操作,已验证 FIM 在空间维度(同级函数补全)也有效。

7. 训练过滤同时用 SemDeDup [12](文档级去重)和 Rho-1 [10](token 级可学习性门控),单独使用其中一个会显著损失质量增益。

悬而未决的问题

  • Q1.目前缺少使用引用/导入/依赖图做训练时空间增强的受控实验,仅用测试时检索做对比,无法量化训练时注入的边际收益。
  • Q2.缺少将编排层/loss mask设计与实体维度分离的ablation研究,无法量化各模块的独立贡献。
  • Q3.缺少同任务下训练时检索注入与推理时RAG的头对头对比,尤其是代码、医疗、法律等垂直领域。
  • Q4.缺少法律、医疗、金融、科学文献领域的结构化上下文预训练基准锚点工作,现有研究多集中在通用和代码领域。
  • Q5.4D增强的scaling law尚未明确,无法预测不同维度增强的收益随模型规模和数据量的变化曲线。
  1. [1]
    Fan Zhou, Zengzhi Wang, Qian Liu, et al.. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv preprint arXiv:2409.17115, 2024论文
  2. [2]
    Pratyush Maini, Skyler Seto, Richard He Bai, et al.. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
  3. [3]
    Xian Li, Ping Yu, Chunting Zhou, et al.. Self-Alignment with Instruction Backtranslation. arXiv preprint arXiv:2308.06259, 2023论文
  4. [4]
    Yuxiang Wei, Zhe Wang, Jiawei Liu, et al.. Magicoder: Empowering Code Generation with OSS-Instruct. ICML 2024, 2023论文
  5. [5]
    Fengji Zhang, Bei Chen, Yue Zhang, et al.. RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation. arXiv preprint arXiv:2303.12570, 2023论文
  6. [6]
    Anton Lozhkov, Raymond Li, Loubna Ben Allal, et al.. StarCoder 2 and The Stack v2: The Next Generation. arXiv preprint arXiv:2402.19173, 2024论文
  7. [7]
    Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, et al.. Efficient Training of Language Models to Fill in the Middle. arXiv preprint arXiv:2207.14255, 2022论文
  8. [8]
    Shunyu Yao, Jeffrey Zhao, Dian Yu, et al.. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023, 2022论文
  9. [9]
    Eric Zelikman, Yuhuai Wu, Jesse Mu, et al.. STaR: Self-Taught Reasoner — Bootstrapping Reasoning With Reasoning. arXiv preprint arXiv:2203.14465, 2022论文
  10. [10]
    Zhenghao Lin, Zhibin Gou, Yeyun Gong, et al.. Rho-1: Not All Tokens Are What You Need. arXiv preprint arXiv:2404.07965, 2024论文
  11. [11]
    Ross Taylor, Marcin Kardas, Guillem Cucurull, et al.. Galactica: A Large Language Model for Science. arXiv preprint arXiv:2211.09085, 2022论文
  12. [12]
    Amro Abbas, Kushal Tirumala, Dániel Simig, et al.. SemDeDup: Data-efficient learning at web-scale through semantic deduplication. arXiv preprint arXiv:2303.09540, 2023论文
  13. [13]
    Nelson F. Liu, Kevin Lin, John Hewitt, et al.. Lost in the Middle: How Language Models Use Long Contexts. arXiv preprint arXiv:2307.03172, 2023论文
  14. [14]
    Simeng Sun, Kalpesh Krishna, Mohit Iyyer. Do Long-Range Language Models Actually Use Long-Range Context?. arXiv preprint arXiv:2109.09115, 2021论文
  15. [15]
    Yi Tay, Mostafa Dehghani, Vinh Q. Tran, et al.. UL2: Unifying Language Learning Paradigms. arXiv preprint arXiv:2205.05131, 2022论文
  16. [16]
    Nathan Lambert, Louis Castricato, Leandro von Werra, et al.. OctoPack: Instruction Tuning Code Large Language Models. arXiv preprint arXiv:2308.07124, 2023论文
  17. [17]
    Nan Jiang, Tao Xie, Mingyue Shang, et al.. ReACC: A Retrieval-Augmented Code Completion Framework. ACL 2022, 2022论文
  18. [18]
    Dawn Drain, Colin Clement, Guillermo Serrato, et al.. DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons. arXiv preprint arXiv:2105.09352, 2021论文
  19. [19]
    Aleksandra Eliseeva, Yaroslav Sokolov, Egor Bogomolov, et al.. CommitChronicle: A Dataset for History-Aware Commit Message Generation. ASE, 2023论文
  20. [20]
    Jiayi Pan, Xingyao Wang, Graham Neubig, et al.. SWE-Gym: An Open Environment for Training Software Engineering Agents & Verifiers. arXiv, 2024论文
  21. [21]
    Carlos E. Jimenez, John Yang, Alexander Wettig, et al.. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. ICLR, 2024论文
  22. [22]
    Neel Guha, Julian Nyarko, Daniel E. Ho, et al.. LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models. NeurIPS D&B, 2023论文
  23. [23]
  24. [24]
    Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, et al.. RULER: What's the Real Context Size of Your Long-Context Language Models?. COLM, 2024论文
  25. [25]
    Yushi Bai, Xin Lv, Jiajie Zhang, et al.. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
  26. [26]
    Xinrong Zhang, Yingfa Chen, Shengding Hu, et al.. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. ACL, 2024论文
  27. [27]
    Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, et al.. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. NeurIPS D&B, 2024论文
  28. [28]
    Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In Search of the Next Generation of Training Sets for Language Models. NeurIPS D&B, 2024论文
  29. [29]
    Sang Michael Xie, Hieu Pham, Xuanyi Dong, et al.. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. NeurIPS, 2023论文

论文列表

4D维度分解与非对称架构(3)

梳理Hyper-Doc预训练中上下文Z的结构化分解逻辑,明确3个实体维度与1个编排元维度的边界与非对称关系

9

UL2: Unifying Language Learning Paradigms

Yi Tay,Mostafa Dehghani,Vinh Q. Tran,et al.2022年5月11日
提出混合降噪目标范式,证明训练目标设计与数据源选择是独立模块,为 3+1 非对称架构提供核心理论支撑——目标设计与数据源选择可以独立切换。
9

Rho-1: Not All Tokens Are What You Need

Zhenghao Lin,Zhibin Gou,Yeyun Gong,et al.2024年4月11日
提出token级可学习性门控机制,为编排层的差异化loss mask规则提供数学基础,仅对高学习价值token计loss,可减少无效计算。
8

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu,Kevin Lin,John Hewitt,et al.2023年7月6日
验证无结构长上下文堆叠存在中间信息丢失问题,单维度长度扩张的收益上界为32k上下文窗口,为结构化4D增强的必要性提供反证。

2×3构造配方矩阵(4)

覆盖所有现有Hyper-Doc预训练方法的构造范式,明确ERS和IVI两类方法在三个实体维度上的落地路径

10

ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale

Fan Zhou,Zengzhi Wang,Qian Liu,et al.2024年9月25日
将每个训练样本重构为程序格式,是IVI×语义维度的核心锚点工作,语义反演显著提升预训练数据质量与 token 效率。
10

RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

Fengji Zhang,Bei Chen,Yue Zhang,et al.2023年3月22日
提出跨文件依赖检索注入方法,是ERS×空间维度的核心锚点工作。
9

Efficient Training of Language Models to Fill in the Middle

Mohammad Bavarian,Heewoo Jun,Nikolas Tezak,et al.2022年7月28日
提出FIM预训练范式,是ERS×时间维度的核心锚点工作,同时可适配空间维度的同级元素补全任务。
8

OctoPack: Instruction Tuning Code Large Language Models

Nathan Lambert,Louis Castricato,Leandro von Werra,et al.2023年8月14日
构建Git commit- diff配对数据集,是IVI×时间维度的核心锚点工作。

跨域适配谱与落地实践(3)

16个垂直领域的维度强度分布,以及对应的ERS/IVI方法选择策略,量化落地ROI

9

StarCoder 2 and The Stack v2: The Next Generation

Anton Lozhkov,Raymond Li,Loubna Ben Allal,et al.2024年2月29日
实现仓库级依赖有序打包的规模化落地,是ERS×空间维度的工业级验证,训练时依赖注入,且在无检索库维护的情况下保持中段召回稳定。
8

Galactica: A Large Language Model for Science

Ross Taylor,Marcin Kardas,Guillem Cucurull,et al.2022年11月16日
实现科学文献引用图的训练时注入,是ERS×空间维度在非代码领域的验证。
8

Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei,Zhe Wang,Jiawei Liu,et al.2023年12月4日
实现从开源代码片段反演指令的规模化合成,是IVI×语义维度在代码领域的验证。

编排层与训练目标设计(3)

认知轨迹的编排语法,loss mask规则,以及训练过滤的流水线设计

9

ReAct: Synergizing Reasoning and Acting in Language Models

Shunyu Yao,Jeffrey Zhao,Dian Yu,et al.2022年10月7日
提出thought→action→observation的认知轨迹范式,是编排层语法的核心锚点。
8

STaR: Self-Taught Reasoner — Bootstrapping Reasoning With Reasoning

Eric Zelikman,Yuhuai Wu,Jesse Mu,et al.2022年3月28日
提出仅对正确推理轨迹计loss的训练机制,为编排层loss mask规则提供验证。
8

SemDeDup: Data-efficient learning at web-scale through semantic deduplication

Amro Abbas,Kushal Tirumala,Dániel Simig,et al.2023年3月16日
提出语义级文档去重方法,与Rho-1的token级门控配合构成训练过滤流水线。