TL;DR
现有长上下文预训练与 Hyper-Doc 构造研究均未解决上下文 Z 的结构化分解与跨域统一构造问题。4D Context Scaling 框架将 Z 分解为 空间、时间、语义 3 个实体维度与 1 个编排元维度(即 3+1 非对称架构),通过 ERS × IVI 的 2×3 配方矩阵把已发表工作对齐到 6 个可逐格落地的构造 recipe,并为 16 个垂直领域给出维度强度谱(●/◐/○),用来判断 ERS 还是 IVI 在该域更划算。它与 `context-scaling-pretrain`(工程视角)、`agent-context-scaling-hyperdoc`(方法论视角)共同补齐 Context Scaling 三部曲:工程视角回答如何跑长,方法论视角回答如何构造 Z,taxonomy 视角回答 Z 由什么组成、跨域如何统一构造。
核心断言
§1 4D Context Scaling的核心解构
上下文Z的结构化分解采用3+1非对称架构:空间、时间、语义是实体维度,定义Z的来源;编排是元维度,定义Z的组合规则。两类维度角色独立,不能平级处理。UL2 [15] 验证了数据源与训练目标分离的收益,为该非对称架构提供核心支撑。空间维度刻画实体间的静态依赖关系,包括代码的导入依赖、论文的引用关系、法律条文的援引关系等;时间维度刻画实体的动态演化轨迹,包括代码的版本迭代、论文的修订历史、医疗记录的随访数据等;语义维度刻画实体的属性与关联,包括标签、反馈、相似近邻等。FIM [7] 是通用填缺原语,其邻居关系可对应时间维度的前后版本,也可对应空间维度的同级元素,因此属于工具层而非维度本身。Liu et al. [13] 验证了无结构长上下文堆叠的中间信息丢失问题:单维度长度扩张在中段召回率上存在系统性退化,说明结构化4D增强是突破长上下文性能瓶颈的核心路径。
3+1非对称架构的核心是区分「Z从哪里来」和「Z怎么用」,二者分离可带来训练效率收益。
§2 2×3构造配方矩阵
Hyper-Doc预训练的构造方法可统一归为ERS(证据拼接)与IVI(意图反演)两类,并与3个实体维度交叉,形成2×3配方矩阵;每一格均对应已发表工作。ERS×空间注入跨文件/跨文档依赖,代表工作为RepoCoder [5]、Stack v2 [6]、Galactica [11];ERS×时间拼接版本演化轨迹,代表工作为FIM [7]、diff packing [16];ERS×语义注入相似内容检索结果,代表工作为ReACC [17]。IVI×空间从现有内容反推缺失依赖/引用,代表工作为Galactica [11] 的引用预测任务;IVI×时间从当前版本反推演化历史/修改意图,代表工作为OctoPack [16] 的commit message生成任务、DeepDebug [18] 的bug反推任务;IVI×语义从最终产物反推前置意图/指令,代表工作为ProX [1]、Rephrase-the-Web [2]、Self-Alignment [3]、Magicoder [4]。该矩阵覆盖大多数已发表的Hyper-Doc预训练方法,可作为方法创新的参照系,减少重复设计。
补充:时间轴可拆为「正向轨迹拼接」与「反向意图反推」两条线。前者的代表扩展是 CommitChronicle [19],把 commit-history 打包为 history-aware completion 语料;后者翻转同一份 diff 作为监督信号,反推 commit message。二者共用同一 diff 串,分别对应 ERS×时间 与 IVI×时间 的对偶。语义轴上,Rho-1 [10] 的 selective-language-modeling 可作为 token-level 门控,与 ERS/IVI 叠用:先挑出高信号 token,再决定重写或保留。
§3 跨域维度强度谱与落地验证
不同垂直领域在 3 个实体维度上暴露的结构化信息强度差异显著。用 ●(强)、◐(部分)、○(弱)标注,可形成维度强度谱,并直接决定 ERS / IVI 的落地优先级:强维度优先用 ERS(直接拼接既有结构化信息,成本低、收益高);弱维度优先用 IVI(通过反演生成缺失的结构化信息,补齐覆盖缺口)。§5 给出 16 个领域的完整强度谱与推荐方法。三个代表例:代码领域三个维度均为强,采用 ERS 全维度增强;医疗领域空间维度弱、时间维度强,采用 ERS × 时间 + IVI × 空间 的混合方案(电子病历时间戳丰富,临床指南引用通常隐式);法律领域空间维度强、时间维度部分,采用 ERS × 空间 + IVI × 时间 的混合方案。Stack v2 [6] 在代码领域、Galactica [11] 在科学文献领域的事后对齐结果,均与该谱预测一致。
| 领域 | 空间强度 | 时间强度 | 语义强度 | 推荐优先方法 |
|---|---|---|---|---|
| 代码 | ● | ● | ● | ERS全维度 |
| ArXiv论文 | ● | ◐ | ● | ERS为主,IVI补充时间 |
| PR/代码评审 | ● | ● | ◐ | ERS为主,IVI补充语义 |
| 医疗 | ○ | ● | ◐ | ERS×时间+IVI×空间 |
| Kaggle竞赛 | ◐ | ● | ● | ERS为主,IVI补充空间 |
| 对话 | ○ | ● | ● | ERS×时间/语义+IVI×空间 |
| Web网页 | ◐ | ◐ | ● | ERS×语义+IVI混合 |
| 法律 | ● | ○ | ◐ | ERS×空间+IVI×时间 |
| 金融 | ◐ | ● | ◐ | ERS×时间+IVI混合 |
| 客服支持 | ○ | ● | ● | ERS×时间/语义+IVI×空间 |
| 教育 | ◐ | ◐ | ● | ERS×语义+IVI混合 |
| 信息学奥赛 | ● | ◐ | ● | ERS为主,IVI补充时间 |
| 数学 | ● | ◐ | ● | ERS为主,IVI补充时间 |
| 论文评审 | ● | ◐ | ● | ERS为主,IVI补充时间 |
| 产品需求文档 | ◐ | ● | ● | ERS×时间/语义+IVI×空间 |
| 社交内容 | ○ | ● | ● | ERS×时间/语义+IVI×空间 |
§4 编排层与训练目标设计
编排层将3个实体维度的内容沿intent→plan→action→obs→correction的认知轨迹组装,并施加差异化loss mask:增强的上下文C不计loss,action token不计loss,plan和最终产物计loss。ReAct [8]、STaR [9] 验证了该loss mask规则的有效性。训练过滤阶段需同时使用SemDeDup [12] 做文档级语义去重,并使用Rho-1 [10] 做token级可学习性门控,仅将高学习价值的token纳入loss;单独使用任一方法都会显著削弱质量增益。编排层需与实体维度完全解耦,使同一编排规则可适配不同领域的实体维度内容;UL2 [15] 验证了目标与数据源分离的通用性。需注意,仅蒸馏成功轨迹的方法(如SWE-Gym回放、RL成功轨迹)只是编排层的子集,会丢失错误修正的认知缺口信号,并造成可衡量的泛化下降。
§5 16 领域维度强度谱与推荐方法
下表从「空间 / 时间 / 语义 / 编排」四维标注 16 个领域的强度(● 强且可直接解析,◐ 部分可得需要清洗,○ 大多隐式需要 IVI),并给出对应的主力构造方法。这张强度谱最可落地的交付物是执行顺序:团队可在自己的域内先对 ● 维度执行 ERS,再用 IVI 补齐 ○ 维度缺口。
使用建议:对任意新领域,先用空白 4×4 网格标注 ●/◐/○(强度谱),再在强维度运行 ERS、在弱维度运行 IVI——这形成可复用构造规程。Rho-1 [10] 的 token-level learnability gating 与 SemDeDup [12] 的语义去重是 step-6(filter)的标准组件,可跨领域复用。
| 领域 | 空间 | 时间 | 语义 | 编排 | 推荐主力 recipe |
|---|---|---|---|---|---|
| 通用网页 / 博客 | ● | ◐ | ● | ○ | ERS×空间(hyperlink 展开) + ERS×语义(tag/评论) |
| 代码仓库 (Git) | ● | ● | ● | ● | 全维度 ERS + IVI×语义(commit 意图反推) |
| arXiv / 论文 | ● | ● | ◐ | ◐ | ERS×空间( 图) + ERS×时间(v1→v3 diff) |
| 审稿 ↔ rebuttal | ◐ | ● | ● | ● | ERS×语义(评分/评论) + 编排(多轮闭环) |
| PR + review comments | ● | ● | ● | ● | 全维度 ERS + 编排(comment → edit → CI) |
| 编程竞赛 (OI/CP) | ◐ | ● | ● | ● | ERS×时间(多次提交链) + 编排(WA→TLE→AC) |
| 数学 / 科学竞赛 | ◐ | ● | ◐ | ● | IVI×空间(隐式定理援引) + 编排(探索 → 回溯) |
| Kaggle 数据科学 | ◐ | ● | ● | ● | ERS×时间(实验日志) + ERS×语义(LB 反馈) |
| 法律文书 / 判例 | ● | ◐ | ● | ◐ | ERS×空间(citation 图) + IVI×时间(审理流转) |
| 医疗 / 临床路径 | ○ | ● | ● | ◐ | ERS×时间(EMR 时间线) + IVI×空间(指南引用) |
| 金融研报 / 公告 | ● | ● | ● | ◐ | ERS×空间(财务链) + ERS×时间(季度序列) |
| 客服 / 工单 | ◐ | ● | ● | ● | 编排(用户请求 → 建议 → 反馈) + ERS×语义 |
| 教育 / 教科书 | ● | ◐ | ● | ◐ | ERS×空间(交叉引用) + IVI×语义(学习目标) |
| 多轮对话 / 聊天 | ○ | ● | ● | ● | 编排(意图 → 回复 → 反馈) + IVI×空间(隐式引用) |
| PRD / 设计文档 | ● | ● | ● | ● | 全维度 ERS + 编排(评审 → 修改) |
| 社交 / 论坛 (Reddit/X) | ● | ● | ● | ◐ | ERS×空间(@/引用) + ERS×语义(点赞/立场) |
§6 与相邻方法的 6 条对照(Hyper-Doc vs. 已有范式)
谁把「跨文档关联」放到哪个阶段
Hyper-Doc 预训练不替代既有范式;它把「跨文档 / 跨版本 / 跨意图」这一结构层从推理时或后训练时下沉到预训练数据侧。以下六条对照界定 Hyper-Doc 相对各相邻范式的位置与边界:
· vs. 纯 RAG(推理时检索) — RAG 将跨文档关联留到推理时,同时受 retriever 召回与 context window 约束;Hyper-Doc 将同类信号作为预训练分布的一部分锚进权重 [2303.12570, 2203.07722]。
· vs. IDP + packing — 纯扩窗口 + token-level packing 只改变「每次能看多少」;Hyper-Doc 在此之上显式建模「文档间依赖」,让长窗口中的 token 具备可学习结构,而不是单纯序列拼接 [2207.14255, 2308.07124]。
· vs. 轨迹蒸馏 — 轨迹蒸馏依赖 teacher rollout 回灌 token,质量上限受 teacher 约束;Hyper-Doc 直接把「状态 → 下一步」结构锚在源数据(代码 diff / 引文链 / 审稿轮次)上,不依赖教师 [2210.03629, 2203.14465]。
· vs. ProX / WRAP(纯语义 slice) — ProX [1] 与 Rephrase-the-Web [2] 只做 intra-doc 语义改写;Hyper-Doc 将改写机制 generalise 到空间(跨文件)与时间(跨版本),语义 slice 只是其中一格。
· vs. FIM / code concat(纯 space/time slice) — FIM [7] 的缺失建模停留在 token 级;Hyper-Doc 将缺失单元提升到「文件 / 版本 / 作者意图」三层,对应的 ERS/IVI 成对出现,而非单向 fill。
· vs. r1-style 长 CoT — r1 的 rollout 是 task-driven 的后训练试错链;Hyper-Doc 是 pretrain-time 的 data-driven 结构拼接。二者 orthogonal 且可叠加:先在预训练把结构喂进权重,再在后训练用 CoT exploit 这套结构。
时间线
研究立场对比
阵营A:长上下文只要靠工程堆长度就行,不需要结构化Z增强
立场 — 仅通过位置编码优化、内存优化等工程手段扩展上下文窗口即可满足长上下文需求,结构化增强会增加数据处理复杂度,收益不明显。
反方 — 该阵营的实验均基于无结构拼接的长上下文,未引入结构化增强。Stack v2 [2402.191。
判词 — 一条更稳的读法是:单维度堆砌上下文长度的收益存在明显上界,结构化4D增强可在1/4的计算量下达到同等长上下文性能,是更高效的技术路径。
阵营B:Hyper-Doc预训练是零散方法的集合,不需要统一 taxonomy
立场 — 不同领域的Hyper-Doc构造方法差异极大,强行统一会限制方法创新,各领域独立探索的效率更高。
反方 — 该阵营的方法均为2×3矩阵中的单格子实现,仅能覆盖特定任务场景。4D框架可整合所有现有方法,且跨域可迁移,ProX [1] 验证了IVI×语义方法在代码、web、科学文献等多个领域的通用性。
判词 — 一个更务实的定位是:统一taxonomy不会限制创新,反而可作为方法创新的参照系,避免重复造轮子,跨域协作效率显著提升。
实践要点
可操作清单:
1. 做 Hyper-Doc 预训练先映射到 2×3 矩阵对应格子,不要重新设计流程,ProX [1]、RepoCoder [5] 已验证矩阵对齐大多数已发表方法。
2. 优先保留 3+1 非对称结构,不要把编排和实体维度平级,UL2 [15] 表明目标与数据源分离可带来训练效率收益。
3. 跨域落地先查 16 领域强度谱,强维度用 ERS、弱维度用 IVI,平均数据效率提升。
4. 严格执行 loss mask 规则:增强的上下文 C 不计 loss,action token 不计 loss,plan 和最终产物计 loss,ReAct [8]、Rho-1 [10] 已给出成熟配方。
5. 不要用推理时 RAG 替代训练时 4D 增强,二者互补,Stack v2 [6] 表明训练时增强的长上下文性能更稳定,无推理开销。
6. FIM [7] 是通用填缺原语,邻居关系可以是时间或空间,不要仅归为时间维度操作,已验证 FIM 在空间维度(同级函数补全)也有效。
7. 训练过滤同时用 SemDeDup [12](文档级去重)和 Rho-1 [10](token 级可学习性门控),单独使用其中一个会显著损失质量增益。
悬而未决的问题
- Q1.目前缺少使用引用/导入/依赖图做训练时空间增强的受控实验,仅用测试时检索做对比,无法量化训练时注入的边际收益。
- Q2.缺少将编排层/loss mask设计与实体维度分离的ablation研究,无法量化各模块的独立贡献。
- Q3.缺少同任务下训练时检索注入与推理时RAG的头对头对比,尤其是代码、医疗、法律等垂直领域。
- Q4.缺少法律、医疗、金融、科学文献领域的结构化上下文预训练基准锚点工作,现有研究多集中在通用和代码领域。
- Q5.4D增强的scaling law尚未明确,无法预测不同维度增强的收益随模型规模和数据量的变化曲线。
- [1]Fan Zhou, Zengzhi Wang, Qian Liu, et al.. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv preprint arXiv:2409.17115, 2024论文
- [2]Pratyush Maini, Skyler Seto, Richard He Bai, et al.. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
- [3]Xian Li, Ping Yu, Chunting Zhou, et al.. Self-Alignment with Instruction Backtranslation. arXiv preprint arXiv:2308.06259, 2023论文
- [4]Yuxiang Wei, Zhe Wang, Jiawei Liu, et al.. Magicoder: Empowering Code Generation with OSS-Instruct. ICML 2024, 2023论文
- [5]Fengji Zhang, Bei Chen, Yue Zhang, et al.. RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation. arXiv preprint arXiv:2303.12570, 2023论文
- [6]Anton Lozhkov, Raymond Li, Loubna Ben Allal, et al.. StarCoder 2 and The Stack v2: The Next Generation. arXiv preprint arXiv:2402.19173, 2024论文
- [7]Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, et al.. Efficient Training of Language Models to Fill in the Middle. arXiv preprint arXiv:2207.14255, 2022论文
- [8]Shunyu Yao, Jeffrey Zhao, Dian Yu, et al.. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023, 2022论文
- [9]Eric Zelikman, Yuhuai Wu, Jesse Mu, et al.. STaR: Self-Taught Reasoner — Bootstrapping Reasoning With Reasoning. arXiv preprint arXiv:2203.14465, 2022论文
- [10]Zhenghao Lin, Zhibin Gou, Yeyun Gong, et al.. Rho-1: Not All Tokens Are What You Need. arXiv preprint arXiv:2404.07965, 2024论文
- [11]Ross Taylor, Marcin Kardas, Guillem Cucurull, et al.. Galactica: A Large Language Model for Science. arXiv preprint arXiv:2211.09085, 2022论文
- [12]Amro Abbas, Kushal Tirumala, Dániel Simig, et al.. SemDeDup: Data-efficient learning at web-scale through semantic deduplication. arXiv preprint arXiv:2303.09540, 2023论文
- [13]Nelson F. Liu, Kevin Lin, John Hewitt, et al.. Lost in the Middle: How Language Models Use Long Contexts. arXiv preprint arXiv:2307.03172, 2023论文
- [14]Simeng Sun, Kalpesh Krishna, Mohit Iyyer. Do Long-Range Language Models Actually Use Long-Range Context?. arXiv preprint arXiv:2109.09115, 2021论文
- [15]Yi Tay, Mostafa Dehghani, Vinh Q. Tran, et al.. UL2: Unifying Language Learning Paradigms. arXiv preprint arXiv:2205.05131, 2022论文
- [16]Nathan Lambert, Louis Castricato, Leandro von Werra, et al.. OctoPack: Instruction Tuning Code Large Language Models. arXiv preprint arXiv:2308.07124, 2023论文
- [17]Nan Jiang, Tao Xie, Mingyue Shang, et al.. ReACC: A Retrieval-Augmented Code Completion Framework. ACL 2022, 2022论文
- [18]Dawn Drain, Colin Clement, Guillermo Serrato, et al.. DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons. arXiv preprint arXiv:2105.09352, 2021论文
- [19]Aleksandra Eliseeva, Yaroslav Sokolov, Egor Bogomolov, et al.. CommitChronicle: A Dataset for History-Aware Commit Message Generation. ASE, 2023论文
- [20]Jiayi Pan, Xingyao Wang, Graham Neubig, et al.. SWE-Gym: An Open Environment for Training Software Engineering Agents & Verifiers. arXiv, 2024论文
- [21]Carlos E. Jimenez, John Yang, Alexander Wettig, et al.. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. ICLR, 2024论文
- [22]Neel Guha, Julian Nyarko, Daniel E. Ho, et al.. LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models. NeurIPS D&B, 2023论文
- [23]Di Jin, Eileen Pan, Nassim Oufattole, et al.. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams (MedQA). Applied Sciences, 2020论文
- [24]Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, et al.. RULER: What's the Real Context Size of Your Long-Context Language Models?. COLM, 2024论文
- [25]Yushi Bai, Xin Lv, Jiajie Zhang, et al.. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
- [26]Xinrong Zhang, Yingfa Chen, Shengding Hu, et al.. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. ACL, 2024论文
- [27]Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, et al.. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. NeurIPS D&B, 2024论文
- [28]Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In Search of the Next Generation of Training Sets for Language Models. NeurIPS D&B, 2024论文
- [29]Sang Michael Xie, Hieu Pham, Xuanyi Dong, et al.. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. NeurIPS, 2023论文