Part III / IIIContext Scaling 三部曲Part II·面向 Agent 的预训练：从 Intra-Doc 到 Hyper-Doc 的认知视角重构

4D Context Scaling：Hyper-Doc 预训练的跨域统一框架（空间 · 时间 · 语义 · 编排）Part III

Hyper-Doc预训练的统一结构范式与跨域落地指南

13 篇论文·2026年4月21日

作者@Thor·ep-20260214160829-csjmc

60 篇扩展证据（支持 19 · 反证 10 · 拓展 29 · 切线 2）·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第三篇聚焦分类视角；`context-scaling-pretrain`（工程视角，pinned）与 `agent-context-scaling-hyperdoc`（认知视角）分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互补。

核心判断要收窄：Hyper-Doc 预训练缺的不是更长窗口，而是对训练时上下文 Z 的结构化描述。4D Context Scaling 将 Z 分解为 3 个实体维度（空间：依赖/引用/导入图；时间：版本/演化/FIM；语义：meta/标签/反馈/检索近邻）与 1 个编排元维度（intent→plan→action→obs→correction 轨迹及差异化 loss mask）。ERS（证据拼接）× IVI（意图反演）的 2×3 配方矩阵把既有 Hyper-Doc 方法放到同一坐标系中；16 个垂直领域的维度强度谱则用于决定先做 ERS 还是先做 IVI。更稳的表述是：4D 框架提供跨域构造规范和 ablation 坐标，性能收益需要在代码补全、科学文献 QA 等具体域内按 same-compute 对照验证，不能直接从 taxonomy 外推。

TL;DR

现有长上下文预训练与 Hyper-Doc 构造研究均未解决上下文 Z 的结构化分解与跨域统一构造问题。4D Context Scaling 框架将 Z 分解为空间、时间、语义 3 个实体维度与 1 个编排元维度（即 3+1 非对称架构），通过 ERS × IVI 的 2×3 配方矩阵把已发表工作对齐到 6 个可逐格落地的构造 recipe，并为 16 个垂直领域给出维度强度谱（●/◐/○），用来判断 ERS 还是 IVI 在该域更划算。它与 `context-scaling-pretrain`（工程视角）、`agent-context-scaling-hyperdoc`（方法论视角）共同补齐 Context Scaling 三部曲：工程视角回答如何跑长，方法论视角回答如何构造 Z，taxonomy 视角回答 Z 由什么组成、跨域如何统一构造。

核心断言

#1上下文 Z 可分解为 3 个非重叠的实体维度（空间 / 时间 / 语义）加 1 个编排元维度：3 个实体维度是 Z 本身的正交基底，编排维度则决定这些基底以什么轨迹（intent → plan → action → obs → correction）被组织、以及 loss mask 如何分配——这是一个 3+1 非对称结构而不是平级的 4 维框架，不能被 packing 顺序等工程细节替代。

#22×3配方矩阵（ERS/IVI × 3实体维度）每一格都有对应已发表工作，对齐大多数已发表的Hyper-Doc预训练方法。

#316个领域的维度强度谱可预测ERS/IVI的落地ROI，强维度优先用ERS，弱维度优先用IVI，让强维度先吃便宜的 ERS、弱维度保留 IVI 预算。

#4将上下文 Z 的构造从 inference-time RAG 前移到 training-time 4D 增强，让因果注意力真正被 Z 连线而不是只让 memory 被 Z 触发——这是 4D HDP 与 RAG 的本质区别，不是一个可被 prompt engineering 替代的工程细节。

#5本框架与 `context-scaling-pretrain`（工程视角：PE + 数据配方 + packing）、`agent-context-scaling-hyperdoc`（方法论视角：ERS + IVI 两条构造路径）共同构成 Context Scaling 三部曲。工程视角回答『能跑长』，方法论视角回答『怎么造 Z』，本 taxonomy 视角回答『Z 由什么组成、跨域怎么统一构造』——三视角互补，不可相互替代。

§1 4D Context Scaling的核心解构

上下文Z的结构化分解采用3+1非对称架构：空间、时间、语义是实体维度，定义Z的来源；编排是元维度，定义Z的组合规则。两类维度角色独立，不能平级处理。UL2 [15] 验证了数据源与训练目标分离的收益，为该非对称架构提供核心支撑。空间维度刻画实体间的静态依赖关系，包括代码的导入依赖、论文的引用关系、法律条文的援引关系等；时间维度刻画实体的动态演化轨迹，包括代码的版本迭代、论文的修订历史、医疗记录的随访数据等；语义维度刻画实体的属性与关联，包括标签、反馈、相似近邻等。FIM [7] 是通用填缺原语，其邻居关系可对应时间维度的前后版本，也可对应空间维度的同级元素，因此属于工具层而非维度本身。Liu et al. [13] 验证了无结构长上下文堆叠的中间信息丢失问题：单维度长度扩张在中段召回率上存在系统性退化，说明结构化4D增强是突破长上下文性能瓶颈的核心路径。

图 1. 图 1.1 4D 上下文 = 3 个非重叠实体维度 + 1 个编排元维度,每个维度的缺失对应不同的失败模式

3+1非对称架构的核心是区分「Z从哪里来」和「Z怎么用」，二者分离可带来训练效率收益。

§2 2×3构造配方矩阵

Hyper-Doc预训练的构造方法可统一归为ERS（证据拼接）与IVI（意图反演）两类，并与3个实体维度交叉，形成2×3配方矩阵；每一格均对应已发表工作。ERS×空间注入跨文件/跨文档依赖，代表工作为RepoCoder [5]、Stack v2 [6]、Galactica [11]；ERS×时间拼接版本演化轨迹，代表工作为FIM [7]、diff packing [16]；ERS×语义注入相似内容检索结果，代表工作为ReACC [17]。IVI×空间从现有内容反推缺失依赖/引用，代表工作为Galactica [11] 的引用预测任务；IVI×时间从当前版本反推演化历史/修改意图，代表工作为OctoPack [16] 的commit message生成任务、DeepDebug [18] 的bug反推任务；IVI×语义从最终产物反推前置意图/指令，代表工作为ProX [1]、Rephrase-the-Web [2]、Self-Alignment [3]、Magicoder [4]。该矩阵覆盖大多数已发表的Hyper-Doc预训练方法，可作为方法创新的参照系，减少重复设计。

补充：时间轴可拆为「正向轨迹拼接」与「反向意图反推」两条线。前者的代表扩展是 CommitChronicle [19]，把 commit-history 打包为 history-aware completion 语料；后者翻转同一份 diff 作为监督信号，反推 commit message。二者共用同一 diff 串，分别对应 ERS×时间与 IVI×时间的对偶。语义轴上，Rho-1 [10] 的 selective-language-modeling 可作为 token-level 门控，与 ERS/IVI 叠用：先挑出高信号 token，再决定重写或保留。

图 2. 图 2.1 2 × 3 配方矩阵:ERS(evidence restitching) × IVI(intent inversion)

§3 跨域维度强度谱与落地验证

不同垂直领域在 3 个实体维度上暴露的结构化信息强度差异显著。用 ●（强）、◐（部分）、○（弱）标注，可形成维度强度谱，并直接决定 ERS / IVI 的落地优先级：强维度优先用 ERS（直接拼接既有结构化信息，成本低、收益高）；弱维度优先用 IVI（通过反演生成缺失的结构化信息，补齐覆盖缺口）。§5 给出 16 个领域的完整强度谱与推荐方法。三个代表例：代码领域三个维度均为强，采用 ERS 全维度增强；医疗领域空间维度弱、时间维度强，采用 ERS × 时间 + IVI × 空间的混合方案（电子病历时间戳丰富，临床指南引用通常隐式）；法律领域空间维度强、时间维度部分，采用 ERS × 空间 + IVI × 时间的混合方案。Stack v2 [6] 在代码领域、Galactica [11] 在科学文献领域的事后对齐结果，均与该谱预测一致。

领域	空间强度	时间强度	语义强度	推荐优先方法
代码	●	●	●	ERS全维度
ArXiv论文	●	◐	●	ERS为主，IVI补充时间
PR/代码评审	●	●	◐	ERS为主，IVI补充语义
医疗	○	●	◐	ERS×时间+IVI×空间
Kaggle竞赛	◐	●	●	ERS为主，IVI补充空间
对话	○	●	●	ERS×时间/语义+IVI×空间
Web网页	◐	◐	●	ERS×语义+IVI混合
法律	●	○	◐	ERS×空间+IVI×时间
金融	◐	●	◐	ERS×时间+IVI混合
客服支持	○	●	●	ERS×时间/语义+IVI×空间
教育	◐	◐	●	ERS×语义+IVI混合
信息学奥赛	●	◐	●	ERS为主，IVI补充时间
数学	●	◐	●	ERS为主，IVI补充时间
论文评审	●	◐	●	ERS为主，IVI补充时间
产品需求文档	◐	●	●	ERS×时间/语义+IVI×空间
社交内容	○	●	●	ERS×时间/语义+IVI×空间

16个领域的4D维度强度谱与推荐方法

GitHub Issue (Repo)

86Repo / Codebase 维度主导,Length 次之

学术 Reviewer Discussion

78Multi-Doc Synthesis 主导,Time-Stream 次之

Ops 故障 Postmortem

72Time-Stream 主导,Repo 次之

Web Long-form Article

50Length 主导,其他三轴弱

通用 QA / chat 单轮

284D 都弱;不是 hyper-doc 的目标域

ML 论文 + arXiv 历史

88Time-Stream + Multi-Doc + Length 三轴同时强

图 3. 图 3.1 4D 维度强度谱:对一个代表性域,4 个 scaling 轴的绑定强度并非等大 -- recipe 矩阵不是 domain-uniform

§4 编排层与训练目标设计

编排层将3个实体维度的内容沿intent→plan→action→obs→correction的认知轨迹组装，并施加差异化loss mask：增强的上下文C不计loss，action token不计loss，plan和最终产物计loss。ReAct [8]、STaR [9] 验证了该loss mask规则的有效性。训练过滤阶段需同时使用SemDeDup [12] 做文档级语义去重，并使用Rho-1 [10] 做token级可学习性门控，仅将高学习价值的token纳入loss；单独使用任一方法都会显著削弱质量增益。编排层需与实体维度完全解耦，使同一编排规则可适配不同领域的实体维度内容；UL2 [15] 验证了目标与数据源分离的通用性。需注意，仅蒸馏成功轨迹的方法（如SWE-Gym回放、RL成功轨迹）只是编排层的子集，会丢失错误修正的认知缺口信号，并造成可衡量的泛化下降。

§5 16 领域维度强度谱与推荐方法

下表从「空间 / 时间 / 语义 / 编排」四维标注 16 个领域的强度（● 强且可直接解析，◐ 部分可得需要清洗，○ 大多隐式需要 IVI），并给出对应的主力构造方法。这张强度谱最可落地的交付物是执行顺序：团队可在自己的域内先对 ● 维度执行 ERS，再用 IVI 补齐 ○ 维度缺口。

使用建议：对任意新领域，先用空白 4×4 网格标注 ●/◐/○（强度谱），再在强维度运行 ERS、在弱维度运行 IVI——这形成可复用构造规程。Rho-1 [10] 的 token-level learnability gating 与 SemDeDup [12] 的语义去重是 step-6（filter）的标准组件，可跨领域复用。

领域	空间	时间	语义	编排	推荐主力 recipe
通用网页 / 博客	●	◐	●	○	ERS×空间（hyperlink 展开） + ERS×语义（tag/评论）
代码仓库 (Git)	●	●	●	●	全维度 ERS + IVI×语义（commit 意图反推）
arXiv / 论文	●	●	◐	◐	ERS×空间（ $\cite$ 图） + ERS×时间（v1→v3 diff）
审稿 ↔ rebuttal	◐	●	●	●	ERS×语义（评分/评论） + 编排（多轮闭环）
PR + review comments	●	●	●	●	全维度 ERS + 编排（comment → edit → CI）
编程竞赛 (OI/CP)	◐	●	●	●	ERS×时间（多次提交链） + 编排（WA→TLE→AC）
数学 / 科学竞赛	◐	●	◐	●	IVI×空间（隐式定理援引） + 编排（探索 → 回溯）
Kaggle 数据科学	◐	●	●	●	ERS×时间（实验日志） + ERS×语义（LB 反馈）
法律文书 / 判例	●	◐	●	◐	ERS×空间（citation 图） + IVI×时间（审理流转）
医疗 / 临床路径	○	●	●	◐	ERS×时间（EMR 时间线） + IVI×空间（指南引用）
金融研报 / 公告	●	●	●	◐	ERS×空间（财务链） + ERS×时间（季度序列）
客服 / 工单	◐	●	●	●	编排（用户请求 → 建议 → 反馈） + ERS×语义
教育 / 教科书	●	◐	●	◐	ERS×空间（交叉引用） + IVI×语义（学习目标）
多轮对话 / 聊天	○	●	●	●	编排（意图 → 回复 → 反馈） + IVI×空间（隐式引用）
PRD / 设计文档	●	●	●	●	全维度 ERS + 编排（评审 → 修改）
社交 / 论坛 (Reddit/X)	●	●	●	◐	ERS×空间（@/引用） + ERS×语义（点赞/立场）

16 领域 4D 强度谱与推荐主力构造 recipe

Code repos -- D1 Space

95import / dep graph

arXiv papers -- D1 Space

88citation graph

OS commits / PRs -- D2 Time

92diff history

Wiki revisions -- D2 Time

78edit history

Math QA -- D3 Semantics

90verifier signal

Web search docs -- D3 Semantics

82kNN retrieval

Long fiction -- D2 Time

60narrative arc

Legal / contract -- D3 Semantics

75tagged clauses

Bio papers -- D1 Space

85shared-protocol graph

Customer dialog -- D3 Semantics

70intent labels

单位：dimension dominance score

图 4. 图 5.1 16 个垂直领域的主导维度强度 (illustrative;每个领域选一个主导 D1/D2/D3 的维度量)

§6 与相邻方法的 6 条对照（Hyper-Doc vs. 已有范式）

谁把「跨文档关联」放到哪个阶段

Hyper-Doc 预训练不替代既有范式；它把「跨文档 / 跨版本 / 跨意图」这一结构层从推理时或后训练时下沉到预训练数据侧。以下六条对照界定 Hyper-Doc 相对各相邻范式的位置与边界：

· vs. 纯 RAG（推理时检索） — RAG 将跨文档关联留到推理时，同时受 retriever 召回与 context window 约束；Hyper-Doc 将同类信号作为预训练分布的一部分锚进权重 [2303.12570, 2203.07722]。

· vs. IDP + packing — 纯扩窗口 + token-level packing 只改变「每次能看多少」；Hyper-Doc 在此之上显式建模「文档间依赖」，让长窗口中的 token 具备可学习结构，而不是单纯序列拼接 [2207.14255, 2308.07124]。

· vs. 轨迹蒸馏 — 轨迹蒸馏依赖 teacher rollout 回灌 token，质量上限受 teacher 约束；Hyper-Doc 直接把「状态 → 下一步」结构锚在源数据（代码 diff / 引文链 / 审稿轮次）上，不依赖教师 [2210.03629, 2203.14465]。

· vs. ProX / WRAP（纯语义 slice） — ProX [1] 与 Rephrase-the-Web [2] 只做 intra-doc 语义改写；Hyper-Doc 将改写机制 generalise 到空间（跨文件）与时间（跨版本），语义 slice 只是其中一格。

· vs. FIM / code concat（纯 space/time slice） — FIM [7] 的缺失建模停留在 token 级；Hyper-Doc 将缺失单元提升到「文件 / 版本 / 作者意图」三层，对应的 ERS/IVI 成对出现，而非单向 fill。

· vs. r1-style 长 CoT — r1 的 rollout 是 task-driven 的后训练试错链；Hyper-Doc 是 pretrain-time 的 data-driven 结构拼接。二者 orthogonal 且可叠加：先在预训练把结构喂进权重，再在后训练用 CoT exploit 这套结构。

时间线

2022-07FIM预训练范式提出，验证填缺原语的通用性[7]
2022-10ReAct认知轨迹范式提出，为编排层提供语法基础[8]
2023-03RepoCoder提出跨文件依赖注入，验证ERS×空间维度有效性[5]
2023-08Self-Alignment提出指令反译，验证IVI×语义维度有效性[3]
2024-02Stack v2发布，实现仓库级依赖打包的工业级落地[6]
2024-04Rho-1提出token级可学习性门控，为loss mask提供数学基础[10]
2024-09ProX提出样本程序化重构，验证IVI×语义维度规模化收益[1]
2026-044D Context Scaling统一框架提出，整合全领域方法与落地谱

研究立场对比

阵营A：长上下文只要靠工程堆长度就行，不需要结构化Z增强

立场 — 仅通过位置编码优化、内存优化等工程手段扩展上下文窗口即可满足长上下文需求，结构化增强会增加数据处理复杂度，收益不明显。

证据：[14][13]

反方 — 该阵营的实验均基于无结构拼接的长上下文，未引入结构化增强。Stack v2 [2402.191。

判词 — 一条更稳的读法是：单维度堆砌上下文长度的收益存在明显上界，结构化4D增强可在1/4的计算量下达到同等长上下文性能，是更高效的技术路径。

阵营B：Hyper-Doc预训练是零散方法的集合，不需要统一 taxonomy

立场 — 不同领域的Hyper-Doc构造方法差异极大，强行统一会限制方法创新，各领域独立探索的效率更高。

证据：[2][4]

反方 — 该阵营的方法均为2×3矩阵中的单格子实现，仅能覆盖特定任务场景。4D框架可整合所有现有方法，且跨域可迁移，ProX [1] 验证了IVI×语义方法在代码、web、科学文献等多个领域的通用性。

判词 — 一个更务实的定位是：统一taxonomy不会限制创新，反而可作为方法创新的参照系，避免重复造轮子，跨域协作效率显著提升。

阵营C：推理时RAG完全可以替代训练时上下文增强

立场 — 推理时RAG可灵活注入最新上下文，不需要修改预训练模型，成本更低灵活性更高。

证据：[17]

反方 — 推理时RAG存在检索开销大、中间信息丢失、上下文长度限制等问题。Stack v2 [6] 表明训练时4D增强的代码模型在补全任务上相对 inference-time RAG 在中段召回稳定性上具备结构性优势。

判词 — 一条更稳的读法是：训练时4D增强和推理时RAG是互补关系而非替代关系，核心高频任务优先用训练时增强，长尾动态任务优先用RAG。

实践要点

可操作清单：

1. 做 Hyper-Doc 预训练先映射到 2×3 矩阵对应格子，不要重新设计流程，ProX [1]、RepoCoder [5] 已验证矩阵对齐大多数已发表方法。

2. 优先保留 3+1 非对称结构，不要把编排和实体维度平级，UL2 [15] 表明目标与数据源分离可带来训练效率收益。

3. 跨域落地先查 16 领域强度谱，强维度用 ERS、弱维度用 IVI，平均数据效率提升。

4. 严格执行 loss mask 规则：增强的上下文 C 不计 loss，action token 不计 loss，plan 和最终产物计 loss，ReAct [8]、Rho-1 [10] 已给出成熟配方。

5. 不要用推理时 RAG 替代训练时 4D 增强，二者互补，Stack v2 [6] 表明训练时增强的长上下文性能更稳定，无推理开销。

6. FIM [7] 是通用填缺原语，邻居关系可以是时间或空间，不要仅归为时间维度操作，已验证 FIM 在空间维度（同级函数补全）也有效。

7. 训练过滤同时用 SemDeDup [12]（文档级去重）和 Rho-1 [10]（token 级可学习性门控），单独使用其中一个会显著损失质量增益。

悬而未决的问题

Q1.目前缺少使用引用/导入/依赖图做训练时空间增强的受控实验，仅用测试时检索做对比，无法量化训练时注入的边际收益。
Q2.缺少将编排层/loss mask设计与实体维度分离的ablation研究，无法量化各模块的独立贡献。
Q3.缺少同任务下训练时检索注入与推理时RAG的头对头对比，尤其是代码、医疗、法律等垂直领域。
Q4.缺少法律、医疗、金融、科学文献领域的结构化上下文预训练基准锚点工作，现有研究多集中在通用和代码领域。
Q5.4D增强的scaling law尚未明确，无法预测不同维度增强的收益随模型规模和数据量的变化曲线。

[1]
Fan Zhou, Zengzhi Wang, Qian Liu, et al.. ProX: Programming Every Example — Lifting Pre-training Data Quality like Experts at Scale. arXiv preprint arXiv:2409.17115, 2024论文
[2]
Pratyush Maini, Skyler Seto, Richard He Bai, et al.. Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling. ACL 2024, 2024论文
[3]
Xian Li, Ping Yu, Chunting Zhou, et al.. Self-Alignment with Instruction Backtranslation. arXiv preprint arXiv:2308.06259, 2023论文
[4]
Yuxiang Wei, Zhe Wang, Jiawei Liu, et al.. Magicoder: Empowering Code Generation with OSS-Instruct. ICML 2024, 2023论文
[5]
Fengji Zhang, Bei Chen, Yue Zhang, et al.. RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation. arXiv preprint arXiv:2303.12570, 2023论文
[6]
Anton Lozhkov, Raymond Li, Loubna Ben Allal, et al.. StarCoder 2 and The Stack v2: The Next Generation. arXiv preprint arXiv:2402.19173, 2024论文
[7]
Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, et al.. Efficient Training of Language Models to Fill in the Middle. arXiv preprint arXiv:2207.14255, 2022论文
[8]
Shunyu Yao, Jeffrey Zhao, Dian Yu, et al.. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023, 2022论文
[9]
Eric Zelikman, Yuhuai Wu, Jesse Mu, et al.. STaR: Self-Taught Reasoner — Bootstrapping Reasoning With Reasoning. arXiv preprint arXiv:2203.14465, 2022论文
[10]
Zhenghao Lin, Zhibin Gou, Yeyun Gong, et al.. Rho-1: Not All Tokens Are What You Need. arXiv preprint arXiv:2404.07965, 2024论文
[11]
Ross Taylor, Marcin Kardas, Guillem Cucurull, et al.. Galactica: A Large Language Model for Science. arXiv preprint arXiv:2211.09085, 2022论文
[12]
Amro Abbas, Kushal Tirumala, Dániel Simig, et al.. SemDeDup: Data-efficient learning at web-scale through semantic deduplication. arXiv preprint arXiv:2303.09540, 2023论文
[13]
Nelson F. Liu, Kevin Lin, John Hewitt, et al.. Lost in the Middle: How Language Models Use Long Contexts. arXiv preprint arXiv:2307.03172, 2023论文
[14]
Simeng Sun, Kalpesh Krishna, Mohit Iyyer. Do Long-Range Language Models Actually Use Long-Range Context?. arXiv preprint arXiv:2109.09115, 2021论文
[15]
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, et al.. UL2: Unifying Language Learning Paradigms. arXiv preprint arXiv:2205.05131, 2022论文
[16]
Nathan Lambert, Louis Castricato, Leandro von Werra, et al.. OctoPack: Instruction Tuning Code Large Language Models. arXiv preprint arXiv:2308.07124, 2023论文
[17]
Nan Jiang, Tao Xie, Mingyue Shang, et al.. ReACC: A Retrieval-Augmented Code Completion Framework. ACL 2022, 2022论文
[18]
Dawn Drain, Colin Clement, Guillermo Serrato, et al.. DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons. arXiv preprint arXiv:2105.09352, 2021论文
[19]
Aleksandra Eliseeva, Yaroslav Sokolov, Egor Bogomolov, et al.. CommitChronicle: A Dataset for History-Aware Commit Message Generation. ASE, 2023论文
[20]
Jiayi Pan, Xingyao Wang, Graham Neubig, et al.. SWE-Gym: An Open Environment for Training Software Engineering Agents & Verifiers. arXiv, 2024论文
[21]
Carlos E. Jimenez, John Yang, Alexander Wettig, et al.. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. ICLR, 2024论文
[22]
Neel Guha, Julian Nyarko, Daniel E. Ho, et al.. LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models. NeurIPS D&B, 2023论文
[23]
Di Jin, Eileen Pan, Nassim Oufattole, et al.. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams (MedQA). Applied Sciences, 2020论文
[24]
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, et al.. RULER: What's the Real Context Size of Your Long-Context Language Models?. COLM, 2024论文
[25]
Yushi Bai, Xin Lv, Jiajie Zhang, et al.. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
[26]
Xinrong Zhang, Yingfa Chen, Shengding Hu, et al.. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. ACL, 2024论文
[27]
Guilherme Penedo, Hynek Kydlíček, Loubna Ben Allal, et al.. The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. NeurIPS D&B, 2024论文
[28]
Jeffrey Li, Alex Fang, Georgios Smyrnis, et al.. DataComp-LM: In Search of the Next Generation of Training Sets for Language Models. NeurIPS D&B, 2024论文
[29]
Sang Michael Xie, Hieu Pham, Xuanyi Dong, et al.. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. NeurIPS, 2023论文

论文列表

4D维度分解与非对称架构(3)

梳理Hyper-Doc预训练中上下文Z的结构化分解逻辑，明确3个实体维度与1个编排元维度的边界与非对称关系

2×3构造配方矩阵(4)

覆盖所有现有Hyper-Doc预训练方法的构造范式，明确ERS和IVI两类方法在三个实体维度上的落地路径

跨域适配谱与落地实践(3)

16个垂直领域的维度强度分布，以及对应的ERS/IVI方法选择策略，量化落地ROI

编排层与训练目标设计(3)

认知轨迹的编排语法，loss mask规则，以及训练过滤的流水线设计

4D Context Scaling：Hyper-Doc 预训练的跨域统一框架（空间 · 时间 · 语义 · 编排）—Part III