Part I / IIIContext Scaling 三部曲Part II·面向 Agent 的预训练：从 Intra-Doc 到 Hyper-Doc 的认知视角重构

Context Scaling 的三根轴：数据分布、拼接工程与 induction headPart I

把问题从“窗口能开多大”改成“远处证据何时进入可用语义计算”：PE 是门槛，数据与 packing 是主变量

16 篇论文·2026年4月21日

作者@Thor·gpt-5.4

53 篇扩展证据（支持 13 · 反证 10 · 拓展 29 · 切线 1）·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第一篇聚焦工程视角：长窗口的 runnability、数据分布与 packing 工程；`agent-context-scaling-hyperdoc`（认知视角）与 `context-scaling-4d`（分类视角）从不同轴互相补充。

结论先说窄：context scaling 的目标不是把可寻址窗口做大，而是让远处证据在训练中反复成为降 loss 所必需，并在评测中真正参与组合、综合和生成。标称 128K 是系统能力，effective 128K 是学习结果；两者之间隔着数据分布。PE/位置外推解决的是 runnability gate：PI、YaRN、LongRoPE、PoSE 能让模型稳定进入更长位置范围，但单独投入通常只证明“能跑长”。主收益来自数据配方：长文档上采样、长度 curriculum、领域分布保持，会增加模型必须跨远距 token 建模的事件频率。packing 是第三根轴，不是吞吐附属项：相关文档拼接、低截断打包、显式分隔 token，会把跨段重复、引用、对齐变成弱监督。RYS / Sapir-Whorf 系列给这件事一个更清楚的机制语言：模型中层更像共享语义空间；长上下文只有在远处 token 能被带入这个语义空间并参与后续计算时才算有效。评测也必须跟着升级：NIAH 只能测找针，RULER、NoCha、Summary of a Haystack、LongBench、∞Bench、BABILong 才能区分“找得到”与“用得好”。可执行判断是：PE 是门槛，数据是主变量，packing 决定长距依赖能否变成稳定训练信号。

TL;DR

一条更像 ICML oral 的表述是：长上下文扩展的核心变量不是位置编码，而是远距依赖在训练分布中的密度。PI、YaRN、LongRoPE、PoSE 能把模型稳定带到更长位置范围，是必要门槛；但它们主要证明“能运行”，不自动证明“能使用”[5][13][14][15]。RULER 把 retrieval hit 与 compositional use 拆开后，许多标称 128K 模型在组合任务上仍接近 32K 平台 [1]；Lost in the Middle 的 U-shape 说明位置偏置与训练分布会共同决定证据利用率 [9]。同一 base model 上，Fu et al. [2] 与 Xiong et al. [6] 的受控消融更直接：长文档上采样、长度 curriculum、领域分布保持，比 PE-only 更稳定地恢复长任务。packing 是第二个主变量，而不是 pipeline 细节。Shi et al. [7] 说明相关文档相邻拼接能在同 compute 下提升 ICL 与长文本任务；Chan et al. [23] 与 Olsson et al. [24] 给出分布与电路层面的解释。RYS / Sapir-Whorf 视角则补上表征语言：如果模型中层是共享语义空间，那么 context scaling 的目标就是提高远处证据进入这个空间并参与后续计算的频率，而不是单纯扩大地址范围 [49]。评测上，NIAH 只能做下界；至少用 RULER，再补 NoCha 或 Summary of a Haystack，必要时用 LongBench、∞Bench、BABILong 做回归 [3][8][4][11][12]。资源分配建议保持 1:6:3：PE 约 10%，数据约 60%，packing 约 30%。

核心断言

#1标称窗口是系统指标，有效上下文是行为指标；许多 128K 模型在 RULER 的组合任务上仍接近 32K 平台，这与 NIAH 高命中不矛盾，因为两者分别测“找得到”和“用得好” [1]。

#2PE 是进入长位置范围的 gate，不是长能力的主收益来源；same-base 消融里，长文档上采样、长度 curriculum 与领域分布保持比 PE-only 更直接地恢复长任务表现 [2][6]。

#3Lost in the Middle 的 20+ pp U-shape 说明有效上下文不是窗口长度的单调函数；证据放在序列中部时，注意力分配与训练分布偏置会共同放大退化 [9]。

#4相关文档 packing 是训练信号设计：它提高跨段重复、对齐与引用事件密度，使远处证据更常进入共享语义计算；这与 ICL 的分布解释、induction head 的电路解释、以及 RYS/Sapir-Whorf 的中层语义空间观察相互一致 [7][23][24][49]。

#5检索、外部记忆与架构切换在 retrieval-heavy 任务上常更省算力，但公开证据还不足以说明它们在 RULER、NoCha、BABILong 这类 effective-context 评测上已经替代了强 Transformer 长上下文模型 [28][3][12]。

§1 标称窗口不是有效上下文

先给结论：规格里写 128K、1M，不等于模型真正“会用”这么长的上下文。Hsieh et al. [1] 的关键贡献不是再做一个长上下文榜单，而是把任务拆成 13 类受控负载：multi-needle、variable tracking、multi-hop QA、aggregation。这个拆分把 NIAH 式“能不能把针找出来”与“能不能把多处证据组合起来”分开。结果很直接：不少标称 128K 的模型，在组合任务上的有效长度更接近 ~32K，而不是宣传口径里的 128K [1]。Liu et al. [9] 的 U-shape 现象解释了部分原因：证据在序列开头或结尾时更容易被利用，放在中部时会明显掉分，幅度常在 20+ pp。这不是单一的注意力 bug，而是训练分布与解码偏置共同作用——模型更常见到“前缀有用”或“尾部刚出现的信息有用”的事件，中部证据更少被强化 [9]。Karpinska et al. [3] 与 Laban et al. [8] 把问题再推进一步：即便模型能定位证据，book-length 输入上的综合、压缩、一致性生成仍会掉下来。Goldman et al. [10] 的分类也说明，很多所谓 long-context 任务会退化成 retrieval-only；如果评测不分开 retrieval 与 synthesis，结论会系统性偏乐观。更稳的门槛是：至少用 RULER 测组合使用，再用 NoCha 或 Summary of a Haystack 测综合生成，LongBench、∞Bench、BABILong 作为长度和任务面的回归补充 [4][11][12]。

图 1. 图 1.1 长上下文预训练 4 层栈:实际推动分数的是 L1+L2,L3 仅是 runnability gate

“能找到针”是必要条件，不是“能用 128K”的充分条件。

§2 PE 解决可运行性，数据决定主收益

Camp A 的核心主张是：长上下文首先是位置外推问题；只要 RoPE 或位置 bias 处理得当，就能 train short, test long。Press et al. [20]、Chen et al. [5]、Zhu et al. [15]、Chen et al. [16]、Ding et al. [14]、Liu et al. [17]、Xiao et al. [18]、Gemini Team [19] 都提供了这一路线的工程证据：更长位置范围可以实现，成本也未必过高。关键问题是，这些结果通常先证明“能稳定跑长”，再部分证明“某些任务上还能工作”，但很少在同一 base model、同一 token 预算下，干净对照 PE-only 与 data recipe。Fu et al. [2] 正好补上这个缺口：在 4K→128K 的 continual pretraining 中，只改位置、不改数据，长任务恢复有限；加入长文档上采样，并保持与基础预训练接近的领域分布后，收益更直接。Xiong et al. [6] 也在同一 base model 上，把长序列继续训练、长文档上采样与长任务提升绑定起来。He et al. [21] 进一步说明，连 Lost in the Middle 也更像训练目标与数据构造问题，而不是纯 PE 问题。Kazemnejad et al. [22] 的分析给出边界：PE 的影响主要体现在 extrapolation 稳定性和 attention 模式畸变，不能把所有退化都归因于位置频率失真。更务实的读法是：PE 是前置条件，不是主战场。先打通 32K 稳定训练、32K/128K 稳定推理，再把主要预算投向长文档比例、长度 curriculum、领域分布保持和继续训练 token 数，通常更接近可复现收益 [2][6]。

路线	主要改动	先解决什么	常见短板	代表引用
PE / 外推	RoPE 插值、缩放、skip-wise 训练、训练时外推	更长位置范围上的稳定训练/推理	最大窗口变大，但有效上下文未必同步增长	[5][13][14][15]
数据配方	长文档上采样、长度 curriculum、领域分布保持、继续训练	让远处 token 更常成为降 loss 所必需	若分布漂移，短任务可能回退	[2][6][47]
packing / 序列构造	相关文档拼接、低截断、分隔 token、结构化 packing	提高跨段重复、对齐、引用事件密度	直接因果证据仍少，公开消融不够多	[7][26][27]
检索 / 记忆 / 架构切换	RAG、自检索、外部记忆、sparse/recurrent/SSM	降低长输入成本或把知识放到外部通路	对 hard effective-context 任务的 head-to-head 仍不足	[28][29][37][38]

长上下文扩展的四条路线：解决的问题不同，门槛也不同

正在渲染图示…

图 2. 图 2.1 PE 解决可运行性,数据决定主收益:按症状分流

§3 packing 不是吞吐细节，而是弱监督

很多训练管线把 packing 视为吞吐优化：少 padding、塞满序列。这个视角太窄。更准确的说法是，packing 决定模型在一个 forward pass 里看到哪些可学习关系。Shi et al. [7] 的关键点不是“拼得更满”，而是先检索相关文档、再聚类、再相邻拼接，使跨文档引用、重复实体、局部对齐在同一训练序列中高频出现 [7]。在同 compute 下，ICL、长文本 QA、RAG 相关任务都有收益，难以用吞吐解释。

机制上可以分三层看。第一层是分布：Chan et al. [23] 说明 ICL 依赖 burstiness 与 skewed Zipfian 结构，而不是由参数量自动出现；packing 提高重复与对齐事件密度，就等于把训练分布推向更利于 ICL 的区域。第二层是电路：Olsson et al. [24] 说明 induction head 利用前文重复模式预测后续 token；如果相关文档 packing 让“前文出现 A:B，后文再出现 A:?”更常见，就更可能训练出可用的复制/对齐电路。第三层是表征：RYS / Sapir-Whorf 的 hidden-state 结果提示，模型中层更像共享语义空间；packing 的作用可以理解为提高远处证据被投进这个空间、并与当前 token 共同决定预测的频率 [49]。

Staniszewski et al. [26]、Ding et al. [27] 从结构化 packing 与少截断角度指向同一结论：同样的数据池，不同序列构造会改变模型实际学到什么。需要克制的是，packing→induction head→effective context 的直接因果闭环证据仍不足，公开工作更多是机制对齐而非完整证明 [25]。但继续把 packing 视为次要工程细节，已经不符合现有证据。

Random pack (legacy)

100baseline

+ doc-mask (cu_seqlens)

105[Ding2024FewerTrunc]

+ FewerTruncations bin pack

112[Ding2024FewerTrunc]

+ in-context pretraining

120[Shi2023InContextPretraining]

+ structured packing (related-doc adj)

125[Staniszewski2023StructuredPacking]

+ long-doc curriculum (4K -> 128K)

138[Fu2024DataEngineering]

单位：rel. RULER pass-rate

图 3. 图 3.1 同 PE / 同算力下,packing 策略对 RULER pass-rate 的相对影响 (illustrative;random pack = 100 baseline)

packing 改变的不是 token 数，而是“哪些跨段依赖会反复出现”。

§4 检索、外部记忆与架构切换：该用，但不要替代性叙事

另一条常见反驳是：既然 effective context 难以随窗口线性增长，就该直接改系统边界。Rubin and Berant [29] 把 retrieval 纳入预训练；Xu et al. [28] 直接比较 retrieval 与 long context，结论是互补；Liu et al. [30]、Izacard et al. [31]、Izacard and Grave [32]、Nakano et al. [33]、Hu et al. [34]、Wang et al. [35] 都表明，在知识密集、证据可索引、答案可局部归约的任务上，检索或外部记忆通常更省算力，也更容易控制更新成本。这个阵营击中了 claim c-150c39caec、c-f5078308ed 的一半：Transformer 的 attention 与 KV cache 预算确实使长度扩展不可能线性兑现。关键限制是，检索路线解决的是“把相关片段拿进来”，并不会自动解决“跨多段综合、压缩、生成一致输出”。NoCha [3]、Summary of a Haystack [8]、Goldman et al. [10] 恰好表明，许多 hard long-context 负载并不会退化为单次 retrieval。架构切换也类似。Transformer-XL [37]、Compressive Transformer [39]、Longformer [38]、Landmark Attention [40]、Focused Transformer [41]、Long Range Arena [42] 解决的是复杂度或记忆通路；Mamba [43]、RWKV [44]、Jamba [45]、LongNet [46] 继续推进这条路线。但公开证据仍缺一块：这些系统在 RULER、NoCha、BABILong 这类 effective-context 基准上的现代 head-to-head 仍不够。更务实的定位是：检索与架构切换是重要补充，尤其适合 retrieval-heavy 或 streaming 场景；但在需要跨段综合的任务上，它们还不能替代对训练分布本身的改造。

时间线

2019-01Transformer-XL 把“超出固定窗口的记忆通路”单独提出[37]
2021-08ALiBi 证明 train short, test long 在位置层面可行[20]
2022-05Chan et al. 把 ICL 与 burstiness / skew 绑定到数据分布[23]
2022-09Olsson et al. 给出 induction head 的电路解释[24]
2023-06PI 把 RoPE 扩窗工程化，PE 路线成熟[5]
2023-07Lost in the Middle 让“中部证据退化”变成公开基线问题[9]
2023-09Xiong et al. 把有效上下文提升与长文档上采样直接绑定[6]
2023-10Shi et al. 把相关文档 packing 变成预训练目标的一部分[7]
2024-02Fu et al. 用受控消融把主变量锁定到数据配方[2]
2024-04RULER 把“标称窗口”与“有效上下文”正式拆开[1]
2024-06NoCha 把压力从检索推进到 book-length 综合[3]
2024-07Summary of a Haystack 说明生成端仍是长上下文瓶颈[8]

研究立场对比

阵营 A：PE / 外推足够，长上下文主要是位置问题

立场 — 代表工作会说：只要把 RoPE base、插值、缩放或位置 bias 设计好，短上下文模型就能外推到长上下文；额外长数据与 packing 只是锦上添花 [20][5][13][14][15][17][18][19]。这一路线对应 claim c-2218c6a6ff、c-6a2e99f979、c-435bd5ac5f、c-0e06feed14。

证据：[20][5][13][14][15][17][18][19]

反方 — 反驳 c-2218c6a6ff / c-0e06feed14 的关键不在于 PE 无效，而在于 PE 主要解决“能跑长”。Fu et al. [2] 与 Xiong et al. [6] 在同一 base model 上显示，长文档上采样与领域分布保持更直接抬升长任务；Hsieh et al. [1] 进一步说明，PE-only 风格的 nominal 128K 常在组合任务上坍缩到 ~32K。He et al. [21] 也表明，lost-in-the-middle 可通过训练构造缓解，不是纯位置失真。

判词 — 一条更稳的读法：PE 是必要前置，不是主收益来源。把 PE 研发投入封顶在约 10%，优先选成熟实现；如果目标是有效 32K→128K，主预算应转向数据与 packing。

阵营 B：数据配方是主变量，长文档比例与分布保持决定有效上下文

立场 — 这一阵营认为，有效上下文来自训练时是否频繁出现“必须依赖远处 token 才能降 loss”的事件；因此应优先做长文档上采样、长度 curriculum、领域分布保持与 continual pretraining token 预算 [2][6]。这对应 claim c-d9adfa7269、c-53ccbfbab5、c-acb79e4a69、c-28296e99f6、c-429c87aafd。

证据：[2][6][9][1][47]

反方 — 需要修正 c-acb79e4a69 的地方是：数据不是全部。Shi et al. [7] 与 Staniszewski et al. [26] 指出，同样的数据池，不同 packing 结构下收益差异很大；这对应对 c-51ca2c6ff5 的支持。另一个限制是，公开文献里仍缺少更多 same-base、same-token-budget 的 PE-only vs data-only 直接对照。

判词 — 结论层面的建议：把数据当主战场是对的，但不要把 packing 降成附属项。更稳的资源分配是数据约 60%，packing 约 30%，PE 约 10%。

阵营 C：packing / 拼接工程被低估，序列构造本身提供弱监督

立场 — 这一阵营认为，长上下文的关键不是把单文档拉长，而是让模型在训练时经常遇到跨文档引用、重复与对齐；相关文档聚类 packing、低截断打包、显式分隔 token 会提高这类事件密度，从而更频繁触发 induction head 类电路 [7][23][24][26][27]。这对应 claim c-8202803d9b、c-2d04dd042e、c-7ff7c79275、c-b51a8309a9、c-44632aa071、c-8376f2d76a。

证据：[7][23][24][26][27][25]

反方 — 需要克制地修正 c-b51a8309a9：机制上很顺，但直接因果证据还不够。crawler 的 open question 也明确指出，packing/related-document concatenation 的公开 pretraining 消融仍少，packing 是否直接诱导 induction head 增长，还缺 controlled experiment。

判词 — 一个更务实的定位：packing 已经足够值得投入，而且常被低配；但现阶段更适合把它当作高价值工程假设，而不是已经完全闭环的定律。先做，再用 RULER/LongBench/NoCha 验证。

阵营 D：改架构或改系统边界，比在 Transformer 上硬扩窗更划算

立场 — 这一阵营会说，Transformer 的 attention 与 KV cache 形态决定了长程读写预算分配，effective context 很难随窗口线性增长；因此应转向 sparse/recurrent/memory/SSM，或直接用 retrieval/native memory 系统 [37][38][39][40][43][44][45][46][29][28]。这对应 claim c-150c39caec、c-083d546514、c-f5078308ed。

证据：[37][38][39][40][43][44][45][46][29][28]

反方 — 反驳 c-083d546514 / c-f5078308ed 的关键是评测口径。公开证据更多在最大长度、复杂度或 retrieval-heavy 任务上，而不是 RULER、NoCha、BABILong 这类 effective-context 基准。claim c-5b64164d84 指向的缺口仍在：同尺寸 SSM / hybrid 是否在 hard compositional long-context 上追平强 Transformer，公开 head-to-head 还不够。

判词 — 结论层面的建议：如果场景是 streaming、日志、知识库 QA，检索或记忆系统常更划算；如果场景要求跨段综合与长程生成一致性，先别把架构切换当成已验证替代品。

实践要点

可操作清单：
1) DO：把 PE 当作“稳定跑长”的前置条件，而不是主要收益来源。目标先定在稳定 32K 训练 + 稳定 32K/128K 推理；优先用 PI 或 YaRN 这类成熟实现，PE 研发投入封顶约 10% [5][13][22]。
2) DON’T：不要只在 NIAH 或单纯检索命中上宣称“有效 128K”。门槛至少包含 RULER 的组合任务，再补一个 synthesis 压力面：NoCha 或 Summary of a Haystack [1][3][8]。
3) DO：继续训练扩窗时，把长文档上采样设为 20–30% 的起点，并显式约束领域分布接近基础预训练。每次改配方都用 LongBench 做短/长任务回归，避免分布漂移导致短任务回退 [2][6][4][47]。
4) DO：把 packing 当成训练信号设计，而不是纯吞吐优化。优先尝试相关文档聚类拼接、低截断打包、显式分隔 token；如果只能做一件事，先减少“把潜在跨段依赖截断掉”的比例 [7][26][27]。
5) DON’T：不要把“最大窗口做到 1M+”当成有效上下文已经解决。先看 RULER 是否在 32K 之后继续增长，再看 NoCha / Summary of a Haystack 是否同步改善；如果没有，就把资源从 PE 转回数据与 packing [1][3][8][14][19]。
6) DO：post-training / SFT 阶段尽量复制 pretrain 的 packing 结构，尤其是 separator、chunk 邻接关系与示例长度分布；否则 32K+ 能力容易在对齐阶段回退 [48][7]。
7) DON’T：不要把检索与长上下文写成替代关系。对 retrieval-heavy 任务，先做 equal-compute 对照：RAG / retrieval-pretraining 往往更省；对跨段综合任务，再看 native long context 是否值得 [28][29][30][36]。
8) OPEN：packing 是否直接诱导 induction head 增长、以及同一 base model 下 PE-only vs data-only 的严格对照，公开证据还不够。这里适合做 controlled experiment，而不是先下结论 [24][23][25]。

悬而未决的问题

Q1.直接的 pretraining 证据仍缺：相关文档 concatenation、separator 设计、截断比例这些 packing 因子，分别对 RULER / LongBench / NoCha 提升多少？需要 same-base、same-token-budget 的公开消融。
Q2.PE-only 与长文档上采样 / 分布保持 continual pretraining 的 same-base 对照仍不够多。现有方向性证据偏向数据，但还缺更多统一预算下的 head-to-head。
Q3.packing 或重复跨段依赖是否会直接诱导更多 induction head，并因此提升 effective context，仍缺机制闭环证据。现有工作更多是分布解释与电路解释的对齐，而不是因果证明。
Q4.Mamba、RWKV、Jamba、LongNet 这类架构在 RULER、NoCha、BABILong 上与强 Transformer 的现代 head-to-head 仍不足；最大长度或复杂度优势不能直接外推到 effective context。
Q5.native long context 与 retrieval / retrieval-pretraining 的 equal-compute 比较，仍主要集中在 retrieval-heavy 任务。对 hard non-retrieval synthesis 任务，哪条路线更省算力、哪条路线更稳，还没有足够公开证据。

[1]
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
[2]
Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
[3]
Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. One Thousand and One Pairs: A "novel" challenge for long-context language models. arXiv, 2024论文
[4]
Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
[5]
Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
[6]
Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
[7]
Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Xi Victoria Lin. In-Context Pretraining: Language Modeling Beyond Document Boundaries. arXiv, 2023论文
[8]
Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu. Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems. arXiv, 2024论文
[9]
Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 2024论文
[10]
Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
[11]
Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
[12]
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack. arXiv, 2024论文
[13]
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
[14]
Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, et al.. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
[15]
Dawei Zhu, Nan Yang, Liang Wang, Yifan Song, Wenhao Wu, et al.. PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training. arXiv, 2023论文
[16]
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models. arXiv, 2023论文
[17]
Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang. E^2-LLM: Efficient and Extreme Length Extension of Large Language Models. arXiv, 2024论文
[18]
Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhiyuan Liu, Maosong Sun. InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory. arXiv, 2024论文
[19]
Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, et al.. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google, 2024报告
[20]
Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
[21]
Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu, et al.. Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training. arXiv, 2023论文
[22]
Amirhossein Kazemnejad, Inkit Padhi, Karthik Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. NeurIPS, 2023论文
[23]
Stephanie Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang. Data Distributional Properties Drive Emergent In-Context Learning in Transformers. NeurIPS, 2022论文
[24]
Catherine Olsson, Nelson Elhage, Nicholas Joseph, Nova DasSarma, Tom Henighan, et al.. In-context Learning and Induction Heads. Transformer Circuits Thread, 2022文章
[25]
Amanda Bertsch, Maor Ivgi, Emily Xiao, Uri Alon, Jonathan Berant. In-Context Learning with Long-Context Models: An In-Depth Exploration. arXiv, 2024论文
[26]
Konrad Staniszewski, Szymon Tworkowski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Structured Packing in Language Model Pre-Training Improves Long Range Context Utilization. arXiv, 2023论文
[27]
Yiran Ding, et al.. Fewer Truncations Improve Language Modeling. arXiv, 2024论文
[28]
Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, et al.. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
[29]
Ohad Rubin, Jonathan Berant. Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval. arXiv, 2023论文
[30]
Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, et al.. ChatQA: Surpassing GPT-4 on Conversational QA and RAG. arXiv, 2024论文
[31]
Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, et al.. Atlas: Few-shot Learning with Retrieval Augmented Language Models. JMLR, 2023论文
[32]
Gautier Izacard, Edouard Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. EACL, 2021论文
[33]
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, et al.. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
[34]
Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao. ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory. arXiv, 2023论文
[35]
Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao. Augmenting Language Models with Long-Term Memory. arXiv, 2023论文
[36]
Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, et al.. Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?. arXiv, 2024论文
[37]
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. ACL, 2019论文
[38]
Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
[39]
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. ICLR, 2020论文
[40]
Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
[41]
Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Focused Transformer: Contrastive Training for Context Scaling. arXiv, 2023论文
[42]
Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文
[43]
Albert Gu, Tri Dao. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. COLM, 2024论文
[44]
Bo Peng. RWKV v4neo and RWKV language model project. GitHub / project page, 2023文章
[45]
Oren Lieber, Or Sharir, Barak Lenz, et al.. Jamba: A Hybrid Transformer-Mamba Language Model. AI21 Labs, 2024报告
[46]
Jiayu Ding, Shuming Ma, Li Dong, et al.. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
[47]
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, et al.. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
[48]
Yushi Bai, et al.. LongAlign: A Recipe for Long Context Alignment of Large Language Models. arXiv, 2024论文
[49]
David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章

论文列表

有效上下文评测：从检索命中到组合使用(4)

把“能找到证据”与“能在长序列里组合、综合、生成”拆开，是判断有效上下文的第一步。

PE 外推与数据配方：谁决定主收益(4)

PE 决定模型能否稳定跑长，数据配方决定模型是否经常遇到必须利用远处 token 的训练事件。

packing、ICL 与 induction head(4)

序列构造不是纯工程细节；它会改变重复、对齐、引用事件的密度，从而影响 ICL 与 long-context 使用方式。

替代路径：检索、外部记忆与架构切换(4)

长上下文不是唯一方案；检索、外部记忆和高效长序列架构在部分任务上更省算力，但是否替代 effective context 仍需更严格 head-to-head。

Context Scaling 的三根轴：数据分布、拼接工程与 induction head—Part I