📚Papers

Context Scaling 的三根轴:数据分布、拼接工程与 induction headPart I

把问题从“窗口能开多大”改成“远处证据何时进入可用语义计算”:PE 是门槛,数据与 packing 是主变量

16 篇论文·2026年4月21日

作者@Thor·gpt-5.4

53 篇扩展证据(支持 13 · 反证 10 · 拓展 29 · 切线 1)·知识聚类 7·悬问 5

领域综述

Context Scaling 三部曲第一篇聚焦工程视角:长窗口的 runnability、数据分布与 packing 工程;`agent-context-scaling-hyperdoc`(认知视角)与 `context-scaling-4d`(分类视角)从不同轴互相补充。

结论先说窄:context scaling 的目标不是把可寻址窗口做大,而是让远处证据在训练中反复成为降 loss 所必需,并在评测中真正参与组合、综合和生成。标称 128K 是系统能力,effective 128K 是学习结果;两者之间隔着数据分布。PE/位置外推解决的是 runnability gate:PI、YaRN、LongRoPE、PoSE 能让模型稳定进入更长位置范围,但单独投入通常只证明“能跑长”。主收益来自数据配方:长文档上采样、长度 curriculum、领域分布保持,会增加模型必须跨远距 token 建模的事件频率。packing 是第三根轴,不是吞吐附属项:相关文档拼接、低截断打包、显式分隔 token,会把跨段重复、引用、对齐变成弱监督。RYS / Sapir-Whorf 系列给这件事一个更清楚的机制语言:模型中层更像共享语义空间;长上下文只有在远处 token 能被带入这个语义空间并参与后续计算时才算有效。评测也必须跟着升级:NIAH 只能测找针,RULER、NoCha、Summary of a Haystack、LongBench、∞Bench、BABILong 才能区分“找得到”与“用得好”。可执行判断是:PE 是门槛,数据是主变量,packing 决定长距依赖能否变成稳定训练信号。

TL;DR

一条更像 ICML oral 的表述是:长上下文扩展的核心变量不是位置编码,而是远距依赖在训练分布中的密度。PI、YaRN、LongRoPE、PoSE 能把模型稳定带到更长位置范围,是必要门槛;但它们主要证明“能运行”,不自动证明“能使用”[5][13][14][15]。RULER 把 retrieval hit 与 compositional use 拆开后,许多标称 128K 模型在组合任务上仍接近 32K 平台 [1];Lost in the Middle 的 U-shape 说明位置偏置与训练分布会共同决定证据利用率 [9]。同一 base model 上,Fu et al. [2] 与 Xiong et al. [6] 的受控消融更直接:长文档上采样、长度 curriculum、领域分布保持,比 PE-only 更稳定地恢复长任务。packing 是第二个主变量,而不是 pipeline 细节。Shi et al. [7] 说明相关文档相邻拼接能在同 compute 下提升 ICL 与长文本任务;Chan et al. [23] 与 Olsson et al. [24] 给出分布与电路层面的解释。RYS / Sapir-Whorf 视角则补上表征语言:如果模型中层是共享语义空间,那么 context scaling 的目标就是提高远处证据进入这个空间并参与后续计算的频率,而不是单纯扩大地址范围 [49]。评测上,NIAH 只能做下界;至少用 RULER,再补 NoCha 或 Summary of a Haystack,必要时用 LongBench、∞Bench、BABILong 做回归 [3][8][4][11][12]。资源分配建议保持 1:6:3:PE 约 10%,数据约 60%,packing 约 30%。

核心断言

#1标称窗口是系统指标,有效上下文是行为指标;许多 128K 模型在 RULER 的组合任务上仍接近 32K 平台,这与 NIAH 高命中不矛盾,因为两者分别测“找得到”和“用得好” [1]
#2PE 是进入长位置范围的 gate,不是长能力的主收益来源;same-base 消融里,长文档上采样、长度 curriculum 与领域分布保持比 PE-only 更直接地恢复长任务表现 [2][6]
#3Lost in the Middle 的 20+ pp U-shape 说明有效上下文不是窗口长度的单调函数;证据放在序列中部时,注意力分配与训练分布偏置会共同放大退化 [9]
#4相关文档 packing 是训练信号设计:它提高跨段重复、对齐与引用事件密度,使远处证据更常进入共享语义计算;这与 ICL 的分布解释、induction head 的电路解释、以及 RYS/Sapir-Whorf 的中层语义空间观察相互一致 [7][23][24][49]
#5检索、外部记忆与架构切换在 retrieval-heavy 任务上常更省算力,但公开证据还不足以说明它们在 RULER、NoCha、BABILong 这类 effective-context 评测上已经替代了强 Transformer 长上下文模型 [28][3][12]

§1 标称窗口不是有效上下文

先给结论:规格里写 128K、1M,不等于模型真正“会用”这么长的上下文。Hsieh et al. [1] 的关键贡献不是再做一个长上下文榜单,而是把任务拆成 13 类受控负载:multi-needle、variable tracking、multi-hop QA、aggregation。这个拆分把 NIAH 式“能不能把针找出来”与“能不能把多处证据组合起来”分开。结果很直接:不少标称 128K 的模型,在组合任务上的有效长度更接近 ~32K,而不是宣传口径里的 128K [1]。Liu et al. [9] 的 U-shape 现象解释了部分原因:证据在序列开头或结尾时更容易被利用,放在中部时会明显掉分,幅度常在 20+ pp。这不是单一的注意力 bug,而是训练分布与解码偏置共同作用——模型更常见到“前缀有用”或“尾部刚出现的信息有用”的事件,中部证据更少被强化 [9]。Karpinska et al. [3] 与 Laban et al. [8] 把问题再推进一步:即便模型能定位证据,book-length 输入上的综合、压缩、一致性生成仍会掉下来。Goldman et al. [10] 的分类也说明,很多所谓 long-context 任务会退化成 retrieval-only;如果评测不分开 retrieval 与 synthesis,结论会系统性偏乐观。更稳的门槛是:至少用 RULER 测组合使用,再用 NoCha 或 Summary of a Haystack 测综合生成,LongBench、∞Bench、BABILong 作为长度和任务面的回归补充 [4][11][12]

Long-context pretrain stack: 4 layers, only the bottom two move the score L4 Architecture / retrieval bypass SSM, Jamba, sliding/local, retrieval, external memory [Gu2023Mamba][Lieber2024Jamba][Beltagy2020Longformer][Xu2023RetrievalMeetsLongContext] L3 Position encoding (PE) -- runnability gate RoPE / ALiBi / PI / YaRN / LongRoPE / PoSE -- enables training, does not by itself yield recall [Chen2023PI][Peng2023YaRN][Ding2024LongRoPE][Press2021ALiBi][Zhu2023PoSE] L2 Packing -- weak-supervision shaper cu_seqlens doc-mask, FewerTruncations, in-context pretraining, structured packing [Ding2024FewerTrunc][Shi2023InContextPretraining][Staniszewski2023StructuredPacking] L1 Long-doc data engineering -- main score driver long-doc share, repo-level pack, evidence-aware mining, curriculum 4K -> 32K -> 128K [Fu2024DataEngineering][Xiong2023EffectiveLongCtx][Bai2024LongAlign] Order intentional: changing L1+L2 moves RULER / NoCha materially; L3+L4 mostly unblock training when L1 is fixed.
图 1. 图 1.1 长上下文预训练 4 层栈:实际推动分数的是 L1+L2,L3 仅是 runnability gate
“能找到针”是必要条件,不是“能用 128K”的充分条件。

§2 PE 解决可运行性,数据决定主收益

Camp A 的核心主张是:长上下文首先是位置外推问题;只要 RoPE 或位置 bias 处理得当,就能 train short, test long。Press et al. [20]、Chen et al. [5]、Zhu et al. [15]、Chen et al. [16]、Ding et al. [14]、Liu et al. [17]、Xiao et al. [18]、Gemini Team [19] 都提供了这一路线的工程证据:更长位置范围可以实现,成本也未必过高。关键问题是,这些结果通常先证明“能稳定跑长”,再部分证明“某些任务上还能工作”,但很少在同一 base model、同一 token 预算下,干净对照 PE-only 与 data recipe。Fu et al. [2] 正好补上这个缺口:在 4K→128K 的 continual pretraining 中,只改位置、不改数据,长任务恢复有限;加入长文档上采样,并保持与基础预训练接近的领域分布后,收益更直接。Xiong et al. [6] 也在同一 base model 上,把长序列继续训练、长文档上采样与长任务提升绑定起来。He et al. [21] 进一步说明,连 Lost in the Middle 也更像训练目标与数据构造问题,而不是纯 PE 问题。Kazemnejad et al. [22] 的分析给出边界:PE 的影响主要体现在 extrapolation 稳定性和 attention 模式畸变,不能把所有退化都归因于位置频率失真。更务实的读法是:PE 是前置条件,不是主战场。先打通 32K 稳定训练、32K/128K 稳定推理,再把主要预算投向长文档比例、长度 curriculum、领域分布保持和继续训练 token 数,通常更接近可复现收益 [2][6]

路线主要改动先解决什么常见短板代表引用
PE / 外推

RoPE 插值、缩放、skip-wise 训练、训练时外推

更长位置范围上的稳定训练/推理

最大窗口变大,但有效上下文未必同步增长

数据配方

长文档上采样、长度 curriculum、领域分布保持、继续训练

让远处 token 更常成为降 loss 所必需

若分布漂移,短任务可能回退

packing / 序列构造

相关文档拼接、低截断、分隔 token、结构化 packing

提高跨段重复、对齐、引用事件密度

直接因果证据仍少,公开消融不够多

检索 / 记忆 / 架构切换

RAG、自检索、外部记忆、sparse/recurrent/SSM

降低长输入成本或把知识放到外部通路

对 hard effective-context 任务的 head-to-head 仍不足

长上下文扩展的四条路线:解决的问题不同,门槛也不同
正在渲染图示…
图 2. 图 2.1 PE 解决可运行性,数据决定主收益:按症状分流

§3 packing 不是吞吐细节,而是弱监督

很多训练管线把 packing 视为吞吐优化:少 padding、塞满序列。这个视角太窄。更准确的说法是,packing 决定模型在一个 forward pass 里看到哪些可学习关系。Shi et al. [7] 的关键点不是“拼得更满”,而是先检索相关文档、再聚类、再相邻拼接,使跨文档引用、重复实体、局部对齐在同一训练序列中高频出现 [7]。在同 compute 下,ICL、长文本 QA、RAG 相关任务都有收益,难以用吞吐解释。

机制上可以分三层看。第一层是分布:Chan et al. [23] 说明 ICL 依赖 burstiness 与 skewed Zipfian 结构,而不是由参数量自动出现;packing 提高重复与对齐事件密度,就等于把训练分布推向更利于 ICL 的区域。第二层是电路:Olsson et al. [24] 说明 induction head 利用前文重复模式预测后续 token;如果相关文档 packing 让“前文出现 A:B,后文再出现 A:?”更常见,就更可能训练出可用的复制/对齐电路。第三层是表征:RYS / Sapir-Whorf 的 hidden-state 结果提示,模型中层更像共享语义空间;packing 的作用可以理解为提高远处证据被投进这个空间、并与当前 token 共同决定预测的频率 [49]

Staniszewski et al. [26]、Ding et al. [27] 从结构化 packing 与少截断角度指向同一结论:同样的数据池,不同序列构造会改变模型实际学到什么。需要克制的是,packing→induction head→effective context 的直接因果闭环证据仍不足,公开工作更多是机制对齐而非完整证明 [25]。但继续把 packing 视为次要工程细节,已经不符合现有证据。

Random pack (legacy)
100baseline
+ doc-mask (cu_seqlens)
105[Ding2024FewerTrunc]
+ FewerTruncations bin pack
112[Ding2024FewerTrunc]
+ in-context pretraining
120[Shi2023InContextPretraining]
+ structured packing (related-doc adj)
125[Staniszewski2023StructuredPacking]
+ long-doc curriculum (4K -> 128K)
138[Fu2024DataEngineering]
单位:rel. RULER pass-rate
图 3. 图 3.1 同 PE / 同算力下,packing 策略对 RULER pass-rate 的相对影响 (illustrative;random pack = 100 baseline)
packing 改变的不是 token 数,而是“哪些跨段依赖会反复出现”。

§4 检索、外部记忆与架构切换:该用,但不要替代性叙事

另一条常见反驳是:既然 effective context 难以随窗口线性增长,就该直接改系统边界。Rubin and Berant [29] 把 retrieval 纳入预训练;Xu et al. [28] 直接比较 retrieval 与 long context,结论是互补;Liu et al. [30]、Izacard et al. [31]、Izacard and Grave [32]、Nakano et al. [33]、Hu et al. [34]、Wang et al. [35] 都表明,在知识密集、证据可索引、答案可局部归约的任务上,检索或外部记忆通常更省算力,也更容易控制更新成本。这个阵营击中了 claim c-150c39caec、c-f5078308ed 的一半:Transformer 的 attention 与 KV cache 预算确实使长度扩展不可能线性兑现。关键限制是,检索路线解决的是“把相关片段拿进来”,并不会自动解决“跨多段综合、压缩、生成一致输出”。NoCha [3]、Summary of a Haystack [8]、Goldman et al. [10] 恰好表明,许多 hard long-context 负载并不会退化为单次 retrieval。架构切换也类似。Transformer-XL [37]、Compressive Transformer [39]、Longformer [38]、Landmark Attention [40]、Focused Transformer [41]、Long Range Arena [42] 解决的是复杂度或记忆通路;Mamba [43]、RWKV [44]、Jamba [45]、LongNet [46] 继续推进这条路线。但公开证据仍缺一块:这些系统在 RULER、NoCha、BABILong 这类 effective-context 基准上的现代 head-to-head 仍不够。更务实的定位是:检索与架构切换是重要补充,尤其适合 retrieval-heavy 或 streaming 场景;但在需要跨段综合的任务上,它们还不能替代对训练分布本身的改造。

时间线

  1. Transformer-XL 把“超出固定窗口的记忆通路”单独提出[37]
  2. ALiBi 证明 train short, test long 在位置层面可行[20]
  3. Chan et al. 把 ICL 与 burstiness / skew 绑定到数据分布[23]
  4. Olsson et al. 给出 induction head 的电路解释[24]
  5. PI 把 RoPE 扩窗工程化,PE 路线成熟[5]
  6. Lost in the Middle 让“中部证据退化”变成公开基线问题[9]
  7. Xiong et al. 把有效上下文提升与长文档上采样直接绑定[6]
  8. Shi et al. 把相关文档 packing 变成预训练目标的一部分[7]
  9. Fu et al. 用受控消融把主变量锁定到数据配方[2]
  10. RULER 把“标称窗口”与“有效上下文”正式拆开[1]
  11. NoCha 把压力从检索推进到 book-length 综合[3]
  12. Summary of a Haystack 说明生成端仍是长上下文瓶颈[8]

研究立场对比

阵营 A:PE / 外推足够,长上下文主要是位置问题

立场 — 代表工作会说:只要把 RoPE base、插值、缩放或位置 bias 设计好,短上下文模型就能外推到长上下文;额外长数据与 packing 只是锦上添花 [20][5][13][14][15][17][18][19]。这一路线对应 claim c-2218c6a6ff、c-6a2e99f979、c-435bd5ac5f、c-0e06feed14。

证据:[20][5][13][14][15][17][18][19]

反方 — 反驳 c-2218c6a6ff / c-0e06feed14 的关键不在于 PE 无效,而在于 PE 主要解决“能跑长”。Fu et al. [2] 与 Xiong et al. [6] 在同一 base model 上显示,长文档上采样与领域分布保持更直接抬升长任务;Hsieh et al. [1] 进一步说明,PE-only 风格的 nominal 128K 常在组合任务上坍缩到 ~32K。He et al. [21] 也表明,lost-in-the-middle 可通过训练构造缓解,不是纯位置失真。

判词 — 一条更稳的读法:PE 是必要前置,不是主收益来源。把 PE 研发投入封顶在约 10%,优先选成熟实现;如果目标是有效 32K→128K,主预算应转向数据与 packing。

阵营 B:数据配方是主变量,长文档比例与分布保持决定有效上下文

立场 — 这一阵营认为,有效上下文来自训练时是否频繁出现“必须依赖远处 token 才能降 loss”的事件;因此应优先做长文档上采样、长度 curriculum、领域分布保持与 continual pretraining token 预算 [2][6]。这对应 claim c-d9adfa7269、c-53ccbfbab5、c-acb79e4a69、c-28296e99f6、c-429c87aafd。

证据:[2][6][9][1][47]

反方 — 需要修正 c-acb79e4a69 的地方是:数据不是全部。Shi et al. [7] 与 Staniszewski et al. [26] 指出,同样的数据池,不同 packing 结构下收益差异很大;这对应对 c-51ca2c6ff5 的支持。另一个限制是,公开文献里仍缺少更多 same-base、same-token-budget 的 PE-only vs data-only 直接对照。

判词 — 结论层面的建议:把数据当主战场是对的,但不要把 packing 降成附属项。更稳的资源分配是数据约 60%,packing 约 30%,PE 约 10%。

阵营 C:packing / 拼接工程被低估,序列构造本身提供弱监督

立场 — 这一阵营认为,长上下文的关键不是把单文档拉长,而是让模型在训练时经常遇到跨文档引用、重复与对齐;相关文档聚类 packing、低截断打包、显式分隔 token 会提高这类事件密度,从而更频繁触发 induction head 类电路 [7][23][24][26][27]。这对应 claim c-8202803d9b、c-2d04dd042e、c-7ff7c79275、c-b51a8309a9、c-44632aa071、c-8376f2d76a。

证据:[7][23][24][26][27][25]

反方 — 需要克制地修正 c-b51a8309a9:机制上很顺,但直接因果证据还不够。crawler 的 open question 也明确指出,packing/related-document concatenation 的公开 pretraining 消融仍少,packing 是否直接诱导 induction head 增长,还缺 controlled experiment。

判词 — 一个更务实的定位:packing 已经足够值得投入,而且常被低配;但现阶段更适合把它当作高价值工程假设,而不是已经完全闭环的定律。先做,再用 RULER/LongBench/NoCha 验证。

阵营 D:改架构或改系统边界,比在 Transformer 上硬扩窗更划算

立场 — 这一阵营会说,Transformer 的 attention 与 KV cache 形态决定了长程读写预算分配,effective context 很难随窗口线性增长;因此应转向 sparse/recurrent/memory/SSM,或直接用 retrieval/native memory 系统 [37][38][39][40][43][44][45][46][29][28]。这对应 claim c-150c39caec、c-083d546514、c-f5078308ed。

证据:[37][38][39][40][43][44][45][46][29][28]

反方 — 反驳 c-083d546514 / c-f5078308ed 的关键是评测口径。公开证据更多在最大长度、复杂度或 retrieval-heavy 任务上,而不是 RULER、NoCha、BABILong 这类 effective-context 基准。claim c-5b64164d84 指向的缺口仍在:同尺寸 SSM / hybrid 是否在 hard compositional long-context 上追平强 Transformer,公开 head-to-head 还不够。

判词 — 结论层面的建议:如果场景是 streaming、日志、知识库 QA,检索或记忆系统常更划算;如果场景要求跨段综合与长程生成一致性,先别把架构切换当成已验证替代品。

实践要点

可操作清单:
1) DO:把 PE 当作“稳定跑长”的前置条件,而不是主要收益来源。目标先定在稳定 32K 训练 + 稳定 32K/128K 推理;优先用 PI 或 YaRN 这类成熟实现,PE 研发投入封顶约 10% [5][13][22]
2) DON’T:不要只在 NIAH 或单纯检索命中上宣称“有效 128K”。门槛至少包含 RULER 的组合任务,再补一个 synthesis 压力面:NoCha 或 Summary of a Haystack [1][3][8]
3) DO:继续训练扩窗时,把长文档上采样设为 20–30% 的起点,并显式约束领域分布接近基础预训练。每次改配方都用 LongBench 做短/长任务回归,避免分布漂移导致短任务回退 [2][6][4][47]
4) DO:把 packing 当成训练信号设计,而不是纯吞吐优化。优先尝试相关文档聚类拼接、低截断打包、显式分隔 token;如果只能做一件事,先减少“把潜在跨段依赖截断掉”的比例 [7][26][27]
5) DON’T:不要把“最大窗口做到 1M+”当成有效上下文已经解决。先看 RULER 是否在 32K 之后继续增长,再看 NoCha / Summary of a Haystack 是否同步改善;如果没有,就把资源从 PE 转回数据与 packing [1][3][8][14][19]
6) DO:post-training / SFT 阶段尽量复制 pretrain 的 packing 结构,尤其是 separator、chunk 邻接关系与示例长度分布;否则 32K+ 能力容易在对齐阶段回退 [48][7]
7) DON’T:不要把检索与长上下文写成替代关系。对 retrieval-heavy 任务,先做 equal-compute 对照:RAG / retrieval-pretraining 往往更省;对跨段综合任务,再看 native long context 是否值得 [28][29][30][36]
8) OPEN:packing 是否直接诱导 induction head 增长、以及同一 base model 下 PE-only vs data-only 的严格对照,公开证据还不够。这里适合做 controlled experiment,而不是先下结论 [24][23][25]

悬而未决的问题

  • Q1.直接的 pretraining 证据仍缺:相关文档 concatenation、separator 设计、截断比例这些 packing 因子,分别对 RULER / LongBench / NoCha 提升多少?需要 same-base、same-token-budget 的公开消融。
  • Q2.PE-only 与长文档上采样 / 分布保持 continual pretraining 的 same-base 对照仍不够多。现有方向性证据偏向数据,但还缺更多统一预算下的 head-to-head。
  • Q3.packing 或重复跨段依赖是否会直接诱导更多 induction head,并因此提升 effective context,仍缺机制闭环证据。现有工作更多是分布解释与电路解释的对齐,而不是因果证明。
  • Q4.Mamba、RWKV、Jamba、LongNet 这类架构在 RULER、NoCha、BABILong 上与强 Transformer 的现代 head-to-head 仍不足;最大长度或复杂度优势不能直接外推到 effective context。
  • Q5.native long context 与 retrieval / retrieval-pretraining 的 equal-compute 比较,仍主要集中在 retrieval-heavy 任务。对 hard non-retrieval synthesis 任务,哪条路线更省算力、哪条路线更稳,还没有足够公开证据。
  1. [1]
    Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
  2. [2]
    Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
  3. [3]
    Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. One Thousand and One Pairs: A "novel" challenge for long-context language models. arXiv, 2024论文
  4. [4]
    Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
  5. [5]
    Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
  6. [6]
    Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
  7. [7]
    Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Xi Victoria Lin. In-Context Pretraining: Language Modeling Beyond Document Boundaries. arXiv, 2023论文
  8. [8]
    Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu. Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems. arXiv, 2024论文
  9. [9]
    Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 2024论文
  10. [10]
    Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
  11. [11]
    Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
  12. [12]
    Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack. arXiv, 2024论文
  13. [13]
    Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
  14. [14]
    Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, et al.. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
  15. [15]
    Dawei Zhu, Nan Yang, Liang Wang, Yifan Song, Wenhao Wu, et al.. PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training. arXiv, 2023论文
  16. [16]
    Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models. arXiv, 2023论文
  17. [17]
    Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang. E^2-LLM: Efficient and Extreme Length Extension of Large Language Models. arXiv, 2024论文
  18. [18]
    Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhiyuan Liu, Maosong Sun. InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory. arXiv, 2024论文
  19. [19]
    Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, et al.. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google, 2024报告
  20. [20]
    Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
  21. [21]
    Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu, et al.. Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training. arXiv, 2023论文
  22. [22]
    Amirhossein Kazemnejad, Inkit Padhi, Karthik Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. NeurIPS, 2023论文
  23. [23]
    Stephanie Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang. Data Distributional Properties Drive Emergent In-Context Learning in Transformers. NeurIPS, 2022论文
  24. [24]
    Catherine Olsson, Nelson Elhage, Nicholas Joseph, Nova DasSarma, Tom Henighan, et al.. In-context Learning and Induction Heads. Transformer Circuits Thread, 2022文章
  25. [25]
    Amanda Bertsch, Maor Ivgi, Emily Xiao, Uri Alon, Jonathan Berant. In-Context Learning with Long-Context Models: An In-Depth Exploration. arXiv, 2024论文
  26. [26]
    Konrad Staniszewski, Szymon Tworkowski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Structured Packing in Language Model Pre-Training Improves Long Range Context Utilization. arXiv, 2023论文
  27. [27]
    Yiran Ding, et al.. Fewer Truncations Improve Language Modeling. arXiv, 2024论文
  28. [28]
    Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, et al.. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
  29. [29]
  30. [30]
    Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, et al.. ChatQA: Surpassing GPT-4 on Conversational QA and RAG. arXiv, 2024论文
  31. [31]
    Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, et al.. Atlas: Few-shot Learning with Retrieval Augmented Language Models. JMLR, 2023论文
  32. [32]
  33. [33]
    Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, et al.. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
  34. [34]
    Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao. ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory. arXiv, 2023论文
  35. [35]
    Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao. Augmenting Language Models with Long-Term Memory. arXiv, 2023论文
  36. [36]
    Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, et al.. Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?. arXiv, 2024论文
  37. [37]
    Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. ACL, 2019论文
  38. [38]
    Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
  39. [39]
    Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. ICLR, 2020论文
  40. [40]
    Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
  41. [41]
    Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Focused Transformer: Contrastive Training for Context Scaling. arXiv, 2023论文
  42. [42]
    Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文
  43. [43]
  44. [44]
    Bo Peng. RWKV v4neo and RWKV language model project. GitHub / project page, 2023文章
  45. [45]
    Oren Lieber, Or Sharir, Barak Lenz, et al.. Jamba: A Hybrid Transformer-Mamba Language Model. AI21 Labs, 2024报告
  46. [46]
    Jiayu Ding, Shuming Ma, Li Dong, et al.. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
  47. [47]
    Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, et al.. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
  48. [48]
  49. [49]
    David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章

论文列表

有效上下文评测:从检索命中到组合使用(4)

把“能找到证据”与“能在长序列里组合、综合、生成”拆开,是判断有效上下文的第一步。

10

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh,Simeng Sun,Samuel Kriman,Shantanu Acharya,Dima Rekesh,Fei Jia2024年4月9日
用 13 类受控任务把表面检索与组合使用上下文拆开,给出“有效上下文”而非“标称窗口”的测量协议。多模型结果显示,许多标称 128K 的系统在组合任务上实际停在约 32K。
9

One Thousand and One Pairs: A "novel" challenge for long-context language models

Marzena Karpinska,Katherine Thai,Kyle Lo,Tanya Goyal,Mohit Iyyer2024年6月24日
把长上下文难点从“找针”推进到 book-length 输入上的跨段对齐与综合。结果说明检索命中并不等价于可用上下文,真实阅读负载下的失败模式更接近生产场景。
9

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

Yushi Bai,Xin Lv,Jiajie Zhang,Hongchang Lyu,Jiankai Tang,Zhidian Huang2024年2月1日
提供跨任务、跨长度、含中英文的统一评测套件,适合做继续训练配方与 packing 改动后的广谱回归。它不只看检索,还覆盖摘要、QA、代码等不同负载。
9

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

Philippe Laban,Alexander R. Fabbri,Caiming Xiong,Chien-Sheng Wu2024年7月1日
把压力面从检索转到摘要与聚合,暴露“找到证据但压不成一致输出”的生成端瓶颈。适合作为有效上下文门槛,而不是只看 recall。

PE 外推与数据配方:谁决定主收益(4)

PE 决定模型能否稳定跑长,数据配方决定模型是否经常遇到必须利用远处 token 的训练事件。

10

Data Engineering for Scaling Language Models to 128K Context

Yao Fu,Rameswar Panda,Xinyao Niu,Xiang Yue,Hannaneh Hajishirzi,Yoon Kim2024年2月15日
用受控消融把 4K→128K 的主变量锁定在数据:只改位置不改数据时,长任务恢复有限;加入长文档上采样并保持领域分布后,用较少继续训练 token 就能把长任务拉回可用区间。
10

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava2023年9月27日
在同一 base model 上用长序列继续训练和长文档上采样稳定提升长文本任务,把有效上下文与训练分布直接绑定。它是“数据比 PE 更像主战场”的关键证据。
9

Extending Context Window of Large Language Models via Positional Interpolation

Shouyuan Chen,Sherman Wong,Liangjian Chen,Yuandong Tian2023年6月27日
PI 说明把 RoPE 位置映射压回训练范围内,可以用较少步数把模型稳定扩到 32K。它证明扩窗的可运行门槛不高,但没有证明 PE 单独足以带来稳健的有效上下文。
9

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Yiran Ding,Li Lyna Zhang,Chengruidong Zhang,Yuanyuan Xu,Ning Shang2024年2月21日
LongRoPE 把 PE 外推推到百万级以上,说明“能处理更长位置索引”在工程上可行。但它也把争论推得更清楚:最大窗口可以很大,有效上下文未必同步增长。

packing、ICL 与 induction head(4)

序列构造不是纯工程细节;它会改变重复、对齐、引用事件的密度,从而影响 ICL 与 long-context 使用方式。

10

In-Context Pretraining: Language Modeling Beyond Document Boundaries

Weijia Shi,Sewon Min,Maria Lomeli,Chunting Zhou,Margaret Li,Xi Victoria Lin2023年10月16日
把相关文档检索聚类后相邻拼接,显式制造跨文档依赖;同计算量下 ICL、长文本 QA、RAG 相关任务都有增益。它说明拼接顺序本身可以充当弱监督信号。
9

Data Distributional Properties Drive Emergent In-Context Learning in Transformers

Stephanie Chan,Adam Santoro,Andrew K. Lampinen,Jane X. Wang2022年5月27日
用合成实验说明 ICL 的出现更像数据分布现象,而不是参数量自动产物。burstiness 与 skew 增加时,模型更容易学会利用上下文中的重复与模式。
9

In-context Learning and Induction Heads

Catherine Olsson,Nelson Elhage,Nicholas Joseph,Nova DasSarma,Tom Henighan2022年9月26日
给出 induction head 的电路解释:模型通过匹配前文重复模式来复制后续 token,且其相变点与 ICL 能力同步。这为 packing 为什么可能有用提供了机制支点。
7

In-Context Learning with Long-Context Models: An In-Depth Exploration

Amanda Bertsch,Maor Ivgi,Emily Xiao,Uri Alon,Jonathan Berant2024年4月30日
研究长上下文模型在大量 demonstrations 下的 ICL 行为,说明“上下文更长”不自动等于“示例利用更好”。它补上了长窗口与 ICL 之间并不线性的经验事实。

替代路径:检索、外部记忆与架构切换(4)

长上下文不是唯一方案;检索、外部记忆和高效长序列架构在部分任务上更省算力,但是否替代 effective context 仍需更严格 head-to-head。

8

Retrieval meets Long Context Large Language Models

Peng Xu,Wei Ping,Xianchao Wu,Lawrence McAfee,Chen Zhu2023年10月4日
直接比较 retrieval 与 long context,结论不是二选一,而是任务依赖的互补关系。它提醒人们不要把“更长窗口”误写成“替代检索”。
8

ChatQA: Surpassing GPT-4 on Conversational QA and RAG

Zihan Liu,Wei Ping,Rajarshi Roy,Peng Xu,Chankyu Lee2024年1月18日
在 retrieval-heavy QA 上,RAG-tuned 模型可以压过通用长上下文系统,说明很多知识密集型任务的主瓶颈仍是检索与证据组织,而不是窗口长度本身。
7

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Zihang Dai,Zhilin Yang,Yiming Yang,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov2019年1月9日
用 segment recurrence 把固定窗口外的信息带进来,是“重做读写机制”路线的早期代表。它解决的是记忆通路,而不是单纯把位置索引拉长。
7

Longformer: The Long-Document Transformer

Iz Beltagy,Matthew E. Peters,Arman Cohan2020年4月10日
用 sparse attention 降低长文档计算成本,代表“先解决复杂度,再谈有效上下文”的架构路线。它对算力预算友好,但不自动解决组合推理与中部证据利用。