📚Papers

长文能力的本质:从「窗口长度」到「pattern capacity × 衰减斜率」

窗口长度只是上限;真正决定长文可用性的,是 attention pattern 能承载多少条路径、这些路径是否足够多样,以及性能随长度与位置如何衰减。

16 篇论文·2026年4月27日

作者@Thor·gpt-5.4

44 篇扩展证据(反证 8 · 拓展 35 · 切线 1)·知识聚类 6·悬问 5

领域综述

长文能力不该再被写成一个标量。标称窗口回答的是“能塞多少 token”,有效能力回答的是“在多长距离上还能稳定 retrieve、track、aggregate,并且衰减成什么形状”。2024–2025 的关键变化,是测量端与机制端终于接上:RULER 把单针 NIAH 拆成 retrieval、tracking、aggregation 三种压力;LongBench v2、LV-Eval、BABILong、Loong 把真实任务、长度分层和 reasoning 压力补齐;Wu et al. 进一步给出 retrieval heads 的因果证据,把“曲线为什么掉”与“attention map 里谁在干活”连到同一套解释。更稳的读法是把长文能力拆成三维:pattern capacity、pattern diversity、decay slope。capacity 决定同一段上下文里能并行维持几条独立路径;diversity 决定 retrieval head、induction head、sink、mover-like pattern 是否覆盖足够多的子任务;decay slope 则把失败形态区分成 uniform、U-shape、cliff。工程上,GQA/MQA/MLA 与 sequence-level sparse attention 说明:多数 head 在多数位置本来就稀疏,压缩与稀疏化未必破坏能力,前提是别误伤那少数承担检索与锚定职责的 head/token。

TL;DR

一条更稳的读法:长文能力不是“128K、1M、10M”这种单一数字,而是三维对象。第一维是 pattern capacity:同一段上下文里能并行维持多少条 retrieve / track / aggregate 路径。第二维是 pattern diversity:retrieval head、induction head、attention sink 等专家化模式是否覆盖了任务所需的子技能。第三维是 decay slope:性能随长度和位置下降时,是平滑变差、lost-in-the-middle 的 U-shape,还是在训练长度附近突然掉崖。RULER [1]、LV-Eval [9]、LongBench v2 [4]、BABILong [10] 已经说明:NIAH 能测到“能不能找”,但很难继续充当主指标;真实差异更多出现在 tracking、aggregation 和 reasoning。Wu et al. [5] 则把测量端与机制端焊在一起:只有约 top-5% 的 retrieval heads 承担主要长距检索职责,mask 它们会把长文 factuality 打回近随机。Liu et al. [2]、Xiao et al. [6]、Xiong et al. [21]、Fu et al. [22] 合起来看,U-shape、uniform decay、cliff 不是一个问题的不同表述,而是不同 root cause 的外显。工程上,长窗口并不自动胜过 RAG;当任务主要是 sparse evidence lookup 时,RAG 往往更省 [12]。但一旦任务要求跨段聚合或多跳推理,单纯检索会失手 [11][10][4]

核心断言

#1在 32K 以上,单针 NIAH 对一批前沿模型已接近饱和;RULER 的 multi-key、variable-tracking、aggregation 子任务仍能拉开 20–30+ 分差,因此“能找到一根针”不足以代表有效长文能力 [1][3][4]
#2标称窗口与有效上下文之间存在系统性 2–4× 缺口;更常见的可用长度落在训练长度附近或其有限外推范围,而不是产品页写出的最大窗口 [21][22][13][25]
#3长文衰减至少有三种可分辨形态:uniform decay 更像 capacity 不足,U-shape 更像位置优先级偏置,cliff 更像训练长度或外推边界;把三者混成一个“长文退化”会误导诊断 [2][9][33][31]
#4只有少数 retrieval heads 承担主要长距检索职责;在 LLaMA-2、Mistral、Yi 上,mask top-5% retrieval heads 会把 NIAH 类表现打到近随机,这说明长文 factuality 依赖稀疏专家化,而不是所有 head 平均分担 [5]
#5attention sink 不是纯效率技巧,而是全局锚点;streaming 或 KV eviction 若不保留前几个 sink token,远端利用会先坏,再谈不上长文推理 [6][18]
#6把『长文衰减』当成一个词会让诊断指错方向:uniform decay 的 fix 是更长训练 + 更细 head 专门化,U-shape 的 fix 在训练分布与 PE 配方层,cliff 的 fix 才是 RoPE/NTK/YaRN/LongRoPE 类外推;混在一起谈会把 capacity 不足误诊为 PE 问题,反过来也成立 [2][YaRN2023][LongRoPE2024][5]
#7attention pattern 的 capacity 与 diversity 都是可计算量:capacity 用 per-head entropy + cross-head SVD effective rank;diversity 用 top-K Jaccard + specialization score。把这四个 surrogates 与 RULER 子任务做 Spearman ranked-correlation,应当成为长文模型评估的默认补充——『一个分数 + 四个 attention 测度』比『一个分数』更能区分相同窗口下的两类失败 [1][5][Olsson2022Induction]
#8稀疏 attention(NSA / MoBA / DSA / V3.2 sparse)与 capacity-diversity 叙事是兼容的而不是替代的。前提是 (a) sink 必保留、(b) routing 对 retrieval / induction head 必须 content-aware 而不仅 position-aware、(c) mover head 的有效命中率不低于 ~30%。违反任意一条,先坏的不是吞吐而是 RULER aggregation 与 lost-in-middle 类指标 [V3SparseAttn2025][NSA2025][MoBA2025][6]

§1 先别问窗口多长,先问在测什么

NIAH 在 2023 年后迅速流行,因为它把长文问题压缩为一个干净的 retrieve 测试:把 needle 放进长 haystack,检验模型能否从任意位置找回。问题是,这类任务按构造只覆盖一条路径——定位单个证据;模型一旦学会稳定的 sparse lookup,分数就会过早饱和。[1] 直接反驳“单任务长文评测足以代表整体能力”这一先验:它不是再造一个更难的 needle,而是把压力拆成 multi-key retrieval、variable tracking、aggregation。结果很清楚:在 NIAH 上都显得“能用”的模型,在 tracking 与 aggregation 上会重新拉开差距。[3] 已经指出,多任务评测比单任务更接近真实使用;[4] 将这一判断推进到真实长文任务,显示 retrieve 与 reasoning/aggregation 的相关性并不高。[10] 进一步把短 reasoning 嵌进长 haystack,说明“先找到,再组合,再推理”是三段式链条;第一段过关,不代表后两段也过关。[9] 的额外价值在于长度分层:只有在同一任务分布下比较 16K 到 256K,才能看出模型是平滑衰减,还是在训练长度附近突然掉崖。更务实的测量顺序是:先用 NIAH 判断是否具备最基本的 arbitrary-position retrieval,再用 RULER 区分 retrieve/track/aggregate,再用 LongBench v2、BABILong、Loong 一类真实任务确认 reasoning 是否仍然成立。[8][11]

框架主压力容易饱和吗更擅长暴露什么失败
NIAH

单针 retrieval

是,32K+ 常见

最基本 arbitrary-position lookup 不成立

RULER [RULER2024]

retrieve / track / aggregate 解耦

较难

capacity 不足、路径并行不足

LV-Eval [LVEval2024]

长度分层

中等

uniform vs cliff 衰减

LongBench v2 [LongBenchV22024]

真实多任务 reasoning

不易

retrieve 与 aggregate/reasoning 脱钩

BABILong [BABILong2024]

长文中的组合推理

不易

找到证据后仍无法推理

长文评测栈比较:每一层测到的是不同失败模式
正在渲染图示…
图 1. 长文评测栈的层级化:每一层在前一层之上叠加新的失败模式。NIAH 测『能否找到一根针』,RULER 把检索/跟踪/聚合解耦,LongBench v2 把任务变现实,Loong / LV-Eval / BABILong 把 reasoning 拉出 retrieval baseline。一个模型可以在 NIAH 满分但在 RULER variable-tracking 上仅 30 分;这不是 NIAH 错了,是 NIAH 测不到的能力 RULER 才开始测。
GPT-4-128K (claimed)
128标称
GPT-4-128K (effective)
64实测
Claude-3-200K (claimed)
200标称
Claude-3-200K (effective)
96实测
LLaMA-3.1-128K (claimed)
128标称
LLaMA-3.1-128K (effective)
32实测
Yi-200K (claimed)
200标称
Yi-200K (effective)
32实测
Gemini-1.5-1M (claimed)
1000标称
Gemini-1.5-1M (effective)
200实测
单位:上下文长度(K token)
图 2. 标称窗口(蓝)vs 实测有效上下文(橙)。多数模型在 RULER / LongBench v2 / Loong 上的可用长度落在训练长度附近,而非产品页最大窗口。Effective 长度的口径用『综合得分跌到短窗 baseline 的 ≥85% 的最大长度』,与 Gao et al. 2024 / Hsieh et al. 2024 在 RULER 上的口径一致;不同 paper 的具体口径会差 1.5×–2×,但相对排序稳定。
NIAH (single needle, vanilla)
2.5032k 前沿基本饱和
NIAH-multi / multi-key
4.50key 重组 + 多 needle
RULER (variable tracking, agg)
6.50compositional 任务
LongBench v2 (long-form QA)
7需要长程推理
Loong (high distractor density)
7.50多文档抗干扰
LV-Eval (verifiable long QA)
8可验证 + 抗污染
BABILong (symbolic reasoning)
8.50符号链路追踪
单位:相对难度 0-10
图 3. 图 1.3 长文评估方案的相对难度轮廓 (illustrative, 越高越能区分前沿模型)
“能找到一根针”是长文能力的入场券,不是总分。

§2 衰减不是一个词:uniform、U-shape、cliff 对应不同根因

[2] 给出的 U-shape 现象很稳:证据在开头和结尾更容易被利用,放在中间时性能下降。但把所有位置退化都归因于位置编码并不准确。[37][33] 说明 RoPE 外推确有边界;超过训练长度后相位误差会积累,因此长度接近或超过训练上限时常出现 cliff。[21][22] 进一步表明,只改 PE 而不补长序列训练与数据分布,模型往往只是“能接收更长输入”,而不是“能有效使用更长输入”。这类失败更像 train-length cliff。另一类失败是 U-shape:它更像优先级分配问题,而不是纯长度边界问题。[6] 发现前几个 token 会自然成为 attention sink,许多 head 在大部分位置都会把一部分概率分给这些 anchor;这让中段证据在竞争注意力预算时处于劣势。[18] 进一步说明 sink 的出现受训练和架构影响,因此 lost-in-the-middle 至少有一部分是 anchor bias,而不是纯 PE artifact。第三类是 uniform decay:长度越长,tracking 或 aggregation 越平滑变差,位置上不一定出现明显 U-shape。这更像 pattern capacity 不足:模型能维持的独立路径数不够,干扰项增多后,路径之间开始争抢预算。[1][23] 因此更稳的诊断顺序是:先看训练长度附近是否出现 cliff,再看是否存在中段特异性 U-shape,最后判断是否是整体 capacity 不足导致的平滑衰减。把三者混成“长文退化”,会把训练 recipe、PE、sink、head specialization 四类问题搅在一起。[31]

形态根因判别证据对应修复
Uniform decay

attention-pattern capacity 不足;head 数量或 specialization 不够

perf 在所有长度上以接近常斜率退化;head-mask 实验显示 retrieval head 数量稀少

更长训练 + 更细 head specialization;不要只换 PE

U-shape (lost-in-middle)

位置优先级偏置 + sink anchoring;中段 mover head 工作量过载

perf 在 [start][end] 高、middle 低;sink-rate 测得偏高;mover-head probe 在中段命中率低

训练分布层修正:长文档比例上调、随机片段 reorder;PE 配方层修正:mid-frequency 重新校准(YaRN)

Cliff

训练长度末端 / PE 外推边界;超过此长度 attention 进入相位混乱

perf 在某一长度临界 L* 之前接近 flat,之后断崖;NIAH 在 L* 之后跌到接近 random

RoPE base 上调 + NTK / YaRN / LongRoPE 类外推;continual pretrain 在长文档上至少跨过 L*

三种衰减形态、根因、判别证据与对应工程修复
三种长文衰减形态及其根因three decay shapes and their root causesperflength01Uniform decayuniform decaycapacity 不足 / 头数不足capacity-bound: too few specialized headsperflength01U-shapeU-shape (lost-in-middle)位置优先级偏置 + sinkposition-priority bias + sink anchoringperflength01Cliffcliff训练长度末端 / PE 外推边界training-length edge / PE extrapolation limit
图 4. 三种长文 perf-vs-length 衰减形态:uniform 是 capacity 不足、U-shape 是位置/sink 偏置、cliff 是训练长度或 PE 外推边界。把三种混在一起当成『长文退化』会让诊断指错方向:uniform 的 fix 是更长训练 + 更细 head 专门化,U-shape 的 fix 在训练分布与 PE 配方层面,cliff 的 fix 在 RoPE base / NTK / YaRN / LongRoPE 系列。
U-shape 不是 cliff 的温和版本;它常常是另一种故障。

§3 attention pattern 的内部结构:少数 head 在扛主要工作

连接测量端与机制端的关键证据来自 [5]。Wu et al. [5] 在 LLaMA-2、Mistral、Yi 上识别出 retrieval heads,并通过 head-mask ablation 给出因果证据:mask 掉 top retrieval heads 后,长文 factuality 与 NIAH 类表现会急剧下滑,接近随机水平。这说明长距检索并非由所有 head 均匀分担,而是由少数专家化 head 承担。这个图景与 [7] 的 induction head 叙事高度一致:宏观能力往往不是“每层都懂一点”的平均结果,而是“少数电路先出现,再带动整体行为”。差别在于,induction head 主要解释 copy / continuation 型 ICL;retrieval head 更直接对应任意位置事实找回。[30] 也说明 capacity 不是无限的:shot 数量上去后,context 本身会成为瓶颈。attention sink 提供了另一类结构元件。[6] 表明前几个 token 会作为全局 anchor 被大量 head 反复访问;[18] 说明这种模式会稳定浮现。把这三类模式合在一起看,长文能力更像一个稀疏专家系统:retrieval heads 负责远端定位,induction heads 负责模式延续,sink 负责全局锚定。因此 pattern diversity 是核心变量:如果模型只有 retrieval,而缺少足够的 aggregation / induction / mover-like pattern,即便 NIAH 很高,LongBench v2 或 BABILong 也会掉。[4][10] 这就是为什么“窗口更长”不能自动推出“长文 reasoning 更强”。

Archetype做什么测度失效信号
Retrieval head

把远端关键 key 信息搬到当前 query;少数 head 承担主任务

head-mask ablation:mask 后 NIAH 类任务大幅退化

NIAH 跌到接近 random,但 ICL / generative 任务可能仍接近 baseline

Induction head

在 [..AB..A→B] 模式上复制下一个 token;ICL 的硬件

前缀-后缀匹配率 / Olsson 2022 metric

ICL accuracy 大幅退化,NIAH 几乎不动

Attention sink

所有 query 默认看 key 0/1;起到全局 anchor 作用

前几个 token 的平均 attention 概率 / sink rate

streaming inference 远端利用先坏;KV 早期淘汰会触发崩溃

Mover head

把中段证据搬到 query 端;与 lost-in-middle 高度相关

function-vector probe / 2406.13632 风格读出

U-shape 加深;中段聚合任务(RULER aggregation)退化先于 retrieve

四种 attention head archetype 与其测度
原始模型
92no mask
mask top-5% retrieval heads
18≈random
mask 5% random heads
86barely shifts
mask all induction heads
78ICL hurt > NIAH
mask top-5% + 全部 sink
8崩到 floor
单位:NIAH 准确率(%)
图 5. Wu et al. 2024 在 LLaMA-2-7B 上的 head-mask ablation 风格证据:mask top-5% retrieval heads 把 NIAH 拉到接近随机;同等数量 random heads 几乎不影响;mask 全部 induction heads 主要影响 ICL 而非 NIAH。说明长文 factuality 的工作量集中在少数 retrieval heads,capacity 假设(『所有 head 平均分担』)是错的。
attention head 的四种专门化 archetypefour specialized attention-head archetypes that show up in long-context modelsRetrieval Headretrieval headkey (context →)query (token)做什么 / what把信息从远端 key 搬到当前query;少数 head 承担主任务concentrates remote keysonto the query; few headscarry it怎么测 / measurehead-maskablation:mask 后NIAH 崩到接近 randomhead-mask ablation: NIAHcollapses to ~randomInduction Headinduction headkey (context →)query (token)做什么 / what在 [..AB..A→B]模式上复制下一个 token;ICL的硬件completes [..AB..A→B] copypatterns; the hardware ofICL怎么测 / measure前缀-后缀匹配率 / Olsson2022 metricprefix-suffix match rate /Olsson 2022 metricAttention Sinkattention sinkkey (context →)query (token)做什么 / what所有 query 默认看 key0/1;起到全局 anchor 作用every query attends to key0/1; acts as global anchor怎么测 / measure前几个 token 的平均 attn概率 / sink ratemean attn prob on firstfew tokens / sink rateMover Headmover headkey (context →)query (token)做什么 / what把中段证据搬到 query 端;与lost-in-middle 高度相关moves mid-context evidenceto query side; tied tolost-in-middle怎么测 / measurefunction-vectorprobe / 2406.13632风格读出function-vector probe /2406.13632-style readout
图 6. 长文模型里至少存在四种专门化 attention head archetype。每个面板上方是该 head 的典型 attention map(query × key 的 8×8 简化示意),下方是它『做什么』与『怎么测』的标注。retrieval head 决定 NIAH 类任务,induction head 决定 ICL 表现,sink 决定 streaming 与远端利用,mover head 决定中段证据的可达性——这四类一起描述出『attention pattern 的 diversity』这条轴。
图 7. 把 attention pattern 的 capacity 与 diversity 写成可计算量。capacity 用 (per-head entropy 总和) 与 (跨 head SVD effective rank) 双指标;diversity 用 (跨 head Jaccard 距离) 与 (specialization score) 度量。这些数都不是新的,但把它们和 RULER 子任务做 ranked-correlation 才是 §3 的关键实验。

§4 工程结论:长窗口不是默认答案,压缩与稀疏化也不是天然敌人

工程上常见误判有两个。第一,把“标称 1M 窗口”等同于“1M 内任意任务都应直接塞入窗口”。[12][15][17][16] 都提示:若任务主要是 sparse evidence lookup,外部 retrieval 往往比把整份文档硬塞进窗口更省、更稳。第二,把压缩、稀疏 attention、KV 缩减视为必然损伤长文能力。[6] 已经说明,只要保留 sink token,激进 eviction 仍可维持稳定生成;[34] 说明,若压缩保留对后续检索有用的 summary state,就能降低成本而不必完全牺牲效果;[32] 则展示了“更好访问结构”可以替代“全量可见”。这与 [5] 的结果并不冲突:危险不在压缩本身,而在无差别伤到少数承担 retrieval 或 anchoring 的 head/token。反过来,若任务要求跨段聚合、比较或多跳推理,RAG 也不是默认答案。[11] 质疑大量 benchmark 只是 retrieval 伪装;[4][10][13] 则给出反例:找到证据之后,模型仍需在同一上下文里维持多条路径并完成组合。更务实的工程定位是:长窗口用于保留交互结构,RAG 用于缩小搜索空间,压缩/稀疏化用于在不伤关键路径前提下降成本。三者不是互斥选项,而是按任务结构组合使用。[14][28][40][39]

正在渲染图示…
图 8. 训练分布、PE 配方、attention pattern 与 decay 形态之间的因果链。这条链里多数节点之间是可干预的,§3–§4 的所有实验等于在某个节点上做 do-operator:mask retrieval heads(do head=0)、缩放 RoPE base(do PE-coverage=high)、上采样长文档(do long-doc-frac↑)。能看到哪些下游节点会响应、哪些不动,就能判断真正的瓶颈。
图 9. 稀疏 attention(NSA / MoBA / DSA / V3.2 sparse)与本叙事并不冲突,但有边界。把它当成 routing 决策来读:要保证 retrieval head 仍能命中关键 key,并保留 sink token 在 cache 里。对 capacity 假设的影响是『大多数 head 在大多数位置 prob ≈ 0』本身就是事实,sparse attention 只是把这个事实显式化——不是新增 capacity 损失。但 mover head 与 induction head 的工作分布更密,aggressive 稀疏会先伤这两类。
真正该保护的不是“所有 token 都可见”,而是那几条关键路径别被压没。

时间线

  1. Olsson et al. [7] 把 ICL 相变与 induction heads 绑定[7]
  2. Liu et al. [2] 确立 lost-in-the-middle 的 U-shape[2]
  3. Xiao et al. [6] 证明 sink token 是 streaming 的硬约束[6]
  4. Hsieh et al. [1] 用 retrieve / track / aggregate 重写测量栈[1]
  5. Wu et al. [5] 用 retrieval-head ablation 把机制与评测焊接起来[5]
  6. Bai et al. [4] 把焦点从 retrieval 推到真实长文 reasoning[4]

研究立场对比

阵营 A:NIAH 仍可作为长文主指标

立场 — 这一阵营默认只要模型能在任意位置稳定找回 needle,长文能力就已基本成立;更复杂 benchmark 只是把任务噪声混进来。

证据:[3]

反方 — 反驳来自 [1][4][10][11]:单针 retrieval 只能覆盖一条路径,tracking、aggregation、reasoning 会在 NIAH 饱和后继续分化。修正建议是把 NIAH 降级为入场测试,而不是总指标。

判词 — 一条更稳的读法:NIAH 只适合回答“最基本 arbitrary-position retrieval 是否存在”,不适合回答“长文能力有多强”。

阵营 B:长窗口主要是检索问题,RAG 足以替代

立场 — 这一阵营认为大多数长文任务本质上是 sparse evidence lookup,因此更长窗口的边际收益有限,检索增强更省算力也更稳。

证据:[12][15][17][11]

反方 — 反驳来自 [4][10][13][26]:一旦任务要求跨段聚合、比较、时间线跟踪或多跳推理,检索只能缩小搜索空间,不能替代同一上下文里的组合计算。

判词 — 一个更务实的定位:RAG 适合 sparse lookup,长窗口适合保留交互结构;二者应按任务结构组合,而不是互相替代。

阵营 C:lost-in-the-middle 主要是位置编码问题

立场 — 这一阵营把 U-shape 的主要根因归到 RoPE 外推或 PE 设计,认为只要换 PE 或做插值,长文位置退化就会大幅缓解。

证据:[37][33][31]

反方 — 反驳来自 [2][6][18][22]:U-shape 至少混合了位置外推边界、训练长度分布和 sink-induced priority bias。只改 PE 常能推迟 cliff,却未必消除中段偏置。

判词 — 结论层面的建议:先把 cliff、U-shape、uniform decay 分开,再决定是改 PE、补长序列训练,还是处理 sink 与 head 预算分配。

阵营 D:长文能力是全模型平均分担,不需要 head 级机制解释

立场 — 这一阵营更偏向把长文能力看成整体表征质量的结果,认为 head 级专家化只是分析便利,不是决定性结构。

证据:[3][13]

反方 — 反驳来自 [5][7]:当 mask 少数 retrieval heads 就能把 NIAH 打回近随机,而 induction heads 又能解释 ICL 相变时,‘平均分担’已经很难维持。更像真实情况的是:整体表征提供底座,少数 head 决定关键路径是否存在。

判词 — 一条更稳的读法:长文能力既不是纯 head-level,也不是纯 distributed;但在诊断失败与做安全压缩时,head-level 因果结构必须优先考虑。

实践要点

可操作清单:
1. 先把“标称窗口”与“有效上下文”分开记。产品页写 128K–1M,不等于任务可用长度就是 128K–1M;评估时至少给出一条 length-performance 曲线,而不是单点分数 [21][9][25]
2. 不要再把 NIAH 当主指标。保留它做 gate:如果 NIAH 都过不了,后面不用谈;如果 NIAH 已饱和,立刻切到 RULER 的 tracking / aggregation,再补 LongBench v2 或 BABILong 看 reasoning [1][4][10]
3. 诊断衰减时先分型。训练长度附近突然掉,是 cliff,优先查 PE 与长序列训练;中段特异性掉,是 U-shape,优先查 sink 与位置优先级;全程平滑变差,更像 capacity 不足 [2][33][6][22]
4. 做 KV 压缩、稀疏 attention、head pruning 时,别用“平均重要性”假设。先定位 retrieval heads 与 sink token,再决定能压哪里;对 top retrieval heads 和前几个 sink token 设保护名单 [5][6]
5. 任务若主要是 sparse lookup,优先考虑 RAG 或外部 memory;任务若要求跨段聚合、多跳比较、长链 reasoning,再给长窗口预算。别把所有长输入都硬塞进同一个解法 [12][15][4][10]
6. 看 benchmark 时,至少同时覆盖 retrieve、track、aggregate、reasoning 四轴。只测 retrieve 会高估能力,只测真实任务又难定位根因;两类都要有 [1][3][26][4]
7. 对“1M+ 上下文已解决”保持保守。若没有公开的长度分层曲线、位置分层曲线、以及 retrieval/aggregation 分解结果,默认只把它看成接口能力,不看成已验证的有效能力 [13][24][29]
8. 关于 capacity 的精确定义仍是 open。per-token entropy、cross-head overlap、effective rank 哪个与 RULER 子任务相关性最高,公开证据还不够整齐;在有 controlled study 前,不建议把单一 attention statistic 当成通用容量指标 [1][42][30]

悬而未决的问题

  • Q1.Wu et al. [5] 给出了 retrieval heads 的因果证据,但跨族系可迁移性仍不够清楚:Qwen、DeepSeek、Gemma 一类模型里 retrieval heads 的数量、层位与出现阈值是否稳定,公开对照还不够。
  • Q2.lost-in-the-middle 的 U-shape、训练长度 cliff、以及 sink-induced bias 目前仍缺一篇统一的 controlled disentangle;现有证据足以区分方向,但还不足以给出通用配方 [2][6][22][33]
  • Q3.capacity 的可测定义仍未收敛。per-token entropy、cross-head Jaccard、effective rank、entropy budget 哪个与 RULER 的 retrieval / tracking / aggregation 相关性最高,还缺公开、跨模型、同协议的比较。
  • Q4.attention sink 在 MLA、GQA/MQA、MoE 与 sequence-level sparse attention 下是否保留同样的锚定行为,公开机制证据仍偏少;工程上看起来能工作,但 head-level 解释还不够完整 [6][18]
  • Q5.缺少一篇覆盖主流前沿模型的统一研究,直接量化“标称窗口 vs 有效上下文”的 2–4× 缺口,并同时给出长度曲线、位置曲线与任务分解。现有证据多为单模型或单 benchmark 侧写 [13][9][24]
  1. [1]
    Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
  2. [2]
    Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni. Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics / arXiv, 2023论文
  3. [3]
    Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL 2024 / arXiv, 2023论文
  4. [4]
    Yushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv. LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-Context Multitasks. arXiv, 2024论文
  5. [5]
    Wenhao Wu, Yizhong Wang, Guangxuan Xiao, Hao Peng, Yao Fu. Retrieval Head Mechanistically Explains Long-Context Factuality. arXiv, 2024论文
  6. [6]
    Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis. Efficient Streaming Language Models with Attention Sinks. arXiv, 2023论文
  7. [7]
    Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan. In-context Learning and Induction Heads. Transformer Circuits Thread / arXiv, 2022论文
  8. [8]
    Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu. Loong: Generating Minute-Videos with Autoregressive Language Models. arXiv, 2024论文
  9. [9]
    Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li, Minghui Zhuang. LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K. arXiv, 2024论文
  10. [10]
    Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack. arXiv, 2024论文
  11. [11]
    Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
  12. [12]
    Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
  13. [13]
    Jiaqi Li, Mengmeng Wang, Zilong Zheng, Muhan Zhang. LooGLE: Can Long-Context Language Models Understand Long Contexts?. arXiv, 2023论文
  14. [14]
    Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Inbal Magar. Parallel Context Windows for Large Language Models. arXiv, 2022论文
  15. [15]
    Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni. Atlas: Few-shot Learning with Retrieval Augmented Language Models. Journal of Machine Learning Research / arXiv, 2022论文
  16. [16]
    Boxin Wang, Wei Ping, Peng Xu, Lawrence McAfee, Zihan Liu. Shall We Pretrain Autoregressive Language Models with Retrieval? A Comprehensive Study. arXiv, 2023论文
  17. [17]
    Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis. Generalization through Memorization: Nearest Neighbor Language Models. ICLR / arXiv, 2019论文
  18. [18]
    Xiangming Gu, Tianyu Pang, Chao Du, Qian Liu, Fengzhuo Zhang. When Attention Sink Emerges in Language Models: An Empirical View. arXiv, 2024论文
  19. [19]
    Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
  20. [20]
    Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen. BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models. arXiv, 2023论文
  21. [21]
    Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
  22. [22]
    Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
  23. [23]
  24. [24]
    Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
  25. [25]
    Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google Technical Report, 2024报告
  26. [26]
    Uri Shaham, Maor Ivgi, Avia Efrat, Jonathan Berant, Omer Levy. ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding. EMNLP / arXiv, 2023论文
  27. [27]
    Arka Pal, Deep Karkhanis, Manley Roberts, Samuel Dooley, Arvind Sundararajan. Giraffe: Adventures in Expanding Context Lengths in LLMs. arXiv, 2023论文
  28. [28]
    Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen. LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models. arXiv, 2023论文
  29. [29]
    Xuanfan Ni, Hengyi Cai, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin. XL2Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies. arXiv, 2024论文
  30. [30]
    Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Luis Rosias. Many-Shot In-Context Learning. arXiv, 2024论文
  31. [31]
  32. [32]
    Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
  33. [33]
    Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu. Scaling Laws of RoPE-based Extrapolation. arXiv, 2023论文
  34. [34]
    Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye. Long Context Compression with Activation Beacon. arXiv, 2024论文
  35. [35]
    01.AI, Alex Young, Bei Chen, Chao Li. Yi: Open Foundation Models by 01.AI. Technical Report / arXiv, 2024报告
  36. [36]
    An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu. Qwen2 Technical Report. Technical Report / arXiv, 2024报告
  37. [37]
    Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
  38. [38]
  39. [39]
    Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
  40. [40]
    Hao Liu, Matei Zaharia, Pieter Abbeel. Ring Attention with Blockwise Transformers for Near-Infinite Context. arXiv, 2023论文
  41. [41]
    Yilun Zhao, Yitao Long, Hongjun Liu, Ryo Kamoi, Linyong Nan. DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents. arXiv, 2023论文
  42. [42]
    Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文

论文列表

测量栈:从 NIAH 到真实长文任务(4)

这一组工作把长文评测从单针检索推进到多压力、多任务、长度分层与 reasoning 压力。

10

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh,Simeng Sun,Samuel Kriman,Shantanu Acharya,Dima Rekesh,Fei Jia2024年4月9日
RULER 把长文能力拆成 retrieval、variable tracking、aggregation 等子任务,第一次在同一框架里测“能找到”“能跟住”“能汇总”三种能力,直接暴露 NIAH 饱和后仍然存在的大幅模型差距。
10

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-Context Multitasks

Yushi Bai,Shangqing Tu,Jiajie Zhang,Hao Peng,Xiaozhi Wang,Xin Lv2024年12月19日
LongBench v2 把评测重心从合成长序列转向真实任务,覆盖 64 类长文问题,长度上到 10K+ 乃至更长。它的价值不在于再测一次 recall,而在于把 retrieve 与 aggregate/reasoning 的脱钩现象量化出来。
9

LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K

Tao Yuan,Xuefei Ning,Dong Zhou,Zhijie Yang,Shiyao Li,Minghui Zhuang2024年2月6日
LV-Eval 的作用是把长度分层做干净:16K、32K、64K、128K、256K 五档让衰减曲线能直接比较,不会被任务分布差异混淆。它适合拿来区分平滑衰减与训练长度附近的 cliff。
9

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Yuri Kuratov,Aydar Bulatov,Petr Anokhin,Ivan Rodkin,Dmitry Sorokin,Artyom Sorokin2024年6月14日
BABILong 把短 reasoning 任务嵌进长 haystack,迫使模型先检索、再组合、再推理。它常常把“检索还行”的模型与“长链 reasoning 还能站住”的模型分开,是 retrieval-only 叙事的重要反例。

衰减形态与有效上下文(4)

这一组工作解释为什么标称窗口与有效上下文系统性偏离,以及 U-shape、uniform、cliff 三类衰减如何出现。

10

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua,Fabio Petroni2023年7月6日
这篇工作把 lost-in-the-middle 变成了可复现实验事实:同一条证据放在开头和结尾时更容易被用到,放在中间时性能下滑。它提供了位置偏置的基准形状,但不单独解释根因。
9

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava2023年9月27日
这篇工作把“有效上下文”与“标称窗口”明确区分开来,并指出长序列 continual pretraining 与长文本数据配比是把可用长度推到 32K 的关键,而不是只改位置编码。
9

Data Engineering for Scaling Language Models to 128K Context

Yao Fu,Rameswar Panda,Xinyao Niu,Xiang Yue,Hannaneh Hajishirzi2024年2月15日
这篇工作把 arbitrary-position utilization 归因到数据工程:长样本比例、位置分布、任务混合方式会直接改变模型在中段与远端的可用性。它支持“训练分布决定 cliff 与 U-shape 的一部分”。
8

LooGLE: Can Long-Context Language Models Understand Long Contexts?

Jiaqi Li,Mengmeng Wang,Zilong Zheng,Muhan Zhang2023年11月8日
LooGLE 的价值在于提醒:能在长窗口里找出一句话,不等于能理解整段长文。它经常把“窗口扩展成功”的工程叙事拉回到有效使用问题上。

机制:retrieval heads、induction heads 与 attention sinks(4)

这一组工作把长文能力的内部结构具体化到 head 级别的专家化模式与全局锚点。

10

Retrieval Head Mechanistically Explains Long-Context Factuality

Wenhao Wu,Yizhong Wang,Guangxuan Xiao,Hao Peng,Yao Fu2024年4月24日
Wu et al. 给出这条线最关键的因果证据:只有少数 retrieval heads 承担主要长距检索职责,mask 掉 top retrieval heads 后,NIAH 类任务会接近随机。长文衰减从此不只是曲线现象,而是 head 级故障。
9

In-context Learning and Induction Heads

Catherine Olsson,Nelson Elhage,Neel Nanda,Nicholas Joseph,Nova DasSarma,Tom Henighan2022年9月24日
Olsson et al. 把 ICL 的相变与 induction head 绑定起来,提供了“少数专家化 head 驱动宏观能力突现”的先例。它解释 copy / pattern continuation 很强,但对长链 reasoning 的解释力有限。
9

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao,Yuandong Tian,Beidi Chen,Song Han,Mike Lewis2023年9月29日
StreamingLLM 的核心不是一个 cache trick,而是揭示了 attention sink 作为全局 anchor 的结构事实:删掉早期 sink token,streaming 稳定性和远端利用都会变差;保留它们,激进 eviction 仍可工作。
8

When Attention Sink Emerges in Language Models: An Empirical View

Xiangming Gu,Tianyu Pang,Chao Du,Qian Liu,Fengzhuo Zhang2024年10月14日
这篇后续工作补上了 sink 的出现条件:sink 不是纯推理时假象,而是训练与架构共同塑造的稳定模式。它帮助区分“位置偏置”与“锚点偏置”不是同一件事。

工程取舍:长窗口、检索增强与稀疏化(4)

这一组工作讨论长窗口是否值得、何时该用 RAG、以及稀疏/压缩方案如何利用 attention 的结构稀疏性。

9

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Omer Goldman,Alon Jacovi,Aviv Slobodkin,Aviya Maimon,Ido Dagan2024年6月29日
Goldman et al. 直接质疑大量长文 benchmark 只是 retrieval 伪装。它推动评测从“找得到”转向“找到之后能不能整合、比较、推理”,也是 LongBench v2 与 BABILong 的理论前提之一。
8

Retrieval meets Long Context Large Language Models

Peng Xu,Wei Ping,Xianchao Wu,Lawrence McAfee,Chen Zhu2023年10月4日
这篇工作把“长窗口 vs RAG”从口号变成条件判断:当任务主要是定位少量证据时,检索往往更省;当证据需要跨段组合时,单纯外部检索未必替代长窗口。
7

Landmark Attention: Random-Access Infinite Context Length for Transformers

Amirkeivan Mohtashami,Martin Jaggi2023年5月25日
Landmark Attention 代表另一条工程路线:不追求所有 token 两两可见,而是引入可随机访问的 landmark。它说明“更长窗口”与“更好访问结构”不是同一件事。
6

Long Context Compression with Activation Beacon

Peitian Zhang,Zheng Liu,Shitao Xiao,Ninglu Shao,Qiwei Ye2024年1月7日
Activation Beacon 说明压缩并不必然损伤长文能力,关键在于是否保留对后续检索与聚合有用的 summary state。它与 sink / retrieval head 叙事在工程上是兼容的。