📚Papers

上下文长度扩展的全栈工程:从“放得下”到“用得上”

把“窗口长度”当作配置项,把“有效上下文”当作交付指标:评估闭环与数据分布先行,位置与系统按区间选型

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据(支持 10 · 反证 14 · 拓展 16)·知识聚类 6·悬问 5

领域综述

长上下文扩展的瓶颈已经从“显存能不能放下”转向“模型能不能在真实任务里稳定用上中段与远端证据”。RoPE 外推(PI、YaRN、LongRoPE)把 32K→128K→2M+ 做成了可复用的参数化路径,但它主要解决的是位置几何与数值稳定性,不能自动带来任务级收益 [1][2][3]。评估侧,RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 反复指出:perplexity 与 NIAH 更像“能否读入/能否检索到针”的 proxy,常漏掉中段证据利用不足、跨段推理不稳、以及代码仓库级综合失败 [6][7][8][9][10]。训练侧,Fu et al. 与 Xiong et al. 把关键变量从“堆 token”改成“长文档比例与课程”,并给出 ≥25% 长文档上采样与分阶段扩窗的工程可行区间;Xu et al. 把 128K→4M 做成 staged continual pretrain + 长依赖 SFT 的流程,强调每一段都要回到任务评估闭环 [4][12][11]。更务实的交付顺序是:先把评估闭环与数据分布做对(≤128K),再把系统与稳定性推到 1M+(>1M)。

TL;DR

可交付的长上下文不是“能塞进 128K/1M”,而是模型在真实任务里能稳定用到中段与远端证据。RoPE 外推(PI/YaRN/LongRoPE)基本解决了 32K→128K→2M+ 的参数化路径,但它主要解决 fit 与数值稳定性,不会自动带来 use [1][2][3]。评估上,RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 显示 perplexity 与 NIAH 常与任务排名脱钩,尤其会漏掉 lost-in-the-middle、跨段推理与仓库级综合失败 [6][7][8][9][10]。训练上,Fu et al. 与 Xiong et al. 把关键变量落到长文档比例与课程;Xu et al. 把 128K→4M 做成分阶段扩窗 + 长依赖 SFT 的流程,强调每段都要回到任务评估闭环 [4][12][11]。工程顺序更稳:≤128K 先把评估闭环与数据分布做对(长文档比例按领域拉到 ≥25%,并审计 packing 截断);>1M 再把系统吞吐与稳定性当主战场。

核心断言

#1在 64K–256K 区间,perplexity/NIAH 与任务型长上下文评估经常不同步:模型可以在 NIAH“找针”接近满分,但在 RULER 的多压力项与 LongBench 的跨段任务上仍出现中段证据利用不足与非单调退化 [6][9][8][10]
#2把窗口从 32K 扩到 128K 的主要不确定性通常不是 RoPE 外推公式,而是训练分布里“长文档是否真实出现”:长文档比例偏低时,继续堆长序列 token 更容易只提升检索型 proxy,而不提升跨段任务 [4][12][10]
#3RoPE 外推的工程主线已经形成区间化选型:PI 更适合 ≤32K 的快速验证;YaRN 覆盖到 ~128K 的成本/稳定性折中;到 1M+,LongRoPE 把问题变成“非均匀区间的误差控制与搜索”,需要稳定性审计而非一次性改公式 [1][2][3]
#4极长扩窗(≥1M)更像“分阶段上线”而不是一次性跳跃:Xu et al. 的 128K→4M 流程把 continual pretrain 与长依赖 SFT 分段绑定,并在每段回到任务评估闭环以避免短窗能力与指令跟随退化 [11][10]
#5“全注意力 O() 不可持续、必须换稀疏/记忆/线性架构”在任务层面还缺少统一胜出证据:Zoology 显示高效架构的 recall 仍是硬约束;更现实的分工是 dense 长窗负责跨段整合,retrieval/memory 负责稀疏证据与知识更新 [26][16][18][17]

§1 主指标从“窗口长度”切到“有效上下文”

“能输入 128K/1M”更像系统验收项;交付风险在于模型能否利用中段与远端证据。Lost in the Middle [9] 给出稳定现象:同一证据放在中段时正确率显著下降,说明注意力可达不等于证据可用。RULER [6] 将这一问题工程化为多压力项:不仅测检索针,还测多针、干扰、跨段组合与指令跟随退化;它把“中段证据利用不足”从 anecdote 变成可回归测试。LV-Eval [7] 用多长度档位避免“只在一个长度点看起来没问题”,更早暴露 32K→128K 扩展中的非单调退化。Gao et al. [10] 进一步拆分 perplexity、NIAH 与任务评估:proxy 适合诊断(例如位置外推是否崩溃、是否出现明显遗忘),但不适合作为主 KPI,因为它会把优化压力推向“更像语言建模”,而不是“更会在长任务里对齐证据”。更稳的闭环是:用 RULER [6] 做压力测试,用 LV-Eval [7] 或 LongBench [8] 做任务覆盖,再用代码/工具类任务(如 RepoBench [15] 或仓库 QA)补齐跨文件综合的失败模式。

Llama-3 8B @ 128K claimed
64[RULER2024]
GPT-4-class @ 128K claimed
78[LVEval2024]
Yi-200K @ 200K claimed
60[RULER2024]
Gemini 1.5 @ 1M claimed
82[Gemini15Report2024]
UltraLong 1M (post-train)
70[Xu2025UltraLong]
Long-context retrofit (PI baseline)
45[PI2023]
单位:% of short-ctx ability
图 1. 图 1.1 主流模型“宣称窗口”和 RULER / LV-Eval 上的“有效上下文”差距 (illustrative;100 = 宣称长度处仍 ≥ 90% 短上下文能力)
长上下文的“fit”可以靠 kernel 与位置外推解决;“use”必须靠任务评估把失败模式钉住。

§2 RoPE 外推不是一个公式,而是一套按区间工作的稳定性工程

RoPE 的基础来自 RoFormer [13]:旋转将相对位置信息编码进 Q/K 的相位差。PI [1] 的关键操作是把推理时的位置压回训练区间,并进行少量适配训练,因此适合 ≤32K 的快速扩窗与验证;但其隐含假设是“训练区间内学到的频率结构可通过线性重参数化复用”,到 128K+ 时更容易触发任务退化与数值边界问题。YaRN [2] 将外推从单一插值推进为更可控的缩放/校准,工程上常作为 128K 的默认选项之一:优势不是把窗口写得更大,而是在成本可控下减少短窗能力回退。到 1M+,LongRoPE [3] 说明问题已不再是“选哪个缩放因子”,而是“不同位置区间的误差如何累积、如何用非均匀插值与搜索压住误差”。这也解释了为什么极长扩窗更接近系统上线:必须把稳定性审计(loss spike、梯度异常、长序列数值溢出、短窗回退)作为每次扩窗的 gate,而不是一次性改完位置编码就结束 [3][11]。受控实验也在补齐经验缺口:Lu et al. [5] 拆分位置方法、训练长度与数据分布,有助于区分“位置方法背锅”和“训练分布缺长样本”。

方案/路线更适合的长度区间解决的主要问题常见失败模式/代价建议搭配的主评估
PI [PI2023]

≤32K(快速验证)

位置映射回训练区间,低成本扩窗

到 128K+ 更易出现任务退化;对“中段证据利用”无直接保证

RULER [6] + LV-Eval [7]

YaRN [YaRN2023]

32K–128K(默认折中)

更可控的 RoPE 缩放/校准,兼顾短窗回退

仍依赖训练分布里长样本出现;proxy 变好不等于任务变好

RULER [6] + LongBench [8]

LongRoPE [LongRoPE2024]

≥1M(超长区间)

非均匀插值 + 搜索,控制区间误差累积

调参/稳定性审计成本高;需要系统吞吐配合

RULER [6] + 长任务集(LongBench [8]

长文档上采样 [Fu2024DE128K][Xiong2023EffectiveLongContext]

≤128K(优先级高)

让长依赖监督真实出现,减少“名义容量”

数据管线更复杂;需要监控 packing 截断

LV-Eval [7] + RULER [6]

分阶段扩窗 + 长依赖 SFT [Xu2025UltraLong][Gao2024EffectiveLongCtx]

128K→1M+(上线式扩展)

每段校稳定性与任务利用率,避免短窗退化

需要持续评估与回归门禁;训练周期更长

RULER [6] + 任务集 [10]

RoPE 外推与训练配方的区间化选型(关注“用得上”而非名义窗口)
RoPE-stable length regimes: three working zones, three different stability problems 4K (pretrain) 32K 128K 1M+ Regime A: 4K -> 32K RoPE base scaling alone works PI / NTK + short fine-tune [PI2023][YaRN2023] Regime B: 32K -> 128K data engineering + packing dominate YaRN / LongRoPE + long doc mix [Fu2024DE128K][Xiong2023EffectiveLongContext] Regime C: 128K -> 1M+ throughput + system + retrieval split UltraLong / dense + retrieval [Xu2025UltraLong][LongNet2023] Stability bottleneck per regime: A: high-freq band damage from uniform PI; B: data distribution + truncation in packing dominate over yet-another-position-method; C: kernel + KV memory + retrieval-vs-dense partition; across all: claimed window != effective window [RULER2024][LVEval2024][Lu2024ControlledStudy].
图 2. 图 2.1 RoPE 三段稳定区间:4K -> 32K / 32K -> 128K / 128K -> 1M 各自的稳定性瓶颈不同

§3 128K 以内,数据分布与 packing 截断比“再换一个位置方法”更决定性

长上下文训练最常见的错觉,是把平均序列长度等同于“长依赖监督强度”。如果数据管线大量使用 packing,把多个样本拼成一条长序列,却截断长样本或切碎关键监督,模型看到的仍是“短依赖拼接”,不是“跨段一致的长依赖”。Fu et al. [4] 将工程变量压到可操作旋钮:长文档比例是决定 128K 能否学到稳定行为的核心变量;当长文档比例不足时,继续堆长序列 token 更可能只推高 NIAH。Xiong et al. [12] 也通过长文本上采样与 continual pretraining 表明:长样本必须在训练分布中占到可见比例,才能把“能读长”转成“会用长”。Gao et al. [10] 进一步约束优化目标:即使 perplexity 下降,也可能不带来长任务收益,因此训练改动必须直接接入任务评估闭环。Never Lost in the Middle [14] 给出一种训练信号方向:用 position-agnostic 的分解式训练对抗 lost-in-the-middle,这类信号更接近“use”目标,而不是“fit”的 proxy。工程上,更可靠的健康指标集合是:长文档比例(按领域)、长样本截断率,以及 LV-Eval [7] 多长度档位上的回归曲线,而不是只看平均长度与 ppl。

正在渲染图示…
图 3. 图 3.1 长文 packing 策略选型:文档边界 / repo-level / curriculum 各自适用场景

§4 ≥1M:系统吞吐、稳定性门禁与“dense + retrieval/memory”的分工

到 1M+,成本曲线与稳定性重新压过“位置方法选型”。Xu et al. [11] 可复用的部分是 staged rollout:128K→1M→2M→4M,每段同时验证短窗能力保持与长任务利用率,并用长依赖 SFT 补入任务信号;机制上,这是把“use”约束写入训练过程,而不是期待外推后自然出现。与此同时,替代路线尚未形成对 dense 长窗的统一替代。Longformer [20]、Linformer [21]、LongNet [24]、Landmark Attention [23]、Compressive Transformer [22] 与 InfLLM [25] 给出稀疏/压缩/记忆的不同折中,但 Zoology [26] 提醒:高效架构的核心瓶颈往往是 recall 与信息保真,尤其在任务需要跨段组合而非单点检索时。检索增强路线(REALM [18]、Atlas [19])在知识密集型任务上成本更可控;但 Goldman et al. [17] 指出,许多“长上下文任务”其实是检索问题,评估必须刻意构造需要跨段组合的样例,才能判断 dense 长窗是否提供不可替代的收益。更现实的工程分工是:dense 长窗负责结构保持与跨段综合,retrieval/memory 负责稀疏证据与可更新知识;边界由任务属性决定,而不是由“窗口数字”决定 [16][17]

时间线

  1. RoPE(RoFormer)成为后续外推方法的基础位置参数化[13]
  2. PI 把“位置映射 + 少量适配训练”固定成 32K 扩窗范式[1]
  3. Lost in the Middle 把“中段证据利用不足”变成可复现现象[9]
  4. YaRN 把 RoPE 外推推进到 128K 的默认工程折中[2]
  5. Fu et al. 把 128K 的关键变量落到长文档比例与数据工程[4]
  6. RULER 把“真实可用上下文”从 NIAH 扩展为多压力项主指标[6]
  7. LongRoPE 把 2M+ 外推变成非均匀区间误差控制与搜索问题[3]
  8. Xu et al. 给出 128K→4M 的分阶段扩窗 + 长依赖 SFT 流程[11]

研究立场对比

阵营 A:位置外推是主线;评估与数据只是辅助

立场 — 先用 PI/YaRN 把窗口扩到 128K,再用 LongRoPE 把 1M+ 做稳;只要外推稳定,模型自然会学会用长上下文,评估与数据配方属于优化细节(对应 ledger c-8e5bfb202f、c-af4dd91c2d)。

证据:[1][2][3][13]

反方 — RULER [6] 与 Lost in the Middle [9] 显示:即使“能放下”,中段证据仍可能系统性用不上;Gao et al. [10] 进一步表明 proxy 与任务收益不等价。Fu et al. [4] 与 Xiong et al. [12] 把关键变量指向训练分布:长文档比例不足时,位置外推再稳也更可能得到名义容量。

判词 — 更稳的读法:位置外推是必要条件但不是主线 KPI。≤128K 先把评估闭环与数据分布做对,再选 PI/YaRN 作为区间化工具;到 1M+ 才把 LongRoPE 这类稳定性系统当主工程。

阵营 B:长序列训练主要是系统并行与 kernel 问题

立场 — FlashAttention 类 kernel 提升单卡效率,序列并行把 L 维切开;把 DP/TP/PP/SP 分别压到极致即可,剩下只是资源投入(对应 ledger c-65f78fd3e6、c-fecb27fa82、c-5ef38c5699)。

证据:[27][11][24]

反方 — 系统能解决“吞吐与显存”,但不自动解决“任务利用率”。Gao et al. [10] 显示:即使继续训练让 ppl 下降,长任务收益也可能不升反降;RULER [6] 与 LV-Eval [7] 也能在系统可跑的设置下测出中段证据利用不足。Xu et al. [11] 的流程把“分阶段评估门禁 + 长依赖 SFT”写进 recipe,等价于承认系统到位仍需要训练信号与评估闭环。

判词 — 更务实的定位:系统是必要的地基,但主风险在“用得上”。≤128K 阶段优先投评估与数据;≥1M 阶段再把系统吞吐与稳定性门禁作为主战场,并把任务评估当上线 gate。

阵营 C:perplexity/NIAH 足够;任务基准太噪

立场 — 用 perplexity 与 NIAH 做主指标:成本低、可重复、迭代快;LongBench/RepoBench 这类任务基准受提示词、数据集偏差与泄漏影响,不适合作主 KPI(对应 ledger c-5f30eb3feb、c-029d4b7fbd、c-d7dc2f81ec)。

证据:[6][10][8][9]

反方 — RULER [6] 的核心论点是:单一 NIAH 会系统性高估真实可用上下文;Lost in the Middle [9] 给出中段证据利用不足的可复现现象,说明“检索到”与“用来推理”是两件事。Gao et al. [10] 直接比较 proxy 与任务,给出弱相关结论,并指出长依赖 SFT 比继续堆长预训练 token 更快带来任务收益,这与“ppl 下降自然带来长能力”的假设冲突。

判词 — 结论层面的建议:proxy 只做诊断与早期冒烟测试,不做主 KPI。主 KPI 至少包含一个压力测试(RULER)和一个任务集(LV-Eval 或 LongBench),否则很难发现“中段证据用不上”的交付风险。

阵营 D:全注意力 O(L^2) 不可持续,替代架构会取代 dense 长窗

立场 — 应转向 sparse attention、压缩记忆、外部 memory 或 attention-free/SSM 类架构,获得“天然无限上下文”,而不是继续把 Transformer dense window 推到 1M+(对应 ledger c-83aa44cf46、c-628f6007fd、c-d013b3f6e2 的“可行选择收敛”叙事)。

证据:[20][21][24][23][22][25][26][18]

反方 — 替代路线提供了成本优势,但任务层面的代价往往体现在 recall 与信息保真。Zoology [26] 通过系统测量指出高效模型在 recall 上存在硬约束;而 Goldman et al. [17] 也提醒:很多“长上下文任务”其实是检索问题,替代架构在这类任务上看起来赢并不等价于在跨段组合任务上也赢。更稳的工程分工是 dense 长窗 + retrieval/memory 的混合:dense 负责跨段综合与结构保持,retrieval/memory 负责稀疏证据与知识更新 [16][18]

判词 — 更稳的读法:替代架构会在成本敏感、证据稀疏的任务上持续渗透,但短期内更像补位而非取代。交付上优先把 dense 长窗的“有效上下文”做实,再用 retrieval/memory 降成本与补知识更新。

实践要点

可执行清单(带边界与不要做的事):
1) Do:主 KPI 设为 RULER [6] +(LV-Eval [7] 或 LongBench [8])。Don’t:用 perplexity/NIAH 当主 KPI;它们只做诊断与冒烟测试 [10][9]
2) Do:≤128K 先把长文档比例按领域拉到 ≥25%(达不到就先别追更大窗口),并把长样本出现频率当训练健康指标 [4][12]
3) Do:把 packing 的“长样本截断率”列为必须监控的指标;Don’t:只看平均序列长度,平均值会掩盖长依赖监督根本没出现(open:缺少公开的系统性 packing 审计论文,先用内部统计补齐)。
4) Do:RoPE 外推按区间选型:≤32K 用 PI [1] 做快速验证;32K–128K 默认 YaRN [2];≥1M 再考虑 LongRoPE [3],并把稳定性审计当上线 gate。
5) Do:扩窗用分阶段课程而不是一次跳到极长;每段都回到任务评估闭环,避免短窗能力与指令跟随回退 [11][10]
6) Do:在 SFT/指令数据里显式混入长依赖任务(跨段组合、长对话一致性、跨文件代码理解);Don’t:指望 continual pretrain 的 ppl 下降自动带来任务级长能力 [10][14]
7) Do:把“dense 长窗 vs retrieval/memory”当任务分工问题:稀疏证据优先检索,跨段综合优先 dense;Don’t:用检索可解的任务来证明“长上下文没用” [16][17][18]
8) Open(证据不足,先保守):关于“系统并行到位后自然能用上长上下文”的强证据主要来自产品报告,缺少可复现实验;在公开证据补齐前,把系统优化与任务评估 gate 绑定推进 [27][11]

悬而未决的问题

  • Q1.哪些公开工作明确主张 perplexity 或 NIAH 与长任务表现相关性足够高,或系统性批评任务基准“噪声太大不适合作主 KPI”?目前证据主要来自反方(RULER/Gao),正方缺口仍在。
  • Q2.除产品/模型报告外,哪些可复现实验能证明“百万 token 扩展主要是 attention kernel 与序列并行问题”,并量化系统优化对任务利用率的边际贡献?
  • Q3.关于 packing/截断的公开证据仍偏少:不同 packing 策略下,长样本截断率与 RULER/LV-Eval 退化之间是否存在可预测关系?需要 controlled experiment 与公开数据管线细节。
  • Q4.dense RoPE 外推与 sparse/memory/linear 替代架构在真实任务(代码仓库级、长文档推理、长对话一致性)上的 head-to-head 对比仍不够统一:需要同等训练预算、同等评估协议的对照。
  • Q5.哪些任务属性能预测 retrieval-only、long-context-only、或 hybrid 的胜出?例如证据稀疏度、需要保持的结构约束、跨段组合深度、以及对引用一致性的容忍度 [16][17]
  1. [1]
    Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
  2. [2]
    Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
  3. [3]
    Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
  4. [4]
    Yao Fu, Rameswar Panda, Xinyao Niu, Xinyao Yue, Hannaneh Hajishirzi. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
  5. [5]
    Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren. A Controlled Study on Long Context Extension and Generalization in LLMs. arXiv, 2024论文
  6. [6]
    Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
  7. [7]
    Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li. LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K. arXiv, 2024论文
  8. [8]
    Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. arXiv, 2023论文
  9. [9]
    Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
  10. [10]
    Tianyu Gao, Alexander Wettig, Howard Yen, Danqi Chen. How to Train Long-Context Language Models (Effectively). arXiv / ACL, 2024论文
  11. [11]
    Chejian Xu, Wei Ping, Peng Xu, Zihan Liu, Boxin Wang, Mohammad Shoeybi. From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models. arXiv, 2025论文
  12. [12]
    Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
  13. [13]
    Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
  14. [14]
    Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu. Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training. arXiv, 2023论文
  15. [15]
    Tianyang Liu, Canwen Xu, Julian McAuley. RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems. arXiv, 2023论文
  16. [16]
    Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
  17. [17]
    Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
  18. [18]
    Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. REALM: Retrieval-Augmented Language Model Pre-Training. ICML / arXiv, 2020论文
  19. [19]
    Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni. Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv, 2022论文
  20. [20]
    Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
  21. [21]
    Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma. Linformer: Self-Attention with Linear Complexity. arXiv, 2020论文
  22. [22]
    Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. arXiv, 2019论文
  23. [23]
    Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
  24. [24]
    Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
  25. [25]
    Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin. InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory. arXiv, 2024论文
  26. [26]
    Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
  27. [27]

论文列表

有效上下文评估:任务基准 vs proxy(4)

把“窗口长度”拆成可交付指标:中段证据利用、跨段推理、长对话一致性、代码仓库级综合。对比 perplexity/NIAH 这类 proxy 与任务基准的脱钩现象,并给出更稳的评估组合。

10

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh,Simeng Sun,Samuel Kriman,Shantanu Acharya,Dima Rekesh2024年4月9日
把“真实可用上下文”从单一 NIAH 扩展为多维压力测试,能显式暴露 lost-in-the-middle、跨段推理与指令跟随退化;工程上更适合作主 KPI。
10

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

Yushi Bai,Xin Lv,Jiajie Zhang,Hongchang Lyu,Jiankai Tang2023年8月28日
用多任务与双语设置把“长上下文能力”拆成可比较的任务簇,常用于验证扩窗是否带来真实任务收益而非仅提升检索型 proxy。
10

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua2023年7月6日
给出可复现的机制现象:模型对中段证据利用显著弱于首尾段,说明“能放下”不等于“能用上”,也解释了 NIAH 容易高估有效上下文。
9

LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K

Tao Yuan,Xuefei Ning,Dong Zhou,Zhijie Yang,Shiyao Li2024年2月6日
用分层长度(多档位)把“32K 好、128K 差”的退化从平均数里拉出来,减少单长度/单任务偏置,适合做扩窗回归测试。

RoPE 外推与位置稳定性:PI→YaRN→LongRoPE(3)

把扩窗当作位置参数化与数值稳定性问题:从线性插值到频率/温度校准,再到非均匀搜索与超长区间误差控制。

10

YaRN: Efficient Context Window Extension of Large Language Models

Bowen Peng,Jeffrey Quesnelle,Honglu Fan,Enrico Shippole2023年8月31日
把 RoPE 外推从“单一插值”推进到更可控的频率/缩放校准,成为 128K 以内的默认工程选项之一,兼顾短窗能力保持与训练成本。
10

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Yiran Ding,Li Lyna Zhang,Chengruidong Zhang,Yuanyuan Xu,Ning Shang2024年2月21日
把 1M+ 的难点显式化为“非均匀位置区间的误差控制与搜索”,提示超长扩窗更像系统调参问题:需要稳定性审计,而不是套一个公式就结束。
9

Extending Context Window of Large Language Models via Positional Interpolation

Shouyuan Chen,Sherman Wong,Liangjian Chen,Yuandong Tian2023年6月27日
固定了“先改位置映射、再少量适配训练”的工程范式,适合把 4K/8K 快速扩到 32K 做验证;但对 128K+ 的稳定性与任务利用率不提供充分保证。

训练配方:数据分布、packing 审计与分阶段扩窗(4)

把“有效上下文”当作训练信号匹配问题:长文档比例、packing 截断率、continual pretrain 的长度课程,以及长依赖 SFT 的任务注入。

10

Data Engineering for Scaling Language Models to 128K Context

Yao Fu,Rameswar Panda,Xinyao Niu,Xinyao Yue,Hannaneh Hajishirzi2024年2月15日
把关键变量落到“长文档比例”而非 token 总量:长样本上采样能更快把 128K 的检索型能力推到饱和,并提示需要把长依赖监督真实放进训练分布里。
10

How to Train Long-Context Language Models (Effectively)

Tianyu Gao,Alexander Wettig,Howard Yen,Danqi Chen2024年10月3日
把 perplexity/NIAH 与任务评估拆开,显示 proxy 与真实长任务不等价;并强调长依赖 SFT 往往比继续堆长预训练 token 更快带来任务收益。
10

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models

Chejian Xu,Wei Ping,Peng Xu,Zihan Liu,Boxin Wang,Mohammad Shoeybi2025年4月8日
把 128K→4M 做成分阶段 continual pretrain + 长依赖 SFT 的可复现流程,核心信息是“每段扩窗都要重新校稳定性与任务利用率”,而不是一次跳到极长。
9

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava2023年9月27日
用 continual pretraining + 长文本上采样把“能读长”与“会用长”更紧地绑定,提供了数据分布与训练长度课程的可复用模板。

替代路线与取舍:RAG、稀疏/记忆、线性注意力(3)

把“长上下文”放到系统成本与任务形态里比较:何时 dense window 更稳,何时 retrieval/memory 更划算,何时稀疏/压缩会引入不可忽略的 recall/对齐代价。

9

Retrieval meets Long Context Large Language Models

Peng Xu,Wei Ping,Xianchao Wu,Lawrence McAfee,Chen Zhu2023年10月4日
把“扩窗 vs 检索增强”从口水战落到成本/任务条件:检索适合稀疏证据,长窗适合需要跨段整合与保持原文结构的任务,并指出混合方案的设计空间。
9

Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP

Omer Goldman,Alon Jacovi,Aviv Slobodkin,Aviya Maimon,Ido Dagan2024年6月29日
指出不少“长上下文任务”可被检索简化,推动把评估从“找得到”升级到“必须跨段组合/对齐多个证据”,对 benchmark 设计与 KPI 选择有直接影响。
7

REALM: Retrieval-Augmented Language Model Pre-Training

Kelvin Guu,Kenton Lee,Zora Tung,Panupong Pasupat,Ming-Wei Chang2020年2月10日
给出“外部记忆/检索”作为容量扩展的正统路线:把一部分长程依赖从上下文窗口转移到可更新的索引,适合知识密集型任务的成本控制。