📚Papers

长上下文 LLM 的位置编码路径:从 RoPE 到 ABF 的六步演化

结论先行:长文能力 = RoPE 相位覆盖 × 训练分布 × 评估闭环;“窗口数字”只是接口参数

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

34 篇扩展证据(支持 13 · 反证 3 · 拓展 18)·知识聚类 5·悬问 5

领域综述

可交付的长文能力不是“把窗口参数改大”,而是三件事同时对齐:RoPE 的相位覆盖(尤其低频维度在目标长度上的可分性)、训练分布里远距离依赖出现的方式与比例、以及能测 recall/聚合/多跳追踪的评估闭环。[9][8][5] 对存量模型,32K–128K 的主流落地更像“retrofit + 严格验收”:YaRN 的 per-dim ramp 把插值主要放在低频维度,同时用 attention temperature 稳住远距离 logits 的熵形态,配合几百步长序列微调,往往能把有效上下文推到可用区间。[3][6] 对新训/持续预训,base 直接设到目标窗口量级并做 short-to-long curriculum,能把“有效长度上界”从一开始就放对位置,减少后续靠外推修补的不可逆损伤。[8][7] 当目标进入 512K–2M,全局缩放/平滑公式开始暴露 per-dim mismatch,LongRoPE 这类按维度学习 scale pattern + 更长微调预算更稳。[4] 旁路路线(SSM/外部记忆/检索/压缩)在复杂度与系统可用性上更好,但在 recall-heavy、多跳、长尾干扰下经常需要与原生长文做同基线对照,不能只报吞吐或 needle 单点。[18][15][19]

TL;DR

两条更稳的落地路径已经清晰。存量模型做 32K–128K:默认 YaRN 的 per-dim ramp + attention temperature,并把预算写成“长序列微调(几百步量级)+ RULER/LV-Eval 分档验收”。PI 的全局插值适合 bring-up/对照,但它会把高频维度一起压缩,局部模式分辨率下降,后续很难完全补回。[3][2][5][6]
新训/持续预训做 128K:RoPE base 直接设到目标窗口量级(工程上常见 ~500000),再做 short-to-long curriculum(例如 8K→16K→32K→64K→128K)把长序列 token 分阶段混入;这与“base 限制低频相位覆盖,从而限制可学有效长度上界”的分析一致。[8][9][7]
当目标到 512K–2M:单一全局缩放开始出现 per-dim mismatch,LongRoPE 用搜索学非均匀 per-dim scale,并配更长微调预算来按维度拟合误差,更像可控工程路线。[4]
评估必须从 PPL/needle 转向 RULER/LongBench/∞Bench/LV-Eval 这类能测 recall、聚合、多跳追踪的套件,否则容易交付“宣称窗口变大但有效上下文没变”。[5][12][13][6]
旁路路线(SSM/外部记忆/检索/压缩)在复杂度上占优,但在 recall-heavy 任务上经常需要与原生长文做同基线对照;不少“看起来能无限长”的方案在 recall 或多跳聚合上会掉队。[18][15][19]

核心断言

#1把 RoPE base 从 10k 直接对齐到目标窗口量级(128K 常见 ~500k)能把“可学有效上下文长度上界”前移;否则低频维度在目标长度相位覆盖不足,远距离位置趋于不可分,后续再 retrofit 只能在上界内打转。[9][8]
#232K–128K retrofit 的更稳默认是 YaRN:per-dim ramp 主要插值低频、尽量不动高频,再用 attention temperature 稳住远距离 logits 的熵形态;PI 的全局插值会结构性压缩高频,局部模式分辨率下降,后续很难完全补回。[3][2]
#3“宣称 128K”与“有效 ~32K”之间的落差在 RULER 这类 recall/聚合/多跳套件上是常态;只报 PPL 或 needle 单点会系统性高估可用上下文。[5][6][13]
#4当目标进入 512K–2M,误差主因从“相位越界”转向 per-dim mismatch:不同频段对外推的需求不同,统一全局缩放会同时出现低频仍不足与高频过度压缩;LongRoPE 通过搜索学非均匀 per-dim scale + 更长微调预算来按维度拟合误差。[4]
#5旁路路线(检索/记忆/SSM/压缩)能把复杂度从 O() 拉向线性或次二次,但在 recall-heavy 任务上经常落后于 attention 基线;若不做与原生长文的同基线对照,很容易把“系统吞吐提升”误当成“有效上下文提升”。[18][15][24]

§1 机制底座:相位覆盖决定上界,分布对齐决定能否用起来

长文能力先取决于“可分性”,再取决于训练是否让模型学会使用。RoPE 通过 Q/K 的旋转相位注入位置;[1] 直接意味着每个维度对应一个频率带。长度外推时,最先失效的是低频维度在目标长度上的相位覆盖不足:远距离位置在这些维度上难以区分。[9] 这解释了为什么 base=10k 的模型即使把窗口参数拉到 128K,远距离依赖仍常表现为“能看到但抓不住”:缺的不是更多微调步数,而是低频相位空间一开始就没有打开。

把 base 直接设到目标窗口量级(工程上 128K 常见 ~500k)可以把低频相位覆盖推近目标长度,并抬高“可学有效长度上界”。[8][9] 但上界上移不等于可用:如果训练分布中的长序列 token 只在最后阶段少量出现,评估套件会呈现明显的长度断层。[7][5] 更稳的配方是 short-to-long curriculum:按阶段混入长序列 token,并用跨长度曲线验收有效上下文是否随阶段连续增长,而不是只在最大长度点做一次性验收。[8][6]

常见误区是把“系统能跑更长”(kernel/并行/显存)等同于“模型能用更长”。FlashAttention-2 [24]、Ring Attention [25] 解决的是算子与并行形态;它们降低成本,但不会自动修复相位覆盖或训练分布缺口。验收仍要回到 RULER/LV-Eval 这类任务曲线。[5][6]

RoPE frequency bands and what each scaling method actually changes Top: dimension index from 0 (high freq, local) to d/2 (low freq, global). Middle: which band each method touches. High freq (local order, syntax) -- dim 0 .. d/8 Mid freq (paragraph) -- dim d/8 .. d/2 Low freq (global, doc-level) -- dim d/2 .. d PI (Position Interpolation) [Chen2023PI] scales ALL bands uniformly -> hurts high freq, smears local order YaRN [Peng2023YaRN] keep high freq smooth ramp on mid scale only low freq LongRoPE [Ding2024LongRoPE] per-dim non-uniform scaling -- search optimal factor for each band Failure pattern: PI / NTK degrade at >128K because base-frequency assumption [Xu2024RoPEBaseBounds] breaks; LongRoPE lifts that.
图 1. 图 1.1 RoPE 频段与各 scaling 方法的作用区间(PI / YaRN / LongRoPE)
把 base 设对是在移动“可学上界”;把分布设对是在把上界变成可用长度。[9][7]

§2 32K–128K retrofit:PI 省事但伤高频,YaRN 把损伤限制在低频并稳住远距注意力

对已训模型扩到 32K–128K,核心取舍是:是否牺牲高频维度的局部分辨率,换取“角度不越界”。PI [2] 通过全局插值把所有位置压回训练区间,工程 bring-up 很快;代价是高频维度也被压缩,等价于把“短距离相对位移”的相位分辨率变粗。在长文任务中,这类损伤常表现为局部模式(如变量名、格式、短跨度约束)更易混叠;后续微调也难以完全补回,因为表示空间的高频刻度已经被改写。

YaRN [3] 的重点不是“又一个缩放公式”,而是把插值预算按频段拆开:per-dim ramp 主要改低频维度,使其在长位置上仍有足够相位覆盖;高频维度尽量维持原刻度,以保住局部模式分辨率。它同时引入 attention temperature,对冲长距离 attention logits 的熵塌缩(远距离 logits 过尖或过平都会使检索/聚合不稳定);在 RULER 的变量追踪/聚合/多跳链路上,这更容易体现为“有效上下文随长度档位增长”。[5][6]

更务实的工程读法是:PI 适合作为对照组或快速 bring-up;交付方案必须把验收写死在多档长度曲线上,而不是只看最大长度点的 needle。[2][15] Goldman et al. [15] 的提醒也应纳入验收设计:不少“长文任务”可被检索近似解决,单点 needle 更容易被提示工程或检索捷径骗过;retrofit 的验收应优先使用需要跨段聚合与多跳追踪的任务族。[5][14]

路线参数化/机制主要收益主要风险(机制层面)验收建议
PI

全局 position 插值,把角度压回训练区间[2]

bring-up 快、实现简单

高频维度被压缩→局部模式分辨率下降,后续难完全补回[2]

只做对照组;必须报 RULER/LV-Eval 多档曲线[5][6]

YaRN

per-dim ramp:主要动低频;attention temperature 稳远距 logits[3]

保住高频局部分辨率,同时提升远距可用性

需要配合长序列微调与严格验收,否则“窗口变大但有效不变”[5]

默认交付方案;用 RULER + LV-Eval 曲线验收[5][6]

原生长文(base 对齐 + curriculum)

base 对齐目标长度 + short-to-long 混入长序列 token[8][7]

上界与分布同时对齐,曲线更平滑

需要持续预训 token 预算与数据工程能力[7]

用阶段曲线验收:8K→…→128K 每段都要增长[8][6]

扩窗路线的工程对比(同一模型/同一预算下,优先看“有效上下文曲线”而非宣称窗口)
Original 4K
100[Hsieh2024RULER]
PI to 32K
78[Chen2023PI]
NTK-RoPE to 32K
86[Liu2023RoPEScalingLaws]
YaRN to 64K
92[Peng2023YaRN]
LongRoPE to 128K
95[Ding2024LongRoPE]
Llama-3 ABF to 128K
96[Dubey2024Llama3]
单位:RULER pass rate (rel.)
图 2. 图 2.1 32K -> 128K retrofit:RULER 上的 effective context (illustrative;以原 4K 模型 = 100)

§3 512K–2M:从“全局缩放”转向“按维度拟合”的 LongRoPE 逻辑

当目标推到 512K–2M,主要 failure mode 从“角度越界”转为 per-dim mismatch:不同频段在超长位置上的误差形态不同,统一 ramp/缩放会同时触发两类问题——低频维度相位覆盖仍不足,远距离位置不可分;高频维度被过度压缩,局部模式退化。[4][10] 因此,128K 以内看起来“够用”的平滑公式,到了百万 token 段会暴露长尾任务退化:问题不是继续拧同一个 knob,而是显式建模“每个维度需要多少外推量”。

LongRoPE [4] 的工程含义,是把超参从少数全局系数扩展为可搜索/可学习的 per-dim scale pattern,并用更长的微调预算拟合维度级误差。它把“超长窗”从一次性 trick 变成可调参空间:先搜索在目标任务族上更稳的 pattern,再通过长序列微调重新对齐 attention 分布与表示空间。

一个常被低估的点是:512K+ 的交付风险常来自评估不够“脏”。∞Bench [13]、Lifelong ICL/Task Haystack [17]、NoCha [16] 这类更长、干扰更强、要求跨段聚合的套件,能更早暴露“局部退化”和“长尾 recall 掉队”。如果只用 needle 或可检索捷径任务,LongRoPE 的收益和风险都会被低估。[15][5]

正在渲染图示…
图 3. 图 3.1 长上下文外推:按目标长度 + recall 需求的路线决策

§4 旁路与系统:复杂度优势不等于 recall 可靠性

旁路路线的共同点,是把“长历史”从全量 attention 中移出:要么换架构(SSM/稀疏/递归),要么引入外部记忆/压缩/检索。Mamba [20]、Longformer [28]、LongNet [29]、RMT [21]、Landmark Attention [22]、Activation Beacon [30] 都能在复杂度、显存或吞吐上给出明确收益;系统侧的 FlashAttention-2 [24]、Ring Attention [25] 则把“能跑很长”变得可操作。

但“能跑很长”不等于“能可靠 recall”。Zoology [18] 的经验表明,不少高效模型在 recall-sensitive 任务上仍落后于 attention。Kuratov et al. [19] 展示了 recurrent memory 在超长 haystack 上能找回 transformer 漏掉的信息,但这类结果也暴露了一个验收陷阱:如果任务主要是单点检索,旁路方法会显得很强;一旦任务需要跨段聚合、多跳链路,或对干扰鲁棒,差距会重新出现。[5][16]

因此,更稳的交付策略是把旁路路线当作“系统预算的杠杆”,而不是“替代原生长文的默认答案”:在同一模型族内,先用 RULER/LV-Eval/NoCha 证明原生长文或 YaRN retrofit 的有效上下文曲线,再评估检索/压缩/记忆能否在不损失 recall-heavy 指标的前提下降低成本。[5][6][23]

时间线

  1. RoPE(RoFormer)成为后续扩窗方法的共同底座[1]
  2. PI:用全局插值快速扩窗,但引入高频压缩副作用[2]
  3. YaRN:按频段分配插值预算,并用 attention temperature 稳定远距注意力[3]
  4. RULER 把“有效上下文长度”变成可测指标,揭示宣称窗口与可用长度落差[5]
  5. Llama 3 报告公开 128K 生产配方:base 对齐 + 6 阶 short-to-long + 曲线验收[8]
  6. LongRoPE 把 2M 目标具体化为 per-dim mismatch,并用搜索学非均匀 scale[4]

研究立场对比

阵营 A:原生长文(base 对齐 + curriculum/ABF)才是更干净的交付路径

立场 — 长文能力的上界由 RoPE 相位覆盖决定,能否用起来由训练分布决定;因此应在 pretrain/continual pretrain 阶段把 base 直接对齐目标窗口,并用 short-to-long 把长序列 token 分阶段混入,避免推理期外推或少量微调带来的不可逆损伤。[8][9][7] 这条路线的验收应是跨长度曲线:每个阶段都要看到有效上下文随长度档位增长,而不是只在最大长度点“勉强可用”。[6][5]

证据:[8][9][7][6][5]

反方 — 反驳 c-7094e4510a / c-8b90a3a5a5:对多数团队,持续预训 token 预算与数据工程门槛确实更高;在 ≤128K,retrofit 可能以更低成本达到接近的有效上下文曲线。[3][26][27] 更稳的做法是把原生长文定位为“新模型或大版本迭代的默认”,而不是给所有存量模型强推重训。

判词 — 结论层面的建议:新训/大版本迭代优先走原生长文;把 base 对齐与 short-to-long 当作“必须项”,否则后续扩窗会反复在上界附近打补丁。[8][9]

阵营 B:32K–128K retrofit 默认 YaRN,而不是 PI

立场 — PI 的全局插值把高频维度一起压缩,局部相对位移分辨率下降;YaRN 用 per-dim ramp 把插值主要放在低频维度,并用 attention temperature 稳住远距 attention logits 的熵形态,更容易在几百步长序列微调预算内交付可用有效上下文。[2][3] 验收必须用 RULER/LV-Eval 这类多档长度曲线,否则 PI 在 needle 上“看起来可用”但在聚合/多跳上掉队的风险会被掩盖。[5][6]

证据:[3][2][5][6]

反方 — 修正 c-457e01b168:即使 YaRN 更稳,也不等于“只改 RoPE 就够”。没有长序列微调与分布对齐,RULER 仍可能出现宣称窗口与有效长度的断层。[5][7] 因此 YaRN 的默认姿势应当绑定“长序列微调预算 + 任务曲线验收”。

判词 — 一个更务实的定位:≤128K 的存量模型交付,YaRN 作为默认;PI 只保留为 bring-up/对照组,并用 RULER/LV-Eval 的多档曲线决定是否能上线。[3][2][5]

阵营 C:≥512K 必须做 LongRoPE 式 per-dim 搜索/学习,全局公式会结构性错配

立场 — 当长度进入 512K–2M,误差不再主要来自“相位越界”,而来自 per-dim mismatch:不同频段对外推的需求不同,统一 ramp/缩放会同时造成低频仍不足与高频过度压缩。LongRoPE 用 evolutionary search 学非均匀 per-dim scale,并配更长微调预算把误差按维度拟合掉,工程上更可控。[4] 这也与“RoPE 外推存在结构性 scaling 约束”的分析一致:把问题压成少数全局超参会在极端长度下失真。[10]

证据:[4][10][13]

反方 — 反驳 c-802b6e8f2c:search 成本与工程复杂度确实更高,且在 512K 以下优势可能不稳定;因此 per-dim 搜索更适合作为“512K+ 的门槛动作”,而不是把所有模型都拉进搜索循环。[4][6]

判词 — 结论层面的建议:目标 ≥512K 时,把“按维度拟合”当作默认假设;先用 ∞Bench/Task Haystack/NoCha 这类更脏的套件定位退化维度,再决定是否进入 LongRoPE 式搜索与更长微调预算。[4][13][17][16]

阵营 D:绕开 RoPE/attention(SSM/外部记忆/检索/压缩)更省成本

立场 — 长序列 attention 的 O() 成本与 RoPE 外推风险让训练与部署都难控;更合理的是用线性/稀疏/递归/记忆/压缩把历史搬出主上下文,实现 train-short test-long 或近似“无限上下文”。[20][21][22][23] 在极端长度检索上,recurrent memory 甚至能在 11M-token haystack 找回 transformer 漏掉的信息。[19]

证据:[20][21][22][23][19]

反方 — 反驳 c-9e220ff288:复杂度优势不等于 recall-heavy 可靠性。Zoology [18] 显示不少高效模型在 recall-sensitive 任务上仍落后 attention;同时 Goldman et al. [15] 指出很多“长文任务”可被检索捷径解决,容易夸大旁路方案的泛化能力。若目标任务需要跨段聚合与多跳追踪,旁路路线必须给出与原生长文同基线的对照数字。[5][16]

判词 — 一个更稳的读法:旁路路线优先作为“成本控制层”,而不是替代长文 attention 的默认。先用 RULER/LV-Eval/NoCha 建立原生长文或 YaRN retrofit 的有效上下文曲线,再把检索/压缩/记忆作为可插拔模块去降成本,并用同一套 recall-heavy 指标做回归验收。[5][6][18]

实践要点

可执行的清单(带边界与不要做的事):
1) 新训/持续预训做 128K:RoPE base 直接设到目标量级(经验上 ~500000),并用 6 阶 short-to-long(8K→16K→32K→64K→128K)分阶段混入长序列 token;每阶段必须交付跨长度曲线,至少覆盖 RULER + LV-Eval 两套。[8][9][5][6]
2) 不要默认 base=10000 再指望 retrofit 全补回来:base 限制低频相位覆盖,远距离位置可分性不足会把可学有效长度上界压低。[9][10]
3) 32K–128K 存量模型交付:默认 YaRN(per-dim ramp + attention temperature),并把预算写成“长序列微调(几百步量级)+ 多档验收”,而不是“先 PI 拉满窗口再补救”。[3][2][5]
4) PI 只用于 bring-up/对照:如果 PI 在 RULER 的变量追踪/聚合/多跳链路上有效上下文不随长度档位增长,就不要把它当交付方案。[2][5]
5) 目标 ≥512K:默认假设会出现 per-dim mismatch;先用 ∞Bench/Task Haystack/NoCha 定位退化形态,再决定是否进入 LongRoPE 式 per-dim 搜索与更长微调预算。[4][13][17][16]
6) 不要用 PPL 或单点 needle 作为长文验收:至少要求 RULER + 一套多档长度基准(LV-Eval/∞Bench/L-Eval),并报告随长度变化的曲线而非单点。[5][6][13][14]
7) 旁路路线(检索/记忆/SSM/压缩)优先作为成本层:必须在 recall-heavy 套件上与原生长文/YaRN 做同基线对照;只报吞吐或检索型 needle 的结果不够。[18][15][23]
8) 系统优化(FlashAttention-2/Ring Attention)先当作“让训练/推理跑得动”的前置条件,不要把它当作“有效上下文提升”的证据;有效上下文只认任务曲线。[24][25][5]

悬而未决的问题

  • Q1.YaRN vs PI vs 其他 NTK-aware 变体:在同一 base、同一微调步数(例如 200/400/800 步)、同一数据混合下,RULER/LV-Eval 的有效上下文曲线差异有多大?需要公开的 controlled experiment 与脚本。[3][2][5][6]
  • Q2.RoPE base 的“上界”如何映射到具体任务族?Xu et al. [9] 给出可分性/覆盖的分析,但不同任务(检索、聚合、多跳、代码)对频段的需求可能不同,缺少按任务分解的可操作指标。
  • Q3.512K–2M 的 head-to-head:LongRoPE [4] 与“全局平滑公式/YaRN 类 ramp”的对照在 recall-heavy 套件(∞Bench/NoCha/Task Haystack)上需要更系统的公开复现,尤其要报告按长度档位与按任务类型的退化曲线。[4][13][16][17]
  • Q4.旁路路线与原生长文的同 compute 对照仍稀缺:在相近训练 token 与推理成本下,检索/记忆/SSM 是否能在 RULER/NoCha 这类聚合与多跳任务上达到 attention 长文的同等曲线?现有证据更偏向单点检索或吞吐对比。[18][19][5][16]
  • Q5.系统 kernel 与有效上下文的解耦:FlashAttention-2 [24]、Ring Attention [25] 让百万长度可训练,但“可训练”到“可用”之间的最小数据/步数门槛仍缺少公开的 scaling 曲线(按模型规模、数据长尾比例、任务族分解)。
  1. [1]
    Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
  2. [2]
    Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
  3. [3]
    Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
  4. [4]
    Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
  5. [5]
    Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
  6. [6]
    Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li. LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K. arXiv, 2024论文
  7. [7]
    Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
  8. [8]
    Abhimanyu Dubey et al.. The Llama 3 Herd of Models. Meta AI Technical Report, 2024报告
  9. [9]
    Mingyu Xu, Xin Men, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han. Base of RoPE Bounds Context Length. NeurIPS, 2024论文
  10. [10]
    Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu. Scaling Laws of RoPE-based Extrapolation. arXiv, 2023论文
  11. [11]
    Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang. A Length-Extrapolatable Transformer. arXiv, 2022论文
  12. [12]
  13. [13]
    Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
  14. [14]
    Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
  15. [15]
    Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
  16. [16]
    Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. One Thousand and One Pairs: A "novel" challenge for long-context language models. arXiv, 2024论文
  17. [17]
    Xiaoyue Xu, Qinyuan Ye, Xiang Ren. Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack. arXiv, 2024论文
  18. [18]
    Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
  19. [19]
    Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin. In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss. arXiv, 2024论文
  20. [20]
  21. [21]
    Aydar Bulatov, Yuri Kuratov, Yermek Kapushev, Mikhail S. Burtsev. Scaling Transformer to 1M tokens and beyond with RMT. arXiv, 2023论文
  22. [22]
    Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
  23. [23]
    Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin. LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression. arXiv, 2023论文
  24. [24]
  25. [25]
    Hao Liu, Matei Zaharia, Pieter Abbeel. Ring Attention with Blockwise Transformers for Near-Infinite Context. arXiv, 2023论文
  26. [26]
    Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
  27. [27]
    01.AI, Alex Young, Bei Chen, Chao Li. Yi: Open Foundation Models by 01.AI. Technical Report, 2024报告
  28. [28]
    Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
  29. [29]
    Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
  30. [30]
    Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou. Long Context Compression with Activation Beacon. ICLR (under review) / arXiv, 2024论文

论文列表

RoPE 相位覆盖与外推上界(4)

把“能不能学到长距离”从经验超参变成可推理的约束:base、频段、attention resolution 与外推误差形态。

10

RoFormer: Enhanced Transformer with Rotary Position Embedding

Jianlin Su,Yu Lu,Shengfeng Pan,Ahmed Murtadha,Bo Wen2021年4月20日
提出 RoPE:用旋转矩阵把位置信息写进 Q/K 的相位,使 dot-product attention 自然携带相对位置信号。后续所有“扩窗”方法本质上都在改 RoPE 的角度分布或其外推方式。
10

Base of RoPE Bounds Context Length

Mingyu Xu,Xin Men,Bingning Wang,Qingyu Zhang,Hongyu Lin,Xianpei Han2024年12月1日
把“base 设多大”从经验变成上界:base 太小会让低频维度在目标长度上相位覆盖不足,远距离位置趋于不可分,从而限制可学有效上下文长度上限。
8

Scaling Laws of RoPE-based Extrapolation

Xiaoran Liu,Hang Yan,Shuo Zhang,Chenxin An,Xipeng Qiu2023年10月8日
给出 RoPE 外推的 scaling 规律与失败模式,强调“角度分布/频段”与长度外推之间存在结构性约束,而不是单纯多训几步就能补齐。
8

A Length-Extrapolatable Transformer

Yutao Sun,Li Dong,Barun Patra,Shuming Ma,Shaohan Huang2022年12月20日
用 attention resolution 解释“为什么长长度会糊”:当位置编码导致相位/分辨率不足时,注意力会在远距离退化为低分辨率匹配,为后续按频段处理提供了可操作指标。

32K–128K:retrofit 配方(PI/NTK/YaRN + 微调)(3)

不重跑 pretrain 的扩窗:哪些参数化会伤到高频局部分辨率,哪些机制能稳定远距离注意力分布,并在几百步预算内交付有效上下文。

10

Extending Context Window of Large Language Models via Positional Interpolation

Shouyuan Chen,Sherman Wong,Liangjian Chen,Yuandong Tian2023年6月27日
PI 用统一比例把长位置映射回训练相位区间,能以较少微调把 2K/4K 扩到 32K;代价是高频维度也被压缩,局部相对位移分辨率下降,后续修复空间受限。
10

YaRN: Efficient Context Window Extension of Large Language Models

Bowen Peng,Jeffrey Quesnelle,Honglu Fan,Enrico Shippole2023年9月1日
把“只动低频、尽量不动高频”落成 per-dim ramp,并用 attention temperature 抑制远距离 attention logits 的熵塌缩;在 32K–128K retrofit 上形成可复用实现。
8

Effective Long-Context Scaling of Foundation Models

Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava2023年9月27日
用 continual pretraining + 长文本上采样把有效上下文推到 32K,强调分布对齐与训练长度共同决定有效长度,为“只改 RoPE 不改分布”的方案提供对照。

原生长文:base 对齐 + short-to-long curriculum + 数据工程(3)

把长文当作预训练配方而不是推理期外推:base 设定、分阶段混入长序列 token、以及跨长度验收曲线。

10

The Llama 3 Herd of Models

Abhimanyu Dubey,et al.2024年7月31日
给出生产级 128K 配方:RoPE base 设到目标量级(常见 ~500000),并用 6 阶 short-to-long 把长序列 token 分段引入;用 RULER 曲线验收有效上下文随阶段增长。
9

Data Engineering for Scaling Language Models to 128K Context

Yao Fu,Rameswar Panda,Xinyao Niu,Xiang Yue,Hannaneh Hajishirzi2024年2月15日
把 128K 视为数据分布问题:长文数据构造/混合与持续预训策略决定远距离依赖是否在训练中出现;强调跨长度评估闭环,而不是只看最大长度点。
6

Yi: Open Foundation Models by 01.AI

01. AI,Alex Young,Bei Chen,Chao Li2024年3月7日
公开长窗变体与训练细节,为“原生长文 + 训练分布对齐”提供可复现的工程参照,便于与 retrofit 路线做同基线对比。

验收与旁路:RULER/LongBench/∞Bench vs 检索/记忆/SSM(4)

把“有效上下文”变成可测指标,并用 recall-heavy 套件检验旁路路线是否真的替代原生长文。

10

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh,Simeng Sun,Samuel Kriman,Shantanu Acharya,Dima Rekesh2024年4月9日
把“有效上下文长度”落成可测任务集合,展示大量模型宣称 128K 但有效仅 ~32K;把验收从 PPL/needle 拉到变量追踪、聚合、多跳链路等压力点。
9

LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K

Tao Yuan,Xuefei Ning,Dong Zhou,Zhijie Yang,Shiyao Li2024年2月6日
用 5 个长度档位把“收益是否随长度稳定增长”变成可检验曲线,减少只在最大长度点做 needle 的偶然性,适合验收 short-to-long 是否真的生效。
8

∞Bench: Extending Long Context Evaluation Beyond 100K Tokens

Xinrong Zhang,Yingfa Chen,Shengding Hu,Zihang Xu,Junhao Chen2024年2月21日
把评估长度推进到 100K+,更容易暴露“宣称窗口”与“可用有效上下文”之间的断层,适合检验 256K–1M 的退化形态。
7

Zoology: Measuring and Improving Recall in Efficient Language Models

Simran Arora,Sabri Eyuboglu,Aman Timalsina,Isys Johnson,Michael Poli2023年12月8日
用 recall-sensitive 任务系统比较高效模型与 attention,指出不少 attention-free 方案在 recall 上存在结构性短板;对“旁路路线天然更好”形成反证素材。