长上下文 LLM 的位置编码路径：从 RoPE 到 ABF 的六步演化

结论先行：长文能力 = RoPE 相位覆盖 × 训练分布 × 评估闭环；“窗口数字”只是接口参数

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

34 篇扩展证据（支持 13 · 反证 3 · 拓展 18）·知识聚类 5·悬问 5

领域综述

可交付的长文能力不是“把窗口参数改大”，而是三件事同时对齐：RoPE 的相位覆盖（尤其低频维度在目标长度上的可分性）、训练分布里远距离依赖出现的方式与比例、以及能测 recall/聚合/多跳追踪的评估闭环。[9][8][5] 对存量模型，32K–128K 的主流落地更像“retrofit + 严格验收”：YaRN 的 per-dim ramp 把插值主要放在低频维度，同时用 attention temperature 稳住远距离 logits 的熵形态，配合几百步长序列微调，往往能把有效上下文推到可用区间。[3][6] 对新训/持续预训，base 直接设到目标窗口量级并做 short-to-long curriculum，能把“有效长度上界”从一开始就放对位置，减少后续靠外推修补的不可逆损伤。[8][7] 当目标进入 512K–2M，全局缩放/平滑公式开始暴露 per-dim mismatch，LongRoPE 这类按维度学习 scale pattern + 更长微调预算更稳。[4] 旁路路线（SSM/外部记忆/检索/压缩）在复杂度与系统可用性上更好，但在 recall-heavy、多跳、长尾干扰下经常需要与原生长文做同基线对照，不能只报吞吐或 needle 单点。[18][15][19]

TL;DR

两条更稳的落地路径已经清晰。存量模型做 32K–128K：默认 YaRN 的 per-dim ramp + attention temperature，并把预算写成“长序列微调（几百步量级）+ RULER/LV-Eval 分档验收”。PI 的全局插值适合 bring-up/对照，但它会把高频维度一起压缩，局部模式分辨率下降，后续很难完全补回。[3][2][5][6]
新训/持续预训做 128K：RoPE base 直接设到目标窗口量级（工程上常见 ~500000），再做 short-to-long curriculum（例如 8K→16K→32K→64K→128K）把长序列 token 分阶段混入；这与“base 限制低频相位覆盖，从而限制可学有效长度上界”的分析一致。[8][9][7]
当目标到 512K–2M：单一全局缩放开始出现 per-dim mismatch，LongRoPE 用搜索学非均匀 per-dim scale，并配更长微调预算来按维度拟合误差，更像可控工程路线。[4]
评估必须从 PPL/needle 转向 RULER/LongBench/∞Bench/LV-Eval 这类能测 recall、聚合、多跳追踪的套件，否则容易交付“宣称窗口变大但有效上下文没变”。[5][12][13][6]
旁路路线（SSM/外部记忆/检索/压缩）在复杂度上占优，但在 recall-heavy 任务上经常需要与原生长文做同基线对照；不少“看起来能无限长”的方案在 recall 或多跳聚合上会掉队。[18][15][19]

核心断言

#1把 RoPE base 从 10k 直接对齐到目标窗口量级（128K 常见 ~500k）能把“可学有效上下文长度上界”前移；否则低频维度在目标长度相位覆盖不足，远距离位置趋于不可分，后续再 retrofit 只能在上界内打转。[9][8]

#232K–128K retrofit 的更稳默认是 YaRN：per-dim ramp 主要插值低频、尽量不动高频，再用 attention temperature 稳住远距离 logits 的熵形态；PI 的全局插值会结构性压缩高频，局部模式分辨率下降，后续很难完全补回。[3][2]

#3“宣称 128K”与“有效 ~32K”之间的落差在 RULER 这类 recall/聚合/多跳套件上是常态；只报 PPL 或 needle 单点会系统性高估可用上下文。[5][6][13]

#4当目标进入 512K–2M，误差主因从“相位越界”转向 per-dim mismatch：不同频段对外推的需求不同，统一全局缩放会同时出现低频仍不足与高频过度压缩；LongRoPE 通过搜索学非均匀 per-dim scale + 更长微调预算来按维度拟合误差。[4]

#5旁路路线（检索/记忆/SSM/压缩）能把复杂度从 O(

n^{2}

) 拉向线性或次二次，但在 recall-heavy 任务上经常落后于 attention 基线；若不做与原生长文的同基线对照，很容易把“系统吞吐提升”误当成“有效上下文提升”。[18][15][24]

§1 机制底座：相位覆盖决定上界，分布对齐决定能否用起来

长文能力先取决于“可分性”，再取决于训练是否让模型学会使用。RoPE 通过 Q/K 的旋转相位注入位置；[1] 直接意味着每个维度对应一个频率带。长度外推时，最先失效的是低频维度在目标长度上的相位覆盖不足：远距离位置在这些维度上难以区分。[9] 这解释了为什么 base=10k 的模型即使把窗口参数拉到 128K，远距离依赖仍常表现为“能看到但抓不住”：缺的不是更多微调步数，而是低频相位空间一开始就没有打开。

把 base 直接设到目标窗口量级（工程上 128K 常见 ~500k）可以把低频相位覆盖推近目标长度，并抬高“可学有效长度上界”。[8][9] 但上界上移不等于可用：如果训练分布中的长序列 token 只在最后阶段少量出现，评估套件会呈现明显的长度断层。[7][5] 更稳的配方是 short-to-long curriculum：按阶段混入长序列 token，并用跨长度曲线验收有效上下文是否随阶段连续增长，而不是只在最大长度点做一次性验收。[8][6]

常见误区是把“系统能跑更长”（kernel/并行/显存）等同于“模型能用更长”。FlashAttention-2 [24]、Ring Attention [25] 解决的是算子与并行形态；它们降低成本，但不会自动修复相位覆盖或训练分布缺口。验收仍要回到 RULER/LV-Eval 这类任务曲线。[5][6]

图 1. 图 1.1 RoPE 频段与各 scaling 方法的作用区间(PI / YaRN / LongRoPE)

把 base 设对是在移动“可学上界”；把分布设对是在把上界变成可用长度。[9][7]

§2 32K–128K retrofit：PI 省事但伤高频，YaRN 把损伤限制在低频并稳住远距注意力

对已训模型扩到 32K–128K，核心取舍是：是否牺牲高频维度的局部分辨率，换取“角度不越界”。PI [2] 通过全局插值把所有位置压回训练区间，工程 bring-up 很快；代价是高频维度也被压缩，等价于把“短距离相对位移”的相位分辨率变粗。在长文任务中，这类损伤常表现为局部模式（如变量名、格式、短跨度约束）更易混叠；后续微调也难以完全补回，因为表示空间的高频刻度已经被改写。

YaRN [3] 的重点不是“又一个缩放公式”，而是把插值预算按频段拆开：per-dim ramp 主要改低频维度，使其在长位置上仍有足够相位覆盖；高频维度尽量维持原刻度，以保住局部模式分辨率。它同时引入 attention temperature，对冲长距离 attention logits 的熵塌缩（远距离 logits 过尖或过平都会使检索/聚合不稳定）；在 RULER 的变量追踪/聚合/多跳链路上，这更容易体现为“有效上下文随长度档位增长”。[5][6]

更务实的工程读法是：PI 适合作为对照组或快速 bring-up；交付方案必须把验收写死在多档长度曲线上，而不是只看最大长度点的 needle。[2][15] Goldman et al. [15] 的提醒也应纳入验收设计：不少“长文任务”可被检索近似解决，单点 needle 更容易被提示工程或检索捷径骗过；retrofit 的验收应优先使用需要跨段聚合与多跳追踪的任务族。[5][14]

路线	参数化/机制	主要收益	主要风险（机制层面）	验收建议
PI	全局 position 插值，把角度压回训练区间[2]	bring-up 快、实现简单	高频维度被压缩→局部模式分辨率下降，后续难完全补回[2]	只做对照组；必须报 RULER/LV-Eval 多档曲线[5][6]
YaRN	per-dim ramp：主要动低频；attention temperature 稳远距 logits[3]	保住高频局部分辨率，同时提升远距可用性	需要配合长序列微调与严格验收，否则“窗口变大但有效不变”[5]	默认交付方案；用 RULER + LV-Eval 曲线验收[5][6]
原生长文（base 对齐 + curriculum）	base 对齐目标长度 + short-to-long 混入长序列 token[8][7]	上界与分布同时对齐，曲线更平滑	需要持续预训 token 预算与数据工程能力[7]	用阶段曲线验收：8K→…→128K 每段都要增长[8][6]

扩窗路线的工程对比（同一模型/同一预算下，优先看“有效上下文曲线”而非宣称窗口）

Original 4K

100[Hsieh2024RULER]

PI to 32K

78[Chen2023PI]

NTK-RoPE to 32K

86[Liu2023RoPEScalingLaws]

YaRN to 64K

92[Peng2023YaRN]

LongRoPE to 128K

95[Ding2024LongRoPE]

Llama-3 ABF to 128K

96[Dubey2024Llama3]

单位：RULER pass rate (rel.)

图 2. 图 2.1 32K -> 128K retrofit:RULER 上的 effective context (illustrative;以原 4K 模型 = 100)

§3 512K–2M：从“全局缩放”转向“按维度拟合”的 LongRoPE 逻辑

当目标推到 512K–2M，主要 failure mode 从“角度越界”转为 per-dim mismatch：不同频段在超长位置上的误差形态不同，统一 ramp/缩放会同时触发两类问题——低频维度相位覆盖仍不足，远距离位置不可分；高频维度被过度压缩，局部模式退化。[4][10] 因此，128K 以内看起来“够用”的平滑公式，到了百万 token 段会暴露长尾任务退化：问题不是继续拧同一个 knob，而是显式建模“每个维度需要多少外推量”。

LongRoPE [4] 的工程含义，是把超参从少数全局系数扩展为可搜索/可学习的 per-dim scale pattern，并用更长的微调预算拟合维度级误差。它把“超长窗”从一次性 trick 变成可调参空间：先搜索在目标任务族上更稳的 pattern，再通过长序列微调重新对齐 attention 分布与表示空间。

一个常被低估的点是：512K+ 的交付风险常来自评估不够“脏”。∞Bench [13]、Lifelong ICL/Task Haystack [17]、NoCha [16] 这类更长、干扰更强、要求跨段聚合的套件，能更早暴露“局部退化”和“长尾 recall 掉队”。如果只用 needle 或可检索捷径任务，LongRoPE 的收益和风险都会被低估。[15][5]

正在渲染图示…

图 3. 图 3.1 长上下文外推:按目标长度 + recall 需求的路线决策

§4 旁路与系统：复杂度优势不等于 recall 可靠性

旁路路线的共同点，是把“长历史”从全量 attention 中移出：要么换架构（SSM/稀疏/递归），要么引入外部记忆/压缩/检索。Mamba [20]、Longformer [28]、LongNet [29]、RMT [21]、Landmark Attention [22]、Activation Beacon [30] 都能在复杂度、显存或吞吐上给出明确收益；系统侧的 FlashAttention-2 [24]、Ring Attention [25] 则把“能跑很长”变得可操作。

但“能跑很长”不等于“能可靠 recall”。Zoology [18] 的经验表明，不少高效模型在 recall-sensitive 任务上仍落后于 attention。Kuratov et al. [19] 展示了 recurrent memory 在超长 haystack 上能找回 transformer 漏掉的信息，但这类结果也暴露了一个验收陷阱：如果任务主要是单点检索，旁路方法会显得很强；一旦任务需要跨段聚合、多跳链路，或对干扰鲁棒，差距会重新出现。[5][16]

因此，更稳的交付策略是把旁路路线当作“系统预算的杠杆”，而不是“替代原生长文的默认答案”：在同一模型族内，先用 RULER/LV-Eval/NoCha 证明原生长文或 YaRN retrofit 的有效上下文曲线，再评估检索/压缩/记忆能否在不损失 recall-heavy 指标的前提下降低成本。[5][6][23]

时间线

2021-04RoPE（RoFormer）成为后续扩窗方法的共同底座[1]
2023-06PI：用全局插值快速扩窗，但引入高频压缩副作用[2]
2023-09YaRN：按频段分配插值预算，并用 attention temperature 稳定远距注意力[3]
2024-04RULER 把“有效上下文长度”变成可测指标，揭示宣称窗口与可用长度落差[5]
2024-07Llama 3 报告公开 128K 生产配方：base 对齐 + 6 阶 short-to-long + 曲线验收[8]
2024-02LongRoPE 把 2M 目标具体化为 per-dim mismatch，并用搜索学非均匀 scale[4]

研究立场对比

阵营 A：原生长文（base 对齐 + curriculum/ABF）才是更干净的交付路径

立场 — 长文能力的上界由 RoPE 相位覆盖决定，能否用起来由训练分布决定；因此应在 pretrain/continual pretrain 阶段把 base 直接对齐目标窗口，并用 short-to-long 把长序列 token 分阶段混入，避免推理期外推或少量微调带来的不可逆损伤。[8][9][7] 这条路线的验收应是跨长度曲线：每个阶段都要看到有效上下文随长度档位增长，而不是只在最大长度点“勉强可用”。[6][5]

证据：[8][9][7][6][5]

反方 — 反驳 c-7094e4510a / c-8b90a3a5a5：对多数团队，持续预训 token 预算与数据工程门槛确实更高；在 ≤128K，retrofit 可能以更低成本达到接近的有效上下文曲线。[3][26][27] 更稳的做法是把原生长文定位为“新模型或大版本迭代的默认”，而不是给所有存量模型强推重训。

判词 — 结论层面的建议：新训/大版本迭代优先走原生长文；把 base 对齐与 short-to-long 当作“必须项”，否则后续扩窗会反复在上界附近打补丁。[8][9]

阵营 B：32K–128K retrofit 默认 YaRN，而不是 PI

立场 — PI 的全局插值把高频维度一起压缩，局部相对位移分辨率下降；YaRN 用 per-dim ramp 把插值主要放在低频维度，并用 attention temperature 稳住远距 attention logits 的熵形态，更容易在几百步长序列微调预算内交付可用有效上下文。[2][3] 验收必须用 RULER/LV-Eval 这类多档长度曲线，否则 PI 在 needle 上“看起来可用”但在聚合/多跳上掉队的风险会被掩盖。[5][6]

证据：[3][2][5][6]

反方 — 修正 c-457e01b168：即使 YaRN 更稳，也不等于“只改 RoPE 就够”。没有长序列微调与分布对齐，RULER 仍可能出现宣称窗口与有效长度的断层。[5][7] 因此 YaRN 的默认姿势应当绑定“长序列微调预算 + 任务曲线验收”。

判词 — 一个更务实的定位：≤128K 的存量模型交付，YaRN 作为默认；PI 只保留为 bring-up/对照组，并用 RULER/LV-Eval 的多档曲线决定是否能上线。[3][2][5]

阵营 C：≥512K 必须做 LongRoPE 式 per-dim 搜索/学习，全局公式会结构性错配

立场 — 当长度进入 512K–2M，误差不再主要来自“相位越界”，而来自 per-dim mismatch：不同频段对外推的需求不同，统一 ramp/缩放会同时造成低频仍不足与高频过度压缩。LongRoPE 用 evolutionary search 学非均匀 per-dim scale，并配更长微调预算把误差按维度拟合掉，工程上更可控。[4] 这也与“RoPE 外推存在结构性 scaling 约束”的分析一致：把问题压成少数全局超参会在极端长度下失真。[10]

证据：[4][10][13]

反方 — 反驳 c-802b6e8f2c：search 成本与工程复杂度确实更高，且在 512K 以下优势可能不稳定；因此 per-dim 搜索更适合作为“512K+ 的门槛动作”，而不是把所有模型都拉进搜索循环。[4][6]

判词 — 结论层面的建议：目标 ≥512K 时，把“按维度拟合”当作默认假设；先用 ∞Bench/Task Haystack/NoCha 这类更脏的套件定位退化维度，再决定是否进入 LongRoPE 式搜索与更长微调预算。[4][13][17][16]

阵营 D：绕开 RoPE/attention（SSM/外部记忆/检索/压缩）更省成本

立场 — 长序列 attention 的 O( $n^{2}$ ) 成本与 RoPE 外推风险让训练与部署都难控；更合理的是用线性/稀疏/递归/记忆/压缩把历史搬出主上下文，实现 train-short test-long 或近似“无限上下文”。[20][21][22][23] 在极端长度检索上，recurrent memory 甚至能在 11M-token haystack 找回 transformer 漏掉的信息。[19]

证据：[20][21][22][23][19]

反方 — 反驳 c-9e220ff288：复杂度优势不等于 recall-heavy 可靠性。Zoology [18] 显示不少高效模型在 recall-sensitive 任务上仍落后 attention；同时 Goldman et al. [15] 指出很多“长文任务”可被检索捷径解决，容易夸大旁路方案的泛化能力。若目标任务需要跨段聚合与多跳追踪，旁路路线必须给出与原生长文同基线的对照数字。[5][16]

判词 — 一个更稳的读法：旁路路线优先作为“成本控制层”，而不是替代长文 attention 的默认。先用 RULER/LV-Eval/NoCha 建立原生长文或 YaRN retrofit 的有效上下文曲线，再把检索/压缩/记忆作为可插拔模块去降成本，并用同一套 recall-heavy 指标做回归验收。[5][6][18]

实践要点

可执行的清单（带边界与不要做的事）：
1) 新训/持续预训做 128K：RoPE base 直接设到目标量级（经验上 ~500000），并用 6 阶 short-to-long（8K→16K→32K→64K→128K）分阶段混入长序列 token；每阶段必须交付跨长度曲线，至少覆盖 RULER + LV-Eval 两套。[8][9][5][6]
2) 不要默认 base=10000 再指望 retrofit 全补回来：base 限制低频相位覆盖，远距离位置可分性不足会把可学有效长度上界压低。[9][10]
3) 32K–128K 存量模型交付：默认 YaRN（per-dim ramp + attention temperature），并把预算写成“长序列微调（几百步量级）+ 多档验收”，而不是“先 PI 拉满窗口再补救”。[3][2][5]
4) PI 只用于 bring-up/对照：如果 PI 在 RULER 的变量追踪/聚合/多跳链路上有效上下文不随长度档位增长，就不要把它当交付方案。[2][5]
5) 目标 ≥512K：默认假设会出现 per-dim mismatch；先用 ∞Bench/Task Haystack/NoCha 定位退化形态，再决定是否进入 LongRoPE 式 per-dim 搜索与更长微调预算。[4][13][17][16]
6) 不要用 PPL 或单点 needle 作为长文验收：至少要求 RULER + 一套多档长度基准（LV-Eval/∞Bench/L-Eval），并报告随长度变化的曲线而非单点。[5][6][13][14]
7) 旁路路线（检索/记忆/SSM/压缩）优先作为成本层：必须在 recall-heavy 套件上与原生长文/YaRN 做同基线对照；只报吞吐或检索型 needle 的结果不够。[18][15][23]
8) 系统优化（FlashAttention-2/Ring Attention）先当作“让训练/推理跑得动”的前置条件，不要把它当作“有效上下文提升”的证据；有效上下文只认任务曲线。[24][25][5]

悬而未决的问题

Q1.YaRN vs PI vs 其他 NTK-aware 变体：在同一 base、同一微调步数（例如 200/400/800 步）、同一数据混合下，RULER/LV-Eval 的有效上下文曲线差异有多大？需要公开的 controlled experiment 与脚本。[3][2][5][6]
Q2.RoPE base 的“上界”如何映射到具体任务族？Xu et al. [9] 给出可分性/覆盖的分析，但不同任务（检索、聚合、多跳、代码）对频段的需求可能不同，缺少按任务分解的可操作指标。
Q3.512K–2M 的 head-to-head：LongRoPE [4] 与“全局平滑公式/YaRN 类 ramp”的对照在 recall-heavy 套件（∞Bench/NoCha/Task Haystack）上需要更系统的公开复现，尤其要报告按长度档位与按任务类型的退化曲线。[4][13][16][17]
Q4.旁路路线与原生长文的同 compute 对照仍稀缺：在相近训练 token 与推理成本下，检索/记忆/SSM 是否能在 RULER/NoCha 这类聚合与多跳任务上达到 attention 长文的同等曲线？现有证据更偏向单点检索或吞吐对比。[18][19][5][16]
Q5.系统 kernel 与有效上下文的解耦：FlashAttention-2 [24]、Ring Attention [25] 让百万长度可训练，但“可训练”到“可用”之间的最小数据/步数门槛仍缺少公开的 scaling 曲线（按模型规模、数据长尾比例、任务族分解）。

[1]
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
[2]
Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
[3]
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
[4]
Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
[5]
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
[6]
Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li. LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K. arXiv, 2024论文
[7]
Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
[8]
Abhimanyu Dubey et al.. The Llama 3 Herd of Models. Meta AI Technical Report, 2024报告
[9]
Mingyu Xu, Xin Men, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han. Base of RoPE Bounds Context Length. NeurIPS, 2024论文
[10]
Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu. Scaling Laws of RoPE-based Extrapolation. arXiv, 2023论文
[11]
Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang. A Length-Extrapolatable Transformer. arXiv, 2022论文
[12]
Yushi Bai et al.. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. arXiv, 2023论文
[13]
Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
[14]
Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
[15]
Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
[16]
Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. One Thousand and One Pairs: A "novel" challenge for long-context language models. arXiv, 2024论文
[17]
Xiaoyue Xu, Qinyuan Ye, Xiang Ren. Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack. arXiv, 2024论文
[18]
Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
[19]
Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin. In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss. arXiv, 2024论文
[20]
Albert Gu, Tri Dao. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv, 2023论文
[21]
Aydar Bulatov, Yuri Kuratov, Yermek Kapushev, Mikhail S. Burtsev. Scaling Transformer to 1M tokens and beyond with RMT. arXiv, 2023论文
[22]
Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
[23]
Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin. LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression. arXiv, 2023论文
[24]
Tri Dao. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. arXiv, 2023论文
[25]
Hao Liu, Matei Zaharia, Pieter Abbeel. Ring Attention with Blockwise Transformers for Near-Infinite Context. arXiv, 2023论文
[26]
Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
[27]
01.AI, Alex Young, Bei Chen, Chao Li. Yi: Open Foundation Models by 01.AI. Technical Report, 2024报告
[28]
Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
[29]
Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
[30]
Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou. Long Context Compression with Activation Beacon. ICLR (under review) / arXiv, 2024论文

论文列表

RoPE 相位覆盖与外推上界(4)

把“能不能学到长距离”从经验超参变成可推理的约束：base、频段、attention resolution 与外推误差形态。

RoFormer: Enhanced Transformer with Rotary Position Embedding

Jianlin Su,Yu Lu,Shengfeng Pan,Ahmed Murtadha,Bo Wen2021年4月20日

提出 RoPE：用旋转矩阵把位置信息写进 Q/K 的相位，使 dot-product attention 自然携带相对位置信号。后续所有“扩窗”方法本质上都在改 RoPE 的角度分布或其外推方式。

Base of RoPE Bounds Context Length

Mingyu Xu,Xin Men,Bingning Wang,Qingyu Zhang,Hongyu Lin,Xianpei Han2024年12月1日

把“base 设多大”从经验变成上界：base 太小会让低频维度在目标长度上相位覆盖不足，远距离位置趋于不可分，从而限制可学有效上下文长度上限。

Scaling Laws of RoPE-based Extrapolation

Xiaoran Liu,Hang Yan,Shuo Zhang,Chenxin An,Xipeng Qiu2023年10月8日

给出 RoPE 外推的 scaling 规律与失败模式，强调“角度分布/频段”与长度外推之间存在结构性约束，而不是单纯多训几步就能补齐。

A Length-Extrapolatable Transformer

Yutao Sun,Li Dong,Barun Patra,Shuming Ma,Shaohan Huang2022年12月20日

用 attention resolution 解释“为什么长长度会糊”：当位置编码导致相位/分辨率不足时，注意力会在远距离退化为低分辨率匹配，为后续按频段处理提供了可操作指标。

32K–128K：retrofit 配方（PI/NTK/YaRN + 微调）(3)

不重跑 pretrain 的扩窗：哪些参数化会伤到高频局部分辨率，哪些机制能稳定远距离注意力分布，并在几百步预算内交付有效上下文。

原生长文：base 对齐 + short-to-long curriculum + 数据工程(3)

把长文当作预训练配方而不是推理期外推：base 设定、分阶段混入长序列 token、以及跨长度验收曲线。

验收与旁路：RULER/LongBench/∞Bench vs 检索/记忆/SSM(4)

把“有效上下文”变成可测指标，并用 recall-heavy 套件检验旁路路线是否真的替代原生长文。