上下文长度扩展的全栈工程：从“放得下”到“用得上”

把“窗口长度”当作配置项，把“有效上下文”当作交付指标：评估闭环与数据分布先行，位置与系统按区间选型

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

40 篇扩展证据（支持 10 · 反证 14 · 拓展 16）·知识聚类 6·悬问 5

领域综述

长上下文扩展的瓶颈已经从“显存能不能放下”转向“模型能不能在真实任务里稳定用上中段与远端证据”。RoPE 外推（PI、YaRN、LongRoPE）把 32K→128K→2M+ 做成了可复用的参数化路径，但它主要解决的是位置几何与数值稳定性，不能自动带来任务级收益 [1][2][3]。评估侧，RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 反复指出：perplexity 与 NIAH 更像“能否读入/能否检索到针”的 proxy，常漏掉中段证据利用不足、跨段推理不稳、以及代码仓库级综合失败 [6][7][8][9][10]。训练侧，Fu et al. 与 Xiong et al. 把关键变量从“堆 token”改成“长文档比例与课程”，并给出 ≥25% 长文档上采样与分阶段扩窗的工程可行区间；Xu et al. 把 128K→4M 做成 staged continual pretrain + 长依赖 SFT 的流程，强调每一段都要回到任务评估闭环 [4][12][11]。更务实的交付顺序是：先把评估闭环与数据分布做对（≤128K），再把系统与稳定性推到 1M+（>1M）。

TL;DR

可交付的长上下文不是“能塞进 128K/1M”，而是模型在真实任务里能稳定用到中段与远端证据。RoPE 外推（PI/YaRN/LongRoPE）基本解决了 32K→128K→2M+ 的参数化路径，但它主要解决 fit 与数值稳定性，不会自动带来 use [1][2][3]。评估上，RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 显示 perplexity 与 NIAH 常与任务排名脱钩，尤其会漏掉 lost-in-the-middle、跨段推理与仓库级综合失败 [6][7][8][9][10]。训练上，Fu et al. 与 Xiong et al. 把关键变量落到长文档比例与课程；Xu et al. 把 128K→4M 做成分阶段扩窗 + 长依赖 SFT 的流程，强调每段都要回到任务评估闭环 [4][12][11]。工程顺序更稳：≤128K 先把评估闭环与数据分布做对（长文档比例按领域拉到 ≥25%，并审计 packing 截断）；>1M 再把系统吞吐与稳定性当主战场。

核心断言

#1在 64K–256K 区间，perplexity/NIAH 与任务型长上下文评估经常不同步：模型可以在 NIAH“找针”接近满分，但在 RULER 的多压力项与 LongBench 的跨段任务上仍出现中段证据利用不足与非单调退化 [6][9][8][10]。

#2把窗口从 32K 扩到 128K 的主要不确定性通常不是 RoPE 外推公式，而是训练分布里“长文档是否真实出现”：长文档比例偏低时，继续堆长序列 token 更容易只提升检索型 proxy，而不提升跨段任务 [4][12][10]。

#3RoPE 外推的工程主线已经形成区间化选型：PI 更适合 ≤32K 的快速验证；YaRN 覆盖到 ~128K 的成本/稳定性折中；到 1M+，LongRoPE 把问题变成“非均匀区间的误差控制与搜索”，需要稳定性审计而非一次性改公式 [1][2][3]。

#4极长扩窗（≥1M）更像“分阶段上线”而不是一次性跳跃：Xu et al. 的 128K→4M 流程把 continual pretrain 与长依赖 SFT 分段绑定，并在每段回到任务评估闭环以避免短窗能力与指令跟随退化 [11][10]。

#5“全注意力 O(

L^{2}

) 不可持续、必须换稀疏/记忆/线性架构”在任务层面还缺少统一胜出证据：Zoology 显示高效架构的 recall 仍是硬约束；更现实的分工是 dense 长窗负责跨段整合，retrieval/memory 负责稀疏证据与知识更新 [26][16][18][17]。

§1 主指标从“窗口长度”切到“有效上下文”

“能输入 128K/1M”更像系统验收项；交付风险在于模型能否利用中段与远端证据。Lost in the Middle [9] 给出稳定现象：同一证据放在中段时正确率显著下降，说明注意力可达不等于证据可用。RULER [6] 将这一问题工程化为多压力项：不仅测检索针，还测多针、干扰、跨段组合与指令跟随退化；它把“中段证据利用不足”从 anecdote 变成可回归测试。LV-Eval [7] 用多长度档位避免“只在一个长度点看起来没问题”，更早暴露 32K→128K 扩展中的非单调退化。Gao et al. [10] 进一步拆分 perplexity、NIAH 与任务评估：proxy 适合诊断（例如位置外推是否崩溃、是否出现明显遗忘），但不适合作为主 KPI，因为它会把优化压力推向“更像语言建模”，而不是“更会在长任务里对齐证据”。更稳的闭环是：用 RULER [6] 做压力测试，用 LV-Eval [7] 或 LongBench [8] 做任务覆盖，再用代码/工具类任务（如 RepoBench [15] 或仓库 QA）补齐跨文件综合的失败模式。

Llama-3 8B @ 128K claimed

64[RULER2024]

GPT-4-class @ 128K claimed

78[LVEval2024]

Yi-200K @ 200K claimed

60[RULER2024]

Gemini 1.5 @ 1M claimed

82[Gemini15Report2024]

UltraLong 1M (post-train)

70[Xu2025UltraLong]

Long-context retrofit (PI baseline)

45[PI2023]

单位：% of short-ctx ability

图 1. 图 1.1 主流模型“宣称窗口”和 RULER / LV-Eval 上的“有效上下文”差距 (illustrative;100 = 宣称长度处仍 ≥ 90% 短上下文能力)

长上下文的“fit”可以靠 kernel 与位置外推解决；“use”必须靠任务评估把失败模式钉住。

§2 RoPE 外推不是一个公式，而是一套按区间工作的稳定性工程

RoPE 的基础来自 RoFormer [13]：旋转将相对位置信息编码进 Q/K 的相位差。PI [1] 的关键操作是把推理时的位置压回训练区间，并进行少量适配训练，因此适合 ≤32K 的快速扩窗与验证；但其隐含假设是“训练区间内学到的频率结构可通过线性重参数化复用”，到 128K+ 时更容易触发任务退化与数值边界问题。YaRN [2] 将外推从单一插值推进为更可控的缩放/校准，工程上常作为 128K 的默认选项之一：优势不是把窗口写得更大，而是在成本可控下减少短窗能力回退。到 1M+，LongRoPE [3] 说明问题已不再是“选哪个缩放因子”，而是“不同位置区间的误差如何累积、如何用非均匀插值与搜索压住误差”。这也解释了为什么极长扩窗更接近系统上线：必须把稳定性审计（loss spike、梯度异常、长序列数值溢出、短窗回退）作为每次扩窗的 gate，而不是一次性改完位置编码就结束 [3][11]。受控实验也在补齐经验缺口：Lu et al. [5] 拆分位置方法、训练长度与数据分布，有助于区分“位置方法背锅”和“训练分布缺长样本”。

方案/路线	更适合的长度区间	解决的主要问题	常见失败模式/代价	建议搭配的主评估
PI [PI2023]	≤32K（快速验证）	位置映射回训练区间，低成本扩窗	到 128K+ 更易出现任务退化；对“中段证据利用”无直接保证	RULER [6] + LV-Eval [7]
YaRN [YaRN2023]	32K–128K（默认折中）	更可控的 RoPE 缩放/校准，兼顾短窗回退	仍依赖训练分布里长样本出现；proxy 变好不等于任务变好	RULER [6] + LongBench [8]
LongRoPE [LongRoPE2024]	≥1M（超长区间）	非均匀插值 + 搜索，控制区间误差累积	调参/稳定性审计成本高；需要系统吞吐配合	RULER [6] + 长任务集（LongBench [8]）
长文档上采样 [Fu2024DE128K][Xiong2023EffectiveLongContext]	≤128K（优先级高）	让长依赖监督真实出现，减少“名义容量”	数据管线更复杂；需要监控 packing 截断	LV-Eval [7] + RULER [6]
分阶段扩窗 + 长依赖 SFT [Xu2025UltraLong][Gao2024EffectiveLongCtx]	128K→1M+（上线式扩展）	每段校稳定性与任务利用率，避免短窗退化	需要持续评估与回归门禁；训练周期更长	RULER [6] + 任务集 [10]

RoPE 外推与训练配方的区间化选型（关注“用得上”而非名义窗口）

图 2. 图 2.1 RoPE 三段稳定区间:4K -> 32K / 32K -> 128K / 128K -> 1M 各自的稳定性瓶颈不同

§3 128K 以内，数据分布与 packing 截断比“再换一个位置方法”更决定性

长上下文训练最常见的错觉，是把平均序列长度等同于“长依赖监督强度”。如果数据管线大量使用 packing，把多个样本拼成一条长序列，却截断长样本或切碎关键监督，模型看到的仍是“短依赖拼接”，不是“跨段一致的长依赖”。Fu et al. [4] 将工程变量压到可操作旋钮：长文档比例是决定 128K 能否学到稳定行为的核心变量；当长文档比例不足时，继续堆长序列 token 更可能只推高 NIAH。Xiong et al. [12] 也通过长文本上采样与 continual pretraining 表明：长样本必须在训练分布中占到可见比例，才能把“能读长”转成“会用长”。Gao et al. [10] 进一步约束优化目标：即使 perplexity 下降，也可能不带来长任务收益，因此训练改动必须直接接入任务评估闭环。Never Lost in the Middle [14] 给出一种训练信号方向：用 position-agnostic 的分解式训练对抗 lost-in-the-middle，这类信号更接近“use”目标，而不是“fit”的 proxy。工程上，更可靠的健康指标集合是：长文档比例（按领域）、长样本截断率，以及 LV-Eval [7] 多长度档位上的回归曲线，而不是只看平均长度与 ppl。

正在渲染图示…

图 3. 图 3.1 长文 packing 策略选型:文档边界 / repo-level / curriculum 各自适用场景

§4 ≥1M：系统吞吐、稳定性门禁与“dense + retrieval/memory”的分工

到 1M+，成本曲线与稳定性重新压过“位置方法选型”。Xu et al. [11] 可复用的部分是 staged rollout：128K→1M→2M→4M，每段同时验证短窗能力保持与长任务利用率，并用长依赖 SFT 补入任务信号；机制上，这是把“use”约束写入训练过程，而不是期待外推后自然出现。与此同时，替代路线尚未形成对 dense 长窗的统一替代。Longformer [20]、Linformer [21]、LongNet [24]、Landmark Attention [23]、Compressive Transformer [22] 与 InfLLM [25] 给出稀疏/压缩/记忆的不同折中，但 Zoology [26] 提醒：高效架构的核心瓶颈往往是 recall 与信息保真，尤其在任务需要跨段组合而非单点检索时。检索增强路线（REALM [18]、Atlas [19]）在知识密集型任务上成本更可控；但 Goldman et al. [17] 指出，许多“长上下文任务”其实是检索问题，评估必须刻意构造需要跨段组合的样例，才能判断 dense 长窗是否提供不可替代的收益。更现实的工程分工是：dense 长窗负责结构保持与跨段综合，retrieval/memory 负责稀疏证据与可更新知识；边界由任务属性决定，而不是由“窗口数字”决定 [16][17]。

时间线

2021-04RoPE（RoFormer）成为后续外推方法的基础位置参数化[13]
2023-06PI 把“位置映射 + 少量适配训练”固定成 32K 扩窗范式[1]
2023-07Lost in the Middle 把“中段证据利用不足”变成可复现现象[9]
2023-08YaRN 把 RoPE 外推推进到 128K 的默认工程折中[2]
2024-02Fu et al. 把 128K 的关键变量落到长文档比例与数据工程[4]
2024-04RULER 把“真实可用上下文”从 NIAH 扩展为多压力项主指标[6]
2024-02LongRoPE 把 2M+ 外推变成非均匀区间误差控制与搜索问题[3]
2025-04Xu et al. 给出 128K→4M 的分阶段扩窗 + 长依赖 SFT 流程[11]

研究立场对比

阵营 A：位置外推是主线；评估与数据只是辅助

立场 — 先用 PI/YaRN 把窗口扩到 128K，再用 LongRoPE 把 1M+ 做稳；只要外推稳定，模型自然会学会用长上下文，评估与数据配方属于优化细节（对应 ledger c-8e5bfb202f、c-af4dd91c2d）。

证据：[1][2][3][13]

反方 — RULER [6] 与 Lost in the Middle [9] 显示：即使“能放下”，中段证据仍可能系统性用不上；Gao et al. [10] 进一步表明 proxy 与任务收益不等价。Fu et al. [4] 与 Xiong et al. [12] 把关键变量指向训练分布：长文档比例不足时，位置外推再稳也更可能得到名义容量。

判词 — 更稳的读法：位置外推是必要条件但不是主线 KPI。≤128K 先把评估闭环与数据分布做对，再选 PI/YaRN 作为区间化工具；到 1M+ 才把 LongRoPE 这类稳定性系统当主工程。

阵营 B：长序列训练主要是系统并行与 kernel 问题

立场 — FlashAttention 类 kernel 提升单卡效率，序列并行把 L 维切开；把 DP/TP/PP/SP 分别压到极致即可，剩下只是资源投入（对应 ledger c-65f78fd3e6、c-fecb27fa82、c-5ef38c5699）。

证据：[27][11][24]

反方 — 系统能解决“吞吐与显存”，但不自动解决“任务利用率”。Gao et al. [10] 显示：即使继续训练让 ppl 下降，长任务收益也可能不升反降；RULER [6] 与 LV-Eval [7] 也能在系统可跑的设置下测出中段证据利用不足。Xu et al. [11] 的流程把“分阶段评估门禁 + 长依赖 SFT”写进 recipe，等价于承认系统到位仍需要训练信号与评估闭环。

判词 — 更务实的定位：系统是必要的地基，但主风险在“用得上”。≤128K 阶段优先投评估与数据；≥1M 阶段再把系统吞吐与稳定性门禁作为主战场，并把任务评估当上线 gate。

阵营 C：perplexity/NIAH 足够；任务基准太噪

立场 — 用 perplexity 与 NIAH 做主指标：成本低、可重复、迭代快；LongBench/RepoBench 这类任务基准受提示词、数据集偏差与泄漏影响，不适合作主 KPI（对应 ledger c-5f30eb3feb、c-029d4b7fbd、c-d7dc2f81ec）。

证据：[6][10][8][9]

反方 — RULER [6] 的核心论点是：单一 NIAH 会系统性高估真实可用上下文；Lost in the Middle [9] 给出中段证据利用不足的可复现现象，说明“检索到”与“用来推理”是两件事。Gao et al. [10] 直接比较 proxy 与任务，给出弱相关结论，并指出长依赖 SFT 比继续堆长预训练 token 更快带来任务收益，这与“ppl 下降自然带来长能力”的假设冲突。

判词 — 结论层面的建议：proxy 只做诊断与早期冒烟测试，不做主 KPI。主 KPI 至少包含一个压力测试（RULER）和一个任务集（LV-Eval 或 LongBench），否则很难发现“中段证据用不上”的交付风险。

阵营 D：全注意力 O(L^2) 不可持续，替代架构会取代 dense 长窗

立场 — 应转向 sparse attention、压缩记忆、外部 memory 或 attention-free/SSM 类架构，获得“天然无限上下文”，而不是继续把 Transformer dense window 推到 1M+（对应 ledger c-83aa44cf46、c-628f6007fd、c-d013b3f6e2 的“可行选择收敛”叙事）。

证据：[20][21][24][23][22][25][26][18]

反方 — 替代路线提供了成本优势，但任务层面的代价往往体现在 recall 与信息保真。Zoology [26] 通过系统测量指出高效模型在 recall 上存在硬约束；而 Goldman et al. [17] 也提醒：很多“长上下文任务”其实是检索问题，替代架构在这类任务上看起来赢并不等价于在跨段组合任务上也赢。更稳的工程分工是 dense 长窗 + retrieval/memory 的混合：dense 负责跨段综合与结构保持，retrieval/memory 负责稀疏证据与知识更新 [16][18]。

判词 — 更稳的读法：替代架构会在成本敏感、证据稀疏的任务上持续渗透，但短期内更像补位而非取代。交付上优先把 dense 长窗的“有效上下文”做实，再用 retrieval/memory 降成本与补知识更新。

实践要点

可执行清单（带边界与不要做的事）：
1) Do：主 KPI 设为 RULER [6] +（LV-Eval [7] 或 LongBench [8]）。Don’t：用 perplexity/NIAH 当主 KPI；它们只做诊断与冒烟测试 [10][9]。
2) Do：≤128K 先把长文档比例按领域拉到 ≥25%（达不到就先别追更大窗口），并把长样本出现频率当训练健康指标 [4][12]。
3) Do：把 packing 的“长样本截断率”列为必须监控的指标；Don’t：只看平均序列长度，平均值会掩盖长依赖监督根本没出现（open：缺少公开的系统性 packing 审计论文，先用内部统计补齐）。
4) Do：RoPE 外推按区间选型：≤32K 用 PI [1] 做快速验证；32K–128K 默认 YaRN [2]；≥1M 再考虑 LongRoPE [3]，并把稳定性审计当上线 gate。
5) Do：扩窗用分阶段课程而不是一次跳到极长；每段都回到任务评估闭环，避免短窗能力与指令跟随回退 [11][10]。
6) Do：在 SFT/指令数据里显式混入长依赖任务（跨段组合、长对话一致性、跨文件代码理解）；Don’t：指望 continual pretrain 的 ppl 下降自动带来任务级长能力 [10][14]。
7) Do：把“dense 长窗 vs retrieval/memory”当任务分工问题：稀疏证据优先检索，跨段综合优先 dense；Don’t：用检索可解的任务来证明“长上下文没用” [16][17][18]。
8) Open（证据不足，先保守）：关于“系统并行到位后自然能用上长上下文”的强证据主要来自产品报告，缺少可复现实验；在公开证据补齐前，把系统优化与任务评估 gate 绑定推进 [27][11]。

悬而未决的问题

Q1.哪些公开工作明确主张 perplexity 或 NIAH 与长任务表现相关性足够高，或系统性批评任务基准“噪声太大不适合作主 KPI”？目前证据主要来自反方（RULER/Gao），正方缺口仍在。
Q2.除产品/模型报告外，哪些可复现实验能证明“百万 token 扩展主要是 attention kernel 与序列并行问题”，并量化系统优化对任务利用率的边际贡献？
Q3.关于 packing/截断的公开证据仍偏少：不同 packing 策略下，长样本截断率与 RULER/LV-Eval 退化之间是否存在可预测关系？需要 controlled experiment 与公开数据管线细节。
Q4.dense RoPE 外推与 sparse/memory/linear 替代架构在真实任务（代码仓库级、长文档推理、长对话一致性）上的 head-to-head 对比仍不够统一：需要同等训练预算、同等评估协议的对照。
Q5.哪些任务属性能预测 retrieval-only、long-context-only、或 hybrid 的胜出？例如证据稀疏度、需要保持的结构约束、跨段组合深度、以及对引用一致性的容忍度 [16][17]。

[1]
Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
[2]
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
[3]
Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
[4]
Yao Fu, Rameswar Panda, Xinyao Niu, Xinyao Yue, Hannaneh Hajishirzi. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
[5]
Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren. A Controlled Study on Long Context Extension and Generalization in LLMs. arXiv, 2024论文
[6]
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
[7]
Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li. LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K. arXiv, 2024论文
[8]
Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. arXiv, 2023论文
[9]
Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
[10]
Tianyu Gao, Alexander Wettig, Howard Yen, Danqi Chen. How to Train Long-Context Language Models (Effectively). arXiv / ACL, 2024论文
[11]
Chejian Xu, Wei Ping, Peng Xu, Zihan Liu, Boxin Wang, Mohammad Shoeybi. From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models. arXiv, 2025论文
[12]
Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
[13]
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
[14]
Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu. Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training. arXiv, 2023论文
[15]
Tianyang Liu, Canwen Xu, Julian McAuley. RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems. arXiv, 2023论文
[16]
Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
[17]
Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
[18]
Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. REALM: Retrieval-Augmented Language Model Pre-Training. ICML / arXiv, 2020论文
[19]
Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni. Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv, 2022论文
[20]
Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
[21]
Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma. Linformer: Self-Attention with Linear Complexity. arXiv, 2020论文
[22]
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. arXiv, 2019论文
[23]
Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
[24]
Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
[25]
Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin. InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory. arXiv, 2024论文
[26]
Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
[27]
Gemini Team. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Technical Report, 2024报告

论文列表

有效上下文评估：任务基准 vs proxy(4)

把“窗口长度”拆成可交付指标：中段证据利用、跨段推理、长对话一致性、代码仓库级综合。对比 perplexity/NIAH 这类 proxy 与任务基准的脱钩现象，并给出更稳的评估组合。

RoPE 外推与位置稳定性：PI→YaRN→LongRoPE(3)

把扩窗当作位置参数化与数值稳定性问题：从线性插值到频率/温度校准，再到非均匀搜索与超长区间误差控制。

训练配方：数据分布、packing 审计与分阶段扩窗(4)

把“有效上下文”当作训练信号匹配问题：长文档比例、packing 截断率、continual pretrain 的长度课程，以及长依赖 SFT 的任务注入。

替代路线与取舍：RAG、稀疏/记忆、线性注意力(3)

把“长上下文”放到系统成本与任务形态里比较：何时 dense window 更稳，何时 retrieval/memory 更划算，何时稀疏/压缩会引入不可忽略的 recall/对齐代价。