TL;DR
一条更像 ICML oral 的表述是:长上下文扩展的核心变量不是位置编码,而是远距依赖在训练分布中的密度。PI、YaRN、LongRoPE、PoSE 能把模型稳定带到更长位置范围,是必要门槛;但它们主要证明“能运行”,不自动证明“能使用”[5][13][14][15]。RULER 把 retrieval hit 与 compositional use 拆开后,许多标称 128K 模型在组合任务上仍接近 32K 平台 [1];Lost in the Middle 的 U-shape 说明位置偏置与训练分布会共同决定证据利用率 [9]。同一 base model 上,Fu et al. [2] 与 Xiong et al. [6] 的受控消融更直接:长文档上采样、长度 curriculum、领域分布保持,比 PE-only 更稳定地恢复长任务。packing 是第二个主变量,而不是 pipeline 细节。Shi et al. [7] 说明相关文档相邻拼接能在同 compute 下提升 ICL 与长文本任务;Chan et al. [23] 与 Olsson et al. [24] 给出分布与电路层面的解释。RYS / Sapir-Whorf 视角则补上表征语言:如果模型中层是共享语义空间,那么 context scaling 的目标就是提高远处证据进入这个空间并参与后续计算的频率,而不是单纯扩大地址范围 [49]。评测上,NIAH 只能做下界;至少用 RULER,再补 NoCha 或 Summary of a Haystack,必要时用 LongBench、∞Bench、BABILong 做回归 [3][8][4][11][12]。资源分配建议保持 1:6:3:PE 约 10%,数据约 60%,packing 约 30%。
核心断言
§1 标称窗口不是有效上下文
先给结论:规格里写 128K、1M,不等于模型真正“会用”这么长的上下文。Hsieh et al. [1] 的关键贡献不是再做一个长上下文榜单,而是把任务拆成 13 类受控负载:multi-needle、variable tracking、multi-hop QA、aggregation。这个拆分把 NIAH 式“能不能把针找出来”与“能不能把多处证据组合起来”分开。结果很直接:不少标称 128K 的模型,在组合任务上的有效长度更接近 ~32K,而不是宣传口径里的 128K [1]。Liu et al. [9] 的 U-shape 现象解释了部分原因:证据在序列开头或结尾时更容易被利用,放在中部时会明显掉分,幅度常在 20+ pp。这不是单一的注意力 bug,而是训练分布与解码偏置共同作用——模型更常见到“前缀有用”或“尾部刚出现的信息有用”的事件,中部证据更少被强化 [9]。Karpinska et al. [3] 与 Laban et al. [8] 把问题再推进一步:即便模型能定位证据,book-length 输入上的综合、压缩、一致性生成仍会掉下来。Goldman et al. [10] 的分类也说明,很多所谓 long-context 任务会退化成 retrieval-only;如果评测不分开 retrieval 与 synthesis,结论会系统性偏乐观。更稳的门槛是:至少用 RULER 测组合使用,再用 NoCha 或 Summary of a Haystack 测综合生成,LongBench、∞Bench、BABILong 作为长度和任务面的回归补充 [4][11][12]。
“能找到针”是必要条件,不是“能用 128K”的充分条件。
§2 PE 解决可运行性,数据决定主收益
Camp A 的核心主张是:长上下文首先是位置外推问题;只要 RoPE 或位置 bias 处理得当,就能 train short, test long。Press et al. [20]、Chen et al. [5]、Zhu et al. [15]、Chen et al. [16]、Ding et al. [14]、Liu et al. [17]、Xiao et al. [18]、Gemini Team [19] 都提供了这一路线的工程证据:更长位置范围可以实现,成本也未必过高。关键问题是,这些结果通常先证明“能稳定跑长”,再部分证明“某些任务上还能工作”,但很少在同一 base model、同一 token 预算下,干净对照 PE-only 与 data recipe。Fu et al. [2] 正好补上这个缺口:在 4K→128K 的 continual pretraining 中,只改位置、不改数据,长任务恢复有限;加入长文档上采样,并保持与基础预训练接近的领域分布后,收益更直接。Xiong et al. [6] 也在同一 base model 上,把长序列继续训练、长文档上采样与长任务提升绑定起来。He et al. [21] 进一步说明,连 Lost in the Middle 也更像训练目标与数据构造问题,而不是纯 PE 问题。Kazemnejad et al. [22] 的分析给出边界:PE 的影响主要体现在 extrapolation 稳定性和 attention 模式畸变,不能把所有退化都归因于位置频率失真。更务实的读法是:PE 是前置条件,不是主战场。先打通 32K 稳定训练、32K/128K 稳定推理,再把主要预算投向长文档比例、长度 curriculum、领域分布保持和继续训练 token 数,通常更接近可复现收益 [2][6]。
| 路线 | 主要改动 | 先解决什么 | 常见短板 | 代表引用 |
|---|---|---|---|---|
| PE / 外推 | RoPE 插值、缩放、skip-wise 训练、训练时外推 | 更长位置范围上的稳定训练/推理 | 最大窗口变大,但有效上下文未必同步增长 | |
| 数据配方 | 长文档上采样、长度 curriculum、领域分布保持、继续训练 | 让远处 token 更常成为降 loss 所必需 | 若分布漂移,短任务可能回退 | |
| packing / 序列构造 | 相关文档拼接、低截断、分隔 token、结构化 packing | 提高跨段重复、对齐、引用事件密度 | 直接因果证据仍少,公开消融不够多 | |
| 检索 / 记忆 / 架构切换 | RAG、自检索、外部记忆、sparse/recurrent/SSM | 降低长输入成本或把知识放到外部通路 | 对 hard effective-context 任务的 head-to-head 仍不足 |
§3 packing 不是吞吐细节,而是弱监督
很多训练管线把 packing 视为吞吐优化:少 padding、塞满序列。这个视角太窄。更准确的说法是,packing 决定模型在一个 forward pass 里看到哪些可学习关系。Shi et al. [7] 的关键点不是“拼得更满”,而是先检索相关文档、再聚类、再相邻拼接,使跨文档引用、重复实体、局部对齐在同一训练序列中高频出现 [7]。在同 compute 下,ICL、长文本 QA、RAG 相关任务都有收益,难以用吞吐解释。
机制上可以分三层看。第一层是分布:Chan et al. [23] 说明 ICL 依赖 burstiness 与 skewed Zipfian 结构,而不是由参数量自动出现;packing 提高重复与对齐事件密度,就等于把训练分布推向更利于 ICL 的区域。第二层是电路:Olsson et al. [24] 说明 induction head 利用前文重复模式预测后续 token;如果相关文档 packing 让“前文出现 A:B,后文再出现 A:?”更常见,就更可能训练出可用的复制/对齐电路。第三层是表征:RYS / Sapir-Whorf 的 hidden-state 结果提示,模型中层更像共享语义空间;packing 的作用可以理解为提高远处证据被投进这个空间、并与当前 token 共同决定预测的频率 [49]。
Staniszewski et al. [26]、Ding et al. [27] 从结构化 packing 与少截断角度指向同一结论:同样的数据池,不同序列构造会改变模型实际学到什么。需要克制的是,packing→induction head→effective context 的直接因果闭环证据仍不足,公开工作更多是机制对齐而非完整证明 [25]。但继续把 packing 视为次要工程细节,已经不符合现有证据。
packing 改变的不是 token 数,而是“哪些跨段依赖会反复出现”。
§4 检索、外部记忆与架构切换:该用,但不要替代性叙事
另一条常见反驳是:既然 effective context 难以随窗口线性增长,就该直接改系统边界。Rubin and Berant [29] 把 retrieval 纳入预训练;Xu et al. [28] 直接比较 retrieval 与 long context,结论是互补;Liu et al. [30]、Izacard et al. [31]、Izacard and Grave [32]、Nakano et al. [33]、Hu et al. [34]、Wang et al. [35] 都表明,在知识密集、证据可索引、答案可局部归约的任务上,检索或外部记忆通常更省算力,也更容易控制更新成本。这个阵营击中了 claim c-150c39caec、c-f5078308ed 的一半:Transformer 的 attention 与 KV cache 预算确实使长度扩展不可能线性兑现。关键限制是,检索路线解决的是“把相关片段拿进来”,并不会自动解决“跨多段综合、压缩、生成一致输出”。NoCha [3]、Summary of a Haystack [8]、Goldman et al. [10] 恰好表明,许多 hard long-context 负载并不会退化为单次 retrieval。架构切换也类似。Transformer-XL [37]、Compressive Transformer [39]、Longformer [38]、Landmark Attention [40]、Focused Transformer [41]、Long Range Arena [42] 解决的是复杂度或记忆通路;Mamba [43]、RWKV [44]、Jamba [45]、LongNet [46] 继续推进这条路线。但公开证据仍缺一块:这些系统在 RULER、NoCha、BABILong 这类 effective-context 基准上的现代 head-to-head 仍不够。更务实的定位是:检索与架构切换是重要补充,尤其适合 retrieval-heavy 或 streaming 场景;但在需要跨段综合的任务上,它们还不能替代对训练分布本身的改造。
时间线
- Transformer-XL 把“超出固定窗口的记忆通路”单独提出[37]
- ALiBi 证明 train short, test long 在位置层面可行[20]
- Chan et al. 把 ICL 与 burstiness / skew 绑定到数据分布[23]
- Olsson et al. 给出 induction head 的电路解释[24]
- PI 把 RoPE 扩窗工程化,PE 路线成熟[5]
- Lost in the Middle 让“中部证据退化”变成公开基线问题[9]
- Xiong et al. 把有效上下文提升与长文档上采样直接绑定[6]
- Shi et al. 把相关文档 packing 变成预训练目标的一部分[7]
- Fu et al. 用受控消融把主变量锁定到数据配方[2]
- RULER 把“标称窗口”与“有效上下文”正式拆开[1]
- NoCha 把压力从检索推进到 book-length 综合[3]
- Summary of a Haystack 说明生成端仍是长上下文瓶颈[8]
研究立场对比
阵营 A:PE / 外推足够,长上下文主要是位置问题
立场 — 代表工作会说:只要把 RoPE base、插值、缩放或位置 bias 设计好,短上下文模型就能外推到长上下文;额外长数据与 packing 只是锦上添花 [20][5][13][14][15][17][18][19]。这一路线对应 claim c-2218c6a6ff、c-6a2e99f979、c-435bd5ac5f、c-0e06feed14。
证据:[20][5][13][14][15][17][18][19]
反方 — 反驳 c-2218c6a6ff / c-0e06feed14 的关键不在于 PE 无效,而在于 PE 主要解决“能跑长”。Fu et al. [2] 与 Xiong et al. [6] 在同一 base model 上显示,长文档上采样与领域分布保持更直接抬升长任务;Hsieh et al. [1] 进一步说明,PE-only 风格的 nominal 128K 常在组合任务上坍缩到 ~32K。He et al. [21] 也表明,lost-in-the-middle 可通过训练构造缓解,不是纯位置失真。
判词 — 一条更稳的读法:PE 是必要前置,不是主收益来源。把 PE 研发投入封顶在约 10%,优先选成熟实现;如果目标是有效 32K→128K,主预算应转向数据与 packing。
阵营 B:数据配方是主变量,长文档比例与分布保持决定有效上下文
立场 — 这一阵营认为,有效上下文来自训练时是否频繁出现“必须依赖远处 token 才能降 loss”的事件;因此应优先做长文档上采样、长度 curriculum、领域分布保持与 continual pretraining token 预算 [2][6]。这对应 claim c-d9adfa7269、c-53ccbfbab5、c-acb79e4a69、c-28296e99f6、c-429c87aafd。
反方 — 需要修正 c-acb79e4a69 的地方是:数据不是全部。Shi et al. [7] 与 Staniszewski et al. [26] 指出,同样的数据池,不同 packing 结构下收益差异很大;这对应对 c-51ca2c6ff5 的支持。另一个限制是,公开文献里仍缺少更多 same-base、same-token-budget 的 PE-only vs data-only 直接对照。
判词 — 结论层面的建议:把数据当主战场是对的,但不要把 packing 降成附属项。更稳的资源分配是数据约 60%,packing 约 30%,PE 约 10%。
阵营 C:packing / 拼接工程被低估,序列构造本身提供弱监督
立场 — 这一阵营认为,长上下文的关键不是把单文档拉长,而是让模型在训练时经常遇到跨文档引用、重复与对齐;相关文档聚类 packing、低截断打包、显式分隔 token 会提高这类事件密度,从而更频繁触发 induction head 类电路 [7][23][24][26][27]。这对应 claim c-8202803d9b、c-2d04dd042e、c-7ff7c79275、c-b51a8309a9、c-44632aa071、c-8376f2d76a。
反方 — 需要克制地修正 c-b51a8309a9:机制上很顺,但直接因果证据还不够。crawler 的 open question 也明确指出,packing/related-document concatenation 的公开 pretraining 消融仍少,packing 是否直接诱导 induction head 增长,还缺 controlled experiment。
判词 — 一个更务实的定位:packing 已经足够值得投入,而且常被低配;但现阶段更适合把它当作高价值工程假设,而不是已经完全闭环的定律。先做,再用 RULER/LongBench/NoCha 验证。
阵营 D:改架构或改系统边界,比在 Transformer 上硬扩窗更划算
立场 — 这一阵营会说,Transformer 的 attention 与 KV cache 形态决定了长程读写预算分配,effective context 很难随窗口线性增长;因此应转向 sparse/recurrent/memory/SSM,或直接用 retrieval/native memory 系统 [37][38][39][40][43][44][45][46][29][28]。这对应 claim c-150c39caec、c-083d546514、c-f5078308ed。
证据:[37][38][39][40][43][44][45][46][29][28]
反方 — 反驳 c-083d546514 / c-f5078308ed 的关键是评测口径。公开证据更多在最大长度、复杂度或 retrieval-heavy 任务上,而不是 RULER、NoCha、BABILong 这类 effective-context 基准。claim c-5b64164d84 指向的缺口仍在:同尺寸 SSM / hybrid 是否在 hard compositional long-context 上追平强 Transformer,公开 head-to-head 还不够。
判词 — 结论层面的建议:如果场景是 streaming、日志、知识库 QA,检索或记忆系统常更划算;如果场景要求跨段综合与长程生成一致性,先别把架构切换当成已验证替代品。
实践要点
可操作清单:
1) DO:把 PE 当作“稳定跑长”的前置条件,而不是主要收益来源。目标先定在稳定 32K 训练 + 稳定 32K/128K 推理;优先用 PI 或 YaRN 这类成熟实现,PE 研发投入封顶约 10% [5][13][22]。
2) DON’T:不要只在 NIAH 或单纯检索命中上宣称“有效 128K”。门槛至少包含 RULER 的组合任务,再补一个 synthesis 压力面:NoCha 或 Summary of a Haystack [1][3][8]。
3) DO:继续训练扩窗时,把长文档上采样设为 20–30% 的起点,并显式约束领域分布接近基础预训练。每次改配方都用 LongBench 做短/长任务回归,避免分布漂移导致短任务回退 [2][6][4][47]。
4) DO:把 packing 当成训练信号设计,而不是纯吞吐优化。优先尝试相关文档聚类拼接、低截断打包、显式分隔 token;如果只能做一件事,先减少“把潜在跨段依赖截断掉”的比例 [7][26][27]。
5) DON’T:不要把“最大窗口做到 1M+”当成有效上下文已经解决。先看 RULER 是否在 32K 之后继续增长,再看 NoCha / Summary of a Haystack 是否同步改善;如果没有,就把资源从 PE 转回数据与 packing [1][3][8][14][19]。
6) DO:post-training / SFT 阶段尽量复制 pretrain 的 packing 结构,尤其是 separator、chunk 邻接关系与示例长度分布;否则 32K+ 能力容易在对齐阶段回退 [48][7]。
7) DON’T:不要把检索与长上下文写成替代关系。对 retrieval-heavy 任务,先做 equal-compute 对照:RAG / retrieval-pretraining 往往更省;对跨段综合任务,再看 native long context 是否值得 [28][29][30][36]。
8) OPEN:packing 是否直接诱导 induction head 增长、以及同一 base model 下 PE-only vs data-only 的严格对照,公开证据还不够。这里适合做 controlled experiment,而不是先下结论 [24][23][25]。
悬而未决的问题
- Q1.直接的 pretraining 证据仍缺:相关文档 concatenation、separator 设计、截断比例这些 packing 因子,分别对 RULER / LongBench / NoCha 提升多少?需要 same-base、same-token-budget 的公开消融。
- Q2.PE-only 与长文档上采样 / 分布保持 continual pretraining 的 same-base 对照仍不够多。现有方向性证据偏向数据,但还缺更多统一预算下的 head-to-head。
- Q3.packing 或重复跨段依赖是否会直接诱导更多 induction head,并因此提升 effective context,仍缺机制闭环证据。现有工作更多是分布解释与电路解释的对齐,而不是因果证明。
- Q4.Mamba、RWKV、Jamba、LongNet 这类架构在 RULER、NoCha、BABILong 上与强 Transformer 的现代 head-to-head 仍不足;最大长度或复杂度优势不能直接外推到 effective context。
- Q5.native long context 与 retrieval / retrieval-pretraining 的 equal-compute 比较,仍主要集中在 retrieval-heavy 任务。对 hard non-retrieval synthesis 任务,哪条路线更省算力、哪条路线更稳,还没有足够公开证据。
- [1]Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia. RULER: What's the Real Context Size of Your Long-Context Language Models?. arXiv, 2024论文
- [2]Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim. Data Engineering for Scaling Language Models to 128K Context. arXiv, 2024论文
- [3]Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer. One Thousand and One Pairs: A "novel" challenge for long-context language models. arXiv, 2024论文
- [4]Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL, 2024论文
- [5]Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation. arXiv, 2023论文
- [6]Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava. Effective Long-Context Scaling of Foundation Models. arXiv, 2023论文
- [7]Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Xi Victoria Lin. In-Context Pretraining: Language Modeling Beyond Document Boundaries. arXiv, 2023论文
- [8]Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu. Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems. arXiv, 2024论文
- [9]Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 2024论文
- [10]Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan. Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP. arXiv, 2024论文
- [11]Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen. ∞Bench: Extending Long Context Evaluation Beyond 100K Tokens. arXiv, 2024论文
- [12]Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin. BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack. arXiv, 2024论文
- [13]Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. arXiv, 2023论文
- [14]Yiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, et al.. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv, 2024论文
- [15]Dawei Zhu, Nan Yang, Liang Wang, Yifan Song, Wenhao Wu, et al.. PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training. arXiv, 2023论文
- [16]Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu. LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models. arXiv, 2023论文
- [17]Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang. E^2-LLM: Efficient and Extreme Length Extension of Large Language Models. arXiv, 2024论文
- [18]Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhiyuan Liu, Maosong Sun. InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory. arXiv, 2024论文
- [19]Gemini Team, Petko Georgiev, Ving Ian Lei, Ryan Burnell, Libin Bai, et al.. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google, 2024报告
- [20]Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
- [21]Junqing He, Kunhao Pan, Xiaoqun Dong, Zhuoyang Song, Yibo Liu, et al.. Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training. arXiv, 2023论文
- [22]Amirhossein Kazemnejad, Inkit Padhi, Karthik Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. NeurIPS, 2023论文
- [23]Stephanie Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang. Data Distributional Properties Drive Emergent In-Context Learning in Transformers. NeurIPS, 2022论文
- [24]Catherine Olsson, Nelson Elhage, Nicholas Joseph, Nova DasSarma, Tom Henighan, et al.. In-context Learning and Induction Heads. Transformer Circuits Thread, 2022文章
- [25]Amanda Bertsch, Maor Ivgi, Emily Xiao, Uri Alon, Jonathan Berant. In-Context Learning with Long-Context Models: An In-Depth Exploration. arXiv, 2024论文
- [26]Konrad Staniszewski, Szymon Tworkowski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Structured Packing in Language Model Pre-Training Improves Long Range Context Utilization. arXiv, 2023论文
- [27]
- [28]Peng Xu, Wei Ping, Xianchao Wu, Lawrence McAfee, Chen Zhu, et al.. Retrieval meets Long Context Large Language Models. arXiv, 2023论文
- [29]Ohad Rubin, Jonathan Berant. Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval. arXiv, 2023论文
- [30]Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, et al.. ChatQA: Surpassing GPT-4 on Conversational QA and RAG. arXiv, 2024论文
- [31]Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, et al.. Atlas: Few-shot Learning with Retrieval Augmented Language Models. JMLR, 2023论文
- [32]Gautier Izacard, Edouard Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. EACL, 2021论文
- [33]Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, et al.. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
- [34]Chenxu Hu, Jie Fu, Chenzhuang Du, Simian Luo, Junbo Zhao. ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory. arXiv, 2023论文
- [35]Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao. Augmenting Language Models with Long-Term Memory. arXiv, 2023论文
- [36]Jinhyuk Lee, Anthony Chen, Zhuyun Dai, Dheeru Dua, Devendra Singh Sachan, et al.. Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?. arXiv, 2024论文
- [37]Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. ACL, 2019论文
- [38]Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
- [39]Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. ICLR, 2020论文
- [40]Amirkeivan Mohtashami, Martin Jaggi. Landmark Attention: Random-Access Infinite Context Length for Transformers. arXiv, 2023论文
- [41]Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski. Focused Transformer: Contrastive Training for Context Scaling. arXiv, 2023论文
- [42]Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文
- [43]
- [44]
- [45]Oren Lieber, Or Sharir, Barak Lenz, et al.. Jamba: A Hybrid Transformer-Mamba Language Model. AI21 Labs, 2024报告
- [46]Jiayu Ding, Shuming Ma, Li Dong, et al.. LongNet: Scaling Transformers to 1,000,000,000 Tokens. arXiv, 2023论文
- [47]Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, et al.. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
- [48]Yushi Bai, et al.. LongAlign: A Recipe for Long Context Alignment of Large Language Models. arXiv, 2024论文
- [49]David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章