TL;DR
可执行结论:SSM/RWKV/线性注意力更适合作为“推理吞吐与显存预算”的调参项,而不是把 Transformer 全量替换。纯递推把任意长上下文压到固定维度状态,遇到复制、passkey/needle 精确检索、ICL dense entity binding 时会出现可复现掉点;Zoology 的 recall 指标与复制任务把失败模式从“困惑度差一点”改写成“状态压缩不可逆”[2][3][4][5]。更稳的交付路径是混合:少量 full/local attention 负责精确寻址,其余层用 Mamba/门控递推做路由与压缩,Jamba/Griffin 给出了可复用配方与工程折中点 [6][7]。训练侧优先蒸馏/转换:把已训练 Transformer 的交互模式迁移到次二次骨架,再做少量继续预训练补齐差距,通常比从零预训练更可控 [9]。当前最缺的是两类公开可复现实验:attention 层数/位置到精确检索恢复的曲线;以及线性注意力与 SSM 在有限状态维度、数值精度与硬件带宽下的非等价边界 [8][23]。
核心断言
§0 演进谱系:从近似 attention 到混合 + 蒸馏
Linformer/Performer -> S4 -> RWKV/RetNet -> Mamba -> Mamba-2 / GLA -> Jamba / Griffin -> distill T -> SSM
次二次序列模型走过四个阶段。第一阶段是 2020-21 年的近似 attention:[18]、[16]、[17] 把 attention 的 O(n²) 用低秩或随机特征近似化解,代价是召回与精确寻址退化;[24]、[25] 进一步给出“没有 attention 也能预训练”的对照,但都没有进入主线。第二阶段是 2021-23 年的递推方向:[10] 用结构化状态空间 + 长卷积形式实现并行训练 + 递推推理,[20] 与 [21] 把 RNN 的并行/递推双形态做成可工程化的 LM,[11]、[12]、[23] 把这条路径补齐为“gated linear recurrence + 数据相关门控”。
第三阶段是 2023-24 H1 的工程化:[1] 用 selective state 把 SSM 状态从输入无关推到输入相关,在 LM 任务上首次接近 Transformer 的 ppl;但 [3]、[2]、[13] 同时给出反例 — 复制、精确召回、ICL dense entity binding 仍是固定状态的结构性弱点,差距不是“训练不充分”能补的;[5]、[4] 把这一边界做成可复现 benchmark。[8] 给出统一框架:因果 attention 矩阵存在可被结构化递推表示的子类,但这并不推出“所有 attention 都可无损替换”,反而解释了为何混合架构是更稳的工程最优解。
第四阶段是 2024 H1 之后:混合 + 蒸馏成为主路径。[6]、[7] 用少量 full / local attention 兜底复制/检索,其余层线性化降低 KV cache 与长上下文成本;[9] 把 Transformer 的交互模式逐级蒸馏到次二次骨架,再做少量继续预训练 — 这条路通常比从头探索新 recipe 更稳。本节用 figure 0.2 把混合架构画出来,§1-§4 据此把“纯次二次”与“混合 + 蒸馏”的工程取舍固化。
§2 “都是递推”不等于等价:表达边界来自状态维度、数值精度与可寻址槽位
把注意力、线性注意力、SSM 写成递推形式,数学上常成立;工程问题是状态中究竟有多少可寻址槽位,以及能否稳定读出。Dao & Gu 的 SSD 将因果注意力矩阵刻画为一类半可分(semiseparable)结构及其递推表示,并界定哪些注意力模式可被状态压缩 [8];这说明的是“可互译子类”的边界,而不是“所有注意力都可由状态无损替换”。另一方面,线性注意力常维护矩阵态或低秩近似(例如随机特征近似 softmax),在多槽位记忆表达上更接近 attention,但同时引入近似误差与数值稳定性风险 [16][17]。SSM(含 Mamba)通常采用更受限结构(如对角/门控扫描),kernel 与带宽路径更清晰;但在需要“把远处 token 原样搬运”的任务上,更容易暴露不可逆压缩 [1][3]。因此,c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26 这类“最终会收敛到统一算子族”的说法,更稳妥的落点是:统一视角有助于设计 kernel 与混合算子,但不能作为能力等价的保证 [8][23]。当前缺口仍是:在有限 d_state、bf16/fp16 精度与 GPU 带宽约束下,给出线性注意力与 SSM 的可复现非等价边界曲线(例如 exact recall 随状态维度/秩的拐点)[8]。
| 算子族 | 状态形态(可寻址槽位直觉) | 主要风险 | 更该用什么验收 | 代表引用 |
|---|---|---|---|---|
| Transformer full attention | 显式 KV(每 token 一槽位) | O() 计算与 KV cache 成本 | passkey/needle、复制 exact-match、dense binding | |
| 线性注意力(随机特征/低秩) | 矩阵态/低秩态(多槽位但近似) | softmax 近似误差、数值稳定性、kernel 复杂度 | 同时看困惑度 + recall/copy;关注长序列稳定性 | |
| SSM / selective scan(Mamba 类) | 固定 d_state(压缩态,槽位数隐式) | 不可逆压缩导致复制/精确检索掉点;带宽瓶颈 | Zoology recall、复制任务、dense binding | |
| 混合(少量 attention + 多数递推) | 少量显式 KV 兜底 + 压缩态承载长程 | attention 放错位置会导致检索恢复不足;配方敏感 | 检索恢复曲线(attention 层数/位置)+ 吞吐/显存 |
§3 混合为何更稳:用 attention 兜底“可解释的 copy/检索算法”
混合路线的核心不是“把两种层堆在一起”,而是职责分离:让 attention 承担它擅长且可解释的精确寻址,让递推/SSM 承担低成本长程路由与压缩。induction head 机制给出具体参照:在 [A][B]…[A]→[B] 这类模式中,注意力头可以实现近似算法式复制 [13];固定状态递推在“必须保留大量离散键值对”的设定下更容易信息混叠 [3][4]。Jamba 将这种分工落实为可训练的大模型堆叠:少量 Transformer 层 + 多数 Mamba 层 + MoE,在吞吐与质量之间提供可调点 [6]。Griffin 则用局部 attention 作为更便宜的兜底,修复短程精确交互,并让递推承接长程汇聚 [7]。这也支撑了 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a 的经验结论:把 attention 当作“精确寻址模块”,更像工程上可交付的抽象。仍然缺的是一条公开可复现的曲线:把“放多少层 attention、放在哪些深度”映射到 passkey/needle/复制 exact-match 的恢复程度;没有这条曲线,混合设计仍会停在配方经验,难以系统验收 [2][14]。
§4 训练与迁移:从“从零预训练”转向“蒸馏/转换 + 少量继续训练”
“次二次骨架必须从零预训练”(c-efd7cf7a49/c-21a7fe7c24/c-adb123b335)的核心担忧是:骨架替换会扰动已学表示与优化轨迹;蒸馏只能对齐短程行为,转换后长上下文与算法性能力会崩塌。Bick et al. [9] 给出一条更工程化的反证路径:把目标从“让学生自己学会注意力”改为“将教师已学到的交互模式迁移到学生的状态更新中”,再用逐级蒸馏与少量继续训练缩小差距。它不声称蒸馏能无损迁移所有能力,而是把风险显式化:哪些行为能迁移,哪些需要结构性兜底(例如保留少量 attention)。SSD 的视角同样支持这种拆分:既然只有一部分 attention 模式可被结构化递推覆盖,迁移训练就是在“可互译子空间”内对齐,再由混合结构覆盖剩余部分 [8]。工程验收也不能只看困惑度;应同时用 Zoology recall、复制任务、以及 L-Eval/SCROLLS 风格的长上下文退化曲线做三角测量 [2][3][14][15]。目前公开材料仍不足以量化“迁移相对从零节省多少算力、在多大规模下更稳”这类边界,仍需要更多带训练预算与系统配置的对照实验 [9]。
时间线
- Performer:用随机特征近似 softmax,把注意力线性化[16]
- S4:结构化状态空间把长序列建模系统化[10]
- induction heads:把 copy/ICL 的注意力机制显式化[13]
- Zoology:用 recall 指标把“长上下文”验收从困惑度拉回精确寻址[2]
- Mamba:selective scan 让 SSM 在 LM 上更接近 Transformer[1]
- 复制与 ICL 对照:固定状态瓶颈与 dense binding 掉点被系统复现[3]
- Jamba/Griffin:混合成为更可交付的折中配方[6]
- SSD:把“注意力可递推化”的可互译子类形式化[8]
- Transformers→SSMs 蒸馏:把训练策略从“从零”推向“迁移 + 少量继续训练”[9]
研究立场对比
阵营 A:纯 SSM/RWKV 会替代 Transformer(attention 是历史包袱)
立场 — 随着 d_state、门控与实现优化,纯递推能承载语言建模所需长程依赖,并用 O(L) 推理与更小 KV cache 获得部署优势;复制/检索掉点属于训练预算或配方问题,最终会被规模与工程修复(对应 c-31aa118543/c-e7f1a07204/c-be5f0085b8)。
反方 — 复制与精确召回的对照更像结构性约束:固定状态在需要“把远处 token 原样搬运/可逆引用”的设定下出现可复现掉点,且机制指向不可逆压缩而非训练不足 [3][2];ICL dense entity binding 的差距也在多组评测中稳定存在 [4][5]。因此,把“纯递推追平”当默认先验会在检索/复制工作负载上带来交付风险。
判词 — 更务实的定位:纯 SSM/RWKV 适合作为预算旋钮与长程压缩模块;在出现 passkey/needle、复制 exact-match、dense binding 的产品路径上,把“需要 attention 兜底”当默认设计约束,除非用 recall/copy 指标在同等训练预算下打平 [2][3]。
阵营 B:线性注意力与 SSM 本质同类,可互换(差异只是工程实现)
立场 — 注意力可写成递推,线性注意力可写成 RNN 状态更新,SSM 也可视为结构化注意力;因此“选 attention 还是 SSM”主要是 kernel 与实现细节,最终会收敛到统一算子族(对应 c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26)。
反方 — SSD 更像“可互译子类”的刻画,而不是能力等价的承诺:它明确区分哪些注意力模式可被状态压缩、哪些需要显式寻址 [8]。同时,线性注意力的矩阵态/近似误差与 SSM 的固定 d_state 压缩瓶颈在失败模式上并不相同:复制与 recall 的掉点在纯状态压缩设定下更稳定复现 [3][2]。因此,“同类”可以指导算子设计,但“可互换”需要在精确寻址指标上逐项验收。
判词 — 一条更稳的读法:统一视角用于做 kernel/混合算子与复杂度分析;能力层面默认不等价,尤其在精确寻址上,必须用 recall/copy/needle 类指标做验收门槛 [2][3]。
阵营 C:次二次骨架必须从零预训练;蒸馏/转换不可靠
立场 — 骨架改变会破坏已学到的表示与优化轨迹;蒸馏只能对齐短程行为,长上下文与算法性能力会在转换后崩塌,因此应从零用匹配骨架的 recipe 训练(对应 c-efd7cf7a49/c-21a7fe7c24/c-adb123b335)。
反方 — 公开证据开始支持“迁移优先”:Bick et al. [9] 直接把 Transformer 的交互模式蒸馏到 SSM,并把后续少量继续训练作为收敛手段,目标是降低训练预算与失败半径,而不是追求一次性无损替换。SSD 也解释了为什么迁移应当与结构兜底配套:只有可互译子类能被状态覆盖,剩余部分更适合保留少量 attention [8]。
判词 — 结论层面的建议:默认从“蒸馏/转换 + 少量继续训练 + recall/copy 验收”起步;只有当目标工作负载几乎不依赖精确寻址、且迁移后指标无法收敛时,才考虑从零预训练 [9][2]。
阵营 D:工程最优解是混合;attention 层尽量少但不为零
立场 — 把 attention 当作精确寻址模块,把递推/SSM 当作压缩与路由模块;通过稀疏插入 full/local attention 获得大部分质量,同时显著降低 KV cache 与长上下文成本(对应 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a)。
反方 — 主要风险不是“混合无效”,而是“缺少可复现的 attention 放置曲线”:在 passkey/needle/复制 exact-match 上,attention 的层数与位置可能决定是否恢复到可交付区间,但公开消融不足 [2][14]。此外,线性化层的系统瓶颈可能从显存转移到带宽与 scan kernel,导致吞吐收益不如预期(与 c-7929aab30d 的担忧一致),需要端到端系统数据支撑 [1]。
判词 — 更可交付的建议:混合优先,并把“attention 层数/位置 → 精确检索恢复曲线”作为验收工件;在缺少曲线前,不要把 attention 压到 0 当默认目标 [6][7][2]。
实践要点
一条可执行的清单(带验收与边界):
1) 不要用困惑度验收“把 attention 换成递推/SSM”的改动;至少加一组 recall/复制指标(Zoology 风格)[2],再加一组长上下文退化曲线(L-Eval 或 SCROLLS)[14][15]。
2) 工作负载里只要出现复制 exact-match、passkey/needle 检索、dense entity binding(常见于 SQL 生成、实体密集对话、工具调用日志),就把“纯递推会掉点”当默认先验;除非在同等参数量与训练预算下用这些指标打平 [3][4][5]。
3) 架构选型从混合开始:先放少量 full 或 local attention 兜底精确寻址,再把其余层线性化;优先复用 Jamba/Griffin/SS-augmented Transformer 这类职责分离配方,而不是直接追求 attention-free [6][7][22]。
4) 不要把“注意力可递推化”理解成能力等价;把 SSD 当作边界工具:先判断目标交互是否落在可压缩子类,再决定哪些层可以线性化、哪些必须保留显式寻址 [8]。
5) 训练侧优先蒸馏/转换:把已训练 Transformer 的交互模式迁移到次二次骨架,再做少量继续预训练补齐差距;把从零预训练留给“迁移后 recall/copy 无法收敛且业务不允许保留 attention”的极端场景 [9][2]。
6) 线性注意力方案要单独验收数值稳定性与近似误差:同样做 recall/copy 曲线,并在长序列上检查退化是否来自 softmax 近似或位置编码偏置 [16][17][19]。
7) 系统侧不要默认“线性就更快”:对 scan/RNN 类算子,带宽与 kernel 融合常决定吞吐;至少给出端到端 tokens/s、显存占用与 batch/seq 维度的 scaling 曲线再做结论 [1]。
8) 交付验收工件建议固定为三件套:Zoology recall + 复制任务 + L-Eval/SCROLLS 长上下文曲线;缺任何一项都容易把“精确寻址退化”漏检 [2][3][14][15]。
悬而未决的问题
- Q1.attention 层数与位置如何决定 passkey/needle/复制 exact-match 的恢复曲线?需要公开、可复现、带训练预算与系统配置的消融基准 [2][6][7]。
- Q2.线性注意力与 SSM 在有限 d_state/秩、bf16/fp16 精度与 GPU 带宽约束下的非等价边界是什么?希望看到“exact recall vs 状态维度/秩/精度”的拐点曲线 [8][16]。
- Q3.蒸馏/转换相对从零预训练到底省多少算力、在多大规模下更稳?需要同一数据/同一 tokenizer/同一训练时长的对照,并报告 recall/copy/ICL 指标而非只报困惑度 [9][2]。
- Q4.面向 dense entity binding/copying 的统一 benchmark 仍不够标准化:不同论文用的合成任务与 prompt 细节差异较大,导致“掉点幅度”难以横向对齐 [4][5][3]。
- Q5.端到端系统数据不足:混合(Jamba/Griffin)相对纯 attention、纯 SSM,在不同 batch/seq、不同硬件(HBM 带宽/SM 数)下的 tokens/s 与显存曲线需要更透明的公开报告 [6][7][1]。
- [1]
- [2]Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
- [3]Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
- [4]Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
- [5]Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
- [6]Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
- [7]Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru. Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models. arXiv, 2024论文
- [8]Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv, 2024论文
- [9]Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu. Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models. NeurIPS (to appear) / arXiv, 2024论文
- [10]Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
- [11]Antonio Orvieto, Samuel L. Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre. Resurrecting Recurrent Neural Networks for Long Sequences. arXiv, 2023论文
- [12]Tobias Katsch. GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling. arXiv, 2023论文
- [13]Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, et al.. In-context Learning and Induction Heads. arXiv, 2022论文
- [14]Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, et al.. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
- [15]
- [16]Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
- [17]Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith. Random Feature Attention. arXiv, 2021论文
- [18]Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma. Linformer: Self-Attention with Linear Complexity. arXiv, 2020论文
- [19]Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
- [20]Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, et al.. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
- [21]Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, et al.. Retentive Network: A Successor to Transformer for Large Language Models. arXiv, 2023论文
- [22]Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
- [23]Yifan Yang, et al.. Gated Linear Attention Transformers with Hardware-Efficient Training. arXiv, 2023论文
- [24]Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin Goh, et al.. An Attention Free Transformer. arXiv, 2021论文
- [25]
- [26]EleutherAI contributors. Mamba Explained: Selective State Space Models for Efficient Sequence Modeling. EleutherAI Blog, 2024博客