TL;DR
可落地的结论有三条。第一,纯 SSM / 线性 RNN 已经能做 7B–14B 级预训练,但在 copying/MQAR/ICL 这类需要离散检索的任务上,通常会稳定落后 attention;这不是 kernel 优化能完全抹平的问题,而更像结构性偏置差异 [13][14][15]。第二,Hybrid 是把矛盾拆开的工程解:用少量 attention 层负责“可寻址交互”,其余层用 Mamba/SSM 负责线性吞吐;1:3(SWA:Mamba)的 Samba 路线更偏吞吐与训练效率,1:7(attention:Mamba)+ MoE 的 Jamba 路线更偏超长上下文与容量 [19][16]。第三,≤8K 继续 Transformer;32K–256K 且吞吐敏感优先 Samba 式 1:3 + SWA;>256K 且需要 MoE/容量时优先 Jamba 式 1:7 + MoE。纯 Mamba/RWKV 只在“constant-memory 推理是硬约束”的边缘/流式场景更合理 [5][6]。
核心断言
§2 为什么 1:3 到 1:7 会收敛:attention 负责离散检索,SSM 负责线性吞吐
当 attention 的职责被限定为“离散检索/路由”,层比例会自然向稀疏化收敛。Jamba 采用 1:7(attention:Mamba)并叠加 MoE:少量 attention 层提供可寻址的跨 token 交互,其余层由 Mamba 承担大部分序列计算;工程上给出 256K 上下文在单卡 80GB 可运行的配置,说明 attention 不必出现在每层也能维持可用质量 [16]。Samba 走另一端:将 attention 进一步限制为 SWA,并用 1:3(SWA:Mamba)提升“长上下文训练吞吐”,在 128K 上下文报告约 4× 训练加速 [19]。Zamba 将“attention 变少”推到极致:在多个位置复用一个共享 attention block,暗示关键是保留少量全局交互通道,而不是堆叠大量 attention 参数 [18]。这些设计与早期 state-space augmented transformer 的动机一致:让 attention 处理稀疏的跨 token 交互,把大部分 token 计算交给线性模块 [3]。相比之下,“纯 SSM 终将替代 attention”的预测必须解释 copying/ICL 的结构性差距如何弥合;现有证据更支持把 attention 视为必要但稀缺的资源 [13][14]。
| 路线 | 核心算子 | attention 使用方式 | 长上下文吞吐/显存侧重点 | 已知短板(与召回相关) |
|---|---|---|---|---|
| 纯 Transformer | full / sparse / linear attention 变体 | 每层都有全局或近全局交互 | 长 L 成本高;依赖稀疏/近似/窗口化缓解 | 中段信息利用仍会掉点(与架构无关的训练/位置因素)[7] |
| 纯 SSM(Mamba) | selective SSM + 并行 scan [5] | 无显式 token-to-token attention | 推理 constant-memory;训练吞吐依赖 kernel/实现 [17] | |
| Hybrid 1:3(Samba) | SWA + Mamba 交替 [19] | attention 受限为窗口化(SWA) | 偏训练吞吐:128K 报告约 4× 加速 [19] | 窗口化 attention 对超长距离精确检索仍可能不足(需靠少量全局层或检索系统补齐)[8] |
| Hybrid 1:7 + MoE(Jamba) | 少量 attention + 大量 Mamba + MoE [16] | attention 作为稀缺的全局交互层 | 偏超长上下文可部署:256K 单卡 80GB 配置 [16] | MoE/路由带来训练与服务复杂度(负载均衡、专家并行)[16] |
§3 反方轴:Transformer 的长上下文扩展能否“够用”
Transformer 阵营的主张是:不换架构,也能依靠稀疏/窗口/近似 attention 与位置编码拉长上下文。Longformer 用局部窗口 + 少量全局 token 将复杂度降到近线性 [22];Sparse Transformers 用固定稀疏模式把注意力矩阵因式分解到次二次 [23];Performer 用核方法近似 softmax attention 以获得线性时间 [24];Reformer 通过 LSH attention 与可逆层降低内存 [25];Mistral 7B 的 SWA + GQA 说明“窗口化 + 读头压缩”在工程上可用 [11]。但“够用”必须覆盖两类失败模式:其一是长度泛化与位置表征敏感,位置编码选择会显著影响长度外推 [9],随机化位置编码能改善复制类外推 [10];其二是长上下文使用效率,Lost in the Middle 显示中段信息利用退化 [7]。因此,Transformer 扩展路线在 ≤32K 往往是最省事的默认值;但在 128K+ 的 matched-throughput 约束下,它能否以同等成本维持可用召回,仍需要与 Hybrid 做 head-to-head 评测对齐 [8]。
§4 RWKV 与线性递推:优势明确,但缺少与 Hybrid 的同尺度召回对照
RWKV 的卖点明确:推理时 KV cache 不随 L 增长,适合纯流式和显存极紧部署;训练侧把线性递推改写为可并行形式,绕开“RNN 训练慢” [6],其算法谱系可追溯到线性递推的并行化 scan [20]。GateLoop 进一步将递推更新数据化,说明“线性递推”不必等同于固定衰减,而可以学习更复杂的门控与记忆写入 [12]。但用于语言模型选型时,缺口同样明确:一是缺少与 Mamba/Hybrid 在同 token、同 compute、同上下文长度下,对精确召回(copying/MQAR/needle)的正面对照;二是理论上,constant-memory 递推在表达某些离散可寻址行为时,可能需要更强的状态结构或外部交互通道 [21]。因此,把 RWKV 视为“Transformer 的全面替代”证据不足;把它定位为“流式/边缘的工程特化路线”更稳。
时间线
- S4 用 DPLR + HiPPO 把长序列 SSM 的数值稳定问题工程化[1]
- Hungry Hungry Hippos 把 SSM 语言建模的瓶颈指向硬件利用率与算子实现[2]
- RWKV 把线性递推推到 10B+ 规模,并强调 constant-memory 推理[6]
- Mamba 用 selective SSM + 并行 scan 证明 7B 级预训练可行[5]
- copying/ICL 评测集中暴露纯 SSM 的精确召回短板[13]
- Jamba 用 1:7 Hybrid + MoE 给出 256K 单卡 80GB 的可部署配方[16]
- SSD 把 SSM 与结构化掩码 attention 对偶化,推动 matmul-friendly 实现[17]
- Samba 用 1:3(SWA:Mamba)把 128K 训练吞吐推到约 4× 加速[19]
研究立场对比
阵营 A:纯 SSM 会成为长上下文的最终形态
立场 — 主张用更强的 SSM 参数化与 kernel 把 attention 完全替换掉:推理 constant-memory、训练可通过 scan/matmul 优化获得高吞吐;长上下文的主要矛盾是算子成本而非建模能力。
反方 — 精确召回/复制与 ICL 更像结构性差距:copying 任务上 Transformers 更容易学到近似离散检索 [13],Mamba 在 ICL 对比中也落后 [14][15]。如果不引入显式可寻址交互通道,单靠 kernel 优化很难解释这些差距会自然消失。
判词 — 更务实的定位:纯 SSM 适合作为“吞吐与显存效率层”,但在通用语言模型上把 attention 完全移除的风险偏高;除非部署约束要求 constant-memory 推理,否则优先 Hybrid。
阵营 B:Hybrid 是生产默认值(1:3 到 1:7 可调)
立场 — 把 attention 当作稀缺资源:用少量 attention 层提供离散检索/路由,其余层用 Mamba/SSM 提供线性吞吐;层比例按上下文长度与吞吐目标调节。
反方 — Hybrid 会引入实现复杂度:两套 kernel、两套数值稳定策略、以及(在 MoE 场景)更复杂的并行与负载均衡 [16]。如果上下文 ≤8K,很多收益兑现不了,反而增加维护成本。
判词 — 结论层面的建议:把 Hybrid 当作 32K+ 的默认架构旋钮;≤8K 继续 Transformer;32K–256K 先试 1:3(SWA:Mamba)[19],>256K 且需要容量时用 1:7 + MoE [16]。
阵营 C:不换架构,Transformer + 长上下文扩展足够
立场 — 通过稀疏/窗口/近似 attention 与位置编码改造,把成本压下去即可;attention 的可寻址交互是核心能力,不应削弱。
反方 — 两类问题仍未被“只改 attention 形态”彻底解决:其一是长度外推对位置编码与描述高度敏感 [9][10];其二是长上下文使用效率,Lost in the Middle 显示中段信息利用退化 [7]。在 128K+ 的吞吐约束下,Hybrid 通过把大部分层换成线性模块更容易把端到端成本打下来 [19]。
判词 — 一条更稳的读法:≤8K 或 ≤32K 的通用场景,Transformer 扩展路线仍是最低风险;但当目标是 128K+ 且吞吐敏感,优先把“多数层线性化”的 Hybrid 当作默认起点,再用少量 attention 层补召回。
阵营 D:RWKV/线性 RNN 是正确的 RNN 复兴路线
立场 — 递推提供最干净的部署优势:constant-memory、天然流式;训练可并行化,避免传统 RNN 的训练瓶颈。随着门控与参数化改进,质量会追上。
反方 — 缺少与 Hybrid 的同尺度精确召回对照,导致“质量会追上”难以落到可检验的工程决策;同时理论工作提示 constant-memory 递推在表达某些可寻址行为上存在结构门槛 [21],这与 copying/ICL 的经验差距方向一致 [13]。
判词 — 更务实的定位:把 RWKV 当作“流式/边缘/显存硬约束”的专用路线,而不是通用 LM 的默认;在通用服务端场景,Hybrid 更容易用少量 attention 补齐召回并保持吞吐。
实践要点
一条可执行的清单(带边界与理由):
1) Do:上下文 ≤8K 的生产默认用 Transformer;不要为了“未来可扩展”提前引入 Hybrid,两套 kernel 与训练配方的维护成本通常抵不过收益 [26][11]。
2) Do:32K–256K 且吞吐敏感,优先从 1:3(SWA:Mamba)起步;SWA 把 attention 成本锁在窗口内,Mamba 负责线性吞吐,128K 训练吞吐有明确增益报告 [19][5]。
3) Do:>256K 且需要 MoE/容量,优先 1:7(attention:Mamba)+ MoE 的配方;把 attention 当作稀缺的全局交互层,工程上已有 256K 单卡 80GB 的可运行配置 [16]。
4) Don’t:把“训练 loss 追平”当作“长上下文可用”的证据;至少要在 L-Eval 或 needle/copying 类任务上验证中段与精确召回 [8][7]。
5) Don’t:在纯 Mamba/纯递推模型上指望精确召回自然追平;copying 与 ICL 的对照显示差距更像结构性偏置,需要显式的可寻址交互通道(少量 attention 或外部记忆)[13][14][15]。
6) Do:Hybrid 的 attention 形态优先 SWA/GQA/共享 attention,而不是 full attention;Zamba 的共享 attention block 提示“少量全局通道”比“更多 attention 层”更划算 [18][11]。
7) Do(open):如果要押注 RWKV,用“流式/constant-memory 是硬约束”来定义成功指标,并补齐与 Hybrid 的同尺度 copying/needle 对照;目前证据不足以把它当作通用默认 [6][21]。
8) Do:把 kernel 选择当作一等公民:SSD 指出 SSM 与结构化掩码 attention 可对偶,优先选择 matmul-friendly 的实现路径来兑现吞吐,而不是只看理论复杂度 [17]。
悬而未决的问题
- Q1.哪些 2024–2026 的 Hybrid LLM 工作用严格 ablation 直接支持 1:3 到 1:7 的 attention:SSM 层比例(同 token、同 compute、同上下文长度)?目前公开证据更多是“配方展示”,缺少系统扫描 [19][16]。
- Q2.在同规模(例如 7B–14B)下,纯 Mamba、Hybrid、RWKV、Transformer 在 MQAR/copying/needle 上最强的 head-to-head 结果是什么?目前 copying 与 ICL 的证据偏“定性差距”,但缺少统一基准对齐 [13][8]。
- Q3.哪些 RWKV 系列工作能证明 7B 级语言预训练在吞吐、质量、精确召回上的可复现表现,并给出与 Hybrid/Mamba 的直接对照?现有材料更像“可行性展示”,不足以支撑默认选型 [6]。
- Q4.是否存在面向生产的研究,直接用质量/美元、延迟、服务吞吐在 32K–128K 上证明 Hybrid 优于纯 SSM(或反之)?当前公开论文更偏训练吞吐或单点配置展示 [19][17]。
- Q5.在 128K+ 的 matched-compute 设置下,Transformer 的长上下文扩展(稀疏/近似/窗口 + 位置编码)与 Hybrid 的直接对照证据在哪里?现有工作分别覆盖“扩展方法”与“长上下文失败模式”,但缺少同台对打 [22][24][7]。
- [1]Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
- [2]Daniel Y. Fu, Tri Dao, Khaled K. Saab, Armin W. Thomas, Atri Rudra. Hungry Hungry Hippos: Towards Language Modeling with State Space Models. arXiv, 2022论文
- [3]Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
- [4]Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui. Mega: Moving Average Equipped Gated Attention. arXiv, 2022论文
- [5]
- [6]Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
- [7]Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
- [8]Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
- [9]Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. arXiv, 2023论文
- [10]Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás. Randomized Positional Encodings Boost Length Generalization of Transformers. arXiv, 2023论文
- [11]Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, et al.. Mistral 7B. arXiv, 2023论文
- [12]Tobias Katsch. GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling. arXiv, 2023论文
- [13]Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
- [14]Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
- [15]Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
- [16]Opher Lieber, Barak Lenz, Hagay Taitelbaum, Yoav Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
- [17]Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv, 2024论文
- [18]Paolo Glorioso, Quentin Anthony, Yury Tokpanov, Beren Millidge. Zamba: A Compact 7B SSM Hybrid Model. arXiv, 2024论文
- [19]Liliang Ren, Yang Dai, Yong Liu. Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling. arXiv, 2024论文
- [20]Eric Martin, Chris Cundy. Parallelizing Linear Recurrent Neural Nets Over Sequence Length. arXiv, 2017论文
- [21]William Merrill, Gail Weiss, Yoav Goldberg, Roy Schwartz, Noah A. Smith. A Formal Hierarchy of RNN Architectures. arXiv, 2020论文
- [22]Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
- [23]Rewon Child, Scott Gray, Alec Radford, Ilya Sutskever. Generating Long Sequences with Sparse Transformers. arXiv, 2019论文
- [24]Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
- [25]
- [26]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention Is All You Need. NeurIPS, 2017论文
- [27]Yi Tay, Mostafa Dehghani, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文