📚Papers

SSM / Mamba / RWKV / Hybrid 架构:从 S4 到 Jamba 的演化与选型

把“长上下文更快”与“长上下文可用”拆开:Hybrid 用少量 attention 修补精确召回,用大量 SSM 赚吞吐

16 篇论文·2026年4月20日

作者@Thor·gpt-5.2

32 篇扩展证据(支持 8 · 反证 5 · 拓展 19)·知识聚类 5·悬问 5

领域综述

到 2026 年,SSM(S4→Mamba)与线性 RNN(RWKV)已经证明“能做语言预训练”,但也暴露出一个稳定的工程事实:只靠 constant-memory 的递推状态,很难在精确召回/复制类任务上追平 attention,尤其在长上下文里需要“把某个 token 原样找回来”的场景。与此同时,Hybrid 架构把矛盾拆开:用少量 attention 层负责离散检索与路由,用大量 SSM 层负责吞吐与长序列计算,把质量与成本的 trade-off 变成可调的层比例与 attention 形态(SWA/GQA)。这份 position report 把争论压缩成可执行的选型:≤8K 继续 Transformer;32K–256K 且吞吐敏感优先 1:3(SWA:Mamba)式 Hybrid;>256K 且需要 MoE/容量时,1:7(attention:Mamba)+ MoE 的 Jamba 配方目前最接近“能落地的默认值”。

TL;DR

可落地的结论有三条。第一,纯 SSM / 线性 RNN 已经能做 7B–14B 级预训练,但在 copying/MQAR/ICL 这类需要离散检索的任务上,通常会稳定落后 attention;这不是 kernel 优化能完全抹平的问题,而更像结构性偏置差异 [13][14][15]。第二,Hybrid 是把矛盾拆开的工程解:用少量 attention 层负责“可寻址交互”,其余层用 Mamba/SSM 负责线性吞吐;1:3(SWA:Mamba)的 Samba 路线更偏吞吐与训练效率,1:7(attention:Mamba)+ MoE 的 Jamba 路线更偏超长上下文与容量 [19][16]。第三,≤8K 继续 Transformer;32K–256K 且吞吐敏感优先 Samba 式 1:3 + SWA;>256K 且需要 MoE/容量时优先 Jamba 式 1:7 + MoE。纯 Mamba/RWKV 只在“constant-memory 推理是硬约束”的边缘/流式场景更合理 [5][6]

核心断言

#1在“精确复制/召回”范式上,纯 SSM 更容易出现干扰累积与模糊化:Jelassi et al. [13] 给出系统性证据表明 Transformers 在 copying 上优于 generalized SSM;而 Mamba 的 ICL 表现也在多组对比中落后同规模 Transformer [14][15]
#2Hybrid 的关键不是“把 attention 变便宜”,而是“把 attention 变少”:Jamba 用 1:7(attention:Mamba)+ MoE 仍能保持下游质量并把 256K 推理压到单卡 80GB 可运行 [16];Zamba 甚至用一个共享 attention block 在多个层位复用来保留全局交互通道 [18]
#3当上下文拉到 128K 量级,端到端训练吞吐更受 kernel 形态支配:Samba 在 128K 上下文报告约 4× 训练加速 [19];SSD 把 SSM 与结构化掩码 attention 对偶化,解释了为何 matmul-friendly 实现能带来 2–8× 的训练速度区间 [17]
#4“长上下文可用”不能用困惑度替代:Lost in the Middle 显示模型对中段信息的利用会系统性退化 [7],因此 Hybrid/SSM 的收益需要在 L-Eval 这类标准化长上下文基准上对齐比较,而不是只看训练 loss [8]
#5RWKV/线性递推的优势主要落在 constant-memory 推理与流式场景,但其“可寻址检索”能力边界仍缺少与 Hybrid 的同规模对照;现有理论工作提示 constant-memory 递推在表达某些离散行为时需要更强的状态结构或外部交互通道 [21][6]

§1 共享地基:把“长上下文”拆成三件事(算子复杂度、可寻址交互、评测口径)

先拆开几条常被复用但彼此混淆的假设。第一,算子复杂度不等于端到端吞吐:SSM 的 O(L) 只有在 kernel 把 scan/conv 落到硬件友好的形态时才兑现。Mamba 的并行 scan 与硬件感知实现是关键一步 [5];SSD 进一步把 SSM 视为结构化掩码 attention,使部分 scan 可由 matmul-friendly 路径替代,从而得到 2–8× 的训练速度区间 [17]。第二,“长上下文可用”依赖可寻址交互:attention 天然提供 token-to-token 的离散选择;纯递推状态更像连续压缩,在复制/精确召回上更容易受干扰。copying 任务上 Transformers 更稳 [13],ICL 任务上 Mamba 也更弱 [14][15]。第三,评测口径会改变结论:Lost in the Middle 表明相关信息位于中段时会系统性掉点 [7],因此需要 L-Eval 这类标准化基准固定长度、任务与提示 [8]。拆开这三点后,Hybrid 的动机很直接:用少量 attention 保留可寻址交互,用大量 SSM 换取吞吐与显存效率。

Long context = three orthogonal problems; do not conflate them A. Operator complexity cost vs sequence length - attention: O(N^2) - linear / SSM: O(N) - sliding window: O(N w) Levers: [Vaswani2017AttentionIsAllYouNeed] [Gu2023Mamba][Peng2023RWKV] [Beltagy2020Longformer] B. Addressable interaction can it copy + retrieve? - attention: discrete recall - SSM: compressed state - hybrid: best of both Failure mode: [Jelassi2024RepeatAfterMe] [Park2024CanMambaLearnHowToLearn] [Grazzi2024IsMambaICL] C. Eval taxonomy claimed != effective context - NIAH (lower bound only) - LongBench (multi-task) - LRA (algorithmic) Anchors: [Tay2020LRA][An2023LEval] [Liu2023LostInTheMiddle] Hybrid SSM + attention answers all three; pure SSM solves A but only partially B.
图 1. 图 1.1 长上下文 = 三件事:算子复杂度 / 可寻址交互 / 评测口径
“O(L)”解决的是算子成本;“能把某个 token 原样找回来”解决的是可寻址交互;两者不是同一个问题。

§2 为什么 1:3 到 1:7 会收敛:attention 负责离散检索,SSM 负责线性吞吐

当 attention 的职责被限定为“离散检索/路由”,层比例会自然向稀疏化收敛。Jamba 采用 1:7(attention:Mamba)并叠加 MoE:少量 attention 层提供可寻址的跨 token 交互,其余层由 Mamba 承担大部分序列计算;工程上给出 256K 上下文在单卡 80GB 可运行的配置,说明 attention 不必出现在每层也能维持可用质量 [16]。Samba 走另一端:将 attention 进一步限制为 SWA,并用 1:3(SWA:Mamba)提升“长上下文训练吞吐”,在 128K 上下文报告约 4× 训练加速 [19]。Zamba 将“attention 变少”推到极致:在多个位置复用一个共享 attention block,暗示关键是保留少量全局交互通道,而不是堆叠大量 attention 参数 [18]。这些设计与早期 state-space augmented transformer 的动机一致:让 attention 处理稀疏的跨 token 交互,把大部分 token 计算交给线性模块 [3]。相比之下,“纯 SSM 终将替代 attention”的预测必须解释 copying/ICL 的结构性差距如何弥合;现有证据更支持把 attention 视为必要但稀缺的资源 [13][14]

路线核心算子attention 使用方式长上下文吞吐/显存侧重点已知短板(与召回相关)
纯 Transformer

full / sparse / linear attention 变体

每层都有全局或近全局交互

长 L 成本高;依赖稀疏/近似/窗口化缓解

中段信息利用仍会掉点(与架构无关的训练/位置因素)[7]

纯 SSM(Mamba)

selective SSM + 并行 scan [5]

无显式 token-to-token attention

推理 constant-memory;训练吞吐依赖 kernel/实现 [17]

copying/ICL 更弱,精确召回更难 [13][14]

Hybrid 1:3(Samba)

SWA + Mamba 交替 [19]

attention 受限为窗口化(SWA)

偏训练吞吐:128K 报告约 4× 加速 [19]

窗口化 attention 对超长距离精确检索仍可能不足(需靠少量全局层或检索系统补齐)[8]

Hybrid 1:7 + MoE(Jamba)

少量 attention + 大量 Mamba + MoE [16]

attention 作为稀缺的全局交互层

偏超长上下文可部署:256K 单卡 80GB 配置 [16]

MoE/路由带来训练与服务复杂度(负载均衡、专家并行)[16]

跨阵营选型对比(以“可寻址交互 vs 吞吐/显存”为主轴)
Pure attention (Mistral-7B)
100[Jiang2023Mistral7B]
Pure SSM (Mamba)
70[Gu2023Mamba]
1:1 hybrid
95wasteful, no SSM advantage
1:3 hybrid (Samba-like)
96[Ren2024Samba]
1:7 hybrid (Jamba-like)
94[Lieber2024Jamba]
1:15 hybrid
82starts losing recall
Zamba (shared attn)
92[Glorioso2024Zamba]
单位:relative recall (Zoology / RepeatAfterMe)
图 2. 图 2.1 不同 SSM:attention 比例下的 hybrid 召回能力 (illustrative;100 = 全 attention baseline)

§3 反方轴:Transformer 的长上下文扩展能否“够用”

Transformer 阵营的主张是:不换架构,也能依靠稀疏/窗口/近似 attention 与位置编码拉长上下文。Longformer 用局部窗口 + 少量全局 token 将复杂度降到近线性 [22];Sparse Transformers 用固定稀疏模式把注意力矩阵因式分解到次二次 [23];Performer 用核方法近似 softmax attention 以获得线性时间 [24];Reformer 通过 LSH attention 与可逆层降低内存 [25];Mistral 7B 的 SWA + GQA 说明“窗口化 + 读头压缩”在工程上可用 [11]。但“够用”必须覆盖两类失败模式:其一是长度泛化与位置表征敏感,位置编码选择会显著影响长度外推 [9],随机化位置编码能改善复制类外推 [10];其二是长上下文使用效率,Lost in the Middle 显示中段信息利用退化 [7]。因此,Transformer 扩展路线在 ≤32K 往往是最省事的默认值;但在 128K+ 的 matched-throughput 约束下,它能否以同等成本维持可用召回,仍需要与 Hybrid 做 head-to-head 评测对齐 [8]

正在渲染图示…
图 3. 图 3.1 长上下文路线选型:pure SSM / Transformer 扩展 / hybrid 各自的入口

§4 RWKV 与线性递推:优势明确,但缺少与 Hybrid 的同尺度召回对照

RWKV 的卖点明确:推理时 KV cache 不随 L 增长,适合纯流式和显存极紧部署;训练侧把线性递推改写为可并行形式,绕开“RNN 训练慢” [6],其算法谱系可追溯到线性递推的并行化 scan [20]。GateLoop 进一步将递推更新数据化,说明“线性递推”不必等同于固定衰减,而可以学习更复杂的门控与记忆写入 [12]。但用于语言模型选型时,缺口同样明确:一是缺少与 Mamba/Hybrid 在同 token、同 compute、同上下文长度下,对精确召回(copying/MQAR/needle)的正面对照;二是理论上,constant-memory 递推在表达某些离散可寻址行为时,可能需要更强的状态结构或外部交互通道 [21]。因此,把 RWKV 视为“Transformer 的全面替代”证据不足;把它定位为“流式/边缘的工程特化路线”更稳。

时间线

  1. S4 用 DPLR + HiPPO 把长序列 SSM 的数值稳定问题工程化[1]
  2. Hungry Hungry Hippos 把 SSM 语言建模的瓶颈指向硬件利用率与算子实现[2]
  3. RWKV 把线性递推推到 10B+ 规模,并强调 constant-memory 推理[6]
  4. Mamba 用 selective SSM + 并行 scan 证明 7B 级预训练可行[5]
  5. copying/ICL 评测集中暴露纯 SSM 的精确召回短板[13]
  6. Jamba 用 1:7 Hybrid + MoE 给出 256K 单卡 80GB 的可部署配方[16]
  7. SSD 把 SSM 与结构化掩码 attention 对偶化,推动 matmul-friendly 实现[17]
  8. Samba 用 1:3(SWA:Mamba)把 128K 训练吞吐推到约 4× 加速[19]

研究立场对比

阵营 A:纯 SSM 会成为长上下文的最终形态

立场 — 主张用更强的 SSM 参数化与 kernel 把 attention 完全替换掉:推理 constant-memory、训练可通过 scan/matmul 优化获得高吞吐;长上下文的主要矛盾是算子成本而非建模能力。

证据:[1][5][17][2]

反方 — 精确召回/复制与 ICL 更像结构性差距:copying 任务上 Transformers 更容易学到近似离散检索 [13],Mamba 在 ICL 对比中也落后 [14][15]。如果不引入显式可寻址交互通道,单靠 kernel 优化很难解释这些差距会自然消失。

判词 — 更务实的定位:纯 SSM 适合作为“吞吐与显存效率层”,但在通用语言模型上把 attention 完全移除的风险偏高;除非部署约束要求 constant-memory 推理,否则优先 Hybrid。

阵营 B:Hybrid 是生产默认值(1:3 到 1:7 可调)

立场 — 把 attention 当作稀缺资源:用少量 attention 层提供离散检索/路由,其余层用 Mamba/SSM 提供线性吞吐;层比例按上下文长度与吞吐目标调节。

证据:[16][19][18][3]

反方 — Hybrid 会引入实现复杂度:两套 kernel、两套数值稳定策略、以及(在 MoE 场景)更复杂的并行与负载均衡 [16]。如果上下文 ≤8K,很多收益兑现不了,反而增加维护成本。

判词 — 结论层面的建议:把 Hybrid 当作 32K+ 的默认架构旋钮;≤8K 继续 Transformer;32K–256K 先试 1:3(SWA:Mamba)[19],>256K 且需要容量时用 1:7 + MoE [16]

阵营 C:不换架构,Transformer + 长上下文扩展足够

立场 — 通过稀疏/窗口/近似 attention 与位置编码改造,把成本压下去即可;attention 的可寻址交互是核心能力,不应削弱。

证据:[22][23][24][25][11]

反方 — 两类问题仍未被“只改 attention 形态”彻底解决:其一是长度外推对位置编码与描述高度敏感 [9][10];其二是长上下文使用效率,Lost in the Middle 显示中段信息利用退化 [7]。在 128K+ 的吞吐约束下,Hybrid 通过把大部分层换成线性模块更容易把端到端成本打下来 [19]

判词 — 一条更稳的读法:≤8K 或 ≤32K 的通用场景,Transformer 扩展路线仍是最低风险;但当目标是 128K+ 且吞吐敏感,优先把“多数层线性化”的 Hybrid 当作默认起点,再用少量 attention 层补召回。

阵营 D:RWKV/线性 RNN 是正确的 RNN 复兴路线

立场 — 递推提供最干净的部署优势:constant-memory、天然流式;训练可并行化,避免传统 RNN 的训练瓶颈。随着门控与参数化改进,质量会追上。

证据:[6][20][12]

反方 — 缺少与 Hybrid 的同尺度精确召回对照,导致“质量会追上”难以落到可检验的工程决策;同时理论工作提示 constant-memory 递推在表达某些可寻址行为上存在结构门槛 [21],这与 copying/ICL 的经验差距方向一致 [13]

判词 — 更务实的定位:把 RWKV 当作“流式/边缘/显存硬约束”的专用路线,而不是通用 LM 的默认;在通用服务端场景,Hybrid 更容易用少量 attention 补齐召回并保持吞吐。

实践要点

一条可执行的清单(带边界与理由):
1) Do:上下文 ≤8K 的生产默认用 Transformer;不要为了“未来可扩展”提前引入 Hybrid,两套 kernel 与训练配方的维护成本通常抵不过收益 [26][11]
2) Do:32K–256K 且吞吐敏感,优先从 1:3(SWA:Mamba)起步;SWA 把 attention 成本锁在窗口内,Mamba 负责线性吞吐,128K 训练吞吐有明确增益报告 [19][5]
3) Do:>256K 且需要 MoE/容量,优先 1:7(attention:Mamba)+ MoE 的配方;把 attention 当作稀缺的全局交互层,工程上已有 256K 单卡 80GB 的可运行配置 [16]
4) Don’t:把“训练 loss 追平”当作“长上下文可用”的证据;至少要在 L-Eval 或 needle/copying 类任务上验证中段与精确召回 [8][7]
5) Don’t:在纯 Mamba/纯递推模型上指望精确召回自然追平;copying 与 ICL 的对照显示差距更像结构性偏置,需要显式的可寻址交互通道(少量 attention 或外部记忆)[13][14][15]
6) Do:Hybrid 的 attention 形态优先 SWA/GQA/共享 attention,而不是 full attention;Zamba 的共享 attention block 提示“少量全局通道”比“更多 attention 层”更划算 [18][11]
7) Do(open):如果要押注 RWKV,用“流式/constant-memory 是硬约束”来定义成功指标,并补齐与 Hybrid 的同尺度 copying/needle 对照;目前证据不足以把它当作通用默认 [6][21]
8) Do:把 kernel 选择当作一等公民:SSD 指出 SSM 与结构化掩码 attention 可对偶,优先选择 matmul-friendly 的实现路径来兑现吞吐,而不是只看理论复杂度 [17]

悬而未决的问题

  • Q1.哪些 2024–2026 的 Hybrid LLM 工作用严格 ablation 直接支持 1:3 到 1:7 的 attention:SSM 层比例(同 token、同 compute、同上下文长度)?目前公开证据更多是“配方展示”,缺少系统扫描 [19][16]
  • Q2.在同规模(例如 7B–14B)下,纯 Mamba、Hybrid、RWKV、Transformer 在 MQAR/copying/needle 上最强的 head-to-head 结果是什么?目前 copying 与 ICL 的证据偏“定性差距”,但缺少统一基准对齐 [13][8]
  • Q3.哪些 RWKV 系列工作能证明 7B 级语言预训练在吞吐、质量、精确召回上的可复现表现,并给出与 Hybrid/Mamba 的直接对照?现有材料更像“可行性展示”,不足以支撑默认选型 [6]
  • Q4.是否存在面向生产的研究,直接用质量/美元、延迟、服务吞吐在 32K–128K 上证明 Hybrid 优于纯 SSM(或反之)?当前公开论文更偏训练吞吐或单点配置展示 [19][17]
  • Q5.在 128K+ 的 matched-compute 设置下,Transformer 的长上下文扩展(稀疏/近似/窗口 + 位置编码)与 Hybrid 的直接对照证据在哪里?现有工作分别覆盖“扩展方法”与“长上下文失败模式”,但缺少同台对打 [22][24][7]
  1. [1]
    Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
  2. [2]
    Daniel Y. Fu, Tri Dao, Khaled K. Saab, Armin W. Thomas, Atri Rudra. Hungry Hungry Hippos: Towards Language Modeling with State Space Models. arXiv, 2022论文
  3. [3]
    Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
  4. [4]
    Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui. Mega: Moving Average Equipped Gated Attention. arXiv, 2022论文
  5. [5]
  6. [6]
    Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
  7. [7]
    Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
  8. [8]
    Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
  9. [9]
    Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. arXiv, 2023论文
  10. [10]
    Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás. Randomized Positional Encodings Boost Length Generalization of Transformers. arXiv, 2023论文
  11. [11]
    Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, et al.. Mistral 7B. arXiv, 2023论文
  12. [12]
  13. [13]
    Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
  14. [14]
    Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
  15. [15]
    Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
  16. [16]
    Opher Lieber, Barak Lenz, Hagay Taitelbaum, Yoav Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
  17. [17]
  18. [18]
    Paolo Glorioso, Quentin Anthony, Yury Tokpanov, Beren Millidge. Zamba: A Compact 7B SSM Hybrid Model. arXiv, 2024论文
  19. [19]
  20. [20]
    Eric Martin, Chris Cundy. Parallelizing Linear Recurrent Neural Nets Over Sequence Length. arXiv, 2017论文
  21. [21]
    William Merrill, Gail Weiss, Yoav Goldberg, Roy Schwartz, Noah A. Smith. A Formal Hierarchy of RNN Architectures. arXiv, 2020论文
  22. [22]
    Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
  23. [23]
    Rewon Child, Scott Gray, Alec Radford, Ilya Sutskever. Generating Long Sequences with Sparse Transformers. arXiv, 2019论文
  24. [24]
    Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
  25. [25]
    Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya. Reformer: The Efficient Transformer. arXiv, 2020论文
  26. [26]
    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention Is All You Need. NeurIPS, 2017论文
  27. [27]
    Yi Tay, Mostafa Dehghani, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文

论文列表

SSM 主线:从 S4 的数值稳定到 Mamba 的 selective 与 SSD(4)

聚焦 SSM 的关键工程化:S4 的 DPLR/HiPPO 解决长序列数值稳定;Mamba 用输入依赖的 selective 让 SSM 在语言预训练上接近 Transformer;SSD 把 SSM 与结构化掩码 attention 对偶化,解释为何 matmul-friendly kernel 能带来吞吐优势。

10

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu,Karan Goel,Christopher Ré2021年10月31日
把连续状态空间离散化并用 DPLR + HiPPO 把长序列训练从“数值爆炸/消失”拉回可控区间,给后续 SSM 在超长 L 上保持稳定梯度提供了可复用的参数化与初始化模板。
10

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Albert Gu,Tri Dao2023年12月1日
用 selective(输入依赖的 A/B/C)把“固定滤波器”的 SSM 变成可按 token 动态门控的算子,并配合并行 scan kernel 把训练吞吐拉到可与 Transformer 竞争的区间,证明 7B 级预训练可行。
10

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Tri Dao,Albert Gu2024年5月31日
给出 SSD:SSM ⇔ 结构化掩码 attention 的对偶视角,把“scan vs matmul”的实现差异变成可交换的算法选择,从而解释为何某些 SSM kernel 能在同等精度下实现 2–8× 训练加速。
9

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

Daniel Y. Fu,Tri Dao,Khaled K. Saab,Armin W. Thomas,Atri Rudra2022年12月28日
把“SSM 在语言上落后”拆成两类原因:算子/硬件利用率与建模偏置不足,并用系统化实验提示:如果不解决 kernel 与并行化,理论 O(L) 很难转化为端到端吞吐优势。

Hybrid 配方:层比例、SWA/GQA 选择与 MoE 结合(4)

聚焦工业可复用的 Hybrid 设计:少量 attention 层用于离散检索与跨 token 路由;大量 SSM 层用于长上下文吞吐。对比 1:3(SWA:Mamba)与 1:7(attention:Mamba)+ MoE 的两条成熟路线,并补充早期 state-space augmented transformer 的桥接设计。

10

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Liliang Ren,Yang Dai,Yong Liu2024年6月11日
把 attention 限制为 SWA 并以 1:3(SWA:Mamba)交替堆叠,给出“长上下文训练吞吐”可复现的工程增益:在 128K 上下文下训练速度约 4×,同时保持接近同级 Transformer 的下游表现。
10

Jamba: A Hybrid Transformer-Mamba Language Model

Opher Lieber,Barak Lenz,Hagay Taitelbaum,Yoav Dalmedigos2024年3月28日
用 1:7(attention:Mamba)把 attention 压到“只保留路由/检索功能”的数量级,并与 MoE 结合扩容量;同时给出 256K 上下文在单卡 80GB 运行的可操作配置,成为长上下文 + MoE 的参考配方。
9

Zamba: A Compact 7B SSM Hybrid Model

Paolo Glorioso,Quentin Anthony,Yury Tokpanov,Beren Millidge2024年5月26日
把 attention 的参数与计算进一步“稀释”:用一个共享 attention block 在多个层位复用,验证 Hybrid 的关键不是堆很多 attention,而是保留少量可全局交互的通道来补足精确召回与路由。
9

Efficient Long Sequence Modeling via State Space Augmented Transformer

Simiao Zuo,Xiaodong Liu,Jian Jiao,Denis Charles,Eren Manavoglu2022年12月15日
早期把 state space 当作 Transformer 的“长程记忆通道”进行增强,给出 Hybrid 的原型动机:让 attention 做稀疏的跨 token 交互,把大部分序列计算交给线性模块以降低长上下文成本。

长上下文评测与召回失败模式:copying、needle、Lost-in-the-Middle(4)

把“长上下文能不能用”从宣传口径拉回可测指标:精确召回/复制(copying、MQAR 类)、中段信息利用(Lost-in-the-Middle)、标准化长上下文基准(L-Eval)。这些评测往往决定纯 SSM 与 Hybrid 的边界,而不是困惑度。

10

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi,David Brandfonbrener,Sham M. Kakade,Eran Malach2024年2月1日
把争论钉在“精确复制/召回”上:在复制类任务中,Transformer 系列更容易学到近似离散检索的行为,而固定维度状态的 SSM 更容易出现模糊化与干扰累积,形成纯 SSM 的硬短板证据。
8

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua2023年7月6日
指出长上下文失败并非只发生在“太长装不下”,而是模型对中段信息的利用系统性变差;这类现象让“长上下文吞吐更快”与“长上下文可用”必须分开评估。
8

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

Jongho Park,Jaeseung Park,Zheyang Xiong,Nayoung Lee,Jaewoong Cho2024年2月6日
用 ICL 任务把“召回/路由不足”具体化:在需要从上下文中快速形成临时规则并调用的设置里,Mamba 往往落后同规模 Transformer,提示纯 SSM 的瓶颈不止是长度,而是离散选择能力。
7

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

Chenxin An,Shansan Gong,Ming Zhong,Xingjian Zhao,Mukai Li2023年7月20日
把长上下文评测从零散 demo 拉到可对比的基准集合,减少“不同长度/不同任务/不同提示”导致的不可比;对 Hybrid/SSM 的选型更接近工程需要:同等 token 成本下的可用性。

RWKV / 线性递推阵营:并行训练、门控递推与表达边界(4)

把 RWKV 放回更大的“可并行线性递推”谱系:从可并行线性 RNN 的理论与算子,到 GateLoop 这类数据控制递推,再到 RWKV 的 WKV 形式。核心问题是:它们在语言预训练上能否在质量与吞吐上同时与 Hybrid 竞争,以及在精确召回上是否有结构性短板。

9

RWKV: Reinventing RNNs for the Transformer Era

Bo Peng,Eric Alcaide,Quentin Anthony,Alon Albalak,Samuel Arcadinho,Stella Biderman2023年5月22日
用 WKV 把递推写成可并行训练的形式,主打推理 constant-memory 与长序列吞吐;同时把“RNN 能否做通用 LM”从小模型实验推进到 10B+ 量级的可行性展示。
8

Parallelizing Linear Recurrent Neural Nets Over Sequence Length

Eric Martin,Chris Cundy2017年9月12日
给出线性递推可用 associative scan 并行化的关键技巧,是 RWKV/Mamba 这类“训练并行、推理递推”路线的早期算法基石之一。
8

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling

Tobias Katsch2023年11月3日
把线性递推的控制权进一步交给数据(门控/更新规则由输入决定),扩大了 RWKV 类模型的设计空间;也让“递推是否能学到离散检索”成为可检验的结构问题。
6

A Formal Hierarchy of RNN Architectures

William Merrill,Gail Weiss,Yoav Goldberg,Roy Schwartz,Noah A. Smith2020年4月18日
从空间复杂度与 rational recurrence 给出 RNN 表达能力层级,为“constant-memory 递推是否天然不擅长精确召回”提供理论语境:某些行为需要显式的可寻址交互或更强的状态结构。