SSM / Mamba / RWKV / Hybrid 架构：从 S4 到 Jamba 的演化与选型

把“长上下文更快”与“长上下文可用”拆开：Hybrid 用少量 attention 修补精确召回，用大量 SSM 赚吞吐

16 篇论文·2026年4月20日

作者@Thor·gpt-5.2

32 篇扩展证据（支持 8 · 反证 5 · 拓展 19）·知识聚类 5·悬问 5

领域综述

到 2026 年，SSM（S4→Mamba）与线性 RNN（RWKV）已经证明“能做语言预训练”，但也暴露出一个稳定的工程事实：只靠 constant-memory 的递推状态，很难在精确召回/复制类任务上追平 attention，尤其在长上下文里需要“把某个 token 原样找回来”的场景。与此同时，Hybrid 架构把矛盾拆开：用少量 attention 层负责离散检索与路由，用大量 SSM 层负责吞吐与长序列计算，把质量与成本的 trade-off 变成可调的层比例与 attention 形态（SWA/GQA）。这份 position report 把争论压缩成可执行的选型：≤8K 继续 Transformer；32K–256K 且吞吐敏感优先 1:3（SWA:Mamba）式 Hybrid；>256K 且需要 MoE/容量时，1:7（attention:Mamba）+ MoE 的 Jamba 配方目前最接近“能落地的默认值”。

TL;DR

可落地的结论有三条。第一，纯 SSM / 线性 RNN 已经能做 7B–14B 级预训练，但在 copying/MQAR/ICL 这类需要离散检索的任务上，通常会稳定落后 attention；这不是 kernel 优化能完全抹平的问题，而更像结构性偏置差异 [13][14][15]。第二，Hybrid 是把矛盾拆开的工程解：用少量 attention 层负责“可寻址交互”，其余层用 Mamba/SSM 负责线性吞吐；1:3（SWA:Mamba）的 Samba 路线更偏吞吐与训练效率，1:7（attention:Mamba）+ MoE 的 Jamba 路线更偏超长上下文与容量 [19][16]。第三，≤8K 继续 Transformer；32K–256K 且吞吐敏感优先 Samba 式 1:3 + SWA；>256K 且需要 MoE/容量时优先 Jamba 式 1:7 + MoE。纯 Mamba/RWKV 只在“constant-memory 推理是硬约束”的边缘/流式场景更合理 [5][6]。

核心断言

#1在“精确复制/召回”范式上，纯 SSM 更容易出现干扰累积与模糊化：Jelassi et al. [13] 给出系统性证据表明 Transformers 在 copying 上优于 generalized SSM；而 Mamba 的 ICL 表现也在多组对比中落后同规模 Transformer [14][15]。

#2Hybrid 的关键不是“把 attention 变便宜”，而是“把 attention 变少”：Jamba 用 1:7（attention:Mamba）+ MoE 仍能保持下游质量并把 256K 推理压到单卡 80GB 可运行 [16]；Zamba 甚至用一个共享 attention block 在多个层位复用来保留全局交互通道 [18]。

#3当上下文拉到 128K 量级，端到端训练吞吐更受 kernel 形态支配：Samba 在 128K 上下文报告约 4× 训练加速 [19]；SSD 把 SSM 与结构化掩码 attention 对偶化，解释了为何 matmul-friendly 实现能带来 2–8× 的训练速度区间 [17]。

#4“长上下文可用”不能用困惑度替代：Lost in the Middle 显示模型对中段信息的利用会系统性退化 [7]，因此 Hybrid/SSM 的收益需要在 L-Eval 这类标准化长上下文基准上对齐比较，而不是只看训练 loss [8]。

#5RWKV/线性递推的优势主要落在 constant-memory 推理与流式场景，但其“可寻址检索”能力边界仍缺少与 Hybrid 的同规模对照；现有理论工作提示 constant-memory 递推在表达某些离散行为时需要更强的状态结构或外部交互通道 [21][6]。

§1 共享地基：把“长上下文”拆成三件事（算子复杂度、可寻址交互、评测口径）

先拆开几条常被复用但彼此混淆的假设。第一，算子复杂度不等于端到端吞吐：SSM 的 O(L) 只有在 kernel 把 scan/conv 落到硬件友好的形态时才兑现。Mamba 的并行 scan 与硬件感知实现是关键一步 [5]；SSD 进一步把 SSM 视为结构化掩码 attention，使部分 scan 可由 matmul-friendly 路径替代，从而得到 2–8× 的训练速度区间 [17]。第二，“长上下文可用”依赖可寻址交互：attention 天然提供 token-to-token 的离散选择；纯递推状态更像连续压缩，在复制/精确召回上更容易受干扰。copying 任务上 Transformers 更稳 [13]，ICL 任务上 Mamba 也更弱 [14][15]。第三，评测口径会改变结论：Lost in the Middle 表明相关信息位于中段时会系统性掉点 [7]，因此需要 L-Eval 这类标准化基准固定长度、任务与提示 [8]。拆开这三点后，Hybrid 的动机很直接：用少量 attention 保留可寻址交互，用大量 SSM 换取吞吐与显存效率。

图 1. 图 1.1 长上下文 = 三件事:算子复杂度 / 可寻址交互 / 评测口径

“O(L)”解决的是算子成本；“能把某个 token 原样找回来”解决的是可寻址交互；两者不是同一个问题。

§2 为什么 1:3 到 1:7 会收敛：attention 负责离散检索，SSM 负责线性吞吐

当 attention 的职责被限定为“离散检索/路由”，层比例会自然向稀疏化收敛。Jamba 采用 1:7（attention:Mamba）并叠加 MoE：少量 attention 层提供可寻址的跨 token 交互，其余层由 Mamba 承担大部分序列计算；工程上给出 256K 上下文在单卡 80GB 可运行的配置，说明 attention 不必出现在每层也能维持可用质量 [16]。Samba 走另一端：将 attention 进一步限制为 SWA，并用 1:3（SWA:Mamba）提升“长上下文训练吞吐”，在 128K 上下文报告约 4× 训练加速 [19]。Zamba 将“attention 变少”推到极致：在多个位置复用一个共享 attention block，暗示关键是保留少量全局交互通道，而不是堆叠大量 attention 参数 [18]。这些设计与早期 state-space augmented transformer 的动机一致：让 attention 处理稀疏的跨 token 交互，把大部分 token 计算交给线性模块 [3]。相比之下，“纯 SSM 终将替代 attention”的预测必须解释 copying/ICL 的结构性差距如何弥合；现有证据更支持把 attention 视为必要但稀缺的资源 [13][14]。

路线	核心算子	attention 使用方式	长上下文吞吐/显存侧重点	已知短板（与召回相关）
纯 Transformer	full / sparse / linear attention 变体	每层都有全局或近全局交互	长 L 成本高；依赖稀疏/近似/窗口化缓解	中段信息利用仍会掉点（与架构无关的训练/位置因素）[7]
纯 SSM（Mamba）	selective SSM + 并行 scan [5]	无显式 token-to-token attention	推理 constant-memory；训练吞吐依赖 kernel/实现 [17]	copying/ICL 更弱，精确召回更难 [13][14]
Hybrid 1:3（Samba）	SWA + Mamba 交替 [19]	attention 受限为窗口化（SWA）	偏训练吞吐：128K 报告约 4× 加速 [19]	窗口化 attention 对超长距离精确检索仍可能不足（需靠少量全局层或检索系统补齐）[8]
Hybrid 1:7 + MoE（Jamba）	少量 attention + 大量 Mamba + MoE [16]	attention 作为稀缺的全局交互层	偏超长上下文可部署：256K 单卡 80GB 配置 [16]	MoE/路由带来训练与服务复杂度（负载均衡、专家并行）[16]

跨阵营选型对比（以“可寻址交互 vs 吞吐/显存”为主轴）

Pure attention (Mistral-7B)

100[Jiang2023Mistral7B]

Pure SSM (Mamba)

70[Gu2023Mamba]

1:1 hybrid

95wasteful, no SSM advantage

1:3 hybrid (Samba-like)

96[Ren2024Samba]

1:7 hybrid (Jamba-like)

94[Lieber2024Jamba]

1:15 hybrid

82starts losing recall

Zamba (shared attn)

92[Glorioso2024Zamba]

单位：relative recall (Zoology / RepeatAfterMe)

图 2. 图 2.1 不同 SSM:attention 比例下的 hybrid 召回能力 (illustrative;100 = 全 attention baseline)

§3 反方轴：Transformer 的长上下文扩展能否“够用”

Transformer 阵营的主张是：不换架构，也能依靠稀疏/窗口/近似 attention 与位置编码拉长上下文。Longformer 用局部窗口 + 少量全局 token 将复杂度降到近线性 [22]；Sparse Transformers 用固定稀疏模式把注意力矩阵因式分解到次二次 [23]；Performer 用核方法近似 softmax attention 以获得线性时间 [24]；Reformer 通过 LSH attention 与可逆层降低内存 [25]；Mistral 7B 的 SWA + GQA 说明“窗口化 + 读头压缩”在工程上可用 [11]。但“够用”必须覆盖两类失败模式：其一是长度泛化与位置表征敏感，位置编码选择会显著影响长度外推 [9]，随机化位置编码能改善复制类外推 [10]；其二是长上下文使用效率，Lost in the Middle 显示中段信息利用退化 [7]。因此，Transformer 扩展路线在 ≤32K 往往是最省事的默认值；但在 128K+ 的 matched-throughput 约束下，它能否以同等成本维持可用召回，仍需要与 Hybrid 做 head-to-head 评测对齐 [8]。

正在渲染图示…

图 3. 图 3.1 长上下文路线选型:pure SSM / Transformer 扩展 / hybrid 各自的入口

§4 RWKV 与线性递推：优势明确，但缺少与 Hybrid 的同尺度召回对照

RWKV 的卖点明确：推理时 KV cache 不随 L 增长，适合纯流式和显存极紧部署；训练侧把线性递推改写为可并行形式，绕开“RNN 训练慢” [6]，其算法谱系可追溯到线性递推的并行化 scan [20]。GateLoop 进一步将递推更新数据化，说明“线性递推”不必等同于固定衰减，而可以学习更复杂的门控与记忆写入 [12]。但用于语言模型选型时，缺口同样明确：一是缺少与 Mamba/Hybrid 在同 token、同 compute、同上下文长度下，对精确召回（copying/MQAR/needle）的正面对照；二是理论上，constant-memory 递推在表达某些离散可寻址行为时，可能需要更强的状态结构或外部交互通道 [21]。因此，把 RWKV 视为“Transformer 的全面替代”证据不足；把它定位为“流式/边缘的工程特化路线”更稳。

时间线

2021-10S4 用 DPLR + HiPPO 把长序列 SSM 的数值稳定问题工程化[1]
2022-12Hungry Hungry Hippos 把 SSM 语言建模的瓶颈指向硬件利用率与算子实现[2]
2023-05RWKV 把线性递推推到 10B+ 规模，并强调 constant-memory 推理[6]
2023-12Mamba 用 selective SSM + 并行 scan 证明 7B 级预训练可行[5]
2024-02copying/ICL 评测集中暴露纯 SSM 的精确召回短板[13]
2024-03Jamba 用 1:7 Hybrid + MoE 给出 256K 单卡 80GB 的可部署配方[16]
2024-05SSD 把 SSM 与结构化掩码 attention 对偶化，推动 matmul-friendly 实现[17]
2024-06Samba 用 1:3（SWA:Mamba）把 128K 训练吞吐推到约 4× 加速[19]

研究立场对比

阵营 A：纯 SSM 会成为长上下文的最终形态

立场 — 主张用更强的 SSM 参数化与 kernel 把 attention 完全替换掉：推理 constant-memory、训练可通过 scan/matmul 优化获得高吞吐；长上下文的主要矛盾是算子成本而非建模能力。

证据：[1][5][17][2]

反方 — 精确召回/复制与 ICL 更像结构性差距：copying 任务上 Transformers 更容易学到近似离散检索 [13]，Mamba 在 ICL 对比中也落后 [14][15]。如果不引入显式可寻址交互通道，单靠 kernel 优化很难解释这些差距会自然消失。

判词 — 更务实的定位：纯 SSM 适合作为“吞吐与显存效率层”，但在通用语言模型上把 attention 完全移除的风险偏高；除非部署约束要求 constant-memory 推理，否则优先 Hybrid。

阵营 B：Hybrid 是生产默认值（1:3 到 1:7 可调）

立场 — 把 attention 当作稀缺资源：用少量 attention 层提供离散检索/路由，其余层用 Mamba/SSM 提供线性吞吐；层比例按上下文长度与吞吐目标调节。

证据：[16][19][18][3]

反方 — Hybrid 会引入实现复杂度：两套 kernel、两套数值稳定策略、以及（在 MoE 场景）更复杂的并行与负载均衡 [16]。如果上下文 ≤8K，很多收益兑现不了，反而增加维护成本。

判词 — 结论层面的建议：把 Hybrid 当作 32K+ 的默认架构旋钮；≤8K 继续 Transformer；32K–256K 先试 1:3（SWA:Mamba）[19]，>256K 且需要容量时用 1:7 + MoE [16]。

阵营 C：不换架构，Transformer + 长上下文扩展足够

立场 — 通过稀疏/窗口/近似 attention 与位置编码改造，把成本压下去即可；attention 的可寻址交互是核心能力，不应削弱。

证据：[22][23][24][25][11]

反方 — 两类问题仍未被“只改 attention 形态”彻底解决：其一是长度外推对位置编码与描述高度敏感 [9][10]；其二是长上下文使用效率，Lost in the Middle 显示中段信息利用退化 [7]。在 128K+ 的吞吐约束下，Hybrid 通过把大部分层换成线性模块更容易把端到端成本打下来 [19]。

判词 — 一条更稳的读法：≤8K 或 ≤32K 的通用场景，Transformer 扩展路线仍是最低风险；但当目标是 128K+ 且吞吐敏感，优先把“多数层线性化”的 Hybrid 当作默认起点，再用少量 attention 层补召回。

阵营 D：RWKV/线性 RNN 是正确的 RNN 复兴路线

立场 — 递推提供最干净的部署优势：constant-memory、天然流式；训练可并行化，避免传统 RNN 的训练瓶颈。随着门控与参数化改进，质量会追上。

证据：[6][20][12]

反方 — 缺少与 Hybrid 的同尺度精确召回对照，导致“质量会追上”难以落到可检验的工程决策；同时理论工作提示 constant-memory 递推在表达某些可寻址行为上存在结构门槛 [21]，这与 copying/ICL 的经验差距方向一致 [13]。

判词 — 更务实的定位：把 RWKV 当作“流式/边缘/显存硬约束”的专用路线，而不是通用 LM 的默认；在通用服务端场景，Hybrid 更容易用少量 attention 补齐召回并保持吞吐。

实践要点

一条可执行的清单（带边界与理由）：
1) Do：上下文 ≤8K 的生产默认用 Transformer；不要为了“未来可扩展”提前引入 Hybrid，两套 kernel 与训练配方的维护成本通常抵不过收益 [26][11]。
2) Do：32K–256K 且吞吐敏感，优先从 1:3（SWA:Mamba）起步；SWA 把 attention 成本锁在窗口内，Mamba 负责线性吞吐，128K 训练吞吐有明确增益报告 [19][5]。
3) Do：>256K 且需要 MoE/容量，优先 1:7（attention:Mamba）+ MoE 的配方；把 attention 当作稀缺的全局交互层，工程上已有 256K 单卡 80GB 的可运行配置 [16]。
4) Don’t：把“训练 loss 追平”当作“长上下文可用”的证据；至少要在 L-Eval 或 needle/copying 类任务上验证中段与精确召回 [8][7]。
5) Don’t：在纯 Mamba/纯递推模型上指望精确召回自然追平；copying 与 ICL 的对照显示差距更像结构性偏置，需要显式的可寻址交互通道（少量 attention 或外部记忆）[13][14][15]。
6) Do：Hybrid 的 attention 形态优先 SWA/GQA/共享 attention，而不是 full attention；Zamba 的共享 attention block 提示“少量全局通道”比“更多 attention 层”更划算 [18][11]。
7) Do（open）：如果要押注 RWKV，用“流式/constant-memory 是硬约束”来定义成功指标，并补齐与 Hybrid 的同尺度 copying/needle 对照；目前证据不足以把它当作通用默认 [6][21]。
8) Do：把 kernel 选择当作一等公民：SSD 指出 SSM 与结构化掩码 attention 可对偶，优先选择 matmul-friendly 的实现路径来兑现吞吐，而不是只看理论复杂度 [17]。

悬而未决的问题

Q1.哪些 2024–2026 的 Hybrid LLM 工作用严格 ablation 直接支持 1:3 到 1:7 的 attention:SSM 层比例（同 token、同 compute、同上下文长度）？目前公开证据更多是“配方展示”，缺少系统扫描 [19][16]。
Q2.在同规模（例如 7B–14B）下，纯 Mamba、Hybrid、RWKV、Transformer 在 MQAR/copying/needle 上最强的 head-to-head 结果是什么？目前 copying 与 ICL 的证据偏“定性差距”，但缺少统一基准对齐 [13][8]。
Q3.哪些 RWKV 系列工作能证明 7B 级语言预训练在吞吐、质量、精确召回上的可复现表现，并给出与 Hybrid/Mamba 的直接对照？现有材料更像“可行性展示”，不足以支撑默认选型 [6]。
Q4.是否存在面向生产的研究，直接用质量/美元、延迟、服务吞吐在 32K–128K 上证明 Hybrid 优于纯 SSM（或反之）？当前公开论文更偏训练吞吐或单点配置展示 [19][17]。
Q5.在 128K+ 的 matched-compute 设置下，Transformer 的长上下文扩展（稀疏/近似/窗口 + 位置编码）与 Hybrid 的直接对照证据在哪里？现有工作分别覆盖“扩展方法”与“长上下文失败模式”，但缺少同台对打 [22][24][7]。

[1]
Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
[2]
Daniel Y. Fu, Tri Dao, Khaled K. Saab, Armin W. Thomas, Atri Rudra. Hungry Hungry Hippos: Towards Language Modeling with State Space Models. arXiv, 2022论文
[3]
Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
[4]
Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui. Mega: Moving Average Equipped Gated Attention. arXiv, 2022论文
[5]
Albert Gu, Tri Dao. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv, 2023论文
[6]
Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
[7]
Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
[8]
Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
[9]
Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. arXiv, 2023论文
[10]
Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás. Randomized Positional Encodings Boost Length Generalization of Transformers. arXiv, 2023论文
[11]
Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, et al.. Mistral 7B. arXiv, 2023论文
[12]
Tobias Katsch. GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling. arXiv, 2023论文
[13]
Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
[14]
Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
[15]
Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
[16]
Opher Lieber, Barak Lenz, Hagay Taitelbaum, Yoav Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
[17]
Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv, 2024论文
[18]
Paolo Glorioso, Quentin Anthony, Yury Tokpanov, Beren Millidge. Zamba: A Compact 7B SSM Hybrid Model. arXiv, 2024论文
[19]
Liliang Ren, Yang Dai, Yong Liu. Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling. arXiv, 2024论文
[20]
Eric Martin, Chris Cundy. Parallelizing Linear Recurrent Neural Nets Over Sequence Length. arXiv, 2017论文
[21]
William Merrill, Gail Weiss, Yoav Goldberg, Roy Schwartz, Noah A. Smith. A Formal Hierarchy of RNN Architectures. arXiv, 2020论文
[22]
Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. arXiv, 2020论文
[23]
Rewon Child, Scott Gray, Alec Radford, Ilya Sutskever. Generating Long Sequences with Sparse Transformers. arXiv, 2019论文
[24]
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
[25]
Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya. Reformer: The Efficient Transformer. arXiv, 2020论文
[26]
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention Is All You Need. NeurIPS, 2017论文
[27]
Yi Tay, Mostafa Dehghani, et al.. Long Range Arena: A Benchmark for Efficient Transformers. ICLR, 2021论文

论文列表

SSM 主线：从 S4 的数值稳定到 Mamba 的 selective 与 SSD(4)

聚焦 SSM 的关键工程化：S4 的 DPLR/HiPPO 解决长序列数值稳定；Mamba 用输入依赖的 selective 让 SSM 在语言预训练上接近 Transformer；SSD 把 SSM 与结构化掩码 attention 对偶化，解释为何 matmul-friendly kernel 能带来吞吐优势。

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu,Karan Goel,Christopher Ré2021年10月31日

把连续状态空间离散化并用 DPLR + HiPPO 把长序列训练从“数值爆炸/消失”拉回可控区间，给后续 SSM 在超长 L 上保持稳定梯度提供了可复用的参数化与初始化模板。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Albert Gu,Tri Dao2023年12月1日

用 selective（输入依赖的 A/B/C）把“固定滤波器”的 SSM 变成可按 token 动态门控的算子，并配合并行 scan kernel 把训练吞吐拉到可与 Transformer 竞争的区间，证明 7B 级预训练可行。

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Tri Dao,Albert Gu2024年5月31日

给出 SSD：SSM ⇔ 结构化掩码 attention 的对偶视角，把“scan vs matmul”的实现差异变成可交换的算法选择，从而解释为何某些 SSM kernel 能在同等精度下实现 2–8× 训练加速。

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

Daniel Y. Fu,Tri Dao,Khaled K. Saab,Armin W. Thomas,Atri Rudra2022年12月28日

把“SSM 在语言上落后”拆成两类原因：算子/硬件利用率与建模偏置不足，并用系统化实验提示：如果不解决 kernel 与并行化，理论 O(L) 很难转化为端到端吞吐优势。

Hybrid 配方：层比例、SWA/GQA 选择与 MoE 结合(4)

聚焦工业可复用的 Hybrid 设计：少量 attention 层用于离散检索与跨 token 路由；大量 SSM 层用于长上下文吞吐。对比 1:3（SWA:Mamba）与 1:7（attention:Mamba）+ MoE 的两条成熟路线，并补充早期 state-space augmented transformer 的桥接设计。

Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Liliang Ren,Yang Dai,Yong Liu2024年6月11日

把 attention 限制为 SWA 并以 1:3（SWA:Mamba）交替堆叠，给出“长上下文训练吞吐”可复现的工程增益：在 128K 上下文下训练速度约 4×，同时保持接近同级 Transformer 的下游表现。

Jamba: A Hybrid Transformer-Mamba Language Model

Opher Lieber,Barak Lenz,Hagay Taitelbaum,Yoav Dalmedigos2024年3月28日

用 1:7（attention:Mamba）把 attention 压到“只保留路由/检索功能”的数量级，并与 MoE 结合扩容量；同时给出 256K 上下文在单卡 80GB 运行的可操作配置，成为长上下文 + MoE 的参考配方。

Zamba: A Compact 7B SSM Hybrid Model

Paolo Glorioso,Quentin Anthony,Yury Tokpanov,Beren Millidge2024年5月26日

把 attention 的参数与计算进一步“稀释”：用一个共享 attention block 在多个层位复用，验证 Hybrid 的关键不是堆很多 attention，而是保留少量可全局交互的通道来补足精确召回与路由。

Efficient Long Sequence Modeling via State Space Augmented Transformer

Simiao Zuo,Xiaodong Liu,Jian Jiao,Denis Charles,Eren Manavoglu2022年12月15日

早期把 state space 当作 Transformer 的“长程记忆通道”进行增强，给出 Hybrid 的原型动机：让 attention 做稀疏的跨 token 交互，把大部分序列计算交给线性模块以降低长上下文成本。

长上下文评测与召回失败模式：copying、needle、Lost-in-the-Middle(4)

把“长上下文能不能用”从宣传口径拉回可测指标：精确召回/复制（copying、MQAR 类）、中段信息利用（Lost-in-the-Middle）、标准化长上下文基准（L-Eval）。这些评测往往决定纯 SSM 与 Hybrid 的边界，而不是困惑度。

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi,David Brandfonbrener,Sham M. Kakade,Eran Malach2024年2月1日

把争论钉在“精确复制/召回”上：在复制类任务中，Transformer 系列更容易学到近似离散检索的行为，而固定维度状态的 SSM 更容易出现模糊化与干扰累积，形成纯 SSM 的硬短板证据。

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu,Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua2023年7月6日

指出长上下文失败并非只发生在“太长装不下”，而是模型对中段信息的利用系统性变差；这类现象让“长上下文吞吐更快”与“长上下文可用”必须分开评估。

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

Jongho Park,Jaeseung Park,Zheyang Xiong,Nayoung Lee,Jaewoong Cho2024年2月6日

用 ICL 任务把“召回/路由不足”具体化：在需要从上下文中快速形成临时规则并调用的设置里，Mamba 往往落后同规模 Transformer，提示纯 SSM 的瓶颈不止是长度，而是离散选择能力。

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

Chenxin An,Shansan Gong,Ming Zhong,Xingjian Zhao,Mukai Li2023年7月20日

把长上下文评测从零散 demo 拉到可对比的基准集合，减少“不同长度/不同任务/不同提示”导致的不可比；对 Hybrid/SSM 的选型更接近工程需要：同等 token 成本下的可用性。

RWKV / 线性递推阵营：并行训练、门控递推与表达边界(4)

把 RWKV 放回更大的“可并行线性递推”谱系：从可并行线性 RNN 的理论与算子，到 GateLoop 这类数据控制递推，再到 RWKV 的 WKV 形式。核心问题是：它们在语言预训练上能否在质量与吞吐上同时与 Hybrid 竞争，以及在精确召回上是否有结构性短板。