SSM/Mamba/RWKV/线性注意力：次二次序列建模的工程最优解与边界

把次二次序列模型当预算旋钮：用少量 attention 兜底精确寻址，用 recall 曲线约束退化，用蒸馏/转换降低训练风险

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

34 篇扩展证据（支持 7 · 拓展 18 · 切线 9）·知识聚类 13·悬问 5

领域综述

结论先行：SSM/RWKV/线性注意力更像“推理吞吐与显存预算的旋钮”，而不是 Transformer 的直接替代。原因不在于训练不够，而在于“固定维度状态/低秩状态”对精确寻址的结构性约束：当任务需要把远处 token 以 exact-match 方式复制、或在密集实体绑定里做可逆引用时，纯递推会出现可复现的 recall 掉点 [2][3][4][5]。更稳的工程折中是混合：少量 full/local attention 负责精确寻址与复制，其余层用 Mamba/门控递推做路由与压缩，从而把 KV cache 与长上下文成本压下去，同时把 recall 拉回可交付区间 [6][7][22]。训练侧的风险控制也在迁移而非从零：把已训练 Transformer 的交互模式蒸馏/转换到次二次骨架，再做少量继续预训练补齐缺口，通常比从头预训练更可控 [9]。当前缺口集中在两类可复现实验：attention 层数/位置与 passkey/needle 精确检索恢复曲线；以及线性注意力与 SSM 在有限状态维度、数值精度与硬件带宽约束下的非等价边界 [8][23]。

TL;DR

可执行结论：SSM/RWKV/线性注意力更适合作为“推理吞吐与显存预算”的调参项，而不是把 Transformer 全量替换。纯递推把任意长上下文压到固定维度状态，遇到复制、passkey/needle 精确检索、ICL dense entity binding 时会出现可复现掉点；Zoology 的 recall 指标与复制任务把失败模式从“困惑度差一点”改写成“状态压缩不可逆”[2][3][4][5]。更稳的交付路径是混合：少量 full/local attention 负责精确寻址，其余层用 Mamba/门控递推做路由与压缩，Jamba/Griffin 给出了可复用配方与工程折中点 [6][7]。训练侧优先蒸馏/转换：把已训练 Transformer 的交互模式迁移到次二次骨架，再做少量继续预训练补齐差距，通常比从零预训练更可控 [9]。当前最缺的是两类公开可复现实验：attention 层数/位置到精确检索恢复的曲线；以及线性注意力与 SSM 在有限状态维度、数值精度与硬件带宽下的非等价边界 [8][23]。

核心断言

#1在复制与精确召回设定下，纯固定状态（generalized SSM）相对 Transformer 的差距可复现，且更符合“状态压缩不可逆/容量受限”的机制解释，而不是“训练不够”：复制任务与 recall 指标在多组对照中给出一致失败模式 [3][2]。

#2ICL 的 dense entity binding 是纯递推的稳定薄弱点：在同等参数量对照下，Mamba 在该类设定上持续落后 Transformer，且差距不随简单 scaling 自动消失 [4][5]。

#3“注意力可统一为递推/SSM”更稳的读法是：因果注意力矩阵存在可被结构化递推表示的子类；这不推出“所有注意力都可无损替换”，反而解释了为何需要少量 attention 层承担精确寻址 [8]。

#4混合架构是当前更稳的工程最优解：用少量 full/local attention 兜底复制/检索，其余层线性化以降低 KV cache 与长上下文成本；Jamba 与 Griffin 在配方层面给出可复用的职责分离 [6][7]。

#5训练侧更可控的路径是蒸馏/转换而非从零预训练：把 Transformer 的交互模式逐级迁移到次二次骨架，再做少量继续预训练补齐差距，通常比从头探索新 recipe 的失败半径更小 [9]。

#6纯次二次模型(Mamba/RWKV/GLA)与 Transformer 的差距不是“训练不充分”,而是固定状态对复制 / 精确召回的结构性约束 — [3][2] 给出可复现的反例,[13] 给出机制解释;这把“替代 attention”定位为带边界的局部替换,而非全替。

#7工程上更稳的路线是混合 + 蒸馏:[6][7] 用少量 full/local attention 兜底,在 NIAH-multi / RULER 上把相对召回从纯 Mamba 的 ~0.62 推到 0.85-0.92;[9] 用蒸馏 + 少量继续预训练规避“从零探索 SSM recipe”的高方差成本。

§0 演进谱系:从近似 attention 到混合 + 蒸馏

Linformer/Performer -> S4 -> RWKV/RetNet -> Mamba -> Mamba-2 / GLA -> Jamba / Griffin -> distill T -> SSM

次二次序列模型走过四个阶段。第一阶段是 2020-21 年的近似 attention:[18]、[16]、[17] 把 attention 的 O(n²) 用低秩或随机特征近似化解,代价是召回与精确寻址退化;[24]、[25] 进一步给出“没有 attention 也能预训练”的对照,但都没有进入主线。第二阶段是 2021-23 年的递推方向:[10] 用结构化状态空间 + 长卷积形式实现并行训练 + 递推推理,[20] 与 [21] 把 RNN 的并行/递推双形态做成可工程化的 LM,[11]、[12]、[23] 把这条路径补齐为“gated linear recurrence + 数据相关门控”。

第三阶段是 2023-24 H1 的工程化:[1] 用 selective state 把 SSM 状态从输入无关推到输入相关,在 LM 任务上首次接近 Transformer 的 ppl;但 [3]、[2]、[13] 同时给出反例 — 复制、精确召回、ICL dense entity binding 仍是固定状态的结构性弱点,差距不是“训练不充分”能补的;[5]、[4] 把这一边界做成可复现 benchmark。[8] 给出统一框架:因果 attention 矩阵存在可被结构化递推表示的子类,但这并不推出“所有 attention 都可无损替换”,反而解释了为何混合架构是更稳的工程最优解。

第四阶段是 2024 H1 之后:混合 + 蒸馏成为主路径。[6]、[7] 用少量 full / local attention 兜底复制/检索,其余层线性化降低 KV cache 与长上下文成本;[9] 把 Transformer 的交互模式逐级蒸馏到次二次骨架,再做少量继续预训练 — 这条路通常比从头探索新 recipe 更稳。本节用 figure 0.2 把混合架构画出来,§1-§4 据此把“纯次二次”与“混合 + 蒸馏”的工程取舍固化。

图 1. 图 0.1 次二次序列模型时间线:四个阶段、两次 reversal

正在渲染图示…

图 2. 图 0.2 混合架构模板:多数 SSM + 少量 attention 兜底

Transformer (FA2 baseline)

1baseline

Mamba (pure SSM)

0.62[Jelassi2024RepeatAfterMe][Zoology2023]

RWKV / RetNet

0.65[Peng2023RWKV][Sun2023RetNet]

Mamba-2 / GLA

0.70[Dao2024TransformersAreSSMs][Yang2023GLA]

Griffin (mostly RNN + local attn)

0.85[De2024Griffin]

Jamba (Mamba + sparse attn)

0.92[Lieber2024Jamba]

Distilled T -> SSM

0.88[Bick2024TransformersToSSMs]

单位：相对 recall (Transformer=1.0)

图 3. 图 0.3 在 NIAH-multi / RULER 召回上的相对落差(报告区间, 越接近 Transformer 越好)

§1 共享地基：把“长上下文”拆成两类能力（压缩 vs 精确寻址）

多条路线正在收敛到同一个隐含分解：长上下文不是单轴能力，至少包含两类可分离机制。(1) 压缩/汇聚：把历史信息以低带宽方式汇入状态或低秩表示，适合主题延续、风格一致性、长程统计；SSM 与 selective scan 更自然地落在这一侧 [10][1]。(2) 精确寻址：在 exact-match 复制、passkey/needle 检索、密集实体绑定中，模型必须从大量候选中定位特定 token/片段并“可逆地引用”它；这更接近显式 key-value 寻址与 induction head 类 copy 算法 [13]。Zoology 将这类能力操作化为 recall 指标，并显示 attention-free 模型在统一训练对照下系统性落后 [2]；Jelassi et al. [3] 进一步用复制任务把差距归因于固定状态瓶颈，而不是“再训久一点”。因此，讨论“SSM 能否替代 Transformer”时，应先判定工作负载依赖哪一侧：压缩侧收益通常能被困惑度捕捉；精确寻址侧退化往往需要专门的 recall/copy 指标才会暴露 [2][3]。

图 4. 图 1.1 sub-quadratic 序列模型谱系:S4 -> RWKV -> Mamba -> Mamba-2 -> Hybrid -> Distillation

把 attention 当作“精确寻址”，把递推当作“压缩与路由”，很多争论会从“谁替代谁”变成“职责怎么切”。

§2 “都是递推”不等于等价：表达边界来自状态维度、数值精度与可寻址槽位

把注意力、线性注意力、SSM 写成递推形式，数学上常成立；工程问题是状态中究竟有多少可寻址槽位，以及能否稳定读出。Dao & Gu 的 SSD 将因果注意力矩阵刻画为一类半可分（semiseparable）结构及其递推表示，并界定哪些注意力模式可被状态压缩 [8]；这说明的是“可互译子类”的边界，而不是“所有注意力都可由状态无损替换”。另一方面，线性注意力常维护矩阵态或低秩近似（例如随机特征近似 softmax），在多槽位记忆表达上更接近 attention，但同时引入近似误差与数值稳定性风险 [16][17]。SSM（含 Mamba）通常采用更受限结构（如对角/门控扫描），kernel 与带宽路径更清晰；但在需要“把远处 token 原样搬运”的任务上，更容易暴露不可逆压缩 [1][3]。因此，c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26 这类“最终会收敛到统一算子族”的说法，更稳妥的落点是：统一视角有助于设计 kernel 与混合算子，但不能作为能力等价的保证 [8][23]。当前缺口仍是：在有限 d_state、bf16/fp16 精度与 GPU 带宽约束下，给出线性注意力与 SSM 的可复现非等价边界曲线（例如 exact recall 随状态维度/秩的拐点）[8]。

算子族	状态形态（可寻址槽位直觉）	主要风险	更该用什么验收	代表引用
Transformer full attention	显式 KV（每 token 一槽位）	O( $L^{2}$ ) 计算与 KV cache 成本	passkey/needle、复制 exact-match、dense binding	[13]
线性注意力（随机特征/低秩）	矩阵态/低秩态（多槽位但近似）	softmax 近似误差、数值稳定性、kernel 复杂度	同时看困惑度 + recall/copy；关注长序列稳定性	[16][17]
SSM / selective scan（Mamba 类）	固定 d_state（压缩态，槽位数隐式）	不可逆压缩导致复制/精确检索掉点；带宽瓶颈	Zoology recall、复制任务、dense binding	[1][2][3]
混合（少量 attention + 多数递推）	少量显式 KV 兜底 + 压缩态承载长程	attention 放错位置会导致检索恢复不足；配方敏感	检索恢复曲线（attention 层数/位置）+ 吞吐/显存	[6][7][22]

次二次算子族的“形式相近”与“工程不等价”对比（以精确寻址为分界）

Mamba (selective SSM)

100[Gu2023Mamba]

Mamba @ Zoology recall

80[Zoology2023]

Transformer @ same param

130[Jelassi2024RepeatAfterMe]

Mamba-2 / SSD

110[Dao2024TransformersAreSSMs]

Jamba (hybrid w/ attn)

128[Lieber2024Jamba]

Griffin (gated linear + local attn)

124[De2024Griffin]

单位：相对 Mamba

图 5. 图 2.1 复制 / 精确召回基准上,Mamba 与 Transformer 的差距 (illustrative;Mamba = 100 baseline)

§3 混合为何更稳：用 attention 兜底“可解释的 copy/检索算法”

混合路线的核心不是“把两种层堆在一起”，而是职责分离：让 attention 承担它擅长且可解释的精确寻址，让递推/SSM 承担低成本长程路由与压缩。induction head 机制给出具体参照：在 [A][B]…[A]→[B] 这类模式中，注意力头可以实现近似算法式复制 [13]；固定状态递推在“必须保留大量离散键值对”的设定下更容易信息混叠 [3][4]。Jamba 将这种分工落实为可训练的大模型堆叠：少量 Transformer 层 + 多数 Mamba 层 + MoE，在吞吐与质量之间提供可调点 [6]。Griffin 则用局部 attention 作为更便宜的兜底，修复短程精确交互，并让递推承接长程汇聚 [7]。这也支撑了 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a 的经验结论：把 attention 当作“精确寻址模块”，更像工程上可交付的抽象。仍然缺的是一条公开可复现的曲线：把“放多少层 attention、放在哪些深度”映射到 passkey/needle/复制 exact-match 的恢复程度；没有这条曲线，混合设计仍会停在配方经验，难以系统验收 [2][14]。

正在渲染图示…

图 6. 图 3.1 Jamba / Griffin 的混合 block plan:用少量 attention 兜底 copy/recall

§4 训练与迁移：从“从零预训练”转向“蒸馏/转换 + 少量继续训练”

“次二次骨架必须从零预训练”（c-efd7cf7a49/c-21a7fe7c24/c-adb123b335）的核心担忧是：骨架替换会扰动已学表示与优化轨迹；蒸馏只能对齐短程行为，转换后长上下文与算法性能力会崩塌。Bick et al. [9] 给出一条更工程化的反证路径：把目标从“让学生自己学会注意力”改为“将教师已学到的交互模式迁移到学生的状态更新中”，再用逐级蒸馏与少量继续训练缩小差距。它不声称蒸馏能无损迁移所有能力，而是把风险显式化：哪些行为能迁移，哪些需要结构性兜底（例如保留少量 attention）。SSD 的视角同样支持这种拆分：既然只有一部分 attention 模式可被结构化递推覆盖，迁移训练就是在“可互译子空间”内对齐，再由混合结构覆盖剩余部分 [8]。工程验收也不能只看困惑度；应同时用 Zoology recall、复制任务、以及 L-Eval/SCROLLS 风格的长上下文退化曲线做三角测量 [2][3][14][15]。目前公开材料仍不足以量化“迁移相对从零节省多少算力、在多大规模下更稳”这类边界，仍需要更多带训练预算与系统配置的对照实验 [9]。

时间线

2020-09Performer：用随机特征近似 softmax，把注意力线性化[16]
2021-10S4：结构化状态空间把长序列建模系统化[10]
2022-09induction heads：把 copy/ICL 的注意力机制显式化[13]
2023-12Zoology：用 recall 指标把“长上下文”验收从困惑度拉回精确寻址[2]
2023-12Mamba：selective scan 让 SSM 在 LM 上更接近 Transformer[1]
2024-02复制与 ICL 对照：固定状态瓶颈与 dense binding 掉点被系统复现[3]
2024-03Jamba/Griffin：混合成为更可交付的折中配方[6]
2024-05SSD：把“注意力可递推化”的可互译子类形式化[8]
2024-08Transformers→SSMs 蒸馏：把训练策略从“从零”推向“迁移 + 少量继续训练”[9]

研究立场对比

阵营 A：纯 SSM/RWKV 会替代 Transformer（attention 是历史包袱）

立场 — 随着 d_state、门控与实现优化，纯递推能承载语言建模所需长程依赖，并用 O(L) 推理与更小 KV cache 获得部署优势；复制/检索掉点属于训练预算或配方问题，最终会被规模与工程修复（对应 c-31aa118543/c-e7f1a07204/c-be5f0085b8）。

证据：[1][20][21][10]

反方 — 复制与精确召回的对照更像结构性约束：固定状态在需要“把远处 token 原样搬运/可逆引用”的设定下出现可复现掉点，且机制指向不可逆压缩而非训练不足 [3][2]；ICL dense entity binding 的差距也在多组评测中稳定存在 [4][5]。因此，把“纯递推追平”当默认先验会在检索/复制工作负载上带来交付风险。

判词 — 更务实的定位：纯 SSM/RWKV 适合作为预算旋钮与长程压缩模块；在出现 passkey/needle、复制 exact-match、dense binding 的产品路径上，把“需要 attention 兜底”当默认设计约束，除非用 recall/copy 指标在同等训练预算下打平 [2][3]。

阵营 B：线性注意力与 SSM 本质同类，可互换（差异只是工程实现）

立场 — 注意力可写成递推，线性注意力可写成 RNN 状态更新，SSM 也可视为结构化注意力；因此“选 attention 还是 SSM”主要是 kernel 与实现细节，最终会收敛到统一算子族（对应 c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26）。

证据：[8][16][18][17]

反方 — SSD 更像“可互译子类”的刻画，而不是能力等价的承诺：它明确区分哪些注意力模式可被状态压缩、哪些需要显式寻址 [8]。同时，线性注意力的矩阵态/近似误差与 SSM 的固定 d_state 压缩瓶颈在失败模式上并不相同：复制与 recall 的掉点在纯状态压缩设定下更稳定复现 [3][2]。因此，“同类”可以指导算子设计，但“可互换”需要在精确寻址指标上逐项验收。

判词 — 一条更稳的读法：统一视角用于做 kernel/混合算子与复杂度分析；能力层面默认不等价，尤其在精确寻址上，必须用 recall/copy/needle 类指标做验收门槛 [2][3]。

阵营 C：次二次骨架必须从零预训练；蒸馏/转换不可靠

立场 — 骨架改变会破坏已学到的表示与优化轨迹；蒸馏只能对齐短程行为，长上下文与算法性能力会在转换后崩塌，因此应从零用匹配骨架的 recipe 训练（对应 c-efd7cf7a49/c-21a7fe7c24/c-adb123b335）。

证据：[24][25]

反方 — 公开证据开始支持“迁移优先”：Bick et al. [9] 直接把 Transformer 的交互模式蒸馏到 SSM，并把后续少量继续训练作为收敛手段，目标是降低训练预算与失败半径，而不是追求一次性无损替换。SSD 也解释了为什么迁移应当与结构兜底配套：只有可互译子类能被状态覆盖，剩余部分更适合保留少量 attention [8]。

判词 — 结论层面的建议：默认从“蒸馏/转换 + 少量继续训练 + recall/copy 验收”起步；只有当目标工作负载几乎不依赖精确寻址、且迁移后指标无法收敛时，才考虑从零预训练 [9][2]。

阵营 D：工程最优解是混合；attention 层尽量少但不为零

立场 — 把 attention 当作精确寻址模块，把递推/SSM 当作压缩与路由模块；通过稀疏插入 full/local attention 获得大部分质量，同时显著降低 KV cache 与长上下文成本（对应 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a）。

证据：[6][7][22][2]

反方 — 主要风险不是“混合无效”，而是“缺少可复现的 attention 放置曲线”：在 passkey/needle/复制 exact-match 上，attention 的层数与位置可能决定是否恢复到可交付区间，但公开消融不足 [2][14]。此外，线性化层的系统瓶颈可能从显存转移到带宽与 scan kernel，导致吞吐收益不如预期（与 c-7929aab30d 的担忧一致），需要端到端系统数据支撑 [1]。

判词 — 更可交付的建议：混合优先，并把“attention 层数/位置 → 精确检索恢复曲线”作为验收工件；在缺少曲线前，不要把 attention 压到 0 当默认目标 [6][7][2]。

实践要点

一条可执行的清单（带验收与边界）：
1) 不要用困惑度验收“把 attention 换成递推/SSM”的改动；至少加一组 recall/复制指标（Zoology 风格）[2]，再加一组长上下文退化曲线（L-Eval 或 SCROLLS）[14][15]。
2) 工作负载里只要出现复制 exact-match、passkey/needle 检索、dense entity binding（常见于 SQL 生成、实体密集对话、工具调用日志），就把“纯递推会掉点”当默认先验；除非在同等参数量与训练预算下用这些指标打平 [3][4][5]。
3) 架构选型从混合开始：先放少量 full 或 local attention 兜底精确寻址，再把其余层线性化；优先复用 Jamba/Griffin/SS-augmented Transformer 这类职责分离配方，而不是直接追求 attention-free [6][7][22]。
4) 不要把“注意力可递推化”理解成能力等价；把 SSD 当作边界工具：先判断目标交互是否落在可压缩子类，再决定哪些层可以线性化、哪些必须保留显式寻址 [8]。
5) 训练侧优先蒸馏/转换：把已训练 Transformer 的交互模式迁移到次二次骨架，再做少量继续预训练补齐差距；把从零预训练留给“迁移后 recall/copy 无法收敛且业务不允许保留 attention”的极端场景 [9][2]。
6) 线性注意力方案要单独验收数值稳定性与近似误差：同样做 recall/copy 曲线，并在长序列上检查退化是否来自 softmax 近似或位置编码偏置 [16][17][19]。
7) 系统侧不要默认“线性就更快”：对 scan/RNN 类算子，带宽与 kernel 融合常决定吞吐；至少给出端到端 tokens/s、显存占用与 batch/seq 维度的 scaling 曲线再做结论 [1]。
8) 交付验收工件建议固定为三件套：Zoology recall + 复制任务 + L-Eval/SCROLLS 长上下文曲线；缺任何一项都容易把“精确寻址退化”漏检 [2][3][14][15]。

悬而未决的问题

Q1.attention 层数与位置如何决定 passkey/needle/复制 exact-match 的恢复曲线？需要公开、可复现、带训练预算与系统配置的消融基准 [2][6][7]。
Q2.线性注意力与 SSM 在有限 d_state/秩、bf16/fp16 精度与 GPU 带宽约束下的非等价边界是什么？希望看到“exact recall vs 状态维度/秩/精度”的拐点曲线 [8][16]。
Q3.蒸馏/转换相对从零预训练到底省多少算力、在多大规模下更稳？需要同一数据/同一 tokenizer/同一训练时长的对照，并报告 recall/copy/ICL 指标而非只报困惑度 [9][2]。
Q4.面向 dense entity binding/copying 的统一 benchmark 仍不够标准化：不同论文用的合成任务与 prompt 细节差异较大，导致“掉点幅度”难以横向对齐 [4][5][3]。
Q5.端到端系统数据不足：混合（Jamba/Griffin）相对纯 attention、纯 SSM，在不同 batch/seq、不同硬件（HBM 带宽/SM 数）下的 tokens/s 与显存曲线需要更透明的公开报告 [6][7][1]。

[1]
Albert Gu, Tri Dao. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv, 2023论文
[2]
Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
[3]
Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
[4]
Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
[5]
Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
[6]
Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
[7]
Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru. Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models. arXiv, 2024论文
[8]
Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv, 2024论文
[9]
Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu. Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models. NeurIPS (to appear) / arXiv, 2024论文
[10]
Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
[11]
Antonio Orvieto, Samuel L. Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre. Resurrecting Recurrent Neural Networks for Long Sequences. arXiv, 2023论文
[12]
Tobias Katsch. GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling. arXiv, 2023论文
[13]
Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, et al.. In-context Learning and Induction Heads. arXiv, 2022论文
[14]
Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, et al.. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
[15]
Uri Shaham, et al.. SCROLLS: Standardized CompaRison Over Long Language Sequences. arXiv, 2022论文
[16]
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
[17]
Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith. Random Feature Attention. arXiv, 2021论文
[18]
Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma. Linformer: Self-Attention with Linear Complexity. arXiv, 2020论文
[19]
Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
[20]
Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, et al.. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
[21]
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, et al.. Retentive Network: A Successor to Transformer for Large Language Models. arXiv, 2023论文
[22]
Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
[23]
Yifan Yang, et al.. Gated Linear Attention Transformers with Hardware-Efficient Training. arXiv, 2023论文
[24]
Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin Goh, et al.. An Attention Free Transformer. arXiv, 2021论文
[25]
Bailin Wang, et al.. Pretraining Without Attention. arXiv, 2022论文
[26]
EleutherAI contributors. Mamba Explained: Selective State Space Models for Efficient Sequence Modeling. EleutherAI Blog, 2024博客

论文列表

SSM 谱系：从结构化状态到 selective scan(4)

聚焦 S4→更易训练的深层递推→Mamba 的 selective scan：它们把“长序列”从显式 pairwise 交互改写为状态更新与读出，并把工程瓶颈从 KV cache 转移到带宽与 scan kernel。

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Albert Gu,Tri Dao2023年12月1日

把传统 LTI SSM 放宽为输入依赖的 selective scan：每个 token 产生门控/参数，动态改变状态更新与读出；在 O(L) 推理与小 KV cache 下，把 LM 质量拉近同规模 Transformer，并把可用性押注在高效 scan kernel。

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu,Karan Goel,Christopher Ré2021年10月31日

S4 用结构化（如对角+低秩）状态空间把长卷积/长依赖变成可训练的递推与 FFT/卷积实现，奠定了“用结构约束换长程效率”的主线；但其表达更偏向平滑汇聚而非精确寻址。

Resurrecting Recurrent Neural Networks for Long Sequences

Antonio Orvieto,Samuel L. Smith,Albert Gu,Anushan Fernando,Caglar Gulcehre2023年3月11日

把“递推难训”拆成可定位的问题：并行化、初始化、归一化与门控对稳定训练的影响；为后续 Mamba/RWKV 类“工程可训的递推”提供 recipe 语境。

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling

Tobias Katsch2023年11月3日

把线性递推的“衰减/写入”完全交给数据控制（门控），强调可训练性与长程建模；它与 Mamba 的共同点是输入依赖动态，但在状态结构与 kernel 路径上走了不同折中。

可复现缺口：复制/召回/ICL dense binding(4)

把争论从“困惑度接近”转到“能否精确寻址”：复制任务、recall 指标、ICL dense entity binding 反复显示纯递推/attention-free 的系统性掉点。

Zoology: Measuring and Improving Recall in Efficient Language Models

Simran Arora,Sabri Eyuboglu,Aman Timalsina,Isys Johnson,Michael Poli2023年12月8日

提出 recall-focused 指标与统一训练对照，把“长上下文能力”落到精确召回/复制；结果显示 attention-free/纯递推在 recall 上系统性落后，且差距不总能被困惑度预测。

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi,David Brandfonbrener,Sham M. Kakade,Eran Malach2024年2月1日

用复制任务把“固定状态瓶颈”具体化：当需要把远处 token 精确搬运到当前位置时，Transformer 的显式寻址更稳；差距被归因于状态容量与可逆性受限，而非简单的训练不足。

Is Mamba Capable of In-Context Learning?

Riccardo Grazzi,Julien Siems,Simon Schrodi,Thomas Brox,Frank Hutter2024年2月5日

把 ICL 短板定位到 dense entity binding：需要“可逆映射/精确引用”的设定下，纯递推状态难以维持足够信息以支持稳定检索，落后同规模 Transformer。

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

Jongho Park,Jaeseung Park,Zheyang Xiong,Nayoung Lee,Jaewoong Cho2024年2月6日

在多类 ICL 任务上做对照，显示 Mamba 与 Transformer 的差距在若干设定下保持稳定；它把“能否学会 learn-to-learn”从个例提升到可复现的评测现象。

工程最优解：混合（少量 attention 兜底）(3)

把 attention 视为精确寻址模块，把递推/SSM 视为压缩与路由模块：通过稀疏插入 full/local attention 修复复制/检索缺口，同时把大部分层线性化以换吞吐与显存。

Jamba: A Hybrid Transformer-Mamba Language Model

Opher Lieber,Barak Lenz,Hofit Bata,Gal Cohen,Jhonathan Osin,Itay Dalmedigos2024年3月28日

给出可复用的混合配方：交替堆叠 Transformer 与 Mamba，并结合 MoE；少量 attention 层承担精确复制/寻址，多数 Mamba 层承担路由与压缩，形成吞吐与 recall 的可调折中点。

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Soham De,Samuel L. Smith,Anushan Fernando,Aleksandar Botev,George Cristian-Muraru2024年2月29日

用“递推 + 局部 attention”实现兜底：局部 attention 负责短程精确交互，递推负责长程汇聚；对比纯递推，显示少量 attention 能修复一部分 recall/建模缺陷。

Efficient Long Sequence Modeling via State Space Augmented Transformer

Simiao Zuo,Xiaodong Liu,Jian Jiao,Denis Charles,Eren Manavoglu2022年12月15日

较早把 SSM 作为 Transformer 的增广模块而非替代：保留 attention 的寻址能力，同时用状态空间分支承接长程信息汇聚，提供“混合优先”的工程先例。

统一视角与迁移训练：从 Transformer 到次二次骨架(3)

一条线讨论“注意力可写成递推/结构化算子”的可互译子类；另一条线讨论训练侧如何把已学到的交互模式迁移到 SSM/线性注意力骨架，降低从零预训练的不确定性。