📚Papers

SSM/Mamba/RWKV/线性注意力:次二次序列建模的工程最优解与边界

把次二次序列模型当预算旋钮:用少量 attention 兜底精确寻址,用 recall 曲线约束退化,用蒸馏/转换降低训练风险

14 篇论文·2026年4月21日

作者@Thor·gpt-5.2

34 篇扩展证据(支持 7 · 拓展 18 · 切线 9)·知识聚类 13·悬问 5

领域综述

结论先行:SSM/RWKV/线性注意力更像“推理吞吐与显存预算的旋钮”,而不是 Transformer 的直接替代。原因不在于训练不够,而在于“固定维度状态/低秩状态”对精确寻址的结构性约束:当任务需要把远处 token 以 exact-match 方式复制、或在密集实体绑定里做可逆引用时,纯递推会出现可复现的 recall 掉点 [2][3][4][5]。更稳的工程折中是混合:少量 full/local attention 负责精确寻址与复制,其余层用 Mamba/门控递推做路由与压缩,从而把 KV cache 与长上下文成本压下去,同时把 recall 拉回可交付区间 [6][7][22]。训练侧的风险控制也在迁移而非从零:把已训练 Transformer 的交互模式蒸馏/转换到次二次骨架,再做少量继续预训练补齐缺口,通常比从头预训练更可控 [9]。当前缺口集中在两类可复现实验:attention 层数/位置与 passkey/needle 精确检索恢复曲线;以及线性注意力与 SSM 在有限状态维度、数值精度与硬件带宽约束下的非等价边界 [8][23]

TL;DR

可执行结论:SSM/RWKV/线性注意力更适合作为“推理吞吐与显存预算”的调参项,而不是把 Transformer 全量替换。纯递推把任意长上下文压到固定维度状态,遇到复制、passkey/needle 精确检索、ICL dense entity binding 时会出现可复现掉点;Zoology 的 recall 指标与复制任务把失败模式从“困惑度差一点”改写成“状态压缩不可逆”[2][3][4][5]。更稳的交付路径是混合:少量 full/local attention 负责精确寻址,其余层用 Mamba/门控递推做路由与压缩,Jamba/Griffin 给出了可复用配方与工程折中点 [6][7]。训练侧优先蒸馏/转换:把已训练 Transformer 的交互模式迁移到次二次骨架,再做少量继续预训练补齐差距,通常比从零预训练更可控 [9]。当前最缺的是两类公开可复现实验:attention 层数/位置到精确检索恢复的曲线;以及线性注意力与 SSM 在有限状态维度、数值精度与硬件带宽下的非等价边界 [8][23]

核心断言

#1在复制与精确召回设定下,纯固定状态(generalized SSM)相对 Transformer 的差距可复现,且更符合“状态压缩不可逆/容量受限”的机制解释,而不是“训练不够”:复制任务与 recall 指标在多组对照中给出一致失败模式 [3][2]
#2ICL 的 dense entity binding 是纯递推的稳定薄弱点:在同等参数量对照下,Mamba 在该类设定上持续落后 Transformer,且差距不随简单 scaling 自动消失 [4][5]
#3“注意力可统一为递推/SSM”更稳的读法是:因果注意力矩阵存在可被结构化递推表示的子类;这不推出“所有注意力都可无损替换”,反而解释了为何需要少量 attention 层承担精确寻址 [8]
#4混合架构是当前更稳的工程最优解:用少量 full/local attention 兜底复制/检索,其余层线性化以降低 KV cache 与长上下文成本;Jamba 与 Griffin 在配方层面给出可复用的职责分离 [6][7]
#5训练侧更可控的路径是蒸馏/转换而非从零预训练:把 Transformer 的交互模式逐级迁移到次二次骨架,再做少量继续预训练补齐差距,通常比从头探索新 recipe 的失败半径更小 [9]
#6纯次二次模型(Mamba/RWKV/GLA)与 Transformer 的差距不是“训练不充分”,而是固定状态对复制 / 精确召回的结构性约束 — [3][2] 给出可复现的反例,[13] 给出机制解释;这把“替代 attention”定位为带边界的局部替换,而非全替。
#7工程上更稳的路线是混合 + 蒸馏:[6][7] 用少量 full/local attention 兜底,在 NIAH-multi / RULER 上把相对召回从纯 Mamba 的 ~0.62 推到 0.85-0.92;[9] 用蒸馏 + 少量继续预训练规避“从零探索 SSM recipe”的高方差成本。

§0 演进谱系:从近似 attention 到混合 + 蒸馏

Linformer/Performer -> S4 -> RWKV/RetNet -> Mamba -> Mamba-2 / GLA -> Jamba / Griffin -> distill T -> SSM

次二次序列模型走过四个阶段。第一阶段是 2020-21 年的近似 attention:[18][16][17] 把 attention 的 O(n²) 用低秩或随机特征近似化解,代价是召回与精确寻址退化;[24][25] 进一步给出“没有 attention 也能预训练”的对照,但都没有进入主线。第二阶段是 2021-23 年的递推方向:[10] 用结构化状态空间 + 长卷积形式实现并行训练 + 递推推理,[20][21] 把 RNN 的并行/递推双形态做成可工程化的 LM,[11][12][23] 把这条路径补齐为“gated linear recurrence + 数据相关门控”。

第三阶段是 2023-24 H1 的工程化:[1] 用 selective state 把 SSM 状态从输入无关推到输入相关,在 LM 任务上首次接近 Transformer 的 ppl;但 [3][2][13] 同时给出反例 — 复制、精确召回、ICL dense entity binding 仍是固定状态的结构性弱点,差距不是“训练不充分”能补的;[5][4] 把这一边界做成可复现 benchmark。[8] 给出统一框架:因果 attention 矩阵存在可被结构化递推表示的子类,但这并不推出“所有 attention 都可无损替换”,反而解释了为何混合架构是更稳的工程最优解。

第四阶段是 2024 H1 之后:混合 + 蒸馏成为主路径。[6][7] 用少量 full / local attention 兜底复制/检索,其余层线性化降低 KV cache 与长上下文成本;[9] 把 Transformer 的交互模式逐级蒸馏到次二次骨架,再做少量继续预训练 — 这条路通常比从头探索新 recipe 更稳。本节用 figure 0.2 把混合架构画出来,§1-§4 据此把“纯次二次”与“混合 + 蒸馏”的工程取舍固化。

Sub-quadratic sequence models: from S4 to hybrids that admit attention as a budget knob Top: representative architecture. Bottom: capability the design conceded or gained. 2020 2021 2023 H1 2023 H2 2024 H1 2024 H1 2024 H2 Linformer / Performer S4 RWKV / RetNet Mamba Mamba-2 / GLA Jamba / Griffin Distill T -> SSM [Wang2020Linformer][Choromanski2020Performer] [Gu2021S4] [Peng2023RWKV][Sun2023RetNet] [Gu2023Mamba] [Dao2024TransformersAreSSMs][Yang2023GLA] [Lieber2024Jamba][De2024Griffin] [Bick2024TransformersToSSMs] linear attention long convolution RNN with parallel form selective state SSM = matmul-friendly + local/global attn distill not pretrain conceded recall no input-conditioned state parallel + recurrent copy still weak parity with FA recall via attn-bypass cheap conversion Architecture milestone Capability traded or gained at that stage
图 1. 图 0.1 次二次序列模型时间线:四个阶段、两次 reversal
正在渲染图示…
图 2. 图 0.2 混合架构模板:多数 SSM + 少量 attention 兜底
Transformer (FA2 baseline)
1baseline
Mamba (pure SSM)
0.62[Jelassi2024RepeatAfterMe][Zoology2023]
RWKV / RetNet
0.65[Peng2023RWKV][Sun2023RetNet]
Mamba-2 / GLA
0.70[Dao2024TransformersAreSSMs][Yang2023GLA]
Griffin (mostly RNN + local attn)
0.85[De2024Griffin]
Jamba (Mamba + sparse attn)
0.92[Lieber2024Jamba]
Distilled T -> SSM
0.88[Bick2024TransformersToSSMs]
单位:相对 recall (Transformer=1.0)
图 3. 图 0.3 在 NIAH-multi / RULER 召回上的相对落差(报告区间, 越接近 Transformer 越好)

§1 共享地基:把“长上下文”拆成两类能力(压缩 vs 精确寻址)

多条路线正在收敛到同一个隐含分解:长上下文不是单轴能力,至少包含两类可分离机制。(1) 压缩/汇聚:把历史信息以低带宽方式汇入状态或低秩表示,适合主题延续、风格一致性、长程统计;SSM 与 selective scan 更自然地落在这一侧 [10][1]。(2) 精确寻址:在 exact-match 复制、passkey/needle 检索、密集实体绑定中,模型必须从大量候选中定位特定 token/片段并“可逆地引用”它;这更接近显式 key-value 寻址与 induction head 类 copy 算法 [13]。Zoology 将这类能力操作化为 recall 指标,并显示 attention-free 模型在统一训练对照下系统性落后 [2];Jelassi et al. [3] 进一步用复制任务把差距归因于固定状态瓶颈,而不是“再训久一点”。因此,讨论“SSM 能否替代 Transformer”时,应先判定工作负载依赖哪一侧:压缩侧收益通常能被困惑度捕捉;精确寻址侧退化往往需要专门的 recall/copy 指标才会暴露 [2][3]

Sub-quadratic sequence model lineage: from S4 to selective SSM to hybrids Top: a representative sub-quadratic recipe. Bottom: the recall / ICL gap that the next step is patching. 2020 2021 2023 2023 2024 H1 2024 Mid 2024 H2 Linear / Performer S4 RWKV Mamba (selective SSM) Mamba-2 / SSD Jamba / Griffin SSM distillation [Wang2020Linformer][Choromanski2020Performer] [Gu2021S4] [Peng2023RWKV] [Gu2023Mamba] [Dao2024TransformersAreSSMs] [Lieber2024Jamba][De2024Griffin] [Bick2024TransformersToSSMs] recall ceiling stability + length ICL still weak selective state duality with attention attention bridges gap migrate w/o pretrain cheap kernel, weak copy structured Toeplitz recurrent kernel data-dependent ~SSM <-> attention few full attn layers distill from xfmr
图 4. 图 1.1 sub-quadratic 序列模型谱系:S4 -> RWKV -> Mamba -> Mamba-2 -> Hybrid -> Distillation
把 attention 当作“精确寻址”,把递推当作“压缩与路由”,很多争论会从“谁替代谁”变成“职责怎么切”。

§2 “都是递推”不等于等价:表达边界来自状态维度、数值精度与可寻址槽位

把注意力、线性注意力、SSM 写成递推形式,数学上常成立;工程问题是状态中究竟有多少可寻址槽位,以及能否稳定读出。Dao & Gu 的 SSD 将因果注意力矩阵刻画为一类半可分(semiseparable)结构及其递推表示,并界定哪些注意力模式可被状态压缩 [8];这说明的是“可互译子类”的边界,而不是“所有注意力都可由状态无损替换”。另一方面,线性注意力常维护矩阵态或低秩近似(例如随机特征近似 softmax),在多槽位记忆表达上更接近 attention,但同时引入近似误差与数值稳定性风险 [16][17]。SSM(含 Mamba)通常采用更受限结构(如对角/门控扫描),kernel 与带宽路径更清晰;但在需要“把远处 token 原样搬运”的任务上,更容易暴露不可逆压缩 [1][3]。因此,c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26 这类“最终会收敛到统一算子族”的说法,更稳妥的落点是:统一视角有助于设计 kernel 与混合算子,但不能作为能力等价的保证 [8][23]。当前缺口仍是:在有限 d_state、bf16/fp16 精度与 GPU 带宽约束下,给出线性注意力与 SSM 的可复现非等价边界曲线(例如 exact recall 随状态维度/秩的拐点)[8]

算子族状态形态(可寻址槽位直觉)主要风险更该用什么验收代表引用
Transformer full attention

显式 KV(每 token 一槽位)

O() 计算与 KV cache 成本

passkey/needle、复制 exact-match、dense binding

线性注意力(随机特征/低秩)

矩阵态/低秩态(多槽位但近似)

softmax 近似误差、数值稳定性、kernel 复杂度

同时看困惑度 + recall/copy;关注长序列稳定性

SSM / selective scan(Mamba 类)

固定 d_state(压缩态,槽位数隐式)

不可逆压缩导致复制/精确检索掉点;带宽瓶颈

Zoology recall、复制任务、dense binding

混合(少量 attention + 多数递推)

少量显式 KV 兜底 + 压缩态承载长程

attention 放错位置会导致检索恢复不足;配方敏感

检索恢复曲线(attention 层数/位置)+ 吞吐/显存

次二次算子族的“形式相近”与“工程不等价”对比(以精确寻址为分界)
Mamba (selective SSM)
100[Gu2023Mamba]
Mamba @ Zoology recall
80[Zoology2023]
Transformer @ same param
130[Jelassi2024RepeatAfterMe]
Mamba-2 / SSD
110[Dao2024TransformersAreSSMs]
Jamba (hybrid w/ attn)
128[Lieber2024Jamba]
Griffin (gated linear + local attn)
124[De2024Griffin]
单位:相对 Mamba
图 5. 图 2.1 复制 / 精确召回基准上,Mamba 与 Transformer 的差距 (illustrative;Mamba = 100 baseline)

§3 混合为何更稳:用 attention 兜底“可解释的 copy/检索算法”

混合路线的核心不是“把两种层堆在一起”,而是职责分离:让 attention 承担它擅长且可解释的精确寻址,让递推/SSM 承担低成本长程路由与压缩。induction head 机制给出具体参照:在 [A][B][A][B] 这类模式中,注意力头可以实现近似算法式复制 [13];固定状态递推在“必须保留大量离散键值对”的设定下更容易信息混叠 [3][4]。Jamba 将这种分工落实为可训练的大模型堆叠:少量 Transformer 层 + 多数 Mamba 层 + MoE,在吞吐与质量之间提供可调点 [6]。Griffin 则用局部 attention 作为更便宜的兜底,修复短程精确交互,并让递推承接长程汇聚 [7]。这也支撑了 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a 的经验结论:把 attention 当作“精确寻址模块”,更像工程上可交付的抽象。仍然缺的是一条公开可复现的曲线:把“放多少层 attention、放在哪些深度”映射到 passkey/needle/复制 exact-match 的恢复程度;没有这条曲线,混合设计仍会停在配方经验,难以系统验收 [2][14]

正在渲染图示…
图 6. 图 3.1 Jamba / Griffin 的混合 block plan:用少量 attention 兜底 copy/recall

§4 训练与迁移:从“从零预训练”转向“蒸馏/转换 + 少量继续训练”

“次二次骨架必须从零预训练”(c-efd7cf7a49/c-21a7fe7c24/c-adb123b335)的核心担忧是:骨架替换会扰动已学表示与优化轨迹;蒸馏只能对齐短程行为,转换后长上下文与算法性能力会崩塌。Bick et al. [9] 给出一条更工程化的反证路径:把目标从“让学生自己学会注意力”改为“将教师已学到的交互模式迁移到学生的状态更新中”,再用逐级蒸馏与少量继续训练缩小差距。它不声称蒸馏能无损迁移所有能力,而是把风险显式化:哪些行为能迁移,哪些需要结构性兜底(例如保留少量 attention)。SSD 的视角同样支持这种拆分:既然只有一部分 attention 模式可被结构化递推覆盖,迁移训练就是在“可互译子空间”内对齐,再由混合结构覆盖剩余部分 [8]。工程验收也不能只看困惑度;应同时用 Zoology recall、复制任务、以及 L-Eval/SCROLLS 风格的长上下文退化曲线做三角测量 [2][3][14][15]。目前公开材料仍不足以量化“迁移相对从零节省多少算力、在多大规模下更稳”这类边界,仍需要更多带训练预算与系统配置的对照实验 [9]

时间线

  1. Performer:用随机特征近似 softmax,把注意力线性化[16]
  2. S4:结构化状态空间把长序列建模系统化[10]
  3. induction heads:把 copy/ICL 的注意力机制显式化[13]
  4. Zoology:用 recall 指标把“长上下文”验收从困惑度拉回精确寻址[2]
  5. Mamba:selective scan 让 SSM 在 LM 上更接近 Transformer[1]
  6. 复制与 ICL 对照:固定状态瓶颈与 dense binding 掉点被系统复现[3]
  7. Jamba/Griffin:混合成为更可交付的折中配方[6]
  8. SSD:把“注意力可递推化”的可互译子类形式化[8]
  9. Transformers→SSMs 蒸馏:把训练策略从“从零”推向“迁移 + 少量继续训练”[9]

研究立场对比

阵营 A:纯 SSM/RWKV 会替代 Transformer(attention 是历史包袱)

立场 — 随着 d_state、门控与实现优化,纯递推能承载语言建模所需长程依赖,并用 O(L) 推理与更小 KV cache 获得部署优势;复制/检索掉点属于训练预算或配方问题,最终会被规模与工程修复(对应 c-31aa118543/c-e7f1a07204/c-be5f0085b8)。

证据:[1][20][21][10]

反方 — 复制与精确召回的对照更像结构性约束:固定状态在需要“把远处 token 原样搬运/可逆引用”的设定下出现可复现掉点,且机制指向不可逆压缩而非训练不足 [3][2];ICL dense entity binding 的差距也在多组评测中稳定存在 [4][5]。因此,把“纯递推追平”当默认先验会在检索/复制工作负载上带来交付风险。

判词 — 更务实的定位:纯 SSM/RWKV 适合作为预算旋钮与长程压缩模块;在出现 passkey/needle、复制 exact-match、dense binding 的产品路径上,把“需要 attention 兜底”当默认设计约束,除非用 recall/copy 指标在同等训练预算下打平 [2][3]

阵营 B:线性注意力与 SSM 本质同类,可互换(差异只是工程实现)

立场 — 注意力可写成递推,线性注意力可写成 RNN 状态更新,SSM 也可视为结构化注意力;因此“选 attention 还是 SSM”主要是 kernel 与实现细节,最终会收敛到统一算子族(对应 c-3a450c2a22/c-3235d9c3b4/c-eef2f40e26)。

证据:[8][16][18][17]

反方 — SSD 更像“可互译子类”的刻画,而不是能力等价的承诺:它明确区分哪些注意力模式可被状态压缩、哪些需要显式寻址 [8]。同时,线性注意力的矩阵态/近似误差与 SSM 的固定 d_state 压缩瓶颈在失败模式上并不相同:复制与 recall 的掉点在纯状态压缩设定下更稳定复现 [3][2]。因此,“同类”可以指导算子设计,但“可互换”需要在精确寻址指标上逐项验收。

判词 — 一条更稳的读法:统一视角用于做 kernel/混合算子与复杂度分析;能力层面默认不等价,尤其在精确寻址上,必须用 recall/copy/needle 类指标做验收门槛 [2][3]

阵营 C:次二次骨架必须从零预训练;蒸馏/转换不可靠

立场 — 骨架改变会破坏已学到的表示与优化轨迹;蒸馏只能对齐短程行为,长上下文与算法性能力会在转换后崩塌,因此应从零用匹配骨架的 recipe 训练(对应 c-efd7cf7a49/c-21a7fe7c24/c-adb123b335)。

证据:[24][25]

反方 — 公开证据开始支持“迁移优先”:Bick et al. [9] 直接把 Transformer 的交互模式蒸馏到 SSM,并把后续少量继续训练作为收敛手段,目标是降低训练预算与失败半径,而不是追求一次性无损替换。SSD 也解释了为什么迁移应当与结构兜底配套:只有可互译子类能被状态覆盖,剩余部分更适合保留少量 attention [8]

判词 — 结论层面的建议:默认从“蒸馏/转换 + 少量继续训练 + recall/copy 验收”起步;只有当目标工作负载几乎不依赖精确寻址、且迁移后指标无法收敛时,才考虑从零预训练 [9][2]

阵营 D:工程最优解是混合;attention 层尽量少但不为零

立场 — 把 attention 当作精确寻址模块,把递推/SSM 当作压缩与路由模块;通过稀疏插入 full/local attention 获得大部分质量,同时显著降低 KV cache 与长上下文成本(对应 c-39725ffed3/c-6596e53ee5/c-cc72e2b32a)。

证据:[6][7][22][2]

反方 — 主要风险不是“混合无效”,而是“缺少可复现的 attention 放置曲线”:在 passkey/needle/复制 exact-match 上,attention 的层数与位置可能决定是否恢复到可交付区间,但公开消融不足 [2][14]。此外,线性化层的系统瓶颈可能从显存转移到带宽与 scan kernel,导致吞吐收益不如预期(与 c-7929aab30d 的担忧一致),需要端到端系统数据支撑 [1]

判词 — 更可交付的建议:混合优先,并把“attention 层数/位置 → 精确检索恢复曲线”作为验收工件;在缺少曲线前,不要把 attention 压到 0 当默认目标 [6][7][2]

实践要点

一条可执行的清单(带验收与边界):
1) 不要用困惑度验收“把 attention 换成递推/SSM”的改动;至少加一组 recall/复制指标(Zoology 风格)[2],再加一组长上下文退化曲线(L-Eval 或 SCROLLS)[14][15]
2) 工作负载里只要出现复制 exact-match、passkey/needle 检索、dense entity binding(常见于 SQL 生成、实体密集对话、工具调用日志),就把“纯递推会掉点”当默认先验;除非在同等参数量与训练预算下用这些指标打平 [3][4][5]
3) 架构选型从混合开始:先放少量 full 或 local attention 兜底精确寻址,再把其余层线性化;优先复用 Jamba/Griffin/SS-augmented Transformer 这类职责分离配方,而不是直接追求 attention-free [6][7][22]
4) 不要把“注意力可递推化”理解成能力等价;把 SSD 当作边界工具:先判断目标交互是否落在可压缩子类,再决定哪些层可以线性化、哪些必须保留显式寻址 [8]
5) 训练侧优先蒸馏/转换:把已训练 Transformer 的交互模式迁移到次二次骨架,再做少量继续预训练补齐差距;把从零预训练留给“迁移后 recall/copy 无法收敛且业务不允许保留 attention”的极端场景 [9][2]
6) 线性注意力方案要单独验收数值稳定性与近似误差:同样做 recall/copy 曲线,并在长序列上检查退化是否来自 softmax 近似或位置编码偏置 [16][17][19]
7) 系统侧不要默认“线性就更快”:对 scan/RNN 类算子,带宽与 kernel 融合常决定吞吐;至少给出端到端 tokens/s、显存占用与 batch/seq 维度的 scaling 曲线再做结论 [1]
8) 交付验收工件建议固定为三件套:Zoology recall + 复制任务 + L-Eval/SCROLLS 长上下文曲线;缺任何一项都容易把“精确寻址退化”漏检 [2][3][14][15]

悬而未决的问题

  • Q1.attention 层数与位置如何决定 passkey/needle/复制 exact-match 的恢复曲线?需要公开、可复现、带训练预算与系统配置的消融基准 [2][6][7]
  • Q2.线性注意力与 SSM 在有限 d_state/秩、bf16/fp16 精度与 GPU 带宽约束下的非等价边界是什么?希望看到“exact recall vs 状态维度/秩/精度”的拐点曲线 [8][16]
  • Q3.蒸馏/转换相对从零预训练到底省多少算力、在多大规模下更稳?需要同一数据/同一 tokenizer/同一训练时长的对照,并报告 recall/copy/ICL 指标而非只报困惑度 [9][2]
  • Q4.面向 dense entity binding/copying 的统一 benchmark 仍不够标准化:不同论文用的合成任务与 prompt 细节差异较大,导致“掉点幅度”难以横向对齐 [4][5][3]
  • Q5.端到端系统数据不足:混合(Jamba/Griffin)相对纯 attention、纯 SSM,在不同 batch/seq、不同硬件(HBM 带宽/SM 数)下的 tokens/s 与显存曲线需要更透明的公开报告 [6][7][1]
  1. [1]
  2. [2]
    Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli. Zoology: Measuring and Improving Recall in Efficient Language Models. arXiv, 2023论文
  3. [3]
    Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach. Repeat After Me: Transformers are Better than State Space Models at Copying. arXiv, 2024论文
  4. [4]
    Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter. Is Mamba Capable of In-Context Learning?. arXiv, 2024论文
  5. [5]
    Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho. Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks. arXiv, 2024论文
  6. [6]
    Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024论文
  7. [7]
    Soham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru. Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models. arXiv, 2024论文
  8. [8]
  9. [9]
    Aviv Bick, Kevin Y. Li, Eric P. Xing, J. Zico Kolter, Albert Gu. Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models. NeurIPS (to appear) / arXiv, 2024论文
  10. [10]
    Albert Gu, Karan Goel, Christopher Ré. Efficiently Modeling Long Sequences with Structured State Spaces. arXiv, 2021论文
  11. [11]
    Antonio Orvieto, Samuel L. Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre. Resurrecting Recurrent Neural Networks for Long Sequences. arXiv, 2023论文
  12. [12]
  13. [13]
    Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, et al.. In-context Learning and Induction Heads. arXiv, 2022论文
  14. [14]
    Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, et al.. L-Eval: Instituting Standardized Evaluation for Long Context Language Models. arXiv, 2023论文
  15. [15]
  16. [16]
    Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, et al.. Rethinking Attention with Performers. arXiv, 2020论文
  17. [17]
    Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith. Random Feature Attention. arXiv, 2021论文
  18. [18]
    Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma. Linformer: Self-Attention with Linear Complexity. arXiv, 2020论文
  19. [19]
    Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv, 2021论文
  20. [20]
    Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, et al.. RWKV: Reinventing RNNs for the Transformer Era. arXiv, 2023论文
  21. [21]
    Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, et al.. Retentive Network: A Successor to Transformer for Large Language Models. arXiv, 2023论文
  22. [22]
    Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu. Efficient Long Sequence Modeling via State Space Augmented Transformer. arXiv, 2022论文
  23. [23]
  24. [24]
    Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin Goh, et al.. An Attention Free Transformer. arXiv, 2021论文
  25. [25]
    Bailin Wang, et al.. Pretraining Without Attention. arXiv, 2022论文
  26. [26]
    EleutherAI contributors. Mamba Explained: Selective State Space Models for Efficient Sequence Modeling. EleutherAI Blog, 2024博客

论文列表

SSM 谱系:从结构化状态到 selective scan(4)

聚焦 S4→更易训练的深层递推→Mamba 的 selective scan:它们把“长序列”从显式 pairwise 交互改写为状态更新与读出,并把工程瓶颈从 KV cache 转移到带宽与 scan kernel。

10

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Albert Gu,Tri Dao2023年12月1日
把传统 LTI SSM 放宽为输入依赖的 selective scan:每个 token 产生门控/参数,动态改变状态更新与读出;在 O(L) 推理与小 KV cache 下,把 LM 质量拉近同规模 Transformer,并把可用性押注在高效 scan kernel。
9

Efficiently Modeling Long Sequences with Structured State Spaces

Albert Gu,Karan Goel,Christopher Ré2021年10月31日
S4 用结构化(如对角+低秩)状态空间把长卷积/长依赖变成可训练的递推与 FFT/卷积实现,奠定了“用结构约束换长程效率”的主线;但其表达更偏向平滑汇聚而非精确寻址。
8

Resurrecting Recurrent Neural Networks for Long Sequences

Antonio Orvieto,Samuel L. Smith,Albert Gu,Anushan Fernando,Caglar Gulcehre2023年3月11日
把“递推难训”拆成可定位的问题:并行化、初始化、归一化与门控对稳定训练的影响;为后续 Mamba/RWKV 类“工程可训的递推”提供 recipe 语境。
7

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling

Tobias Katsch2023年11月3日
把线性递推的“衰减/写入”完全交给数据控制(门控),强调可训练性与长程建模;它与 Mamba 的共同点是输入依赖动态,但在状态结构与 kernel 路径上走了不同折中。

可复现缺口:复制/召回/ICL dense binding(4)

把争论从“困惑度接近”转到“能否精确寻址”:复制任务、recall 指标、ICL dense entity binding 反复显示纯递推/attention-free 的系统性掉点。

10

Zoology: Measuring and Improving Recall in Efficient Language Models

Simran Arora,Sabri Eyuboglu,Aman Timalsina,Isys Johnson,Michael Poli2023年12月8日
提出 recall-focused 指标与统一训练对照,把“长上下文能力”落到精确召回/复制;结果显示 attention-free/纯递推在 recall 上系统性落后,且差距不总能被困惑度预测。
10

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi,David Brandfonbrener,Sham M. Kakade,Eran Malach2024年2月1日
用复制任务把“固定状态瓶颈”具体化:当需要把远处 token 精确搬运到当前位置时,Transformer 的显式寻址更稳;差距被归因于状态容量与可逆性受限,而非简单的训练不足。
9

Is Mamba Capable of In-Context Learning?

Riccardo Grazzi,Julien Siems,Simon Schrodi,Thomas Brox,Frank Hutter2024年2月5日
把 ICL 短板定位到 dense entity binding:需要“可逆映射/精确引用”的设定下,纯递推状态难以维持足够信息以支持稳定检索,落后同规模 Transformer。
9

Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

Jongho Park,Jaeseung Park,Zheyang Xiong,Nayoung Lee,Jaewoong Cho2024年2月6日
在多类 ICL 任务上做对照,显示 Mamba 与 Transformer 的差距在若干设定下保持稳定;它把“能否学会 learn-to-learn”从个例提升到可复现的评测现象。

工程最优解:混合(少量 attention 兜底)(3)

把 attention 视为精确寻址模块,把递推/SSM 视为压缩与路由模块:通过稀疏插入 full/local attention 修复复制/检索缺口,同时把大部分层线性化以换吞吐与显存。

10

Jamba: A Hybrid Transformer-Mamba Language Model

Opher Lieber,Barak Lenz,Hofit Bata,Gal Cohen,Jhonathan Osin,Itay Dalmedigos2024年3月28日
给出可复用的混合配方:交替堆叠 Transformer 与 Mamba,并结合 MoE;少量 attention 层承担精确复制/寻址,多数 Mamba 层承担路由与压缩,形成吞吐与 recall 的可调折中点。
10

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Soham De,Samuel L. Smith,Anushan Fernando,Aleksandar Botev,George Cristian-Muraru2024年2月29日
用“递推 + 局部 attention”实现兜底:局部 attention 负责短程精确交互,递推负责长程汇聚;对比纯递推,显示少量 attention 能修复一部分 recall/建模缺陷。
8

Efficient Long Sequence Modeling via State Space Augmented Transformer

Simiao Zuo,Xiaodong Liu,Jian Jiao,Denis Charles,Eren Manavoglu2022年12月15日
较早把 SSM 作为 Transformer 的增广模块而非替代:保留 attention 的寻址能力,同时用状态空间分支承接长程信息汇聚,提供“混合优先”的工程先例。

统一视角与迁移训练:从 Transformer 到次二次骨架(3)

一条线讨论“注意力可写成递推/结构化算子”的可互译子类;另一条线讨论训练侧如何把已学到的交互模式迁移到 SSM/线性注意力骨架,降低从零预训练的不确定性。

10

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Tri Dao,Albert Gu2024年5月31日
提出 structured state space duality(SSD):把因果注意力写成结构化递推/半可分矩阵算子,区分“可被状态压缩的注意力模式”与“需要显式寻址的模式”,并给出相应高效算法路径。
10

Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models

Aviv Bick,Kevin Y. Li,Eric P. Xing,J. Zico Kolter,Albert Gu2024年8月15日
把“从零学会注意力式交互”改成“迁移已学到的交互模式”:逐级蒸馏 Transformer 的注意力结构到 SSM 的隐状态/更新,再做少量继续训练补齐差距,强调训练预算与风险可控。
8

Retentive Network: A Successor to Transformer for Large Language Models

Yutao Sun,Li Dong,Shaohan Huang,Shuming Ma,Yuqing Xia2023年7月17日
用 retention 把注意力与递推联系起来,强调训练并行与推理线性成本;它支撑“纯递推可替代”的工程叙事,但对精确寻址类评测的覆盖不足,容易与 recall/copy 证据产生张力。