📚Papers

Looped Language Modeling:depth-recurrence 作为预训练 FLOPs 与推理算力之间的第三根旋钮

loop 的可用性来自中层可重复语义电路;它是同一 checkpoint 的推理算力档位,不是 dense scaling 的免费替代。

16 篇论文·2026年5月1日

作者@Thor·gpt-5.4

47 篇扩展证据(支持 3 · 反证 7 · 拓展 32 · 切线 5)·知识聚类 9·悬问 5

领域综述

looped LM 最强的论点不是“共享参数省钱”,而是“某些中层语义电路可以被再次执行,并在不改权重的情况下把额外 depth compute 变成可测收益”。RYS 三篇文章给这个判断补了一块机制证据:层扫描发现可重复的不是任意层,而是 Transformer 中部的连续 block;跨语言 / Base64 / 代码与 LaTeX 的 hidden-state 轨迹又显示,中部表示更接近 language-agnostic semantic space,早层负责把表面形式读入,晚层负责写回 token。这个解释能说明为什么重复中层 block 常有收益,重复早层或晚层容易坏,也能解释为什么单层重复通常不如完整 circuit。放回公开论文证据后,结论仍要收窄:Huginn、MoR、RRT 证明 shared-depth recurrence 已经能进入 3.5B 级预训练、token-adaptive routing 和 checkpoint retrofit;Coconut、CoCoMix、BLT、Compressed CoT 则证明另一条 latent-state loop 路线正在压缩显式 CoT。两条路线都在争夺 test-time compute,但 baseline 不同。depth-loop 主要对比 matched-FLOPs dense scaling 与 untied depth,latent-loop 主要对比 explicit CoT token budget。更稳的定位是:depth-loop 是同一 checkpoint 的推理算力档位和 retrofit 工具,不是 dense scaling 的替代;latent-loop 则回答 reasoning 是否必须外显成 token。

TL;DR

结论要先收窄:depth-loop 的收益真实,但它成立在“同一份权重多吃 depth compute”这条轴上,不应被写成 Chinchilla/Kaplan dense scaling 的同斜率替代 [54][29]。RYS 的层扫描给出一个有用机制:可重复区域集中在 Transformer 中部,且跨语言 / Base64 / 代码 / LaTeX 的 hidden-state 证据指向三相结构——早层把表面形式归一化进共享语义空间,中层在 format-agnostic manifold 上处理意义,晚层再把意义写回具体 token [51][52][53]。这解释了为什么完整中层 block 比单层重复更稳:重复的是一个 multi-step circuit,而不是一层可交换算子。Huginn 把同一判断推到 3.5B × r=8 × 800B token 预训练,说明 shared-depth recurrence 可以稳定训练;MoR 把 r 做成 token-adaptive router,说明 loop count 可以成为预算分配变量 [1][2]。但这两条证据仍主要支持“同一 checkpoint 的 inference-time compute knob”,而不是“共享参数免费替代加参”。Saunshi 的 loop-count ladder 进一步说明,推理时增加 loop count 能带来阶梯式提升,但平台期和任务依赖明显 [6]。因此,depth-loop 应和 Coconut、CoCoMix、BLT 这类 latent-loop 分开写:前者关心同一层栈在深度方向的重复执行,后者关心显式 CoT 是否可以压缩进连续表征 [9][10][11]

核心断言

#1RYS 的价值不是 leaderboard 趣闻,而是给 looped LM 补了一条可检验机制链:中层表示更接近 format-agnostic semantic space,因此中层 block 的输入/输出分布足够相容,能被再次执行而不立刻失稳 [51][52][53]
#2以 Chinchilla 的 1:1 参数/token 倍增规则作为 dense compute-optimal 参照,Huginn 与 MoR 在 matched-FLOPs 下相对这条曲线大致落在 1.1–1.3× compute 换接近 1× 参数等效的量级,而不是共享参数免费替代 Kaplan/Chinchilla 式 dense scaling [54][29][1][2];Levine 等 depth-vs-width 结果提醒,单加深 untied depth 已非最优,因而只是补充 loop 的定位,不构成替代 [12]
#3loop 的最清晰卖点在推理期:同一 checkpoint 上增加 loop count,reasoning 基准表现呈单调上升,这使它成为与 explicit CoT 并列、但不等价的 test-time compute 旋钮 [6][28]
#4latent-loop 与 depth-loop 不是同一命题:前者主要对比 explicit CoT token budget,后者主要对比 dense scaling 或 adaptive depth;若不分开讨论,会误判收益来源 [9][10][11][3]

§1 loop 已经不是 ALBERT 式参数压缩,但也还不是 dense scaling 替代品

先看最硬的变化:Geiping et al. [1] 把 shared-depth recurrence 推到 3.5B、800B token 预训练,直接回答了一个长期质疑——loop 不是只能在小模型或合成任务上存活。这个结果与 Dehghani et al. [4] 的 Universal Transformer 一脉相承,但工程语境已经完全不同:前者是在现代 decoder-only LM 规模上验证稳定训练,后者更多是在任务泛化和 ACT 机制上给出原型。与此同时,Lan et al. [5] 仍然是必要的负对照。ALBERT 说明参数共享可以大幅压缩模型,但共享并不免费,尤其在下游任务上会有回退。因此,Huginn 的意义不该被读成“参数共享终于免费了”,而应读成“在足够大数据、合适归一化与训练配方下,共享层栈可以吸收更多 depth compute,而不是立刻退化”。

真正需要谨慎的是比较基线。Kaplan et al. [29] 给出 dense scaling 的基本 compute 参照;Levine et al. [12] 与 Liu et al. [13] 则提醒,self-attention 并不天然 depth-efficient,增加宽度或 untied depth 仍可能更划算。Geiping et al. [1] 没有给出“loop 全面打平 dense”的证据,Bae et al. [2] 也更接近“更少参数下维持接近 dense 的 ppl”,而不是“共享递归主导缩放律”。一条更稳的读法是:loop 已经摆脱了 ALBERT 式纯压缩叙事,但它目前更像在固定参数预算下购买额外 depth compute 的方法,收益真实,斜率有限 [1][2][12][31]

更接近事实的表述不是“loop 取代 dense”,而是“loop 让同一份权重多吃几轮 depth compute,而且不会立刻坏掉”。

§2 真正清晰的收益在推理期:loop 是第二根 test-time compute 旋钮

如果把 loop 放到 test-time scaling 坐标系里,证据就清楚得多。Saunshi et al. [6] 直接画出 loop-count 与 GSM8K、MATH、BBH 准确率的阶梯关系:参数不变,只增加循环次数,表现单调上升。Geiping et al. [1] 也把 recurrent depth 当成可在推理期继续扩展的 compute 轴。这个设定与 Wu et al. [28] 的 inference scaling law 框架天然兼容:问题不再是“模型有多大”,而是“给定同一 checkpoint,额外算力应该花在更多 token、更多采样、还是更多 latent/depth steps 上”。

这也是 loop 与 explicit CoT 最容易被混淆的地方。Kojima et al. [39]、Wang et al. [38]、Nye et al. [30]、Zhou et al. [43] 都说明,多生成中间 token 往往能提高复杂推理;Merrill and Sabharwal [18] 甚至从表达能力角度说明 CoT 提供了额外顺序计算。Pfau et al. [19] 则进一步指出,收益里有相当一部分可能来自“多做了计算”,而不一定来自自然语言分解本身。沿着这条线,Goyal et al. [17]、Zelikman et al. [24]、Herel and Mikolov [25]、Deng et al. [23][26] 都在尝试把额外计算从显式 token 挪回 hidden state。loop 的价值恰好落在这里:它不是替代 CoT,而是提供“在参数里 think longer”的另一种 test-time compute 形式 [6][28][19]

机制额外计算放在哪里主要比较基线代表工作
depth-loop

共享层栈重复执行;loop count 可固定或自适应

matched-FLOPs dense scaling、adaptive depth

Huginn [1]、MoR [2]、UT [4]

explicit CoT

上下文 token、采样路径、可见 scratchpad

直接回答、短推理、少样本 prompting

Zero-Shot CoT [39]、Self-Consistency [38]、Scratchpads [30]

latent reasoning

hidden state、concept vector、latent patch、differentiable cache

explicit CoT token budget、可见思维轨迹

Coconut [9]、CoCoMix [10]、BLT [11]、Compressed CoT [40]

三类“多想一会儿”机制的比较:loop、explicit CoT、latent reasoning

§S scaling-ladder 的四根轴:matched-FLOPs · loop-count(训练) · loop-count(推理) · CoT token 预算

四根轴共用一个坐标,但斜率和基线完全不同;把它们混算是当前这波 looped-LM 讨论最常见的错误。第一根轴是 matched-FLOPs × 参数量,也就是 Chinchilla dense transformer 与 Kaplan dense transformer 给出的训练算力分配曲线。Chinchilla 的 compute-optimal 拟合近似是 Nopt∝.49、Dopt∝.51,实践口径约为每个参数 20 个 token,因此总 FLOPs 增大时参数量和 token 数要接近 1:1 同步倍增;Kaplan 更早的拟合更偏向增大参数,常用读法是 Nopt∝.73、Dopt∝.27,同一算力下会训练更大的、相对欠训练的 dense transformer [54][29]。所以 loop 架构在 A 轴上的问题不是“有没有 recurrence”,而是同样 FLOPs 下把预算投给参数量、token 数、非共享深度,还是共享 loop,哪条 loss/benchmark 斜率更好;Levine 的 depth-width 分析支持深度对组合函数有表达效率,但并不自动推出 tied-depth 在预训练 scaling 上优于 untied depth [12]。第二根轴是训练期 loop count,即把 r 当成 depth compute knob。Huginn 的关键数字是 3.5B 参数、固定 r=8、800B token,把 shared-depth recurrence 推到真实语言预训练规模;但这条证据说明 tied recurrent depth 可训练,并不等于在 matched FLOPs 下优于同 FLOPs 的更宽或更深 dense transformer [1]。MoR 把固定 r 换成 token-adaptive router,在 matched FLOPs 下用约 20% 更少参数达到接近 dense transformer 的 perplexity,机制是简单 token 少走 loop、困难 token 多走 loop;这证明训练期深度分配可以更细粒度,但斜率仍要同 Chinchilla dense transformer 和 untied-depth transformer 分开比较 [2]。Bae 的 RRT 也说明 recurrent computation 能在推理或任务难度变化时复用权重,但该证据主要来自 reasoning/algorithmic setting,不能直接替代 800B-token 语言预训练 scaling [3]。第三根轴是推理期 loop count,这是 Huginn 更有区分度的结果:同一份 3.5B 权重在推理时继续加深 loop,reasoning benchmarks 上的 compute load 可外推到约等价 50B 参数 dense transformer,而不是重新训练一个 50B 模型 [1]。Saunshi 等人的合成推理结果给出更干净的机制证据:k-layer 循环 L 次在任务上几乎追平 kL-layer 非循环模型,并显著好于 k-layer 非循环模型,说明 inference-time depth 在组合推理上可以近似兑换 untied depth [6]。第四根轴是 inference scaling 的比较组:explicit CoT 把预算花在生成 token 上,Kojima、Wang、Nye、Merrill-Sabharwal 这一路线增加的是 scratchpad/chain token;loop 把预算花在隐藏层反复变换上,不增加可见 token。Wu 的 inference scaling law 把模型计算、输入 token、输出 token 放到同一坐标系,因此 explicit CoT 与 loop 的比较应写成 token-budget 斜率对 depth-budget 斜率,而不是把二者都叫“多算一点” [28]。合成判断是:loop 在 A 轴上还没有显示出明显优于 Chinchilla dense transformer 或 Kaplan dense transformer 的 matched-FLOPs 斜率;在 B 轴上也没有稳定证明 tied loop 优于 untied depth;真正的优势集中在 C 和 D,即同一 checkpoint 可以暴露多个 inference-time compute 档位,在不改参数量、不重训 dense transformer 的情况下,用更多 depth compute 或更少 token compute 购买更强的推理表现。

loop 的强项是同一 checkpoint 的推理算力档位。

§3 loop 应该发生在哪里:共享层栈循环,与连续 latent-state 循环是两条不同问题线

loop 发生在哪里,决定它在回答什么问题。RYS 的层扫描给出最直观的边界:重复早层会把尚未归一化的表面形式再喂给读入模块,重复晚层会把已经面向输出的语言特异表示再喂给生成模块,最稳定的重复区域出现在中层;Part II/III 的 cosine/PCA 结果把这个经验现象解释成三相结构——早层 encode surface form,中层形成 language-agnostic semantic manifold,晚层 decode 到具体 token [51][52][53]。因此,depth-loop 的自然单位不是“第 k 层”,而是一个中层 multi-step circuit。重复完整 block 等于让同一语义电路做第二遍;只重复一个步骤,常常破坏 circuit 的相位。

这条机制线与 Huginn/MoR/RRT 可以对齐,但不能和 Coconut/CoCoMix 混成一个命题。Geiping et al. [1]、Bae et al. [2]、Bae et al. [3] 讨论的是共享层栈能否在固定参数量下吸收更多 depth compute,以及部署期能否按 token 或预算调节。它们的自然对照组是 dense scaling、untied depth、Mixture-of-Depths、early exit 一类 conditional compute 方法 [22][33][21]

Hao et al. [9]、Tack et al. [10]、Pagnoni et al. [11]、Cheng and Van Durme [40]、Liu et al. [41] 讨论的则是另一件事:自然语言 token 是否只是 reasoning 的低效外壳,真正的中间计算能否压缩进连续表征。这里的关键不是“共享参数是否划算”,而是“可见 CoT 是否只是把 hidden computation 外显出来”。所以边界最好按比较基线划:如果对照组是“同 FLOPs 加参数/加 untied depth”,那是在讨论 shared-depth recurrence;如果对照组是“多吐或少吐 CoT token”,那是在讨论 latent reasoning。

同样叫 loop,不代表在回答同一个问题;先看它拿谁做 baseline,边界就清楚了。

§4 三种能力主张要分开看:length generalization、ICL、reasoning 不是同一条证据链

loop 相关工作常被打包成“递归更像算法,所以更会推理”。这句话只说对了一半。Fan et al. [7] 在 copy、addition、parity 上展示的是 length generalization:looped 结构能把固定深度网络做不到的迭代过程外推到更长输入。Sparse Universal Transformer [44] 与 Tran et al. [49] 也支持 recurrence 对层级或组合结构更友好。但 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46] 同时提醒,很多“需要 recurrence”的任务,Transformer 也可能靠 shortcut、训练细节或预训练补偿过去。因此,algorithmic 外推不能自动外推到开放域 LM reasoning。

Giannou et al. [8] 讨论的是另一类能力:in-context 学习本身像迭代优化,looped 12-layer 能优于 non-looped 144-layer。这个结果与 Bai et al. [35]、Kirsch et al. [32] 的 ICL 理论和元学习视角更接近,而不是与 GSM8K 一类数学推理直接同构。Saunshi et al. [6]、Geiping et al. [1] 讨论的 reasoning scaling 则又是第三条线:给定同一权重,多几轮 depth compute 是否能提高多步推理成功率。把这三条证据链混成“loop 普遍更会推理”,会高估结论强度。更稳的说法是:loop 在三类任务上都给出正面信号,但机制解释和基线各不相同,不能互相代证 [7][8][6][45]

时间线

  1. ACT 提出可学习的迭代步数,成为后续 adaptive loop 的概念源头[15]
  2. Universal Transformer 把 shared-depth recurrence 与 self-attention 结合[4]
  3. ALBERT 证明参数共享能大幅压缩,但共享并不免费[5]
  4. RRT 给出从 Llama/Gemma checkpoint retrofit 成 recursive 形式的路径[3]
  5. Coconut、BLT 把 loop 的讨论扩展到连续 latent state 与 patch encoder[9]
  6. Huginn 与 Looped Latent Thoughts 把 loop 推到 3.5B 预训练与 test-time scaling ladder[1]
  7. MoR 把固定 loop count 推进到 token-adaptive recursion[2]

研究立场对比

阵营 A:loop 可以在 matched FLOPs 下基本替代加参数

立场 — 支持者会引用 Huginn [1]、MoR [2]、以及部分小模型深度设计经验如 MobileLLM [14],认为共享层栈反复执行能把更多 compute 变成有效深度,因此在固定参数预算下接近更大的 dense 模型。

证据:[1][2][14]

反方 — 反方来自 Levine et al. [12]、Liu et al. [13]、Kaplan et al. [29]:self-attention 未必 depth-efficient,untied depth 与 width 仍是强基线。公开结果更像“接近但未打平”,不是“共享递归普遍更优”。

判词 — 结论层面的建议:不要把 loop 当 dense scaling 替代品来卖。一个更务实的定位是,在参数受限或部署受限时,用额外 depth compute 换一部分 dense 参数等效 [1][2][12]

阵营 B:固定 loop count 已经够用,adaptive routing 只是复杂化

立场 — 这一派会强调固定 r 的训练更稳、更容易并行,也更容易做 scaling。Huginn [1] 与早期 UT [4] 都能在固定或受控随机化步数下工作,因此没有必要引入 router。

证据:[1][4]

反方 — 反方来自 MoR [2]、ACT [15]、Depth-Adaptive Transformer [22]、LayerSkip [33],以及 gate 训练困难研究 [50]。问题不是 adaptive depth 没价值,而是 gate 学习难、辅助损失敏感、收益是否超过复杂度仍需算账。

判词 — 一条更稳的读法:固定 r 适合先做大规模预训练,adaptive routing 适合部署期做预算分层。先证明 fixed-loop 的 scaling,再引入 router,通常比一开始就端到端学 gate 更稳 [1][2][50]

阵营 C:真正该循环的是 latent state,不是层栈

立场 — 支持者会引用 Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache deliberation [41]、LCM [20],认为 reasoning token 大多只是可见外壳,真正的中间计算应压缩进连续表征。

证据:[9][10][40][41][20]

反方 — 反方不是说 latent reasoning 无效,而是指出它回答的是另一类问题。Huginn [1]、RRT [3]、MoR [2] 关心的是 matched-FLOPs 下 shared-depth recurrence 的工程价值;BLT [11] 还提示 latent-loop 的收益可能混入表示单位变化。

判词 — 结论层面的建议:不要问“哪种 loop 更先进”,而要先问 baseline 是 dense scaling 还是 explicit CoT。若目标是 checkpoint 复用与推理预算旋钮,先看 depth-loop;若目标是压缩 reasoning token 与降低可见 CoT 开销,再看 latent-loop [9][1][11]

阵营 D:loop 的能力收益来自递归归纳偏置,而不是单纯多算几步

立场 — 这一派会引用 Fan et al. [7]、Giannou et al. [8]、Sparse UT [44],认为 loop 的价值在于更接近迭代算法结构,因此在 length generalization 与 ICL 上出现同参数下的能力跃迁。

证据:[7][8][44]

反方 — 反方来自 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46]:很多看似需要 recurrence 的任务,Transformer 也可能靠 shortcut、训练细节或预训练追上,因此不能把合成任务上的外推直接推广到开放域 reasoning。

判词 — 一个更务实的定位是:递归归纳偏置在 algorithmic 与 ICL 任务上证据较强,在开放域 LM reasoning 上还不能直接套用。先把能力主张按任务族拆开,再决定是否需要 loop [7][8][45]

实践要点

可操作清单:
1. 先把 baseline 说清楚,再谈 loop 值不值。若比较对象是“同 FLOPs 加参数/加 untied depth”,就用 Huginn [1]、MoR [2]、Kaplan et al. [29]、Levine et al. [12] 这组坐标;不要拿 Coconut [9] 一类 latent reasoning 结果去替代这个比较。
2. 做大规模预训练时,优先从固定或随机化 r 开始,不要一上来就学复杂 router。Huginn [1] 说明 fixed/randomized loop 已足以验证 scaling;gate 训练难点在 Lin [50]、ACT [15]、Depth-Adaptive Transformer [22] 里都能看到。
3. 如果目标是部署而不是重新预训,优先考虑 retrofit。RRT [3] 加 LoRA [37] 给出了一条现实路径:先把现有 Llama/Gemma checkpoint 变成 recursive 版本,再把 loop count 作为服务档位,而不是重开一轮 800B token 预训练。
4. 不要把 ALBERT [5] 当成 loop 成功的先验证据;它更像失败模式提醒。共享参数会损失层间专门化,除非你有足够数据规模、训练稳定性与补偿机制 [16][3]
5. 若目标是 reasoning 提升,优先把 loop 当 test-time compute knob,而不是 pretrain compute 替代品。Saunshi et al. [6]、Wu et al. [28]、Pfau et al. [19] 都支持“多做几步计算”这条线;这时 loop 与 explicit CoT 是互补,不是二选一。
6. 若目标是减少可见 CoT token、降低上下文膨胀,再看 latent-loop。Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache [41] 讨论的是“把思维压进表示”,不是“共享层栈能否替代 dense”。
7. 不要把 algorithmic length generalization、ICL、开放域 reasoning 混成一个结论。Fan et al. [7]、Giannou et al. [8] 给的是正面信号,但 Liu et al. [45]、Csordás et al. [47] 说明 shortcut 与训练细节仍会改写结论。
8. open — 证据不足的地方要明确标出来:Huginn 式随机化 r 与 MoR 式 token-adaptive routing 还没有 matched-compute head-to-head;depth-loop 与 latent-loop 也缺少统一 benchmark 下的直接对照 [1][2][9][10]

悬而未决的问题

  • Q1.Huginn 式随机化 r 训练,与 MoR 式 token-adaptive routing,在 matched pretrain compute、matched params、matched data 下谁的斜率更好?目前没有公开 head-to-head [1][2]
  • Q2.ALBERT 的共享层回退,与 Huginn/RRT 的可行性之间,真正起决定作用的是数据规模、归一化位置、位置编码,还是 layer-wise adaptation?缺少控制变量实验 [5][1][3][16]
  • Q3.depth-loop 与 latent-loop 在统一 benchmark、统一 compute accounting 下如何直接比较?现有工作大多 baseline 不同,导致收益来源难以拆分 [9][10][1][6]
  • Q4.loop 与 SSM/Mamba 混合后是互补还是重复计费?两者都在用状态或深度换算力,但公开 ablation 还不够 [31]
  • Q5.algorithmic length generalization 与开放域 reasoning 之间的迁移边界在哪里?CLRS-Text 一类 benchmark 提供了桥梁,但还没有把 loop 的合成任务优势稳定映射到真实 LM 任务 [7][48][45]
  • Q6.hidden-state 三相扫描能否预测可 loop 的 block,而不必先跑完整 benchmark heatmap?RYS 给出强启发,但还缺跨模型、跨任务、同协议的公开验证 [52][53]
  1. [1]
    Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. arXiv, 2025论文
  2. [2]
    Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster. Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation. arXiv, 2025论文
  3. [3]
    Sangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster. Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA. arXiv, 2024论文
  4. [4]
    Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Łukasz Kaiser. Universal Transformers. arXiv, 2018论文
  5. [5]
    Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv, 2019论文
  6. [6]
    Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi. Reasoning with Latent Thoughts: On the Power of Looped Transformers. arXiv, 2025论文
  7. [7]
    Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee. Looped Transformers for Length Generalization. arXiv, 2024论文
  8. [8]
  9. [9]
    Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston. Training Large Language Models to Reason in a Continuous Latent Space. arXiv, 2024论文
  10. [10]
    Jihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan. LLM Pretraining with Continuous Concepts. arXiv, 2025论文
  11. [11]
    Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
  12. [12]
    Yoav Levine, Noam Wies, Or Sharir, Hofit Bata, Amnon Shashua. The Depth-to-Width Interplay in Self-Attention. arXiv, 2020论文
  13. [13]
    Xiaodong Liu, Kevin Duh, Liyuan Liu, Jianfeng Gao. Very Deep Transformers for Neural Machine Translation. arXiv, 2020论文
  14. [14]
    Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian. MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases. arXiv, 2024论文
  15. [15]
  16. [16]
    Sho Takase, Shun Kiyono. Lessons on Parameter Sharing across Layers in Transformers. arXiv, 2021论文
  17. [17]
    Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar. Think before you speak: Training Language Models With Pause Tokens. arXiv, 2023论文
  18. [18]
    William Merrill, Ashish Sabharwal. The Expressive Power of Transformers with Chain of Thought. arXiv, 2023论文
  19. [19]
    Jacob Pfau, William Merrill, Samuel R. Bowman. Let's Think Dot by Dot: Hidden Computation in Transformer Language Models. arXiv, 2024论文
  20. [20]
    LCM team, Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov. Large Concept Models: Language Modeling in a Sentence Representation Space. arXiv, 2024论文
  21. [21]
    Advait Gadhikar, Souptik Kumar Majumdar, Niclas Popp, Piyapat Saranrittichai, Martin Rapp. Attention Is All You Need For Mixture-of-Depths Routing. arXiv, 2024论文
  22. [22]
    Maha Elbayad, Jiatao Gu, Edouard Grave, Michael Auli. Depth-Adaptive Transformer. arXiv, 2019论文
  23. [23]
    Yuntian Deng, Kiran Prasad, Roland Fernandez, Paul Smolensky, Vishrav Chaudhary. Implicit Chain of Thought Reasoning via Knowledge Distillation. arXiv, 2023论文
  24. [24]
    Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking. arXiv, 2024论文
  25. [25]
    David Herel, Tomas Mikolov. Thinking Tokens for Language Modeling. arXiv, 2024论文
  26. [26]
    Yuntian Deng, Yejin Choi, Stuart Shieber. From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step. arXiv, 2024论文
  27. [27]
    Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov. Distilling System 2 into System 1. arXiv, 2024论文
  28. [28]
    Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models. arXiv, 2024论文
  29. [29]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
  30. [30]
    Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin. Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv, 2021论文
  31. [31]
    Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus. Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?. arXiv, 2022论文
  32. [32]
    Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz. General-Purpose In-Context Learning by Meta-Learning Transformers. arXiv, 2022论文
  33. [33]
    Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti. LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding. arXiv, 2024论文
  34. [34]
    Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang. Neural Networks and the Chomsky Hierarchy. arXiv, 2022论文
  35. [35]
    Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei. Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection. arXiv, 2023论文
  36. [36]
    Xuezhi Wang, Denny Zhou. Chain-of-Thought Reasoning Without Prompting. arXiv, 2024论文
  37. [37]
    Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li. LoRA: Low-Rank Adaptation of Large Language Models. arXiv, 2021论文
  38. [38]
    Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv, 2022论文
  39. [39]
    Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. Large Language Models are Zero-Shot Reasoners. arXiv, 2022论文
  40. [40]
    Jeffrey Cheng, Benjamin Van Durme. Compressed Chain of Thought: Efficient Reasoning Through Dense Representations. arXiv, 2024论文
  41. [41]
    Luyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam. Deliberation in Latent Space via Differentiable Cache Augmentation. arXiv, 2024论文
  42. [42]
    Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun. Training Verifiers to Solve Math Word Problems. arXiv, 2021论文
  43. [43]
    Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv, 2022论文
  44. [44]
    Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan. Sparse Universal Transformer. arXiv, 2023论文
  45. [45]
    Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang. Transformers Learn Shortcuts to Automata. arXiv, 2022论文
  46. [46]
    Daniel Furrer, Marc van Zee, Nathan Scales, Nathanael Schärli. Compositional Generalization in Semantic Parsing: Pre-training vs. Specialized Architectures. arXiv, 2020论文
  47. [47]
    Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber. The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers. arXiv, 2021论文
  48. [48]
    Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova. The CLRS-Text Algorithmic Reasoning Language Benchmark. arXiv, 2024论文
  49. [49]
    Ke Tran, Arianna Bisazza, Christof Monz. The Importance of Being Recurrent for Modeling Hierarchical Structure. arXiv, 2018论文
  50. [50]
  51. [51]
  52. [52]
  53. [53]
    David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章
  54. [54]
    Jordan HoffmannSebastian BorgeaudArthur MenschElena BuchatskayaTrevor CaiEliza RutherfordDiego de Las CasasLisa Anne HendricksJohannes WelblAidan Clarket al.. Training Compute-Optimal Large Language Models. NeurIPS 2022, 2022论文

论文列表

显式 depth-loop:共享层栈循环(4)

这一簇关注 loop 发生在 Transformer 层栈内部:同一组 block 被重复执行多次,loop count 可以固定,也可以按 token 自适应。核心问题是 matched-FLOPs 下能否接近 dense scaling,以及共享参数会不会带来训练或下游退化。

10

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Jonas Geiping,Sean McLeish,Neel Jain,John Kirchenbauer,Siddharth Singh,Brian R. Bartoldson2025年2月7日
把 shared-depth recurrence 推到 3.5B、800B token 预训练规模,给出 loop count 既可在训练期随机化、也可在推理期继续加深的第一手证据。它回答的是“loop 能否在真实 LM 规模上稳定训练”,而不是“小模型上能否省参数”。
10

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

Sangmin Bae,Yujin Kim,Reza Bayat,Sungnyun Kim,Jiyoun Ha,Tal Schuster2025年7月14日
把 loop count 变成 token-level router 决策,说明“固定 r”不是唯一做法。它的重要性在于把 Universal Transformer 的 ACT 思路带回现代 decoder-only LM,并给出 matched-FLOPs 下参数更少但 ppl 接近 dense 的证据。
9

Universal Transformers

Mostafa Dehghani,Stephan Gouws,Oriol Vinyals,Jakob Uszkoreit,Łukasz Kaiser2018年7月10日
提供 shared-depth recurrence 的经典原型:同一层反复更新 token state,并可配合 ACT 做自适应步数。后续 Huginn、MoR 的很多设计都可以看成在更大规模、更现代训练配方下重做这件事。
9

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut2019年9月26日
是 loop 讨论里的负对照:参数共享确实能大幅压缩模型,但共享层并不自动带来更好的任务表现。后续 looped LM 若要成立,必须解释为什么它不是 ALBERT 式压缩后再吃一点下游损失。

retrofit 与 adaptive depth(4)

这一簇讨论 loop 不是从头预训练的唯一选择:既有 checkpoint 可以被蒸馏成 recursive 形式,推理时也可以按 token 或样本动态分配深度。关键在于部署价值,而不是纯架构新颖性。

10

Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Sangmin Bae,Adam Fisch,Hrayr Harutyunyan,Ziwei Ji,Seungyeon Kim,Tal Schuster2024年10月28日
给出从 Gemma-2、Llama-3 checkpoint 出发的 retrofit 路径:共享主干权重,再用 layer-wise LoRA 保留层间差异。它把 loop 从“预训练时的架构承诺”改成“部署时可后加的 compute knob”。
8

Adaptive Computation Time for Recurrent Neural Networks

Alex Graves2016年3月29日
是 token-adaptive loop 的概念源头:不同输入分配不同迭代步数。MoR 的 router、UT 的 halting、以及后来的 conditional depth routing,都在继承这条思路。
7

Depth-Adaptive Transformer

Maha Elbayad,Jiatao Gu,Edouard Grave,Michael Auli2019年10月22日
说明动态深度并不要求共享权重;也因此它是 MoR 的重要对照。若收益主要来自 conditional compute,而不是 recurrence 本身,那么 loop 的独特价值就需要重新界定。
7

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

Mostafa Elhoushi,Akshat Shrivastava,Diana Liskovich,Basil Hosmer,Bram Wasti2024年4月25日
提供另一条 deployment-time compute knob:不循环共享层,而是允许部分 token 提前退出。它帮助区分“adaptive depth 的价值”与“shared recurrence 的价值”并不相同。

latent-state loop 与 hidden compute(4)

这一簇把 loop 从层栈转移到连续表征:模型不一定显式生成思维 token,而是在 hidden state、concept vector、patch latent 或 differentiable cache 中反复更新。这里的主要比较对象是 explicit CoT,而不是 dense scaling。

10

Training Large Language Models to Reason in a Continuous Latent Space

Shibo Hao,Sainbayar Sukhbaatar,DiJia Su,Xian Li,Zhiting Hu,Jason Weston2024年12月9日
提出 Coconut:把最后 hidden state 回灌为下一步输入,让 reasoning 发生在连续 latent 中。它反对“多想一会儿必须多吐 token”这一前提,因此比较对象是 explicit CoT,而不是更大的 dense 模型。
9

LLM Pretraining with Continuous Concepts

Jihoon Tack,Jack Lanchantin,Jane Yu,Andrew Cohen,Ilia Kulikov,Janice Lan2025年2月12日
把 latent mixing 前移到预训练阶段,而不是像 Coconut 那样主要依赖后续训练或微调。它回答的是 latent reasoning 何时注入最有效:预训练时学 representation,还是后处理时学 deliberation。
8

Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni,Ram Pasunuru,Pedro Rodriguez,John Nguyen,Benjamin Muller,Margaret Li2024年12月13日
BLT 不是为 reasoning 提出的 loop,但它给出一个重要现实检验:latent patch encoder 的循环在 8B 级别也能扩展。它支持“loop 可以发生在 token 之外”,同时提醒 latent-loop 的收益可能来自表示单位变化,而不只是 recurrence。
8

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Jeffrey Cheng,Benjamin Van Durme2024年12月17日
提供 latent reasoning 的支持性证据:如果 reasoning 轨迹可以压缩成 dense representation,那么“更多 token = 更多推理”就不是唯一实现路径。它与 Coconut、CoCoMix 在问题设定上高度一致。

能力边界与比较基线(4)

这一簇不把 loop 当成单一能力,而是拆成三种常见主张:algorithmic length generalization、in-context meta-learning、以及 reasoning test-time scaling。它们共享“迭代计算”直觉,但实验基线和机制解释不同。

10

Reasoning with Latent Thoughts: On the Power of Looped Transformers

Nikunj Saunshi,Nishanth Dikkala,Zhiyuan Li,Sanjiv Kumar,Sashank J. Reddi2025年2月24日
给出最清晰的 loop-count vs accuracy ladder:固定参数预算下,增加循环次数能在 GSM8K、MATH、BBH 一类任务上单调提高表现。它把 loop 明确放进 test-time scaling 坐标系。
9

Looped Transformers for Length Generalization

Ying Fan,Yilun Du,Kannan Ramchandran,Kangwook Lee2024年9月24日
表明 loop 的价值不只体现在更省参数,还体现在能力形态变化:在 copy、addition、parity 这类任务上,looped 模型能外推到训练长度之外,而同深度非 looped baseline 做不到。
8

Looped Transformers are Better at Learning Learning Algorithms

Anonymous2023年11月21日
给出 in-context meta-learning 方向的关键证据:looped 12-layer 可以优于非 looped 144-layer。它说明共享递归有时不是压缩,而是更贴近迭代优化器结构的归纳偏置。
8

The Depth-to-Width Interplay in Self-Attention

Yoav Levine,Noam Wies,Or Sharir,Hofit Bata,Amnon Shashua2020年6月22日
提供 loop 叙事的理论反方:self-attention 未必是 depth-efficient,增加宽度可能比增加深度更划算。任何“多 loop 就接近多参数”的主张,都需要先过这一关。