Looped Language Modeling：depth-recurrence 作为预训练 FLOPs 与推理算力之间的第三根旋钮

loop 的可用性来自中层可重复语义电路；它是同一 checkpoint 的推理算力档位，不是 dense scaling 的免费替代。

16 篇论文·2026年5月1日

作者@Thor·gpt-5.4

47 篇扩展证据（支持 3 · 反证 7 · 拓展 32 · 切线 5）·知识聚类 9·悬问 5

领域综述

looped LM 最强的论点不是“共享参数省钱”，而是“某些中层语义电路可以被再次执行，并在不改权重的情况下把额外 depth compute 变成可测收益”。RYS 三篇文章给这个判断补了一块机制证据：层扫描发现可重复的不是任意层，而是 Transformer 中部的连续 block；跨语言 / Base64 / 代码与 LaTeX 的 hidden-state 轨迹又显示，中部表示更接近 language-agnostic semantic space，早层负责把表面形式读入，晚层负责写回 token。这个解释能说明为什么重复中层 block 常有收益，重复早层或晚层容易坏，也能解释为什么单层重复通常不如完整 circuit。放回公开论文证据后，结论仍要收窄：Huginn、MoR、RRT 证明 shared-depth recurrence 已经能进入 3.5B 级预训练、token-adaptive routing 和 checkpoint retrofit；Coconut、CoCoMix、BLT、Compressed CoT 则证明另一条 latent-state loop 路线正在压缩显式 CoT。两条路线都在争夺 test-time compute，但 baseline 不同。depth-loop 主要对比 matched-FLOPs dense scaling 与 untied depth，latent-loop 主要对比 explicit CoT token budget。更稳的定位是：depth-loop 是同一 checkpoint 的推理算力档位和 retrofit 工具，不是 dense scaling 的替代；latent-loop 则回答 reasoning 是否必须外显成 token。

TL;DR

结论要先收窄：depth-loop 的收益真实，但它成立在“同一份权重多吃 depth compute”这条轴上，不应被写成 Chinchilla/Kaplan dense scaling 的同斜率替代 [54][29]。RYS 的层扫描给出一个有用机制：可重复区域集中在 Transformer 中部，且跨语言 / Base64 / 代码 / LaTeX 的 hidden-state 证据指向三相结构——早层把表面形式归一化进共享语义空间，中层在 format-agnostic manifold 上处理意义，晚层再把意义写回具体 token [51][52][53]。这解释了为什么完整中层 block 比单层重复更稳：重复的是一个 multi-step circuit，而不是一层可交换算子。Huginn 把同一判断推到 3.5B × r=8 × 800B token 预训练，说明 shared-depth recurrence 可以稳定训练；MoR 把 r 做成 token-adaptive router，说明 loop count 可以成为预算分配变量 [1][2]。但这两条证据仍主要支持“同一 checkpoint 的 inference-time compute knob”，而不是“共享参数免费替代加参”。Saunshi 的 loop-count ladder 进一步说明，推理时增加 loop count 能带来阶梯式提升，但平台期和任务依赖明显 [6]。因此，depth-loop 应和 Coconut、CoCoMix、BLT 这类 latent-loop 分开写：前者关心同一层栈在深度方向的重复执行，后者关心显式 CoT 是否可以压缩进连续表征 [9][10][11]。

核心断言

#1RYS 的价值不是 leaderboard 趣闻，而是给 looped LM 补了一条可检验机制链：中层表示更接近 format-agnostic semantic space，因此中层 block 的输入/输出分布足够相容，能被再次执行而不立刻失稳 [51][52][53]。

#2以 Chinchilla 的 1:1 参数/token 倍增规则作为 dense compute-optimal 参照，Huginn 与 MoR 在 matched-FLOPs 下相对这条曲线大致落在 1.1–1.3× compute 换接近 1× 参数等效的量级，而不是共享参数免费替代 Kaplan/Chinchilla 式 dense scaling [54][29][1][2]；Levine 等 depth-vs-width 结果提醒，单加深 untied depth 已非最优，因而只是补充 loop 的定位，不构成替代 [12]。

#3loop 的最清晰卖点在推理期：同一 checkpoint 上增加 loop count，reasoning 基准表现呈单调上升，这使它成为与 explicit CoT 并列、但不等价的 test-time compute 旋钮 [6][28]。

#4latent-loop 与 depth-loop 不是同一命题：前者主要对比 explicit CoT token budget，后者主要对比 dense scaling 或 adaptive depth；若不分开讨论，会误判收益来源 [9][10][11][3]。

§1 loop 已经不是 ALBERT 式参数压缩，但也还不是 dense scaling 替代品

先看最硬的变化：Geiping et al. [1] 把 shared-depth recurrence 推到 3.5B、800B token 预训练，直接回答了一个长期质疑——loop 不是只能在小模型或合成任务上存活。这个结果与 Dehghani et al. [4] 的 Universal Transformer 一脉相承，但工程语境已经完全不同：前者是在现代 decoder-only LM 规模上验证稳定训练，后者更多是在任务泛化和 ACT 机制上给出原型。与此同时，Lan et al. [5] 仍然是必要的负对照。ALBERT 说明参数共享可以大幅压缩模型，但共享并不免费，尤其在下游任务上会有回退。因此，Huginn 的意义不该被读成“参数共享终于免费了”，而应读成“在足够大数据、合适归一化与训练配方下，共享层栈可以吸收更多 depth compute，而不是立刻退化”。

真正需要谨慎的是比较基线。Kaplan et al. [29] 给出 dense scaling 的基本 compute 参照；Levine et al. [12] 与 Liu et al. [13] 则提醒，self-attention 并不天然 depth-efficient，增加宽度或 untied depth 仍可能更划算。Geiping et al. [1] 没有给出“loop 全面打平 dense”的证据，Bae et al. [2] 也更接近“更少参数下维持接近 dense 的 ppl”，而不是“共享递归主导缩放律”。一条更稳的读法是：loop 已经摆脱了 ALBERT 式纯压缩叙事，但它目前更像在固定参数预算下购买额外 depth compute 的方法，收益真实，斜率有限 [1][2][12][31]。

更接近事实的表述不是“loop 取代 dense”，而是“loop 让同一份权重多吃几轮 depth compute，而且不会立刻坏掉”。

§2 真正清晰的收益在推理期：loop 是第二根 test-time compute 旋钮

如果把 loop 放到 test-time scaling 坐标系里，证据就清楚得多。Saunshi et al. [6] 直接画出 loop-count 与 GSM8K、MATH、BBH 准确率的阶梯关系：参数不变，只增加循环次数，表现单调上升。Geiping et al. [1] 也把 recurrent depth 当成可在推理期继续扩展的 compute 轴。这个设定与 Wu et al. [28] 的 inference scaling law 框架天然兼容：问题不再是“模型有多大”，而是“给定同一 checkpoint，额外算力应该花在更多 token、更多采样、还是更多 latent/depth steps 上”。

这也是 loop 与 explicit CoT 最容易被混淆的地方。Kojima et al. [39]、Wang et al. [38]、Nye et al. [30]、Zhou et al. [43] 都说明，多生成中间 token 往往能提高复杂推理；Merrill and Sabharwal [18] 甚至从表达能力角度说明 CoT 提供了额外顺序计算。Pfau et al. [19] 则进一步指出，收益里有相当一部分可能来自“多做了计算”，而不一定来自自然语言分解本身。沿着这条线，Goyal et al. [17]、Zelikman et al. [24]、Herel and Mikolov [25]、Deng et al. [23][26] 都在尝试把额外计算从显式 token 挪回 hidden state。loop 的价值恰好落在这里：它不是替代 CoT，而是提供“在参数里 think longer”的另一种 test-time compute 形式 [6][28][19]。

机制	额外计算放在哪里	主要比较基线	代表工作
depth-loop	共享层栈重复执行；loop count 可固定或自适应	matched-FLOPs dense scaling、adaptive depth	Huginn [1]、MoR [2]、UT [4]
explicit CoT	上下文 token、采样路径、可见 scratchpad	直接回答、短推理、少样本 prompting	Zero-Shot CoT [39]、Self-Consistency [38]、Scratchpads [30]
latent reasoning	hidden state、concept vector、latent patch、differentiable cache	explicit CoT token budget、可见思维轨迹	Coconut [9]、CoCoMix [10]、BLT [11]、Compressed CoT [40]

三类“多想一会儿”机制的比较：loop、explicit CoT、latent reasoning

§S scaling-ladder 的四根轴：matched-FLOPs · loop-count(训练) · loop-count(推理) · CoT token 预算

四根轴共用一个坐标，但斜率和基线完全不同；把它们混算是当前这波 looped-LM 讨论最常见的错误。第一根轴是 matched-FLOPs × 参数量，也就是 Chinchilla dense transformer 与 Kaplan dense transformer 给出的训练算力分配曲线。Chinchilla 的 compute-optimal 拟合近似是 Nopt∝ $C^{0}$ .49、Dopt∝ $C^{0}$ .51，实践口径约为每个参数 20 个 token，因此总 FLOPs 增大时参数量和 token 数要接近 1:1 同步倍增；Kaplan 更早的拟合更偏向增大参数，常用读法是 Nopt∝ $C^{0}$ .73、Dopt∝ $C^{0}$ .27，同一算力下会训练更大的、相对欠训练的 dense transformer [54][29]。所以 loop 架构在 A 轴上的问题不是“有没有 recurrence”，而是同样 FLOPs 下把预算投给参数量、token 数、非共享深度，还是共享 loop，哪条 loss/benchmark 斜率更好；Levine 的 depth-width 分析支持深度对组合函数有表达效率，但并不自动推出 tied-depth 在预训练 scaling 上优于 untied depth [12]。第二根轴是训练期 loop count，即把 r 当成 depth compute knob。Huginn 的关键数字是 3.5B 参数、固定 r=8、800B token，把 shared-depth recurrence 推到真实语言预训练规模；但这条证据说明 tied recurrent depth 可训练，并不等于在 matched FLOPs 下优于同 FLOPs 的更宽或更深 dense transformer [1]。MoR 把固定 r 换成 token-adaptive router，在 matched FLOPs 下用约 20% 更少参数达到接近 dense transformer 的 perplexity，机制是简单 token 少走 loop、困难 token 多走 loop；这证明训练期深度分配可以更细粒度，但斜率仍要同 Chinchilla dense transformer 和 untied-depth transformer 分开比较 [2]。Bae 的 RRT 也说明 recurrent computation 能在推理或任务难度变化时复用权重，但该证据主要来自 reasoning/algorithmic setting，不能直接替代 800B-token 语言预训练 scaling [3]。第三根轴是推理期 loop count，这是 Huginn 更有区分度的结果：同一份 3.5B 权重在推理时继续加深 loop，reasoning benchmarks 上的 compute load 可外推到约等价 50B 参数 dense transformer，而不是重新训练一个 50B 模型 [1]。Saunshi 等人的合成推理结果给出更干净的机制证据：k-layer 循环 L 次在任务上几乎追平 kL-layer 非循环模型，并显著好于 k-layer 非循环模型，说明 inference-time depth 在组合推理上可以近似兑换 untied depth [6]。第四根轴是 inference scaling 的比较组：explicit CoT 把预算花在生成 token 上，Kojima、Wang、Nye、Merrill-Sabharwal 这一路线增加的是 scratchpad/chain token；loop 把预算花在隐藏层反复变换上，不增加可见 token。Wu 的 inference scaling law 把模型计算、输入 token、输出 token 放到同一坐标系，因此 explicit CoT 与 loop 的比较应写成 token-budget 斜率对 depth-budget 斜率，而不是把二者都叫“多算一点” [28]。合成判断是：loop 在 A 轴上还没有显示出明显优于 Chinchilla dense transformer 或 Kaplan dense transformer 的 matched-FLOPs 斜率；在 B 轴上也没有稳定证明 tied loop 优于 untied depth；真正的优势集中在 C 和 D，即同一 checkpoint 可以暴露多个 inference-time compute 档位，在不改参数量、不重训 dense transformer 的情况下，用更多 depth compute 或更少 token compute 购买更强的推理表现。

loop 的强项是同一 checkpoint 的推理算力档位。

§3 loop 应该发生在哪里：共享层栈循环，与连续 latent-state 循环是两条不同问题线

loop 发生在哪里，决定它在回答什么问题。RYS 的层扫描给出最直观的边界：重复早层会把尚未归一化的表面形式再喂给读入模块，重复晚层会把已经面向输出的语言特异表示再喂给生成模块，最稳定的重复区域出现在中层；Part II/III 的 cosine/PCA 结果把这个经验现象解释成三相结构——早层 encode surface form，中层形成 language-agnostic semantic manifold，晚层 decode 到具体 token [51][52][53]。因此，depth-loop 的自然单位不是“第 k 层”，而是一个中层 multi-step circuit。重复完整 block 等于让同一语义电路做第二遍；只重复一个步骤，常常破坏 circuit 的相位。

这条机制线与 Huginn/MoR/RRT 可以对齐，但不能和 Coconut/CoCoMix 混成一个命题。Geiping et al. [1]、Bae et al. [2]、Bae et al. [3] 讨论的是共享层栈能否在固定参数量下吸收更多 depth compute，以及部署期能否按 token 或预算调节。它们的自然对照组是 dense scaling、untied depth、Mixture-of-Depths、early exit 一类 conditional compute 方法 [22][33][21]。

Hao et al. [9]、Tack et al. [10]、Pagnoni et al. [11]、Cheng and Van Durme [40]、Liu et al. [41] 讨论的则是另一件事：自然语言 token 是否只是 reasoning 的低效外壳，真正的中间计算能否压缩进连续表征。这里的关键不是“共享参数是否划算”，而是“可见 CoT 是否只是把 hidden computation 外显出来”。所以边界最好按比较基线划：如果对照组是“同 FLOPs 加参数/加 untied depth”，那是在讨论 shared-depth recurrence；如果对照组是“多吐或少吐 CoT token”，那是在讨论 latent reasoning。

同样叫 loop，不代表在回答同一个问题；先看它拿谁做 baseline，边界就清楚了。

§4 三种能力主张要分开看：length generalization、ICL、reasoning 不是同一条证据链

loop 相关工作常被打包成“递归更像算法，所以更会推理”。这句话只说对了一半。Fan et al. [7] 在 copy、addition、parity 上展示的是 length generalization：looped 结构能把固定深度网络做不到的迭代过程外推到更长输入。Sparse Universal Transformer [44] 与 Tran et al. [49] 也支持 recurrence 对层级或组合结构更友好。但 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46] 同时提醒，很多“需要 recurrence”的任务，Transformer 也可能靠 shortcut、训练细节或预训练补偿过去。因此，algorithmic 外推不能自动外推到开放域 LM reasoning。

Giannou et al. [8] 讨论的是另一类能力：in-context 学习本身像迭代优化，looped 12-layer 能优于 non-looped 144-layer。这个结果与 Bai et al. [35]、Kirsch et al. [32] 的 ICL 理论和元学习视角更接近，而不是与 GSM8K 一类数学推理直接同构。Saunshi et al. [6]、Geiping et al. [1] 讨论的 reasoning scaling 则又是第三条线：给定同一权重，多几轮 depth compute 是否能提高多步推理成功率。把这三条证据链混成“loop 普遍更会推理”，会高估结论强度。更稳的说法是：loop 在三类任务上都给出正面信号，但机制解释和基线各不相同，不能互相代证 [7][8][6][45]。

时间线

2016-03ACT 提出可学习的迭代步数，成为后续 adaptive loop 的概念源头[15]
2018-07Universal Transformer 把 shared-depth recurrence 与 self-attention 结合[4]
2019-09ALBERT 证明参数共享能大幅压缩，但共享并不免费[5]
2024-10RRT 给出从 Llama/Gemma checkpoint retrofit 成 recursive 形式的路径[3]
2024-12Coconut、BLT 把 loop 的讨论扩展到连续 latent state 与 patch encoder[9]
2025-02Huginn 与 Looped Latent Thoughts 把 loop 推到 3.5B 预训练与 test-time scaling ladder[1]
2025-07MoR 把固定 loop count 推进到 token-adaptive recursion[2]

研究立场对比

阵营 A：loop 可以在 matched FLOPs 下基本替代加参数

立场 — 支持者会引用 Huginn [1]、MoR [2]、以及部分小模型深度设计经验如 MobileLLM [14]，认为共享层栈反复执行能把更多 compute 变成有效深度，因此在固定参数预算下接近更大的 dense 模型。

证据：[1][2][14]

反方 — 反方来自 Levine et al. [12]、Liu et al. [13]、Kaplan et al. [29]：self-attention 未必 depth-efficient，untied depth 与 width 仍是强基线。公开结果更像“接近但未打平”，不是“共享递归普遍更优”。

判词 — 结论层面的建议：不要把 loop 当 dense scaling 替代品来卖。一个更务实的定位是，在参数受限或部署受限时，用额外 depth compute 换一部分 dense 参数等效 [1][2][12]。

阵营 B：固定 loop count 已经够用，adaptive routing 只是复杂化

立场 — 这一派会强调固定 r 的训练更稳、更容易并行，也更容易做 scaling。Huginn [1] 与早期 UT [4] 都能在固定或受控随机化步数下工作，因此没有必要引入 router。

证据：[1][4]

反方 — 反方来自 MoR [2]、ACT [15]、Depth-Adaptive Transformer [22]、LayerSkip [33]，以及 gate 训练困难研究 [50]。问题不是 adaptive depth 没价值，而是 gate 学习难、辅助损失敏感、收益是否超过复杂度仍需算账。

判词 — 一条更稳的读法：固定 r 适合先做大规模预训练，adaptive routing 适合部署期做预算分层。先证明 fixed-loop 的 scaling，再引入 router，通常比一开始就端到端学 gate 更稳 [1][2][50]。

阵营 C：真正该循环的是 latent state，不是层栈

立场 — 支持者会引用 Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache deliberation [41]、LCM [20]，认为 reasoning token 大多只是可见外壳，真正的中间计算应压缩进连续表征。

证据：[9][10][40][41][20]

反方 — 反方不是说 latent reasoning 无效，而是指出它回答的是另一类问题。Huginn [1]、RRT [3]、MoR [2] 关心的是 matched-FLOPs 下 shared-depth recurrence 的工程价值；BLT [11] 还提示 latent-loop 的收益可能混入表示单位变化。

判词 — 结论层面的建议：不要问“哪种 loop 更先进”，而要先问 baseline 是 dense scaling 还是 explicit CoT。若目标是 checkpoint 复用与推理预算旋钮，先看 depth-loop；若目标是压缩 reasoning token 与降低可见 CoT 开销，再看 latent-loop [9][1][11]。

阵营 D：loop 的能力收益来自递归归纳偏置，而不是单纯多算几步

立场 — 这一派会引用 Fan et al. [7]、Giannou et al. [8]、Sparse UT [44]，认为 loop 的价值在于更接近迭代算法结构，因此在 length generalization 与 ICL 上出现同参数下的能力跃迁。

证据：[7][8][44]

反方 — 反方来自 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46]：很多看似需要 recurrence 的任务，Transformer 也可能靠 shortcut、训练细节或预训练追上，因此不能把合成任务上的外推直接推广到开放域 reasoning。

判词 — 一个更务实的定位是：递归归纳偏置在 algorithmic 与 ICL 任务上证据较强，在开放域 LM reasoning 上还不能直接套用。先把能力主张按任务族拆开，再决定是否需要 loop [7][8][45]。

实践要点

可操作清单：
1. 先把 baseline 说清楚，再谈 loop 值不值。若比较对象是“同 FLOPs 加参数/加 untied depth”，就用 Huginn [1]、MoR [2]、Kaplan et al. [29]、Levine et al. [12] 这组坐标；不要拿 Coconut [9] 一类 latent reasoning 结果去替代这个比较。
2. 做大规模预训练时，优先从固定或随机化 r 开始，不要一上来就学复杂 router。Huginn [1] 说明 fixed/randomized loop 已足以验证 scaling；gate 训练难点在 Lin [50]、ACT [15]、Depth-Adaptive Transformer [22] 里都能看到。
3. 如果目标是部署而不是重新预训，优先考虑 retrofit。RRT [3] 加 LoRA [37] 给出了一条现实路径：先把现有 Llama/Gemma checkpoint 变成 recursive 版本，再把 loop count 作为服务档位，而不是重开一轮 800B token 预训练。
4. 不要把 ALBERT [5] 当成 loop 成功的先验证据；它更像失败模式提醒。共享参数会损失层间专门化，除非你有足够数据规模、训练稳定性与补偿机制 [16][3]。
5. 若目标是 reasoning 提升，优先把 loop 当 test-time compute knob，而不是 pretrain compute 替代品。Saunshi et al. [6]、Wu et al. [28]、Pfau et al. [19] 都支持“多做几步计算”这条线；这时 loop 与 explicit CoT 是互补，不是二选一。
6. 若目标是减少可见 CoT token、降低上下文膨胀，再看 latent-loop。Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache [41] 讨论的是“把思维压进表示”，不是“共享层栈能否替代 dense”。
7. 不要把 algorithmic length generalization、ICL、开放域 reasoning 混成一个结论。Fan et al. [7]、Giannou et al. [8] 给的是正面信号，但 Liu et al. [45]、Csordás et al. [47] 说明 shortcut 与训练细节仍会改写结论。
8. open — 证据不足的地方要明确标出来：Huginn 式随机化 r 与 MoR 式 token-adaptive routing 还没有 matched-compute head-to-head；depth-loop 与 latent-loop 也缺少统一 benchmark 下的直接对照 [1][2][9][10]。

悬而未决的问题

Q1.Huginn 式随机化 r 训练，与 MoR 式 token-adaptive routing，在 matched pretrain compute、matched params、matched data 下谁的斜率更好？目前没有公开 head-to-head [1][2]。
Q2.ALBERT 的共享层回退，与 Huginn/RRT 的可行性之间，真正起决定作用的是数据规模、归一化位置、位置编码，还是 layer-wise adaptation？缺少控制变量实验 [5][1][3][16]。
Q3.depth-loop 与 latent-loop 在统一 benchmark、统一 compute accounting 下如何直接比较？现有工作大多 baseline 不同，导致收益来源难以拆分 [9][10][1][6]。
Q4.loop 与 SSM/Mamba 混合后是互补还是重复计费？两者都在用状态或深度换算力，但公开 ablation 还不够 [31]。
Q5.algorithmic length generalization 与开放域 reasoning 之间的迁移边界在哪里？CLRS-Text 一类 benchmark 提供了桥梁，但还没有把 loop 的合成任务优势稳定映射到真实 LM 任务 [7][48][45]。
Q6.hidden-state 三相扫描能否预测可 loop 的 block，而不必先跑完整 benchmark heatmap？RYS 给出强启发，但还缺跨模型、跨任务、同协议的公开验证 [52][53]。

[1]
Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. arXiv, 2025论文
[2]
Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster. Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation. arXiv, 2025论文
[3]
Sangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster. Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA. arXiv, 2024论文
[4]
Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Łukasz Kaiser. Universal Transformers. arXiv, 2018论文
[5]
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv, 2019论文
[6]
Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi. Reasoning with Latent Thoughts: On the Power of Looped Transformers. arXiv, 2025论文
[7]
Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee. Looped Transformers for Length Generalization. arXiv, 2024论文
[8]
Anonymous. Looped Transformers are Better at Learning Learning Algorithms. arXiv, 2023论文
[9]
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston. Training Large Language Models to Reason in a Continuous Latent Space. arXiv, 2024论文
[10]
Jihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan. LLM Pretraining with Continuous Concepts. arXiv, 2025论文
[11]
Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
[12]
Yoav Levine, Noam Wies, Or Sharir, Hofit Bata, Amnon Shashua. The Depth-to-Width Interplay in Self-Attention. arXiv, 2020论文
[13]
Xiaodong Liu, Kevin Duh, Liyuan Liu, Jianfeng Gao. Very Deep Transformers for Neural Machine Translation. arXiv, 2020论文
[14]
Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian. MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases. arXiv, 2024论文
[15]
Alex Graves. Adaptive Computation Time for Recurrent Neural Networks. arXiv, 2016论文
[16]
Sho Takase, Shun Kiyono. Lessons on Parameter Sharing across Layers in Transformers. arXiv, 2021论文
[17]
Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar. Think before you speak: Training Language Models With Pause Tokens. arXiv, 2023论文
[18]
William Merrill, Ashish Sabharwal. The Expressive Power of Transformers with Chain of Thought. arXiv, 2023论文
[19]
Jacob Pfau, William Merrill, Samuel R. Bowman. Let's Think Dot by Dot: Hidden Computation in Transformer Language Models. arXiv, 2024论文
[20]
LCM team, Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov. Large Concept Models: Language Modeling in a Sentence Representation Space. arXiv, 2024论文
[21]
Advait Gadhikar, Souptik Kumar Majumdar, Niclas Popp, Piyapat Saranrittichai, Martin Rapp. Attention Is All You Need For Mixture-of-Depths Routing. arXiv, 2024论文
[22]
Maha Elbayad, Jiatao Gu, Edouard Grave, Michael Auli. Depth-Adaptive Transformer. arXiv, 2019论文
[23]
Yuntian Deng, Kiran Prasad, Roland Fernandez, Paul Smolensky, Vishrav Chaudhary. Implicit Chain of Thought Reasoning via Knowledge Distillation. arXiv, 2023论文
[24]
Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking. arXiv, 2024论文
[25]
David Herel, Tomas Mikolov. Thinking Tokens for Language Modeling. arXiv, 2024论文
[26]
Yuntian Deng, Yejin Choi, Stuart Shieber. From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step. arXiv, 2024论文
[27]
Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov. Distilling System 2 into System 1. arXiv, 2024论文
[28]
Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models. arXiv, 2024论文
[29]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
[30]
Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin. Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv, 2021论文
[31]
Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus. Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?. arXiv, 2022论文
[32]
Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz. General-Purpose In-Context Learning by Meta-Learning Transformers. arXiv, 2022论文
[33]
Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti. LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding. arXiv, 2024论文
[34]
Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang. Neural Networks and the Chomsky Hierarchy. arXiv, 2022论文
[35]
Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei. Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection. arXiv, 2023论文
[36]
Xuezhi Wang, Denny Zhou. Chain-of-Thought Reasoning Without Prompting. arXiv, 2024论文
[37]
Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li. LoRA: Low-Rank Adaptation of Large Language Models. arXiv, 2021论文
[38]
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv, 2022论文
[39]
Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. Large Language Models are Zero-Shot Reasoners. arXiv, 2022论文
[40]
Jeffrey Cheng, Benjamin Van Durme. Compressed Chain of Thought: Efficient Reasoning Through Dense Representations. arXiv, 2024论文
[41]
Luyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam. Deliberation in Latent Space via Differentiable Cache Augmentation. arXiv, 2024论文
[42]
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun. Training Verifiers to Solve Math Word Problems. arXiv, 2021论文
[43]
Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv, 2022论文
[44]
Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan. Sparse Universal Transformer. arXiv, 2023论文
[45]
Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang. Transformers Learn Shortcuts to Automata. arXiv, 2022论文
[46]
Daniel Furrer, Marc van Zee, Nathan Scales, Nathanael Schärli. Compositional Generalization in Semantic Parsing: Pre-training vs. Specialized Architectures. arXiv, 2020论文
[47]
Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber. The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers. arXiv, 2021论文
[48]
Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova. The CLRS-Text Algorithmic Reasoning Language Benchmark. arXiv, 2024论文
[49]
Ke Tran, Arianna Bisazza, Christof Monz. The Importance of Being Recurrent for Modeling Hierarchical Structure. arXiv, 2018论文
[50]
Qingwei Lin. Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study. arXiv, 2026论文
[51]
David Noel Ng. LLM Neuroanatomy: How I Topped the LLM Leaderboard Without Changing a Single Weight. dnhkng.github.io, 2026文章
[52]
David Noel Ng. LLM Neuroanatomy II: Modern LLM Hacking and hints of a Universal Language?. dnhkng.github.io, 2026文章
[53]
David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章
[54]
Jordan HoffmannSebastian BorgeaudArthur MenschElena BuchatskayaTrevor CaiEliza RutherfordDiego de Las CasasLisa Anne HendricksJohannes WelblAidan Clarket al.. Training Compute-Optimal Large Language Models. NeurIPS 2022, 2022论文

论文列表

显式 depth-loop：共享层栈循环(4)

这一簇关注 loop 发生在 Transformer 层栈内部：同一组 block 被重复执行多次，loop count 可以固定，也可以按 token 自适应。核心问题是 matched-FLOPs 下能否接近 dense scaling，以及共享参数会不会带来训练或下游退化。

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Jonas Geiping,Sean McLeish,Neel Jain,John Kirchenbauer,Siddharth Singh,Brian R. Bartoldson2025年2月7日

把 shared-depth recurrence 推到 3.5B、800B token 预训练规模，给出 loop count 既可在训练期随机化、也可在推理期继续加深的第一手证据。它回答的是“loop 能否在真实 LM 规模上稳定训练”，而不是“小模型上能否省参数”。

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

Sangmin Bae,Yujin Kim,Reza Bayat,Sungnyun Kim,Jiyoun Ha,Tal Schuster2025年7月14日

把 loop count 变成 token-level router 决策，说明“固定 r”不是唯一做法。它的重要性在于把 Universal Transformer 的 ACT 思路带回现代 decoder-only LM，并给出 matched-FLOPs 下参数更少但 ppl 接近 dense 的证据。

Universal Transformers

Mostafa Dehghani,Stephan Gouws,Oriol Vinyals,Jakob Uszkoreit,Łukasz Kaiser2018年7月10日

提供 shared-depth recurrence 的经典原型：同一层反复更新 token state，并可配合 ACT 做自适应步数。后续 Huginn、MoR 的很多设计都可以看成在更大规模、更现代训练配方下重做这件事。

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Zhenzhong Lan,Mingda Chen,Sebastian Goodman,Kevin Gimpel,Piyush Sharma,Radu Soricut2019年9月26日

是 loop 讨论里的负对照：参数共享确实能大幅压缩模型，但共享层并不自动带来更好的任务表现。后续 looped LM 若要成立，必须解释为什么它不是 ALBERT 式压缩后再吃一点下游损失。

retrofit 与 adaptive depth(4)

这一簇讨论 loop 不是从头预训练的唯一选择：既有 checkpoint 可以被蒸馏成 recursive 形式，推理时也可以按 token 或样本动态分配深度。关键在于部署价值，而不是纯架构新颖性。

Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

Sangmin Bae,Adam Fisch,Hrayr Harutyunyan,Ziwei Ji,Seungyeon Kim,Tal Schuster2024年10月28日

给出从 Gemma-2、Llama-3 checkpoint 出发的 retrofit 路径：共享主干权重，再用 layer-wise LoRA 保留层间差异。它把 loop 从“预训练时的架构承诺”改成“部署时可后加的 compute knob”。

Adaptive Computation Time for Recurrent Neural Networks

Alex Graves2016年3月29日

是 token-adaptive loop 的概念源头：不同输入分配不同迭代步数。MoR 的 router、UT 的 halting、以及后来的 conditional depth routing，都在继承这条思路。

Depth-Adaptive Transformer

Maha Elbayad,Jiatao Gu,Edouard Grave,Michael Auli2019年10月22日

说明动态深度并不要求共享权重；也因此它是 MoR 的重要对照。若收益主要来自 conditional compute，而不是 recurrence 本身，那么 loop 的独特价值就需要重新界定。

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

Mostafa Elhoushi,Akshat Shrivastava,Diana Liskovich,Basil Hosmer,Bram Wasti2024年4月25日

提供另一条 deployment-time compute knob：不循环共享层，而是允许部分 token 提前退出。它帮助区分“adaptive depth 的价值”与“shared recurrence 的价值”并不相同。

latent-state loop 与 hidden compute(4)

这一簇把 loop 从层栈转移到连续表征：模型不一定显式生成思维 token，而是在 hidden state、concept vector、patch latent 或 differentiable cache 中反复更新。这里的主要比较对象是 explicit CoT，而不是 dense scaling。

Training Large Language Models to Reason in a Continuous Latent Space

Shibo Hao,Sainbayar Sukhbaatar,DiJia Su,Xian Li,Zhiting Hu,Jason Weston2024年12月9日

提出 Coconut：把最后 hidden state 回灌为下一步输入，让 reasoning 发生在连续 latent 中。它反对“多想一会儿必须多吐 token”这一前提，因此比较对象是 explicit CoT，而不是更大的 dense 模型。

LLM Pretraining with Continuous Concepts

Jihoon Tack,Jack Lanchantin,Jane Yu,Andrew Cohen,Ilia Kulikov,Janice Lan2025年2月12日

把 latent mixing 前移到预训练阶段，而不是像 Coconut 那样主要依赖后续训练或微调。它回答的是 latent reasoning 何时注入最有效：预训练时学 representation，还是后处理时学 deliberation。

Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni,Ram Pasunuru,Pedro Rodriguez,John Nguyen,Benjamin Muller,Margaret Li2024年12月13日

BLT 不是为 reasoning 提出的 loop，但它给出一个重要现实检验：latent patch encoder 的循环在 8B 级别也能扩展。它支持“loop 可以发生在 token 之外”，同时提醒 latent-loop 的收益可能来自表示单位变化，而不只是 recurrence。

Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Jeffrey Cheng,Benjamin Van Durme2024年12月17日

提供 latent reasoning 的支持性证据：如果 reasoning 轨迹可以压缩成 dense representation，那么“更多 token = 更多推理”就不是唯一实现路径。它与 Coconut、CoCoMix 在问题设定上高度一致。

能力边界与比较基线(4)

这一簇不把 loop 当成单一能力，而是拆成三种常见主张：algorithmic length generalization、in-context meta-learning、以及 reasoning test-time scaling。它们共享“迭代计算”直觉，但实验基线和机制解释不同。