TL;DR
结论要先收窄:depth-loop 的收益真实,但它成立在“同一份权重多吃 depth compute”这条轴上,不应被写成 Chinchilla/Kaplan dense scaling 的同斜率替代 [54][29]。RYS 的层扫描给出一个有用机制:可重复区域集中在 Transformer 中部,且跨语言 / Base64 / 代码 / LaTeX 的 hidden-state 证据指向三相结构——早层把表面形式归一化进共享语义空间,中层在 format-agnostic manifold 上处理意义,晚层再把意义写回具体 token [51][52][53]。这解释了为什么完整中层 block 比单层重复更稳:重复的是一个 multi-step circuit,而不是一层可交换算子。Huginn 把同一判断推到 3.5B × r=8 × 800B token 预训练,说明 shared-depth recurrence 可以稳定训练;MoR 把 r 做成 token-adaptive router,说明 loop count 可以成为预算分配变量 [1][2]。但这两条证据仍主要支持“同一 checkpoint 的 inference-time compute knob”,而不是“共享参数免费替代加参”。Saunshi 的 loop-count ladder 进一步说明,推理时增加 loop count 能带来阶梯式提升,但平台期和任务依赖明显 [6]。因此,depth-loop 应和 Coconut、CoCoMix、BLT 这类 latent-loop 分开写:前者关心同一层栈在深度方向的重复执行,后者关心显式 CoT 是否可以压缩进连续表征 [9][10][11]。
核心断言
§1 loop 已经不是 ALBERT 式参数压缩,但也还不是 dense scaling 替代品
先看最硬的变化:Geiping et al. [1] 把 shared-depth recurrence 推到 3.5B、800B token 预训练,直接回答了一个长期质疑——loop 不是只能在小模型或合成任务上存活。这个结果与 Dehghani et al. [4] 的 Universal Transformer 一脉相承,但工程语境已经完全不同:前者是在现代 decoder-only LM 规模上验证稳定训练,后者更多是在任务泛化和 ACT 机制上给出原型。与此同时,Lan et al. [5] 仍然是必要的负对照。ALBERT 说明参数共享可以大幅压缩模型,但共享并不免费,尤其在下游任务上会有回退。因此,Huginn 的意义不该被读成“参数共享终于免费了”,而应读成“在足够大数据、合适归一化与训练配方下,共享层栈可以吸收更多 depth compute,而不是立刻退化”。
真正需要谨慎的是比较基线。Kaplan et al. [29] 给出 dense scaling 的基本 compute 参照;Levine et al. [12] 与 Liu et al. [13] 则提醒,self-attention 并不天然 depth-efficient,增加宽度或 untied depth 仍可能更划算。Geiping et al. [1] 没有给出“loop 全面打平 dense”的证据,Bae et al. [2] 也更接近“更少参数下维持接近 dense 的 ppl”,而不是“共享递归主导缩放律”。一条更稳的读法是:loop 已经摆脱了 ALBERT 式纯压缩叙事,但它目前更像在固定参数预算下购买额外 depth compute 的方法,收益真实,斜率有限 [1][2][12][31]。
更接近事实的表述不是“loop 取代 dense”,而是“loop 让同一份权重多吃几轮 depth compute,而且不会立刻坏掉”。
§2 真正清晰的收益在推理期:loop 是第二根 test-time compute 旋钮
如果把 loop 放到 test-time scaling 坐标系里,证据就清楚得多。Saunshi et al. [6] 直接画出 loop-count 与 GSM8K、MATH、BBH 准确率的阶梯关系:参数不变,只增加循环次数,表现单调上升。Geiping et al. [1] 也把 recurrent depth 当成可在推理期继续扩展的 compute 轴。这个设定与 Wu et al. [28] 的 inference scaling law 框架天然兼容:问题不再是“模型有多大”,而是“给定同一 checkpoint,额外算力应该花在更多 token、更多采样、还是更多 latent/depth steps 上”。
这也是 loop 与 explicit CoT 最容易被混淆的地方。Kojima et al. [39]、Wang et al. [38]、Nye et al. [30]、Zhou et al. [43] 都说明,多生成中间 token 往往能提高复杂推理;Merrill and Sabharwal [18] 甚至从表达能力角度说明 CoT 提供了额外顺序计算。Pfau et al. [19] 则进一步指出,收益里有相当一部分可能来自“多做了计算”,而不一定来自自然语言分解本身。沿着这条线,Goyal et al. [17]、Zelikman et al. [24]、Herel and Mikolov [25]、Deng et al. [23][26] 都在尝试把额外计算从显式 token 挪回 hidden state。loop 的价值恰好落在这里:它不是替代 CoT,而是提供“在参数里 think longer”的另一种 test-time compute 形式 [6][28][19]。
| 机制 | 额外计算放在哪里 | 主要比较基线 | 代表工作 |
|---|---|---|---|
| depth-loop | 共享层栈重复执行;loop count 可固定或自适应 | matched-FLOPs dense scaling、adaptive depth | |
| explicit CoT | 上下文 token、采样路径、可见 scratchpad | 直接回答、短推理、少样本 prompting | |
| latent reasoning | hidden state、concept vector、latent patch、differentiable cache | explicit CoT token budget、可见思维轨迹 |
§S scaling-ladder 的四根轴:matched-FLOPs · loop-count(训练) · loop-count(推理) · CoT token 预算
四根轴共用一个坐标,但斜率和基线完全不同;把它们混算是当前这波 looped-LM 讨论最常见的错误。第一根轴是 matched-FLOPs × 参数量,也就是 Chinchilla dense transformer 与 Kaplan dense transformer 给出的训练算力分配曲线。Chinchilla 的 compute-optimal 拟合近似是 Nopt∝.49、Dopt∝.51,实践口径约为每个参数 20 个 token,因此总 FLOPs 增大时参数量和 token 数要接近 1:1 同步倍增;Kaplan 更早的拟合更偏向增大参数,常用读法是 Nopt∝.73、Dopt∝.27,同一算力下会训练更大的、相对欠训练的 dense transformer [54][29]。所以 loop 架构在 A 轴上的问题不是“有没有 recurrence”,而是同样 FLOPs 下把预算投给参数量、token 数、非共享深度,还是共享 loop,哪条 loss/benchmark 斜率更好;Levine 的 depth-width 分析支持深度对组合函数有表达效率,但并不自动推出 tied-depth 在预训练 scaling 上优于 untied depth [12]。第二根轴是训练期 loop count,即把 r 当成 depth compute knob。Huginn 的关键数字是 3.5B 参数、固定 r=8、800B token,把 shared-depth recurrence 推到真实语言预训练规模;但这条证据说明 tied recurrent depth 可训练,并不等于在 matched FLOPs 下优于同 FLOPs 的更宽或更深 dense transformer [1]。MoR 把固定 r 换成 token-adaptive router,在 matched FLOPs 下用约 20% 更少参数达到接近 dense transformer 的 perplexity,机制是简单 token 少走 loop、困难 token 多走 loop;这证明训练期深度分配可以更细粒度,但斜率仍要同 Chinchilla dense transformer 和 untied-depth transformer 分开比较 [2]。Bae 的 RRT 也说明 recurrent computation 能在推理或任务难度变化时复用权重,但该证据主要来自 reasoning/algorithmic setting,不能直接替代 800B-token 语言预训练 scaling [3]。第三根轴是推理期 loop count,这是 Huginn 更有区分度的结果:同一份 3.5B 权重在推理时继续加深 loop,reasoning benchmarks 上的 compute load 可外推到约等价 50B 参数 dense transformer,而不是重新训练一个 50B 模型 [1]。Saunshi 等人的合成推理结果给出更干净的机制证据:k-layer 循环 L 次在任务上几乎追平 kL-layer 非循环模型,并显著好于 k-layer 非循环模型,说明 inference-time depth 在组合推理上可以近似兑换 untied depth [6]。第四根轴是 inference scaling 的比较组:explicit CoT 把预算花在生成 token 上,Kojima、Wang、Nye、Merrill-Sabharwal 这一路线增加的是 scratchpad/chain token;loop 把预算花在隐藏层反复变换上,不增加可见 token。Wu 的 inference scaling law 把模型计算、输入 token、输出 token 放到同一坐标系,因此 explicit CoT 与 loop 的比较应写成 token-budget 斜率对 depth-budget 斜率,而不是把二者都叫“多算一点” [28]。合成判断是:loop 在 A 轴上还没有显示出明显优于 Chinchilla dense transformer 或 Kaplan dense transformer 的 matched-FLOPs 斜率;在 B 轴上也没有稳定证明 tied loop 优于 untied depth;真正的优势集中在 C 和 D,即同一 checkpoint 可以暴露多个 inference-time compute 档位,在不改参数量、不重训 dense transformer 的情况下,用更多 depth compute 或更少 token compute 购买更强的推理表现。
loop 的强项是同一 checkpoint 的推理算力档位。
§3 loop 应该发生在哪里:共享层栈循环,与连续 latent-state 循环是两条不同问题线
loop 发生在哪里,决定它在回答什么问题。RYS 的层扫描给出最直观的边界:重复早层会把尚未归一化的表面形式再喂给读入模块,重复晚层会把已经面向输出的语言特异表示再喂给生成模块,最稳定的重复区域出现在中层;Part II/III 的 cosine/PCA 结果把这个经验现象解释成三相结构——早层 encode surface form,中层形成 language-agnostic semantic manifold,晚层 decode 到具体 token [51][52][53]。因此,depth-loop 的自然单位不是“第 k 层”,而是一个中层 multi-step circuit。重复完整 block 等于让同一语义电路做第二遍;只重复一个步骤,常常破坏 circuit 的相位。
这条机制线与 Huginn/MoR/RRT 可以对齐,但不能和 Coconut/CoCoMix 混成一个命题。Geiping et al. [1]、Bae et al. [2]、Bae et al. [3] 讨论的是共享层栈能否在固定参数量下吸收更多 depth compute,以及部署期能否按 token 或预算调节。它们的自然对照组是 dense scaling、untied depth、Mixture-of-Depths、early exit 一类 conditional compute 方法 [22][33][21]。
Hao et al. [9]、Tack et al. [10]、Pagnoni et al. [11]、Cheng and Van Durme [40]、Liu et al. [41] 讨论的则是另一件事:自然语言 token 是否只是 reasoning 的低效外壳,真正的中间计算能否压缩进连续表征。这里的关键不是“共享参数是否划算”,而是“可见 CoT 是否只是把 hidden computation 外显出来”。所以边界最好按比较基线划:如果对照组是“同 FLOPs 加参数/加 untied depth”,那是在讨论 shared-depth recurrence;如果对照组是“多吐或少吐 CoT token”,那是在讨论 latent reasoning。
同样叫 loop,不代表在回答同一个问题;先看它拿谁做 baseline,边界就清楚了。
§4 三种能力主张要分开看:length generalization、ICL、reasoning 不是同一条证据链
loop 相关工作常被打包成“递归更像算法,所以更会推理”。这句话只说对了一半。Fan et al. [7] 在 copy、addition、parity 上展示的是 length generalization:looped 结构能把固定深度网络做不到的迭代过程外推到更长输入。Sparse Universal Transformer [44] 与 Tran et al. [49] 也支持 recurrence 对层级或组合结构更友好。但 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46] 同时提醒,很多“需要 recurrence”的任务,Transformer 也可能靠 shortcut、训练细节或预训练补偿过去。因此,algorithmic 外推不能自动外推到开放域 LM reasoning。
Giannou et al. [8] 讨论的是另一类能力:in-context 学习本身像迭代优化,looped 12-layer 能优于 non-looped 144-layer。这个结果与 Bai et al. [35]、Kirsch et al. [32] 的 ICL 理论和元学习视角更接近,而不是与 GSM8K 一类数学推理直接同构。Saunshi et al. [6]、Geiping et al. [1] 讨论的 reasoning scaling 则又是第三条线:给定同一权重,多几轮 depth compute 是否能提高多步推理成功率。把这三条证据链混成“loop 普遍更会推理”,会高估结论强度。更稳的说法是:loop 在三类任务上都给出正面信号,但机制解释和基线各不相同,不能互相代证 [7][8][6][45]。
时间线
- ACT 提出可学习的迭代步数,成为后续 adaptive loop 的概念源头[15]
- Universal Transformer 把 shared-depth recurrence 与 self-attention 结合[4]
- ALBERT 证明参数共享能大幅压缩,但共享并不免费[5]
- RRT 给出从 Llama/Gemma checkpoint retrofit 成 recursive 形式的路径[3]
- Coconut、BLT 把 loop 的讨论扩展到连续 latent state 与 patch encoder[9]
- Huginn 与 Looped Latent Thoughts 把 loop 推到 3.5B 预训练与 test-time scaling ladder[1]
- MoR 把固定 loop count 推进到 token-adaptive recursion[2]
研究立场对比
阵营 A:loop 可以在 matched FLOPs 下基本替代加参数
立场 — 支持者会引用 Huginn [1]、MoR [2]、以及部分小模型深度设计经验如 MobileLLM [14],认为共享层栈反复执行能把更多 compute 变成有效深度,因此在固定参数预算下接近更大的 dense 模型。
反方 — 反方来自 Levine et al. [12]、Liu et al. [13]、Kaplan et al. [29]:self-attention 未必 depth-efficient,untied depth 与 width 仍是强基线。公开结果更像“接近但未打平”,不是“共享递归普遍更优”。
判词 — 结论层面的建议:不要把 loop 当 dense scaling 替代品来卖。一个更务实的定位是,在参数受限或部署受限时,用额外 depth compute 换一部分 dense 参数等效 [1][2][12]。
阵营 B:固定 loop count 已经够用,adaptive routing 只是复杂化
立场 — 这一派会强调固定 r 的训练更稳、更容易并行,也更容易做 scaling。Huginn [1] 与早期 UT [4] 都能在固定或受控随机化步数下工作,因此没有必要引入 router。
反方 — 反方来自 MoR [2]、ACT [15]、Depth-Adaptive Transformer [22]、LayerSkip [33],以及 gate 训练困难研究 [50]。问题不是 adaptive depth 没价值,而是 gate 学习难、辅助损失敏感、收益是否超过复杂度仍需算账。
判词 — 一条更稳的读法:固定 r 适合先做大规模预训练,adaptive routing 适合部署期做预算分层。先证明 fixed-loop 的 scaling,再引入 router,通常比一开始就端到端学 gate 更稳 [1][2][50]。
阵营 C:真正该循环的是 latent state,不是层栈
立场 — 支持者会引用 Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache deliberation [41]、LCM [20],认为 reasoning token 大多只是可见外壳,真正的中间计算应压缩进连续表征。
反方 — 反方不是说 latent reasoning 无效,而是指出它回答的是另一类问题。Huginn [1]、RRT [3]、MoR [2] 关心的是 matched-FLOPs 下 shared-depth recurrence 的工程价值;BLT [11] 还提示 latent-loop 的收益可能混入表示单位变化。
判词 — 结论层面的建议:不要问“哪种 loop 更先进”,而要先问 baseline 是 dense scaling 还是 explicit CoT。若目标是 checkpoint 复用与推理预算旋钮,先看 depth-loop;若目标是压缩 reasoning token 与降低可见 CoT 开销,再看 latent-loop [9][1][11]。
阵营 D:loop 的能力收益来自递归归纳偏置,而不是单纯多算几步
立场 — 这一派会引用 Fan et al. [7]、Giannou et al. [8]、Sparse UT [44],认为 loop 的价值在于更接近迭代算法结构,因此在 length generalization 与 ICL 上出现同参数下的能力跃迁。
反方 — 反方来自 Liu et al. [45]、Csordás et al. [47]、Furrer et al. [46]:很多看似需要 recurrence 的任务,Transformer 也可能靠 shortcut、训练细节或预训练追上,因此不能把合成任务上的外推直接推广到开放域 reasoning。
判词 — 一个更务实的定位是:递归归纳偏置在 algorithmic 与 ICL 任务上证据较强,在开放域 LM reasoning 上还不能直接套用。先把能力主张按任务族拆开,再决定是否需要 loop [7][8][45]。
实践要点
可操作清单:
1. 先把 baseline 说清楚,再谈 loop 值不值。若比较对象是“同 FLOPs 加参数/加 untied depth”,就用 Huginn [1]、MoR [2]、Kaplan et al. [29]、Levine et al. [12] 这组坐标;不要拿 Coconut [9] 一类 latent reasoning 结果去替代这个比较。
2. 做大规模预训练时,优先从固定或随机化 r 开始,不要一上来就学复杂 router。Huginn [1] 说明 fixed/randomized loop 已足以验证 scaling;gate 训练难点在 Lin [50]、ACT [15]、Depth-Adaptive Transformer [22] 里都能看到。
3. 如果目标是部署而不是重新预训,优先考虑 retrofit。RRT [3] 加 LoRA [37] 给出了一条现实路径:先把现有 Llama/Gemma checkpoint 变成 recursive 版本,再把 loop count 作为服务档位,而不是重开一轮 800B token 预训练。
4. 不要把 ALBERT [5] 当成 loop 成功的先验证据;它更像失败模式提醒。共享参数会损失层间专门化,除非你有足够数据规模、训练稳定性与补偿机制 [16][3]。
5. 若目标是 reasoning 提升,优先把 loop 当 test-time compute knob,而不是 pretrain compute 替代品。Saunshi et al. [6]、Wu et al. [28]、Pfau et al. [19] 都支持“多做几步计算”这条线;这时 loop 与 explicit CoT 是互补,不是二选一。
6. 若目标是减少可见 CoT token、降低上下文膨胀,再看 latent-loop。Coconut [9]、CoCoMix [10]、Compressed CoT [40]、latent cache [41] 讨论的是“把思维压进表示”,不是“共享层栈能否替代 dense”。
7. 不要把 algorithmic length generalization、ICL、开放域 reasoning 混成一个结论。Fan et al. [7]、Giannou et al. [8] 给的是正面信号,但 Liu et al. [45]、Csordás et al. [47] 说明 shortcut 与训练细节仍会改写结论。
8. open — 证据不足的地方要明确标出来:Huginn 式随机化 r 与 MoR 式 token-adaptive routing 还没有 matched-compute head-to-head;depth-loop 与 latent-loop 也缺少统一 benchmark 下的直接对照 [1][2][9][10]。
悬而未决的问题
- Q1.Huginn 式随机化 r 训练,与 MoR 式 token-adaptive routing,在 matched pretrain compute、matched params、matched data 下谁的斜率更好?目前没有公开 head-to-head [1][2]。
- Q2.ALBERT 的共享层回退,与 Huginn/RRT 的可行性之间,真正起决定作用的是数据规模、归一化位置、位置编码,还是 layer-wise adaptation?缺少控制变量实验 [5][1][3][16]。
- Q3.depth-loop 与 latent-loop 在统一 benchmark、统一 compute accounting 下如何直接比较?现有工作大多 baseline 不同,导致收益来源难以拆分 [9][10][1][6]。
- Q4.loop 与 SSM/Mamba 混合后是互补还是重复计费?两者都在用状态或深度换算力,但公开 ablation 还不够 [31]。
- Q5.algorithmic length generalization 与开放域 reasoning 之间的迁移边界在哪里?CLRS-Text 一类 benchmark 提供了桥梁,但还没有把 loop 的合成任务优势稳定映射到真实 LM 任务 [7][48][45]。
- Q6.hidden-state 三相扫描能否预测可 loop 的 block,而不必先跑完整 benchmark heatmap?RYS 给出强启发,但还缺跨模型、跨任务、同协议的公开验证 [52][53]。
- [1]Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson. Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach. arXiv, 2025论文
- [2]Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster. Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation. arXiv, 2025论文
- [3]Sangmin Bae, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Seungyeon Kim, Tal Schuster. Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA. arXiv, 2024论文
- [4]Mostafa Dehghani, Stephan Gouws, Oriol Vinyals, Jakob Uszkoreit, Łukasz Kaiser. Universal Transformers. arXiv, 2018论文
- [5]Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv, 2019论文
- [6]Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, Sashank J. Reddi. Reasoning with Latent Thoughts: On the Power of Looped Transformers. arXiv, 2025论文
- [7]Ying Fan, Yilun Du, Kannan Ramchandran, Kangwook Lee. Looped Transformers for Length Generalization. arXiv, 2024论文
- [8]
- [9]Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston. Training Large Language Models to Reason in a Continuous Latent Space. arXiv, 2024论文
- [10]Jihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan. LLM Pretraining with Continuous Concepts. arXiv, 2025论文
- [11]Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li. Byte Latent Transformer: Patches Scale Better Than Tokens. arXiv, 2024论文
- [12]Yoav Levine, Noam Wies, Or Sharir, Hofit Bata, Amnon Shashua. The Depth-to-Width Interplay in Self-Attention. arXiv, 2020论文
- [13]Xiaodong Liu, Kevin Duh, Liyuan Liu, Jianfeng Gao. Very Deep Transformers for Neural Machine Translation. arXiv, 2020论文
- [14]Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian. MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases. arXiv, 2024论文
- [15]
- [16]
- [17]Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar. Think before you speak: Training Language Models With Pause Tokens. arXiv, 2023论文
- [18]William Merrill, Ashish Sabharwal. The Expressive Power of Transformers with Chain of Thought. arXiv, 2023论文
- [19]Jacob Pfau, William Merrill, Samuel R. Bowman. Let's Think Dot by Dot: Hidden Computation in Transformer Language Models. arXiv, 2024论文
- [20]LCM team, Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov. Large Concept Models: Language Modeling in a Sentence Representation Space. arXiv, 2024论文
- [21]Advait Gadhikar, Souptik Kumar Majumdar, Niclas Popp, Piyapat Saranrittichai, Martin Rapp. Attention Is All You Need For Mixture-of-Depths Routing. arXiv, 2024论文
- [22]
- [23]Yuntian Deng, Kiran Prasad, Roland Fernandez, Paul Smolensky, Vishrav Chaudhary. Implicit Chain of Thought Reasoning via Knowledge Distillation. arXiv, 2023论文
- [24]Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking. arXiv, 2024论文
- [25]
- [26]Yuntian Deng, Yejin Choi, Stuart Shieber. From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step. arXiv, 2024论文
- [27]
- [28]Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models. arXiv, 2024论文
- [29]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [30]Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin. Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv, 2021论文
- [31]Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus. Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?. arXiv, 2022论文
- [32]Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz. General-Purpose In-Context Learning by Meta-Learning Transformers. arXiv, 2022论文
- [33]Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti. LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding. arXiv, 2024论文
- [34]Grégoire Delétang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang. Neural Networks and the Chomsky Hierarchy. arXiv, 2022论文
- [35]Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei. Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection. arXiv, 2023论文
- [36]
- [37]Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li. LoRA: Low-Rank Adaptation of Large Language Models. arXiv, 2021论文
- [38]Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv, 2022论文
- [39]Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. Large Language Models are Zero-Shot Reasoners. arXiv, 2022论文
- [40]Jeffrey Cheng, Benjamin Van Durme. Compressed Chain of Thought: Efficient Reasoning Through Dense Representations. arXiv, 2024论文
- [41]Luyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam. Deliberation in Latent Space via Differentiable Cache Augmentation. arXiv, 2024论文
- [42]Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun. Training Verifiers to Solve Math Word Problems. arXiv, 2021论文
- [43]Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv, 2022论文
- [44]Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan. Sparse Universal Transformer. arXiv, 2023论文
- [45]Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang. Transformers Learn Shortcuts to Automata. arXiv, 2022论文
- [46]Daniel Furrer, Marc van Zee, Nathan Scales, Nathanael Schärli. Compositional Generalization in Semantic Parsing: Pre-training vs. Specialized Architectures. arXiv, 2020论文
- [47]Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber. The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers. arXiv, 2021论文
- [48]Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova. The CLRS-Text Algorithmic Reasoning Language Benchmark. arXiv, 2024论文
- [49]Ke Tran, Arianna Bisazza, Christof Monz. The Importance of Being Recurrent for Modeling Hierarchical Structure. arXiv, 2018论文
- [50]Qingwei Lin. Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study. arXiv, 2026论文
- [51]David Noel Ng. LLM Neuroanatomy: How I Topped the LLM Leaderboard Without Changing a Single Weight. dnhkng.github.io, 2026文章
- [52]David Noel Ng. LLM Neuroanatomy II: Modern LLM Hacking and hints of a Universal Language?. dnhkng.github.io, 2026文章
- [53]David Noel Ng. LLM Neuroanatomy III: Why RYS Works -- The Language-Agnostic Middle. dnhkng.github.io, 2026文章
- [54]Jordan HoffmannSebastian BorgeaudArthur MenschElena BuchatskayaTrevor CaiEliza RutherfordDiego de Las CasasLisa Anne HendricksJohannes WelblAidan Clarket al.. Training Compute-Optimal Large Language Models. NeurIPS 2022, 2022论文