TL;DR
结论层面的建议:2026 年默认仍选 AdamW,但理由是“可迁移调参 + 生态成熟”,不是单点最优。[4] 与 Agarwal et al. [5] 说明:不固定 HP 搜索预算、也不对齐 LR schedule 家族时,optimizer gap 往往缩到原报告的一半左右,甚至出现 rank flip;很多“更强”其实是在比较调参投入。≥70B 稠密生产更应先把 μP 的 LR transfer 跑通,再做 ≤10% 预算的校准 sweep:[8]、Noci et al. [9] 支持 LR 可跨宽度迁移,直接省掉多轮 sweep 的成本。≤30B 新训练更值得试 Muon 的混合路由:只对 hidden 的 2D 权重用 Newton-Schulz 正交化更新,其余参数留 AdamW,把风险隔离在可控子集;公开证据更偏 speedrun/小规模,≥7B 的 head-to-head 仍是缺口。[14] 二阶的正路是 Shampoo→SOAP:SOAP 在 Shampoo 的特征基里跑 Adam,把额外超参压到 1 个,并在 360M–1.3B 做到 wall-clock 逼近 AdamW 且 loss 更低;但 ≥7B 的公开证据与二阶在 μP-style 下的 LR transfer 仍不足。[3][11] 显存紧张时优先选不改训练循环、低 state 的方法(Apollo),再考虑 GaLore 这类改梯度表示的方法,并用质量/显存/复杂度一起算账。[15][16]
核心断言
§0 演进谱系:从 Adam 到分维度优化 + 显存形态替代
Adam -> AdamW -> Shampoo -> muP transfer -> Muon (hidden 2D only) -> SOAP (HP 4 -> 1) -> Apollo / GaLore
LLM 训练的 optimizer 演进可以拆成三段:第一段是 first-order 自适应法的工程化 — [2] 的 Adam 把 RMSProp + 动量统一,[1] 把 weight decay 与 LR 解耦解决了 wd↔LR 的混淆,这套到 2017 年定型,十年里仍是默认。第二段是二阶探索 — [3] 用 Kronecker 矩阵把曲率信息以 matmul 形式带进训练,但工程化代价是 ≥4 个新 HP 与昂贵的预条件运算,直到 [12] 把分布式实现做出来才算可生产化;Shampoo 的真正继承者是 [11],把额外 HP 从 4 压到 1,在 360M-1.3B 的报告里 wall-clock 接近 AdamW、loss 更低,把二阶信号变成 ROI 可控的选项。
第三段是 2024 之后的“分维度优化”:[14] 不再追求“给所有参数都做二阶”,只对 hidden 的 2D 权重做 Newton-Schulz 正交化更新,embedding/norm/head 仍用 AdamW;这把“二阶 vs 一阶”的辩论转成“在哪些张量切面上做二阶”的工程问题。并行的另一支是显存约束:[15] 用 per-tensor 标量替代 per-param 二阶矩,在 7B/13B 报告 SGD-like 显存 + AdamW-level 性能,[16] 走低秩状态路径;二者都是“不改训练循环、只换 state 形态”的 drop-in。再外一层是协议层:[8] 把 [10] 的 muP 公式工程化,通常可把 sweep cost 砍到原来 ~30%;[4] / [18] 让“谁更强”可被审计 — 在固定 HP 搜索预算 + 对齐 schedule 家族下,大量报告的优势会缩小到原差距的约一半,且存在 rank flip。今天选 optimizer 的真问题不是 “Muon 还是 SOAP”,而是 “规模 × 显存 × 调参预算”三轴上的可审计取舍 — 本节用 figure 0.2 把这条 decision flow 画出来,把后面 §1-§4 的取舍标准固化成 release-time checklist。
§1 先把 A/B 变成可审计:HP 搜索预算 + schedule 家族
工程上最常见的误判,是把“调参投入差异”读成“算法差异”。AlgoPerf 将固定 HP 搜索预算纳入协议:同一任务内,比较对象必须共享 trial 次数、可调超参集合、以及相同的 early-stop/评估规则;否则 gap 无法归因。[4] Agarwal et al. 进一步指出,adaptive 方法与 SGD 的对比高度依赖 LR schedule:同一 optimizer 在不同 schedule 家族下可能 rank flip,因此只报告一个 schedule 的结论不稳。[5] 这也解释了为什么 Defazio et al. 将“是否依赖停止步数 T”设为关键轴:T-dependent schedule 往往更强,但生产训练会动态延长/缩短 token horizon 时,T 本身是不稳定输入;此时 schedule-free 的目标不是争取更强单点,而是降低对 T 的敏感性。[6] 更务实的读法是:optimizer A/B 的最低合格线不是“跑通”,而是同时输出(1)schedule 家族,(2)搜索预算,(3)wall-clock 与吞吐,(4)稳定性失败率;否则“谁更强”会被实验协议吞掉。
同一 optimizer 在不同 schedule 家族下出现 rank flip 并不罕见;不对齐 schedule,A/B 更像是在比较实验设计。
§2 AdamW 仍是默认:护城河是 μP/LR transfer 与失败模式
把 AdamW 设为默认,常被误读为“AdamW 在任何设定里都最优”。更准确的机制是:规模到 ≥70B 后,单次 sweep 的机会成本很高,复用历史调参记录通常比追求单点最优更有价值。Lingle 的 μP LR transfer 实证表明:在 μP 下,学习率跨宽度更可迁移,因此可以先用小模型确定 LR,再在大模型上做少量校准,而不是从零开始 sweep。[8] Noci et al. 从 landscape 一致性给出相容证据:训练动力学越一致,LR transfer 越可能成立。[9] 这与 AdamW 的工程属性相互强化:AdamW 更新规则简单,weight decay 解耦后正则行为更可控,recipe 更容易跨模型族复用。[1] 相比之下,任何引入大 state、额外通信路径或更复杂数值算子的 optimizer,即便在中小规模取得更低 loss,也必须回答两个生产问题:LR/HP 能否迁移?失败模式能否预测?若答案不清楚,收益很容易被额外 1–2 轮 sweep 或一次不稳定回滚抵消。
§3 Muon 的混合路由:把近二阶收益限制在 hidden 2D 权重
Muon 的关键不是“替代 AdamW”,而是把二阶/近二阶更新做成参数分区:仅对 hidden 的 2D 权重(典型是线性层矩阵)使用 Newton-Schulz 正交化更新,把敏感参数(embedding/norm/head)明确路由回 AdamW。[14] 这对应一个可检验的工程假设:条件数差、耦合强的矩阵参数最需要更好的几何更新;embedding/norm/head 更容易数值敏感和分布漂移,保留 AdamW 可减少失败模式的种类。相较于“全参换新 optimizer”,混合路由的优势是风险隔离:即使 Muon 子集不稳定,也可通过路由回退或缩小覆盖面止损。相较于 SOAP/Shampoo,Muon 的取舍是把 preconditioning 近似成更便宜的形式,优先优化 wall-clock 和调参回合数,而不是保留更完整的 Kronecker 结构。当前缺口同样明确:公开证据偏 speedrun/小规模,≥7B–70B 稠密 LLM 的 matched schedule + matched budget head-to-head 仍缺失;在这类证据出现前,把 Muon 定位为“≤30B 新训练的低风险候选”,比称其为“下一代默认”更稳。
| 路线 | 参数化/几何 | 额外 state 与通信 | 训练循环改动 | 公开证据强度(LLM ≥7B) |
|---|---|---|---|---|
| AdamW | 对角自适应 + decoupled weight decay [1] | state≈2P(m,v),通信与 baseline 相同 | 无 | 强(大量生产/开源 recipe),且 μP/LR transfer 证据较足 [8] |
| Muon(混合路由) | hidden 2D 权重做正交化更新;其余走 AdamW [14] | 额外计算为主;state 变化小,通信路径基本不变(依实现) | 小(路由 + 2D 权重算子) | 中-弱(公开更偏小规模/速度基准;≥7B matched head-to-head 缺) |
| Shampoo / SOAP | 矩阵 preconditioner state + 分解/逆根;分布式实现需额外通信 [12] | 中(预条件更新频率、block、分布式细节) | 中(360M–1.3B 强;≥7B 公开证据仍不足) | |
| Apollo / GaLore | Apollo state 逼近 SGD;GaLore 省 state 但有额外投影缓存/算子 | Apollo:无;GaLore:有(梯度表示路径变化) | Apollo:中(7B/13B 报告);GaLore:中(需更多 matched 协议) |
§4 Shampoo→SOAP:二阶的工程化路径,但规模与迁移仍是缺口
“二阶是否值得”应拆成三问:几何是否更对、系统是否扛得住、调参维度是否可控。Shampoo 用 Kronecker 结构在张量维度上做预条件,以可承受的 O(^2) 成本逼近更接近几何正确的更新。[3] 工程痛点集中在稳定性与 grafting:预条件后的步长尺度如何与动量/自适应组合,决定是否需要大量手工规则。SOAP 的关键动作是把更新搬到 Shampoo 的特征基里,再让 Adam 的动量与自适应“接管”尺度与稳定性,将额外超参压到 1 个,并在 360M–1.3B 报告 wall-clock 接近 AdamW 且 loss 更低。[11] 系统侧,Shi et al. 给出分布式 Shampoo 的 PyTorch 实现,说明通信与分解频率是可工程化的变量,而不是抽象反驳。[12] 量化路线(4-bit Shampoo)继续压低 state 门槛,但引入量化误差与更新频率的权衡。[13] 剩余最硬缺口有两条:其一是公开的 ≥7B 稠密 LLM matched budget + matched schedule head-to-head;其二是二阶在 μP-style 下的 LR transfer 是否成立,若不成立,生产成本会被 sweep 吃掉。[19][8]
时间线
- AdamW:decoupled weight decay 成为工程默认基线[1]
- Shampoo:Kronecker 预条件定义可扩展二阶结构[3]
- Agarwal et al.:adaptive 对比被 LR schedule 混淆[5]
- AlgoPerf:把固定 HP 搜索预算写进 benchmark 协议[4]
- Shi et al.:Distributed Shampoo 工程实现把系统代价变成可测变量[12]
- μP LR transfer 实证:跨宽度调参从 sweep 变成校准[8]
- SOAP:二阶超参维度压到 1 个,wall-clock 接近 AdamW(中等规模)[11]
- Muon:混合路由把近二阶限制在 hidden 2D 权重[14]
- Apollo:把 optimizer state 压到接近 SGD 的量级[15]
研究立场对比
阵营 A:AdamW 不会退役(默认优先级最高)
立场 — 默认选择应以总成本最小化:recipe 可复用、失败模式可预期、调参可迁移比单点最优更值钱。≥70B 先跑通 μP/LR transfer,把 sweep 压到校准级别,再谈替换 optimizer。
反方 — 反驳 c-6cf8d6c199:在 matched budget 下,Muon/SOAP 仍可能在 wall-clock 或 loss 上给出可见收益;把“默认”外推成“不可替代”会阻碍在 ≤30B 或中等规模上吃到低摩擦收益。[14][11]
判词 — 一个更务实的定位:≥70B 稠密生产默认 AdamW,并把 μP/LR transfer 当作核心资产;新 optimizer 进入生产的门槛应包含“可迁移调参证据 + 失败模式边界”,而不是只看一次 A/B 的 loss。
阵营 B:Muon 是下一代默认(但只能以混合路由形态)
立场 — 近二阶收益主要集中在 hidden 的 2D 权重;用混合路由把收益与风险都局部化:hidden 用 Muon,其余用 AdamW。优先目标是 wall-clock 与更少调参回合,而不是追求全参统一。
反方 — 修正 c-c7ea2fc38c:Muon 的公开证据对 ≥7B–70B 稠密 LLM 仍稀疏,且缺少 matched schedule + matched budget 的 head-to-head;在证据补齐前,把它当“≤30B 新训练的可控试验”更稳。[4][5]
判词 — 结论层面的建议:Muon 值得进入“≤30B 新训练的优先 A/B 列表”,但默认化需要两类补课:≥7B 稳定性边界(失败率、回退策略)与可迁移调参(至少跨宽度的 LR 规律)。
阵营 C:Shampoo/SOAP 是长期归宿(二阶会吞并一阶)
立场 — 对角自适应在条件数差、耦合强的层上先天受限;Kronecker 结构的预条件更接近正确几何。SOAP 把二阶的稳定性与超参负担压缩到工程可接受,剩下主要是实现与规模化证据。
反方 — 反驳 c-9c69cc911f 的外推:SOAP 在 360M–1.3B 的 wall-clock 逼近 AdamW,并不自动推出 ≥7B 仍成立;分布式通信、预条件更新频率与 block 选择可能让系统代价重新主导。[12][6]
判词 — 一条更稳的读法:SOAP 把“二阶太难调”从原则性反对变成工程问题,但在 ≥7B 默认化之前,需要公开的 matched-budget head-to-head 与“二阶也能做 μP-style LR transfer”的证据链。
阵营 D:optimizer 影响更小;很多收益是评估伪影
立场 — 在公平调参(固定预算)与对齐 schedule 后,许多 optimizer 差距会消失或大幅缩小;更值得投入的是标准化协议、稳定的 schedule、以及可复用 recipe,而不是追逐新 update rule。
反方 — 修正 c-8a0328a518:即便在受控预算下,二阶/近二阶仍可能在相同 wall-clock 下给出更低 loss,尤其当系统实现成熟(分布式 Shampoo、SOAP 的超参简化)时;因此“优化器不重要”的强版本也会过度外推。[12][11]
判词 — 结论层面的建议:把“协议对齐”当作默认动作,而不是反对研究 optimizer。先把 schedule 与预算锁死,再讨论算法差异;在此前,任何排名都不应进入生产决策。
实践要点
可执行清单(2026 选型与落地):
1) Do:所有 optimizer A/B 固定 HP 搜索预算:固定 schedule 家族 + 固定 trial 次数(例如 16 或 32)+ 固定可调超参集合,并在结果里写清楚;否则不要把差距当作算法结论。[4][5]
2) Do:把 schedule 当作一等公民:至少各跑一轮 T-dependent 与 T-independent(或 schedule-free)sanity check,避免被 schedule 驱动的 rank flip 误导。[6][7]
3) Do:≥70B 稠密生产从 AdamW 起步,先跑通 μP 的 LR transfer,再做 ≤10% 预算的校准 sweep;把“可迁移调参”当作核心资产,而不是把一次 sweep 的最优点当作结论。[1][8][9]
4) Don’t:在 ≥70B 直接引入需要新通信路径或大 state 的 optimizer,除非同时给出(a)matched-budget head-to-head,(b)失败模式边界,(c)至少跨宽度的 LR/HP 迁移证据;否则系统风险与额外 sweep 往往吞掉收益。[4][12][8]
5) Do:≤30B 新训练试 Muon 时坚持混合路由:只把 hidden 的 2D 权重切到 Muon,其余参数留 AdamW;把回退开关做成配置项,并记录 Muon 覆盖比例与不稳定失败率。[14][1]
6) Do:评估 SOAP/Shampoo 时把“预条件更新频率、block size、分布式通信开销”作为显式自变量;只报 loss 不报 wall-clock/吞吐会误导结论。[11][12][3]
7) Do:显存紧张且不想改训练循环时,优先 Apollo 这类低 state 方法;若改用 GaLore,必须同时报告吞吐变化、数值稳定性(NaN/发散率)与最终质量,避免只看显存节省。[15][16]
8) Don’t:把中等规模(≤1.3B)的 wall-clock parity 直接外推到 ≥7B;先用公开可复现的 matched 协议补齐 head-to-head,再谈默认化路线图。[11][4]
悬而未决的问题
- Q1.Muon 混合路由 vs AdamW:在 7B–70B 稠密 LLM 预训练下,matched schedule 家族 + matched HP 搜索预算的公开 head-to-head 何时出现?需要同时报告 wall-clock、失败率与最终 loss。[14][4]
- Q2.SOAP 在 ≥7B 是否仍能保持接近 AdamW 的 wall-clock 同时给出更低 loss,还是通信与 preconditioner state 成为主导成本?需要分布式实现细节与消融。[11][12]
- Q3.二阶(Shampoo/SOAP)是否存在 μP-style 的 LR transfer 证据链?如果不能迁移,生产里 sweep 成本可能抵消算法收益。[8][19]
- Q4.显存受限下,Apollo、AdaLomo、GaLore 的质量/显存/复杂度三维对比:在同等 wall-clock 与同等调参预算下,哪个更稳?需要统一协议与公开脚本。[15][17][16]
- Q5.哪些工作能明确展示:在控制 HP 搜索预算与对齐 schedule 家族后,optimizer 的收益仍能稳定保留(而不只是“差距消失”)?需要把“胜出条件”写成可复现的边界。[4][5]
- [1]
- [2]
- [3]Vineet Gupta, Tomer Koren, Yoram Singer. Shampoo: Preconditioned Stochastic Tensor Optimization. ICML, 2018论文
- [4]George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry. Benchmarking Neural Network Training Algorithms (AlgoPerf). arXiv / MLCommons, 2023论文
- [5]Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang. Disentangling Adaptive Gradient Methods from Learning Rates. ICLR, 2021论文
- [6]Aaron Defazio, Xingyu Alice Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled. The Road Less Scheduled. arXiv, 2024论文
- [7]Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko. Optimal Linear Decay Learning Rate Schedules and Further Refinements. arXiv, 2023论文
- [8]
- [9]Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto. Super Consistency of Neural Network Landscapes and Learning Rate Transfer. arXiv, 2024论文
- [10]Greg Yang, Etai Littwin. Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit. arXiv, 2023论文
- [11]Nikhil Vyas, Depen Morwani, Rosie Zhao, Mujin Kwun, Itai Shapira. SOAP: Improving and Stabilizing Shampoo using Adam. arXiv, 2024论文
- [12]Hao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li. A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale. arXiv, 2023论文
- [13]Sike Wang, Pan Zhou, Jia Li, Hua Huang. 4-bit Shampoo for Memory-Efficient Network Training. arXiv, 2024论文
- [14]
- [15]Hanqing Zhu, Zhenyu Wang, Jinheng Deng, Kyusang Kim, Jaewoo Yoo, Beidi Chen. APOLLO: SGD-like Memory, AdamW-level Performance. arXiv, 2024论文
- [16]Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar. GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. arXiv, 2024论文
- [17]Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu. AdaLomo: Low-memory Optimization with Adaptive Learning Rate. arXiv, 2023论文
- [18]Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl. A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes. NeurIPS, 2021论文
- [19]Kazuki Osawa, Satoki Ishikawa, Rio Yokota, Shigang Li, Torsten Hoefler. ASDL: A Unified Interface for Gradient Preconditioning in PyTorch. arXiv, 2023论文