📚Papers

Optimizer 全景:AdamW 仍是默认,Muon 的混合路由与 SOAP 的二阶路线

把“谁更强”改写成:规模 × 显存 × 调参预算的可审计决策

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

35 篇扩展证据(支持 9 · 拓展 22 · 切线 4)·知识聚类 6·悬问 5

领域综述

2026 年做 optimizer 选型,最稳的框架不是“谁更强”,而是三轴决策:规模(≤30B vs ≥70B)、显存(state/通信能否承受)、调参预算(能否做多轮 sweep)。在固定 HP 搜索预算与对齐 schedule 家族的前提下,很多“新 optimizer 胜出”的差距会收缩,甚至发生 rank flip;因此 AdamW 仍常作为默认,不是因为单点最优,而是因为 recipe 可复用、失败模式可预期、以及 μP 下的 LR transfer 能把跨宽度调参从“重来”压缩到“少量校准”。Muon 把近二阶收益限定在 hidden 的 2D 权重,并把 embedding/norm/head 交回 AdamW,用“混合路由”隔离风险;SOAP 则沿 Shampoo 的 Kronecker 预条件路线,把稳定性与超参负担压到更接近工程可用,但 ≥7B 的公开 head-to-head 与二阶在 μP-style 下的 LR transfer 仍缺证据。显存紧张时,优先选不改训练循环、低 state 的方法(如 Apollo/Adam-mini 类),再考虑 GaLore 这类改梯度表示的方案,并用质量/显存/复杂度三维一起算账。

TL;DR

结论层面的建议:2026 年默认仍选 AdamW,但理由是“可迁移调参 + 生态成熟”,不是单点最优。[4] 与 Agarwal et al. [5] 说明:不固定 HP 搜索预算、也不对齐 LR schedule 家族时,optimizer gap 往往缩到原报告的一半左右,甚至出现 rank flip;很多“更强”其实是在比较调参投入。≥70B 稠密生产更应先把 μP 的 LR transfer 跑通,再做 ≤10% 预算的校准 sweep:[8]、Noci et al. [9] 支持 LR 可跨宽度迁移,直接省掉多轮 sweep 的成本。≤30B 新训练更值得试 Muon 的混合路由:只对 hidden 的 2D 权重用 Newton-Schulz 正交化更新,其余参数留 AdamW,把风险隔离在可控子集;公开证据更偏 speedrun/小规模,≥7B 的 head-to-head 仍是缺口。[14] 二阶的正路是 Shampoo→SOAP:SOAP 在 Shampoo 的特征基里跑 Adam,把额外超参压到 1 个,并在 360M–1.3B 做到 wall-clock 逼近 AdamW 且 loss 更低;但 ≥7B 的公开证据与二阶在 μP-style 下的 LR transfer 仍不足。[3][11] 显存紧张时优先选不改训练循环、低 state 的方法(Apollo),再考虑 GaLore 这类改梯度表示的方法,并用质量/显存/复杂度一起算账。[15][16]

核心断言

#1在固定 HP 搜索预算与对齐 schedule 家族的协议下,许多 optimizer 报告的优势会缩小到“原差距的约一半”,并且存在 rank flip;因此任何 A/B 若不报告 trial 数、可调超参集合与 schedule 家族,就不能把差距当作算法结论。[4][5]
#2≥70B 稠密训练里,AdamW 的工程优势主要来自 μP/LR transfer:把跨宽度 LR 搜索从“每次重来”压缩到“少量校准”,通常可把 sweep 预算压到总算力的 ≤10%。[8][9]
#3Muon 的可落地性来自参数分区:只对 hidden 的 2D 权重做 Newton-Schulz 正交化更新、embedding/norm/head 交回 AdamW;这把近二阶的不稳定性与调参风险隔离在可控子集,适合 ≤30B 的新训练先做低风险 A/B。[14]
#4SOAP 把 Shampoo 的额外超参从约 4 个压到 1 个,并在 360M–1.3B 报告 wall-clock 接近 AdamW 且 loss 更低;“二阶一定更慢/更难调”的强版本反驳在中等规模上已不成立,但 ≥7B 的公开 head-to-head 仍缺。[11][3]
#5在显存受限的全参训练里,优先选“不改训练循环”的低 state 路线:Apollo 用 per-tensor 标量替代 per-param 二阶矩,在 7B/13B 上接近 AdamW;GaLore 通过低秩投影省 state,但引入额外算子与数值路径,A/B 必须把吞吐与稳定性一起报。[15][16]
#6在固定 HP 搜索预算 + 对齐 schedule 家族下,2024 之前的 optimizer 报告优势平均缩小约一半,并出现 rank flip — [4][18] 已经把这一点做成可审计协议;不应在没有此协议下宣布“X 优于 AdamW”。
#7现代 optimizer 的真正分歧不是 first-order vs second-order,而是“在哪些张量切面上做二阶 / 在显存哪一维做替代”:[14] 把二阶限制在 hidden 2D 权重,[11] 把 Shampoo 的 HP 数从 4 压到 1,[15] 用标量替代二阶矩 — 三者都把决策从“算法选择”降级到“张量分区 + 状态形态”。

§0 演进谱系:从 Adam 到分维度优化 + 显存形态替代

Adam -> AdamW -> Shampoo -> muP transfer -> Muon (hidden 2D only) -> SOAP (HP 4 -> 1) -> Apollo / GaLore

LLM 训练的 optimizer 演进可以拆成三段:第一段是 first-order 自适应法的工程化 — [2] 的 Adam 把 RMSProp + 动量统一,[1] 把 weight decay 与 LR 解耦解决了 wd↔LR 的混淆,这套到 2017 年定型,十年里仍是默认。第二段是二阶探索 — [3] 用 Kronecker 矩阵把曲率信息以 matmul 形式带进训练,但工程化代价是 ≥4 个新 HP 与昂贵的预条件运算,直到 [12] 把分布式实现做出来才算可生产化;Shampoo 的真正继承者是 [11],把额外 HP 从 4 压到 1,在 360M-1.3B 的报告里 wall-clock 接近 AdamW、loss 更低,把二阶信号变成 ROI 可控的选项。

第三段是 2024 之后的“分维度优化”:[14] 不再追求“给所有参数都做二阶”,只对 hidden 的 2D 权重做 Newton-Schulz 正交化更新,embedding/norm/head 仍用 AdamW;这把“二阶 vs 一阶”的辩论转成“在哪些张量切面上做二阶”的工程问题。并行的另一支是显存约束:[15] 用 per-tensor 标量替代 per-param 二阶矩,在 7B/13B 报告 SGD-like 显存 + AdamW-level 性能,[16] 走低秩状态路径;二者都是“不改训练循环、只换 state 形态”的 drop-in。再外一层是协议层:[8][10] 的 muP 公式工程化,通常可把 sweep cost 砍到原来 ~30%;[4] / [18] 让“谁更强”可被审计 — 在固定 HP 搜索预算 + 对齐 schedule 家族下,大量报告的优势会缩小到原差距的约一半,且存在 rank flip。今天选 optimizer 的真问题不是 “Muon 还是 SOAP”,而是 “规模 × 显存 × 调参预算”三轴上的可审计取舍 — 本节用 figure 0.2 把这条 decision flow 画出来,把后面 §1-§4 的取舍标准固化成 release-time checklist。

Optimizer evolution: from a single update rule to scale x memory x sweep budget Top: representative recipe. Bottom: cost dimension it solved. 2015 2017 2018 2023 2024 H1 2024 H2 2024 H2 Adam AdamW Shampoo muP / LR transfer Muon SOAP Apollo / GaLore [Kingma2014Adam] [AdamW2017] [Gupta2018Shampoo] [Yang2023TensorProgramsIVb] [Jordan2024Muon] [Vyas2024SOAP] [Zhu2024Apollo][Zhao2024GaLore] adaptive 1st order decoupled wd 2nd-order matmul cross-width LR hidden 2D-only NS update Shampoo HP shrunk memory-bound full-tune noisy gradients wd vs LR confound curvature signal sweep collapse limit ND to 2D 4 -> 1 HP scalar / low-rank Optimizer that defined the era Cost dimension addressed
图 1. 图 0.1 Optimizer 演进时间线:每一代解决一类成本问题
正在渲染图示…
图 2. 图 0.2 给新预训练选 optimizer 的执行式 decision flow
AdamW + muP transfer
1baseline; muP 把 sweep cost 砍到 ~30% [Lingle2024muPTransfer]
SOAP (1 extra HP)
1.40[Vyas2024SOAP]
Muon (hidden 2D only)
1.20[Jordan2024Muon]
Shampoo (4 HP, full)
2.50[Gupta2018Shampoo][Shi2023DistShampoo]
Apollo (scalar state)
0.60memory-bound full-tune [Zhu2024Apollo]
GaLore (low-rank state)
0.70[Zhao2024GaLore]
单位:相对成本 (state mem x sweep)
图 3. 图 0.3 主流 optimizer 的报告 sweep cost 与 state-memory 占比 (illustrative, 数字越高越贵)

§1 先把 A/B 变成可审计:HP 搜索预算 + schedule 家族

工程上最常见的误判,是把“调参投入差异”读成“算法差异”。AlgoPerf 将固定 HP 搜索预算纳入协议:同一任务内,比较对象必须共享 trial 次数、可调超参集合、以及相同的 early-stop/评估规则;否则 gap 无法归因。[4] Agarwal et al. 进一步指出,adaptive 方法与 SGD 的对比高度依赖 LR schedule:同一 optimizer 在不同 schedule 家族下可能 rank flip,因此只报告一个 schedule 的结论不稳。[5] 这也解释了为什么 Defazio et al. 将“是否依赖停止步数 T”设为关键轴:T-dependent schedule 往往更强,但生产训练会动态延长/缩短 token horizon 时,T 本身是不稳定输入;此时 schedule-free 的目标不是争取更强单点,而是降低对 T 的敏感性。[6] 更务实的读法是:optimizer A/B 的最低合格线不是“跑通”,而是同时输出(1)schedule 家族,(2)搜索预算,(3)wall-clock 与吞吐,(4)稳定性失败率;否则“谁更强”会被实验协议吞掉。

Optimizer landscape: lineage of choices, ~2014 -> 2024 Top: optimizer published. Bottom: design axis it pushed forward. 2014 2017 2018 2023 2024 H1 2024 Mid 2024 H2 2024 H2 Adam AdamW Shampoo DistShampoo SOAP Muon Apollo GaLore [Kingma2014Adam] [AdamW2017] [Gupta2018Shampoo] [Shi2023DistShampoo] [Vyas2024SOAP] [Jordan2024Muon] [Zhu2024Apollo] [Zhao2024GaLore] adaptive 1st-order decoupled WD tensor-shape 2nd-order distributed 2nd-order Shampoo simplified hybrid routing 2D scalar state per-tensor low-rank state m, v per param unblock LR sweep L,R covariances implementable at 70B+ ~1 extra HP only hidden 2D Newton-Schulz SGD-like memory grad low-rank proj Optimizer publication Design axis it advanced
图 4. 图 1.1 optimizer 谱系:Adam -> AdamW -> Shampoo -> SOAP -> Muon -> Apollo / GaLore
同一 optimizer 在不同 schedule 家族下出现 rank flip 并不罕见;不对齐 schedule,A/B 更像是在比较实验设计。

§2 AdamW 仍是默认:护城河是 μP/LR transfer 与失败模式

把 AdamW 设为默认,常被误读为“AdamW 在任何设定里都最优”。更准确的机制是:规模到 ≥70B 后,单次 sweep 的机会成本很高,复用历史调参记录通常比追求单点最优更有价值。Lingle 的 μP LR transfer 实证表明:在 μP 下,学习率跨宽度更可迁移,因此可以先用小模型确定 LR,再在大模型上做少量校准,而不是从零开始 sweep。[8] Noci et al. 从 landscape 一致性给出相容证据:训练动力学越一致,LR transfer 越可能成立。[9] 这与 AdamW 的工程属性相互强化:AdamW 更新规则简单,weight decay 解耦后正则行为更可控,recipe 更容易跨模型族复用。[1] 相比之下,任何引入大 state、额外通信路径或更复杂数值算子的 optimizer,即便在中小规模取得更低 loss,也必须回答两个生产问题:LR/HP 能否迁移?失败模式能否预测?若答案不清楚,收益很容易被额外 1–2 轮 sweep 或一次不稳定回滚抵消。

AdamW (m + v)
2[AdamW2017]
Shampoo (L + R covariance)
3[Gupta2018Shampoo]
SOAP (Shampoo + Adam state)
3.50[Vyas2024SOAP]
Muon (hidden 2D only) + Adam (rest)
2.20[Jordan2024Muon]
GaLore (low-rank, r << d)
0.60[Zhao2024GaLore]
Apollo (per-tensor scalar)
0.40[Zhu2024Apollo]
单位:× params
图 5. 图 2.1 主要 optimizer 的额外参数级 state 量(相对 AdamW = 2 × params 而言;越小越省显存)

§3 Muon 的混合路由:把近二阶收益限制在 hidden 2D 权重

Muon 的关键不是“替代 AdamW”,而是把二阶/近二阶更新做成参数分区:仅对 hidden 的 2D 权重(典型是线性层矩阵)使用 Newton-Schulz 正交化更新,把敏感参数(embedding/norm/head)明确路由回 AdamW。[14] 这对应一个可检验的工程假设:条件数差、耦合强的矩阵参数最需要更好的几何更新;embedding/norm/head 更容易数值敏感和分布漂移,保留 AdamW 可减少失败模式的种类。相较于“全参换新 optimizer”,混合路由的优势是风险隔离:即使 Muon 子集不稳定,也可通过路由回退或缩小覆盖面止损。相较于 SOAP/Shampoo,Muon 的取舍是把 preconditioning 近似成更便宜的形式,优先优化 wall-clock 和调参回合数,而不是保留更完整的 Kronecker 结构。当前缺口同样明确:公开证据偏 speedrun/小规模,≥7B–70B 稠密 LLM 的 matched schedule + matched budget head-to-head 仍缺失;在这类证据出现前,把 Muon 定位为“≤30B 新训练的低风险候选”,比称其为“下一代默认”更稳。

路线参数化/几何额外 state 与通信训练循环改动公开证据强度(LLM ≥7B)
AdamW

对角自适应 + decoupled weight decay [1]

state≈2P(m,v),通信与 baseline 相同

强(大量生产/开源 recipe),且 μP/LR transfer 证据较足 [8]

Muon(混合路由)

hidden 2D 权重做正交化更新;其余走 AdamW [14]

额外计算为主;state 变化小,通信路径基本不变(依实现)

小(路由 + 2D 权重算子)

中-弱(公开更偏小规模/速度基准;≥7B matched head-to-head 缺)

Shampoo / SOAP

Kronecker 预条件;SOAP 在特征基下跑 Adam [3][11]

矩阵 preconditioner state + 分解/逆根;分布式实现需额外通信 [12]

中(预条件更新频率、block、分布式细节)

中(360M–1.3B 强;≥7B 公开证据仍不足)

Apollo / GaLore

Apollo:per-tensor 标量近似二阶矩;GaLore:梯度低秩投影 [15][16]

Apollo state 逼近 SGD;GaLore 省 state 但有额外投影缓存/算子

Apollo:无;GaLore:有(梯度表示路径变化)

Apollo:中(7B/13B 报告);GaLore:中(需更多 matched 协议)

2026 常见路线对比:更新几何、state/通信、以及落地摩擦
正在渲染图示…
图 6. 图 3.1 “该选哪个 optimizer”决策流

§4 Shampoo→SOAP:二阶的工程化路径,但规模与迁移仍是缺口

“二阶是否值得”应拆成三问:几何是否更对、系统是否扛得住、调参维度是否可控。Shampoo 用 Kronecker 结构在张量维度上做预条件,以可承受的 O(^2) 成本逼近更接近几何正确的更新。[3] 工程痛点集中在稳定性与 grafting:预条件后的步长尺度如何与动量/自适应组合,决定是否需要大量手工规则。SOAP 的关键动作是把更新搬到 Shampoo 的特征基里,再让 Adam 的动量与自适应“接管”尺度与稳定性,将额外超参压到 1 个,并在 360M–1.3B 报告 wall-clock 接近 AdamW 且 loss 更低。[11] 系统侧,Shi et al. 给出分布式 Shampoo 的 PyTorch 实现,说明通信与分解频率是可工程化的变量,而不是抽象反驳。[12] 量化路线(4-bit Shampoo)继续压低 state 门槛,但引入量化误差与更新频率的权衡。[13] 剩余最硬缺口有两条:其一是公开的 ≥7B 稠密 LLM matched budget + matched schedule head-to-head;其二是二阶在 μP-style 下的 LR transfer 是否成立,若不成立,生产成本会被 sweep 吃掉。[19][8]

时间线

  1. AdamW:decoupled weight decay 成为工程默认基线[1]
  2. Shampoo:Kronecker 预条件定义可扩展二阶结构[3]
  3. Agarwal et al.:adaptive 对比被 LR schedule 混淆[5]
  4. AlgoPerf:把固定 HP 搜索预算写进 benchmark 协议[4]
  5. Shi et al.:Distributed Shampoo 工程实现把系统代价变成可测变量[12]
  6. μP LR transfer 实证:跨宽度调参从 sweep 变成校准[8]
  7. SOAP:二阶超参维度压到 1 个,wall-clock 接近 AdamW(中等规模)[11]
  8. Muon:混合路由把近二阶限制在 hidden 2D 权重[14]
  9. Apollo:把 optimizer state 压到接近 SGD 的量级[15]

研究立场对比

阵营 A:AdamW 不会退役(默认优先级最高)

立场 — 默认选择应以总成本最小化:recipe 可复用、失败模式可预期、调参可迁移比单点最优更值钱。≥70B 先跑通 μP/LR transfer,把 sweep 压到校准级别,再谈替换 optimizer。

证据:[1][8][9][4]

反方 — 反驳 c-6cf8d6c199:在 matched budget 下,Muon/SOAP 仍可能在 wall-clock 或 loss 上给出可见收益;把“默认”外推成“不可替代”会阻碍在 ≤30B 或中等规模上吃到低摩擦收益。[14][11]

判词 — 一个更务实的定位:≥70B 稠密生产默认 AdamW,并把 μP/LR transfer 当作核心资产;新 optimizer 进入生产的门槛应包含“可迁移调参证据 + 失败模式边界”,而不是只看一次 A/B 的 loss。

阵营 B:Muon 是下一代默认(但只能以混合路由形态)

立场 — 近二阶收益主要集中在 hidden 的 2D 权重;用混合路由把收益与风险都局部化:hidden 用 Muon,其余用 AdamW。优先目标是 wall-clock 与更少调参回合,而不是追求全参统一。

证据:[14][3]

反方 — 修正 c-c7ea2fc38c:Muon 的公开证据对 ≥7B–70B 稠密 LLM 仍稀疏,且缺少 matched schedule + matched budget 的 head-to-head;在证据补齐前,把它当“≤30B 新训练的可控试验”更稳。[4][5]

判词 — 结论层面的建议:Muon 值得进入“≤30B 新训练的优先 A/B 列表”,但默认化需要两类补课:≥7B 稳定性边界(失败率、回退策略)与可迁移调参(至少跨宽度的 LR 规律)。

阵营 C:Shampoo/SOAP 是长期归宿(二阶会吞并一阶)

立场 — 对角自适应在条件数差、耦合强的层上先天受限;Kronecker 结构的预条件更接近正确几何。SOAP 把二阶的稳定性与超参负担压缩到工程可接受,剩下主要是实现与规模化证据。

证据:[3][11][12][13]

反方 — 反驳 c-9c69cc911f 的外推:SOAP 在 360M–1.3B 的 wall-clock 逼近 AdamW,并不自动推出 ≥7B 仍成立;分布式通信、预条件更新频率与 block 选择可能让系统代价重新主导。[12][6]

判词 — 一条更稳的读法:SOAP 把“二阶太难调”从原则性反对变成工程问题,但在 ≥7B 默认化之前,需要公开的 matched-budget head-to-head 与“二阶也能做 μP-style LR transfer”的证据链。

阵营 D:optimizer 影响更小;很多收益是评估伪影

立场 — 在公平调参(固定预算)与对齐 schedule 后,许多 optimizer 差距会消失或大幅缩小;更值得投入的是标准化协议、稳定的 schedule、以及可复用 recipe,而不是追逐新 update rule。

证据:[4][5][18][7]

反方 — 修正 c-8a0328a518:即便在受控预算下,二阶/近二阶仍可能在相同 wall-clock 下给出更低 loss,尤其当系统实现成熟(分布式 Shampoo、SOAP 的超参简化)时;因此“优化器不重要”的强版本也会过度外推。[12][11]

判词 — 结论层面的建议:把“协议对齐”当作默认动作,而不是反对研究 optimizer。先把 schedule 与预算锁死,再讨论算法差异;在此前,任何排名都不应进入生产决策。

实践要点

可执行清单(2026 选型与落地):
1) Do:所有 optimizer A/B 固定 HP 搜索预算:固定 schedule 家族 + 固定 trial 次数(例如 16 或 32)+ 固定可调超参集合,并在结果里写清楚;否则不要把差距当作算法结论。[4][5]
2) Do:把 schedule 当作一等公民:至少各跑一轮 T-dependent 与 T-independent(或 schedule-free)sanity check,避免被 schedule 驱动的 rank flip 误导。[6][7]
3) Do:≥70B 稠密生产从 AdamW 起步,先跑通 μP 的 LR transfer,再做 ≤10% 预算的校准 sweep;把“可迁移调参”当作核心资产,而不是把一次 sweep 的最优点当作结论。[1][8][9]
4) Don’t:在 ≥70B 直接引入需要新通信路径或大 state 的 optimizer,除非同时给出(a)matched-budget head-to-head,(b)失败模式边界,(c)至少跨宽度的 LR/HP 迁移证据;否则系统风险与额外 sweep 往往吞掉收益。[4][12][8]
5) Do:≤30B 新训练试 Muon 时坚持混合路由:只把 hidden 的 2D 权重切到 Muon,其余参数留 AdamW;把回退开关做成配置项,并记录 Muon 覆盖比例与不稳定失败率。[14][1]
6) Do:评估 SOAP/Shampoo 时把“预条件更新频率、block size、分布式通信开销”作为显式自变量;只报 loss 不报 wall-clock/吞吐会误导结论。[11][12][3]
7) Do:显存紧张且不想改训练循环时,优先 Apollo 这类低 state 方法;若改用 GaLore,必须同时报告吞吐变化、数值稳定性(NaN/发散率)与最终质量,避免只看显存节省。[15][16]
8) Don’t:把中等规模(≤1.3B)的 wall-clock parity 直接外推到 ≥7B;先用公开可复现的 matched 协议补齐 head-to-head,再谈默认化路线图。[11][4]

悬而未决的问题

  • Q1.Muon 混合路由 vs AdamW:在 7B–70B 稠密 LLM 预训练下,matched schedule 家族 + matched HP 搜索预算的公开 head-to-head 何时出现?需要同时报告 wall-clock、失败率与最终 loss。[14][4]
  • Q2.SOAP 在 ≥7B 是否仍能保持接近 AdamW 的 wall-clock 同时给出更低 loss,还是通信与 preconditioner state 成为主导成本?需要分布式实现细节与消融。[11][12]
  • Q3.二阶(Shampoo/SOAP)是否存在 μP-style 的 LR transfer 证据链?如果不能迁移,生产里 sweep 成本可能抵消算法收益。[8][19]
  • Q4.显存受限下,Apollo、AdaLomo、GaLore 的质量/显存/复杂度三维对比:在同等 wall-clock 与同等调参预算下,哪个更稳?需要统一协议与公开脚本。[15][17][16]
  • Q5.哪些工作能明确展示:在控制 HP 搜索预算与对齐 schedule 家族后,optimizer 的收益仍能稳定保留(而不只是“差距消失”)?需要把“胜出条件”写成可复现的边界。[4][5]
  1. [1]
    Ilya Loshchilov, Frank Hutter. Decoupled Weight Decay Regularization. arXiv, 2017论文
  2. [2]
    Diederik P. Kingma, Jimmy Ba. Adam: A Method for Stochastic Optimization. ICLR, 2015论文
  3. [3]
    Vineet Gupta, Tomer Koren, Yoram Singer. Shampoo: Preconditioned Stochastic Tensor Optimization. ICML, 2018论文
  4. [4]
    George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry. Benchmarking Neural Network Training Algorithms (AlgoPerf). arXiv / MLCommons, 2023论文
  5. [5]
    Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang. Disentangling Adaptive Gradient Methods from Learning Rates. ICLR, 2021论文
  6. [6]
    Aaron Defazio, Xingyu Alice Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled. The Road Less Scheduled. arXiv, 2024论文
  7. [7]
    Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko. Optimal Linear Decay Learning Rate Schedules and Further Refinements. arXiv, 2023论文
  8. [8]
  9. [9]
    Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto. Super Consistency of Neural Network Landscapes and Learning Rate Transfer. arXiv, 2024论文
  10. [10]
  11. [11]
    Nikhil Vyas, Depen Morwani, Rosie Zhao, Mujin Kwun, Itai Shapira. SOAP: Improving and Stabilizing Shampoo using Adam. arXiv, 2024论文
  12. [12]
    Hao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li. A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale. arXiv, 2023论文
  13. [13]
    Sike Wang, Pan Zhou, Jia Li, Hua Huang. 4-bit Shampoo for Memory-Efficient Network Training. arXiv, 2024论文
  14. [14]
    Keller Jordan. Muon: An optimizer for hidden layers in neural networks. Blog post, 2024博客
  15. [15]
    Hanqing Zhu, Zhenyu Wang, Jinheng Deng, Kyusang Kim, Jaewoo Yoo, Beidi Chen. APOLLO: SGD-like Memory, AdamW-level Performance. arXiv, 2024论文
  16. [16]
    Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar. GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. arXiv, 2024论文
  17. [17]
    Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu. AdaLomo: Low-memory Optimization with Adaptive Learning Rate. arXiv, 2023论文
  18. [18]
    Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl. A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes. NeurIPS, 2021论文
  19. [19]
    Kazuki Osawa, Satoki Ishikawa, Rio Yokota, Shigang Li, Torsten Hoefler. ASDL: A Unified Interface for Gradient Preconditioning in PyTorch. arXiv, 2023论文

论文列表

默认基线:AdamW + μP 的可迁移调参(4)

解释 AdamW 在大规模生产中“默认不退役”的工程原因:可复用 recipe、失败模式、以及 μP/LR transfer 如何直接减少 sweep 成本;同时给出与“算法本身更强”不同的机制视角。

10

Decoupled Weight Decay Regularization

Ilya Loshchilov,Frank Hutter2017年11月14日
把 weight decay 从 Adam 的自适应步长里解耦,使正则强度不再被二阶矩缩放污染。工程上提供了稳定、可复用的默认基线,也让后续 optimizer 对比常以 AdamW 为参照。
9

An Empirical Study of $\mu$P Learning Rate Transfer

Lucas Lingle2024年4月8日
把“学习率可跨宽度迁移”做成可复现实证:在 μP 下,LR 与部分超参在不同宽度间更可复用,可直接减少 sweep 次数,解释了 AdamW recipe 在生产里更省钱的原因之一。
8

Super Consistency of Neural Network Landscapes and Learning Rate Transfer

Lorenzo Noci,Alexandru Meterez,Thomas Hofmann,Antonio Orvieto2024年2月27日
从 landscape 一致性角度支持 LR transfer:当网络接近 rich feature learning limit 时,小模型上找到的 LR 更可能迁移到更大模型,为“先小后大”的调参策略提供理论/实证支撑。
7

Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit

Greg Yang,Etai Littwin2023年8月3日
把 Tensor Programs 的 scaling 分析扩展到 Adam-like adaptive optimizers,为“μP 下的可迁移调参”提供更接近机制层的解释框架,而不是只靠经验 recipe。

评估协议:HP 搜索预算与 schedule 家族决定结论(4)

把“optimizer A/B”从口水战变成可审计实验:固定 HP 搜索预算、对齐 schedule 家族、报告停止步数 T 的依赖;并解释为何这些因素能让 gap 塌缩或翻转。

10

Benchmarking Neural Network Training Algorithms (AlgoPerf)

George E. Dahl,Frank Schneider,Zachary Nado,Naman Agarwal,Chandramouli Shama Sastry2023年6月12日
把“同 HP 搜索预算”写进 benchmark 协议,提供可审计标准:不报告 tuning budget 的 A/B 很难判断差距来自算法还是调参投入。
9

Disentangling Adaptive Gradient Methods from Learning Rates

Naman Agarwal,Rohan Anil,Elad Hazan,Tomer Koren,Cyril Zhang2020年2月26日
指出 adaptive-vs-SGD、以及 optimizer 间对比常被 LR schedule 混淆;同一 optimizer 在不同 schedule 家族下可能出现相反结论,要求把 schedule 作为一等公民。
8

The Road Less Scheduled

Aaron Defazio,Xingyu Alice Yang,Harsh Mehta,Konstantin Mishchenko,Ahmed Khaled2024年5月24日
把“是否依赖停止步数 T”变成可操作的分界:T-dependent schedule 往往更强,但在生产里 T 可能不稳定;schedule-free 试图在不依赖 T 的前提下接近强 schedule 的效果。
7

Optimal Linear Decay Learning Rate Schedules and Further Refinements

Aaron Defazio,Ashok Cutkosky,Harsh Mehta,Konstantin Mishchenko2023年10月11日
给出更系统的 schedule 设计与推导,强化一个工程事实:当 schedule 家族不对齐时,optimizer 结论往往不可复现,甚至被 schedule 主导。

二阶路线:Shampoo 的工程化上界与 SOAP 的简化(4)

把“二阶太贵/太难调”拆成三个可检验点:预条件结构(Kronecker)、系统代价(state/通信/分解频率)、以及超参维度;并用 SOAP 的设计解释其为何更接近可落地。

10

Shampoo: Preconditioned Stochastic Tensor Optimization

Vineet Gupta,Tomer Koren,Yoram Singer2018年2月26日
定义“可扩展二阶”的结构上界:按张量维度做 Kronecker 分解,把 full-matrix 预条件成本压到 O(d_in^2+d_out^2)。后续 SOAP/Muon/量化 Shampoo 都在这个结构上做稳定化与近似。
10

SOAP: Improving and Stabilizing Shampoo using Adam

Nikhil Vyas,Depen Morwani,Rosie Zhao,Mujin Kwun,Itai Shapira2024年9月17日
在 Shampoo 的特征基下跑 Adam,用 Adam 的动量与自适应解决 Shampoo 的 grafting/稳定性问题,并把额外超参从 4 个压到 1 个;在 360M–1.3B 上 wall-clock 逼近 AdamW 且 loss 更低,把争点推到 ≥7B 证据与生态。
9

A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale

Hao-Jun Michael Shi,Tsung-Hsien Lee,Shintaro Iwasaki,Jose Gallego-Posada,Zhijing Li2023年9月12日
给出可用的分布式 Shampoo 工程实现,直接把“二阶只在单机玩具上成立”的反驳变成可检验问题:通信、分解频率、block size 如何影响 wall-clock 与收敛。
8

4-bit Shampoo for Memory-Efficient Network Training

Sike Wang,Pan Zhou,Jia Li,Hua Huang2024年5月28日
用 4-bit 量化降低 Shampoo 预条件 state 的显存门槛,把“二阶 state 太大”从绝对否定变成工程权衡:量化误差、更新频率与吞吐之间如何换。

混合路由与低显存:Muon / Apollo / GaLore(3)

把“更强的几何更新”与“更低的 state”拆开看:Muon 用参数分区把近二阶限制在 hidden 2D 权重;Apollo 把二阶矩从 per-param 压到 per-tensor;GaLore 改梯度表示以省 state,但会引入训练循环与数值行为变化。

10

Muon: An optimizer for hidden layers in neural networks

Keller Jordan2024年12月8日
用 5 步 Newton-Schulz 近似把 hidden 2D 权重的更新做正交化,可视作 Shampoo 的廉价近似;同时明确把 embedding/norm/head 交回 AdamW。把“混合路由”变成可复制的落地范式,并强调 wall-clock 与调参回合数。
9

APOLLO: SGD-like Memory, AdamW-level Performance

Hanqing Zhu,Zhenyu Wang,Jinheng Deng,Kyusang Kim,Jaewoo Yoo,Beidi Chen2024年12月6日
把 per-param 二阶矩压缩成 per-tensor 标量范数,使 state 从 O(P) 逼近 SGD。价值在“显存/工程不改循环”的约束下仍能接近 AdamW 的 loss,适合显存紧张的全参训练。
8

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Jiawei Zhao,Zhenyu Zhang,Beidi Chen,Zhangyang Wang,Anima Anandkumar2024年3月6日
通过低秩投影改变梯度表示来减少显存占用,动机与“梯度落在小子空间”一致;但它引入额外算子与数值路径,属于“省显存但改循环”的路线,需要更严格的 A/B 协议。