Optimizer 全景：AdamW 仍是默认，Muon 的混合路由与 SOAP 的二阶路线

把“谁更强”改写成：规模 × 显存 × 调参预算的可审计决策

15 篇论文·2026年4月21日

作者@Thor·gpt-5.2

35 篇扩展证据（支持 9 · 拓展 22 · 切线 4）·知识聚类 6·悬问 5

领域综述

2026 年做 optimizer 选型，最稳的框架不是“谁更强”，而是三轴决策：规模（≤30B vs ≥70B）、显存（state/通信能否承受）、调参预算（能否做多轮 sweep）。在固定 HP 搜索预算与对齐 schedule 家族的前提下，很多“新 optimizer 胜出”的差距会收缩，甚至发生 rank flip；因此 AdamW 仍常作为默认，不是因为单点最优，而是因为 recipe 可复用、失败模式可预期、以及 μP 下的 LR transfer 能把跨宽度调参从“重来”压缩到“少量校准”。Muon 把近二阶收益限定在 hidden 的 2D 权重，并把 embedding/norm/head 交回 AdamW，用“混合路由”隔离风险；SOAP 则沿 Shampoo 的 Kronecker 预条件路线，把稳定性与超参负担压到更接近工程可用，但 ≥7B 的公开 head-to-head 与二阶在 μP-style 下的 LR transfer 仍缺证据。显存紧张时，优先选不改训练循环、低 state 的方法（如 Apollo/Adam-mini 类），再考虑 GaLore 这类改梯度表示的方案，并用质量/显存/复杂度三维一起算账。

TL;DR

结论层面的建议：2026 年默认仍选 AdamW，但理由是“可迁移调参 + 生态成熟”，不是单点最优。[4] 与 Agarwal et al. [5] 说明：不固定 HP 搜索预算、也不对齐 LR schedule 家族时，optimizer gap 往往缩到原报告的一半左右，甚至出现 rank flip；很多“更强”其实是在比较调参投入。≥70B 稠密生产更应先把 μP 的 LR transfer 跑通，再做 ≤10% 预算的校准 sweep：[8]、Noci et al. [9] 支持 LR 可跨宽度迁移，直接省掉多轮 sweep 的成本。≤30B 新训练更值得试 Muon 的混合路由：只对 hidden 的 2D 权重用 Newton-Schulz 正交化更新，其余参数留 AdamW，把风险隔离在可控子集；公开证据更偏 speedrun/小规模，≥7B 的 head-to-head 仍是缺口。[14] 二阶的正路是 Shampoo→SOAP：SOAP 在 Shampoo 的特征基里跑 Adam，把额外超参压到 1 个，并在 360M–1.3B 做到 wall-clock 逼近 AdamW 且 loss 更低；但 ≥7B 的公开证据与二阶在 μP-style 下的 LR transfer 仍不足。[3][11] 显存紧张时优先选不改训练循环、低 state 的方法（Apollo），再考虑 GaLore 这类改梯度表示的方法，并用质量/显存/复杂度一起算账。[15][16]

核心断言

#1在固定 HP 搜索预算与对齐 schedule 家族的协议下，许多 optimizer 报告的优势会缩小到“原差距的约一半”，并且存在 rank flip；因此任何 A/B 若不报告 trial 数、可调超参集合与 schedule 家族，就不能把差距当作算法结论。[4][5]

#2≥70B 稠密训练里，AdamW 的工程优势主要来自 μP/LR transfer：把跨宽度 LR 搜索从“每次重来”压缩到“少量校准”，通常可把 sweep 预算压到总算力的 ≤10%。[8][9]

#3Muon 的可落地性来自参数分区：只对 hidden 的 2D 权重做 Newton-Schulz 正交化更新、embedding/norm/head 交回 AdamW；这把近二阶的不稳定性与调参风险隔离在可控子集，适合 ≤30B 的新训练先做低风险 A/B。[14]

#4SOAP 把 Shampoo 的额外超参从约 4 个压到 1 个，并在 360M–1.3B 报告 wall-clock 接近 AdamW 且 loss 更低；“二阶一定更慢/更难调”的强版本反驳在中等规模上已不成立，但 ≥7B 的公开 head-to-head 仍缺。[11][3]

#5在显存受限的全参训练里，优先选“不改训练循环”的低 state 路线：Apollo 用 per-tensor 标量替代 per-param 二阶矩，在 7B/13B 上接近 AdamW；GaLore 通过低秩投影省 state，但引入额外算子与数值路径，A/B 必须把吞吐与稳定性一起报。[15][16]

#6在固定 HP 搜索预算 + 对齐 schedule 家族下,2024 之前的 optimizer 报告优势平均缩小约一半,并出现 rank flip — [4] 与 [18] 已经把这一点做成可审计协议;不应在没有此协议下宣布“X 优于 AdamW”。

#7现代 optimizer 的真正分歧不是 first-order vs second-order,而是“在哪些张量切面上做二阶 / 在显存哪一维做替代”:[14] 把二阶限制在 hidden 2D 权重,[11] 把 Shampoo 的 HP 数从 4 压到 1,[15] 用标量替代二阶矩 — 三者都把决策从“算法选择”降级到“张量分区 + 状态形态”。

§0 演进谱系：从 Adam 到分维度优化 + 显存形态替代

Adam -> AdamW -> Shampoo -> muP transfer -> Muon (hidden 2D only) -> SOAP (HP 4 -> 1) -> Apollo / GaLore

LLM 训练的 optimizer 演进可以拆成三段：第一段是 first-order 自适应法的工程化 — [2] 的 Adam 把 RMSProp + 动量统一,[1] 把 weight decay 与 LR 解耦解决了 wd↔LR 的混淆,这套到 2017 年定型,十年里仍是默认。第二段是二阶探索 — [3] 用 Kronecker 矩阵把曲率信息以 matmul 形式带进训练,但工程化代价是 ≥4 个新 HP 与昂贵的预条件运算,直到 [12] 把分布式实现做出来才算可生产化;Shampoo 的真正继承者是 [11],把额外 HP 从 4 压到 1,在 360M-1.3B 的报告里 wall-clock 接近 AdamW、loss 更低,把二阶信号变成 ROI 可控的选项。

第三段是 2024 之后的“分维度优化”：[14] 不再追求“给所有参数都做二阶”,只对 hidden 的 2D 权重做 Newton-Schulz 正交化更新,embedding/norm/head 仍用 AdamW；这把“二阶 vs 一阶”的辩论转成“在哪些张量切面上做二阶”的工程问题。并行的另一支是显存约束：[15] 用 per-tensor 标量替代 per-param 二阶矩,在 7B/13B 报告 SGD-like 显存 + AdamW-level 性能,[16] 走低秩状态路径；二者都是“不改训练循环、只换 state 形态”的 drop-in。再外一层是协议层：[8] 把 [10] 的 muP 公式工程化,通常可把 sweep cost 砍到原来 ~30%；[4] / [18] 让“谁更强”可被审计 — 在固定 HP 搜索预算 + 对齐 schedule 家族下,大量报告的优势会缩小到原差距的约一半,且存在 rank flip。今天选 optimizer 的真问题不是 “Muon 还是 SOAP”,而是 “规模 × 显存 × 调参预算”三轴上的可审计取舍 — 本节用 figure 0.2 把这条 decision flow 画出来,把后面 §1-§4 的取舍标准固化成 release-time checklist。

图 1. 图 0.1 Optimizer 演进时间线:每一代解决一类成本问题

正在渲染图示…

图 2. 图 0.2 给新预训练选 optimizer 的执行式 decision flow

AdamW + muP transfer

1baseline; muP 把 sweep cost 砍到 ~30% [Lingle2024muPTransfer]

SOAP (1 extra HP)

1.40[Vyas2024SOAP]

Muon (hidden 2D only)

1.20[Jordan2024Muon]

Shampoo (4 HP, full)

2.50[Gupta2018Shampoo][Shi2023DistShampoo]

Apollo (scalar state)

0.60memory-bound full-tune [Zhu2024Apollo]

GaLore (low-rank state)

0.70[Zhao2024GaLore]

单位：相对成本 (state mem x sweep)

图 3. 图 0.3 主流 optimizer 的报告 sweep cost 与 state-memory 占比 (illustrative, 数字越高越贵)

§1 先把 A/B 变成可审计：HP 搜索预算 + schedule 家族

工程上最常见的误判，是把“调参投入差异”读成“算法差异”。AlgoPerf 将固定 HP 搜索预算纳入协议：同一任务内，比较对象必须共享 trial 次数、可调超参集合、以及相同的 early-stop/评估规则；否则 gap 无法归因。[4] Agarwal et al. 进一步指出，adaptive 方法与 SGD 的对比高度依赖 LR schedule：同一 optimizer 在不同 schedule 家族下可能 rank flip，因此只报告一个 schedule 的结论不稳。[5] 这也解释了为什么 Defazio et al. 将“是否依赖停止步数 T”设为关键轴：T-dependent schedule 往往更强，但生产训练会动态延长/缩短 token horizon 时，T 本身是不稳定输入；此时 schedule-free 的目标不是争取更强单点，而是降低对 T 的敏感性。[6] 更务实的读法是：optimizer A/B 的最低合格线不是“跑通”，而是同时输出（1）schedule 家族，（2）搜索预算，（3）wall-clock 与吞吐，（4）稳定性失败率；否则“谁更强”会被实验协议吞掉。

图 4. 图 1.1 optimizer 谱系:Adam -> AdamW -> Shampoo -> SOAP -> Muon -> Apollo / GaLore

同一 optimizer 在不同 schedule 家族下出现 rank flip 并不罕见；不对齐 schedule，A/B 更像是在比较实验设计。

§2 AdamW 仍是默认：护城河是 μP/LR transfer 与失败模式

把 AdamW 设为默认，常被误读为“AdamW 在任何设定里都最优”。更准确的机制是：规模到 ≥70B 后，单次 sweep 的机会成本很高，复用历史调参记录通常比追求单点最优更有价值。Lingle 的 μP LR transfer 实证表明：在 μP 下，学习率跨宽度更可迁移，因此可以先用小模型确定 LR，再在大模型上做少量校准，而不是从零开始 sweep。[8] Noci et al. 从 landscape 一致性给出相容证据：训练动力学越一致，LR transfer 越可能成立。[9] 这与 AdamW 的工程属性相互强化：AdamW 更新规则简单，weight decay 解耦后正则行为更可控，recipe 更容易跨模型族复用。[1] 相比之下，任何引入大 state、额外通信路径或更复杂数值算子的 optimizer，即便在中小规模取得更低 loss，也必须回答两个生产问题：LR/HP 能否迁移？失败模式能否预测？若答案不清楚，收益很容易被额外 1–2 轮 sweep 或一次不稳定回滚抵消。

AdamW (m + v)

2[AdamW2017]

Shampoo (L + R covariance)

3[Gupta2018Shampoo]

SOAP (Shampoo + Adam state)

3.50[Vyas2024SOAP]

Muon (hidden 2D only) + Adam (rest)

2.20[Jordan2024Muon]

GaLore (low-rank, r << d)

0.60[Zhao2024GaLore]

Apollo (per-tensor scalar)

0.40[Zhu2024Apollo]

单位：× params

图 5. 图 2.1 主要 optimizer 的额外参数级 state 量(相对 AdamW = 2 × params 而言;越小越省显存)

§3 Muon 的混合路由：把近二阶收益限制在 hidden 2D 权重

Muon 的关键不是“替代 AdamW”，而是把二阶/近二阶更新做成参数分区：仅对 hidden 的 2D 权重（典型是线性层矩阵）使用 Newton-Schulz 正交化更新，把敏感参数（embedding/norm/head）明确路由回 AdamW。[14] 这对应一个可检验的工程假设：条件数差、耦合强的矩阵参数最需要更好的几何更新；embedding/norm/head 更容易数值敏感和分布漂移，保留 AdamW 可减少失败模式的种类。相较于“全参换新 optimizer”，混合路由的优势是风险隔离：即使 Muon 子集不稳定，也可通过路由回退或缩小覆盖面止损。相较于 SOAP/Shampoo，Muon 的取舍是把 preconditioning 近似成更便宜的形式，优先优化 wall-clock 和调参回合数，而不是保留更完整的 Kronecker 结构。当前缺口同样明确：公开证据偏 speedrun/小规模，≥7B–70B 稠密 LLM 的 matched schedule + matched budget head-to-head 仍缺失；在这类证据出现前，把 Muon 定位为“≤30B 新训练的低风险候选”，比称其为“下一代默认”更稳。

路线	参数化/几何	额外 state 与通信	训练循环改动	公开证据强度（LLM ≥7B）
AdamW	对角自适应 + decoupled weight decay [1]	state≈2P（m,v），通信与 baseline 相同	无	强（大量生产/开源 recipe），且 μP/LR transfer 证据较足 [8]
Muon（混合路由）	hidden 2D 权重做正交化更新；其余走 AdamW [14]	额外计算为主；state 变化小，通信路径基本不变（依实现）	小（路由 + 2D 权重算子）	中-弱（公开更偏小规模/速度基准；≥7B matched head-to-head 缺）
Shampoo / SOAP	Kronecker 预条件；SOAP 在特征基下跑 Adam [3][11]	矩阵 preconditioner state + 分解/逆根；分布式实现需额外通信 [12]	中（预条件更新频率、block、分布式细节）	中（360M–1.3B 强；≥7B 公开证据仍不足）
Apollo / GaLore	Apollo：per-tensor 标量近似二阶矩；GaLore：梯度低秩投影 [15][16]	Apollo state 逼近 SGD；GaLore 省 state 但有额外投影缓存/算子	Apollo：无；GaLore：有（梯度表示路径变化）	Apollo：中（7B/13B 报告）；GaLore：中（需更多 matched 协议）

2026 常见路线对比：更新几何、state/通信、以及落地摩擦

正在渲染图示…

图 6. 图 3.1 “该选哪个 optimizer”决策流

§4 Shampoo→SOAP：二阶的工程化路径，但规模与迁移仍是缺口

“二阶是否值得”应拆成三问：几何是否更对、系统是否扛得住、调参维度是否可控。Shampoo 用 Kronecker 结构在张量维度上做预条件，以可承受的 O( $d_{i} n^{2} + d_{o} u t$ ^2) 成本逼近更接近几何正确的更新。[3] 工程痛点集中在稳定性与 grafting：预条件后的步长尺度如何与动量/自适应组合，决定是否需要大量手工规则。SOAP 的关键动作是把更新搬到 Shampoo 的特征基里，再让 Adam 的动量与自适应“接管”尺度与稳定性，将额外超参压到 1 个，并在 360M–1.3B 报告 wall-clock 接近 AdamW 且 loss 更低。[11] 系统侧，Shi et al. 给出分布式 Shampoo 的 PyTorch 实现，说明通信与分解频率是可工程化的变量，而不是抽象反驳。[12] 量化路线（4-bit Shampoo）继续压低 state 门槛，但引入量化误差与更新频率的权衡。[13] 剩余最硬缺口有两条：其一是公开的 ≥7B 稠密 LLM matched budget + matched schedule head-to-head；其二是二阶在 μP-style 下的 LR transfer 是否成立，若不成立，生产成本会被 sweep 吃掉。[19][8]

时间线

2017-11AdamW：decoupled weight decay 成为工程默认基线[1]
2018-02Shampoo：Kronecker 预条件定义可扩展二阶结构[3]
2020-02Agarwal et al.：adaptive 对比被 LR schedule 混淆[5]
2023-06AlgoPerf：把固定 HP 搜索预算写进 benchmark 协议[4]
2023-09Shi et al.：Distributed Shampoo 工程实现把系统代价变成可测变量[12]
2024-04μP LR transfer 实证：跨宽度调参从 sweep 变成校准[8]
2024-09SOAP：二阶超参维度压到 1 个，wall-clock 接近 AdamW（中等规模）[11]
2024-12Muon：混合路由把近二阶限制在 hidden 2D 权重[14]
2024-12Apollo：把 optimizer state 压到接近 SGD 的量级[15]

研究立场对比

阵营 A：AdamW 不会退役（默认优先级最高）

立场 — 默认选择应以总成本最小化：recipe 可复用、失败模式可预期、调参可迁移比单点最优更值钱。≥70B 先跑通 μP/LR transfer，把 sweep 压到校准级别，再谈替换 optimizer。

证据：[1][8][9][4]

反方 — 反驳 c-6cf8d6c199：在 matched budget 下，Muon/SOAP 仍可能在 wall-clock 或 loss 上给出可见收益；把“默认”外推成“不可替代”会阻碍在 ≤30B 或中等规模上吃到低摩擦收益。[14][11]

判词 — 一个更务实的定位：≥70B 稠密生产默认 AdamW，并把 μP/LR transfer 当作核心资产；新 optimizer 进入生产的门槛应包含“可迁移调参证据 + 失败模式边界”，而不是只看一次 A/B 的 loss。

阵营 B：Muon 是下一代默认（但只能以混合路由形态）

立场 — 近二阶收益主要集中在 hidden 的 2D 权重；用混合路由把收益与风险都局部化：hidden 用 Muon，其余用 AdamW。优先目标是 wall-clock 与更少调参回合，而不是追求全参统一。

证据：[14][3]

反方 — 修正 c-c7ea2fc38c：Muon 的公开证据对 ≥7B–70B 稠密 LLM 仍稀疏，且缺少 matched schedule + matched budget 的 head-to-head；在证据补齐前，把它当“≤30B 新训练的可控试验”更稳。[4][5]

判词 — 结论层面的建议：Muon 值得进入“≤30B 新训练的优先 A/B 列表”，但默认化需要两类补课：≥7B 稳定性边界（失败率、回退策略）与可迁移调参（至少跨宽度的 LR 规律）。

阵营 C：Shampoo/SOAP 是长期归宿（二阶会吞并一阶）

立场 — 对角自适应在条件数差、耦合强的层上先天受限；Kronecker 结构的预条件更接近正确几何。SOAP 把二阶的稳定性与超参负担压缩到工程可接受，剩下主要是实现与规模化证据。

证据：[3][11][12][13]

反方 — 反驳 c-9c69cc911f 的外推：SOAP 在 360M–1.3B 的 wall-clock 逼近 AdamW，并不自动推出 ≥7B 仍成立；分布式通信、预条件更新频率与 block 选择可能让系统代价重新主导。[12][6]

判词 — 一条更稳的读法：SOAP 把“二阶太难调”从原则性反对变成工程问题，但在 ≥7B 默认化之前，需要公开的 matched-budget head-to-head 与“二阶也能做 μP-style LR transfer”的证据链。

阵营 D：optimizer 影响更小；很多收益是评估伪影

立场 — 在公平调参（固定预算）与对齐 schedule 后，许多 optimizer 差距会消失或大幅缩小；更值得投入的是标准化协议、稳定的 schedule、以及可复用 recipe，而不是追逐新 update rule。

证据：[4][5][18][7]

反方 — 修正 c-8a0328a518：即便在受控预算下，二阶/近二阶仍可能在相同 wall-clock 下给出更低 loss，尤其当系统实现成熟（分布式 Shampoo、SOAP 的超参简化）时；因此“优化器不重要”的强版本也会过度外推。[12][11]

判词 — 结论层面的建议：把“协议对齐”当作默认动作，而不是反对研究 optimizer。先把 schedule 与预算锁死，再讨论算法差异；在此前，任何排名都不应进入生产决策。

实践要点

可执行清单（2026 选型与落地）：
1) Do：所有 optimizer A/B 固定 HP 搜索预算：固定 schedule 家族 + 固定 trial 次数（例如 16 或 32）+ 固定可调超参集合，并在结果里写清楚；否则不要把差距当作算法结论。[4][5]
2) Do：把 schedule 当作一等公民：至少各跑一轮 T-dependent 与 T-independent（或 schedule-free）sanity check，避免被 schedule 驱动的 rank flip 误导。[6][7]
3) Do：≥70B 稠密生产从 AdamW 起步，先跑通 μP 的 LR transfer，再做 ≤10% 预算的校准 sweep；把“可迁移调参”当作核心资产，而不是把一次 sweep 的最优点当作结论。[1][8][9]
4) Don’t：在 ≥70B 直接引入需要新通信路径或大 state 的 optimizer，除非同时给出（a）matched-budget head-to-head，（b）失败模式边界，（c）至少跨宽度的 LR/HP 迁移证据；否则系统风险与额外 sweep 往往吞掉收益。[4][12][8]
5) Do：≤30B 新训练试 Muon 时坚持混合路由：只把 hidden 的 2D 权重切到 Muon，其余参数留 AdamW；把回退开关做成配置项，并记录 Muon 覆盖比例与不稳定失败率。[14][1]
6) Do：评估 SOAP/Shampoo 时把“预条件更新频率、block size、分布式通信开销”作为显式自变量；只报 loss 不报 wall-clock/吞吐会误导结论。[11][12][3]
7) Do：显存紧张且不想改训练循环时，优先 Apollo 这类低 state 方法；若改用 GaLore，必须同时报告吞吐变化、数值稳定性（NaN/发散率）与最终质量，避免只看显存节省。[15][16]
8) Don’t：把中等规模（≤1.3B）的 wall-clock parity 直接外推到 ≥7B；先用公开可复现的 matched 协议补齐 head-to-head，再谈默认化路线图。[11][4]

悬而未决的问题

Q1.Muon 混合路由 vs AdamW：在 7B–70B 稠密 LLM 预训练下，matched schedule 家族 + matched HP 搜索预算的公开 head-to-head 何时出现？需要同时报告 wall-clock、失败率与最终 loss。[14][4]
Q2.SOAP 在 ≥7B 是否仍能保持接近 AdamW 的 wall-clock 同时给出更低 loss，还是通信与 preconditioner state 成为主导成本？需要分布式实现细节与消融。[11][12]
Q3.二阶（Shampoo/SOAP）是否存在 μP-style 的 LR transfer 证据链？如果不能迁移，生产里 sweep 成本可能抵消算法收益。[8][19]
Q4.显存受限下，Apollo、AdaLomo、GaLore 的质量/显存/复杂度三维对比：在同等 wall-clock 与同等调参预算下，哪个更稳？需要统一协议与公开脚本。[15][17][16]
Q5.哪些工作能明确展示：在控制 HP 搜索预算与对齐 schedule 家族后，optimizer 的收益仍能稳定保留（而不只是“差距消失”）？需要把“胜出条件”写成可复现的边界。[4][5]

[1]
Ilya Loshchilov, Frank Hutter. Decoupled Weight Decay Regularization. arXiv, 2017论文
[2]
Diederik P. Kingma, Jimmy Ba. Adam: A Method for Stochastic Optimization. ICLR, 2015论文
[3]
Vineet Gupta, Tomer Koren, Yoram Singer. Shampoo: Preconditioned Stochastic Tensor Optimization. ICML, 2018论文
[4]
George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry. Benchmarking Neural Network Training Algorithms (AlgoPerf). arXiv / MLCommons, 2023论文
[5]
Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang. Disentangling Adaptive Gradient Methods from Learning Rates. ICLR, 2021论文
[6]
Aaron Defazio, Xingyu Alice Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled. The Road Less Scheduled. arXiv, 2024论文
[7]
Aaron Defazio, Ashok Cutkosky, Harsh Mehta, Konstantin Mishchenko. Optimal Linear Decay Learning Rate Schedules and Further Refinements. arXiv, 2023论文
[8]
Lucas Lingle. An Empirical Study of $\mu$P Learning Rate Transfer. arXiv, 2024论文
[9]
Lorenzo Noci, Alexandru Meterez, Thomas Hofmann, Antonio Orvieto. Super Consistency of Neural Network Landscapes and Learning Rate Transfer. arXiv, 2024论文
[10]
Greg Yang, Etai Littwin. Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit. arXiv, 2023论文
[11]
Nikhil Vyas, Depen Morwani, Rosie Zhao, Mujin Kwun, Itai Shapira. SOAP: Improving and Stabilizing Shampoo using Adam. arXiv, 2024论文
[12]
Hao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li. A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale. arXiv, 2023论文
[13]
Sike Wang, Pan Zhou, Jia Li, Hua Huang. 4-bit Shampoo for Memory-Efficient Network Training. arXiv, 2024论文
[14]
Keller Jordan. Muon: An optimizer for hidden layers in neural networks. Blog post, 2024博客
[15]
Hanqing Zhu, Zhenyu Wang, Jinheng Deng, Kyusang Kim, Jaewoo Yoo, Beidi Chen. APOLLO: SGD-like Memory, AdamW-level Performance. arXiv, 2024论文
[16]
Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar. GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. arXiv, 2024论文
[17]
Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu. AdaLomo: Low-memory Optimization with Adaptive Learning Rate. arXiv, 2023论文
[18]
Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl. A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes. NeurIPS, 2021论文
[19]
Kazuki Osawa, Satoki Ishikawa, Rio Yokota, Shigang Li, Torsten Hoefler. ASDL: A Unified Interface for Gradient Preconditioning in PyTorch. arXiv, 2023论文

论文列表

默认基线：AdamW + μP 的可迁移调参(4)

解释 AdamW 在大规模生产中“默认不退役”的工程原因：可复用 recipe、失败模式、以及 μP/LR transfer 如何直接减少 sweep 成本；同时给出与“算法本身更强”不同的机制视角。

Decoupled Weight Decay Regularization

Ilya Loshchilov,Frank Hutter2017年11月14日

把 weight decay 从 Adam 的自适应步长里解耦，使正则强度不再被二阶矩缩放污染。工程上提供了稳定、可复用的默认基线，也让后续 optimizer 对比常以 AdamW 为参照。

An Empirical Study of $\mu$P Learning Rate Transfer

Lucas Lingle2024年4月8日

把“学习率可跨宽度迁移”做成可复现实证：在 μP 下，LR 与部分超参在不同宽度间更可复用，可直接减少 sweep 次数，解释了 AdamW recipe 在生产里更省钱的原因之一。

Super Consistency of Neural Network Landscapes and Learning Rate Transfer

Lorenzo Noci,Alexandru Meterez,Thomas Hofmann,Antonio Orvieto2024年2月27日

从 landscape 一致性角度支持 LR transfer：当网络接近 rich feature learning limit 时，小模型上找到的 LR 更可能迁移到更大模型，为“先小后大”的调参策略提供理论/实证支撑。

Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit

Greg Yang,Etai Littwin2023年8月3日

把 Tensor Programs 的 scaling 分析扩展到 Adam-like adaptive optimizers，为“μP 下的可迁移调参”提供更接近机制层的解释框架，而不是只靠经验 recipe。

评估协议：HP 搜索预算与 schedule 家族决定结论(4)

把“optimizer A/B”从口水战变成可审计实验：固定 HP 搜索预算、对齐 schedule 家族、报告停止步数 T 的依赖；并解释为何这些因素能让 gap 塌缩或翻转。

Benchmarking Neural Network Training Algorithms (AlgoPerf)

George E. Dahl,Frank Schneider,Zachary Nado,Naman Agarwal,Chandramouli Shama Sastry2023年6月12日

把“同 HP 搜索预算”写进 benchmark 协议，提供可审计标准：不报告 tuning budget 的 A/B 很难判断差距来自算法还是调参投入。

Disentangling Adaptive Gradient Methods from Learning Rates

Naman Agarwal,Rohan Anil,Elad Hazan,Tomer Koren,Cyril Zhang2020年2月26日

指出 adaptive-vs-SGD、以及 optimizer 间对比常被 LR schedule 混淆；同一 optimizer 在不同 schedule 家族下可能出现相反结论，要求把 schedule 作为一等公民。

The Road Less Scheduled

Aaron Defazio,Xingyu Alice Yang,Harsh Mehta,Konstantin Mishchenko,Ahmed Khaled2024年5月24日

把“是否依赖停止步数 T”变成可操作的分界：T-dependent schedule 往往更强，但在生产里 T 可能不稳定；schedule-free 试图在不依赖 T 的前提下接近强 schedule 的效果。

Optimal Linear Decay Learning Rate Schedules and Further Refinements

Aaron Defazio,Ashok Cutkosky,Harsh Mehta,Konstantin Mishchenko2023年10月11日

给出更系统的 schedule 设计与推导，强化一个工程事实：当 schedule 家族不对齐时，optimizer 结论往往不可复现，甚至被 schedule 主导。

二阶路线：Shampoo 的工程化上界与 SOAP 的简化(4)

把“二阶太贵/太难调”拆成三个可检验点：预条件结构（Kronecker）、系统代价（state/通信/分解频率）、以及超参维度；并用 SOAP 的设计解释其为何更接近可落地。

Shampoo: Preconditioned Stochastic Tensor Optimization

Vineet Gupta,Tomer Koren,Yoram Singer2018年2月26日

定义“可扩展二阶”的结构上界：按张量维度做 Kronecker 分解，把 full-matrix 预条件成本压到 O(d_in^2+d_out^2)。后续 SOAP/Muon/量化 Shampoo 都在这个结构上做稳定化与近似。

SOAP: Improving and Stabilizing Shampoo using Adam

Nikhil Vyas,Depen Morwani,Rosie Zhao,Mujin Kwun,Itai Shapira2024年9月17日

在 Shampoo 的特征基下跑 Adam，用 Adam 的动量与自适应解决 Shampoo 的 grafting/稳定性问题，并把额外超参从 4 个压到 1 个；在 360M–1.3B 上 wall-clock 逼近 AdamW 且 loss 更低，把争点推到 ≥7B 证据与生态。

A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale

Hao-Jun Michael Shi,Tsung-Hsien Lee,Shintaro Iwasaki,Jose Gallego-Posada,Zhijing Li2023年9月12日

给出可用的分布式 Shampoo 工程实现，直接把“二阶只在单机玩具上成立”的反驳变成可检验问题：通信、分解频率、block size 如何影响 wall-clock 与收敛。

4-bit Shampoo for Memory-Efficient Network Training

Sike Wang,Pan Zhou,Jia Li,Hua Huang2024年5月28日

用 4-bit 量化降低 Shampoo 预条件 state 的显存门槛，把“二阶 state 太大”从绝对否定变成工程权衡：量化误差、更新频率与吞吐之间如何换。

混合路由与低显存：Muon / Apollo / GaLore(3)

把“更强的几何更新”与“更低的 state”拆开看：Muon 用参数分区把近二阶限制在 hidden 2D 权重；Apollo 把二阶矩从 per-param 压到 per-tensor；GaLore 改梯度表示以省 state，但会引入训练循环与数值行为变化。