📚Papers

HP Transfer 的边界:µP、Complete-P、CARBS 与经验公式的适用区间

把 HP transfer 做成分层系统:parameterization 定边界,公式给初值,局部搜索补盲点

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

38 篇扩展证据(支持 6 · 拓展 28 · 切线 4)·知识聚类 7·悬问 5

领域综述

2026 年做 HP transfer,更稳的工程分层是:parameterization 负责把“宽度/深度/精度变化时哪些量应该不漂”说清楚,并提供可验收的诊断;经验公式负责在固定 recipe 下给出 LR、batch、token:param 的闭式起点;局部搜索负责补齐 µP 覆盖外的变量(尤其 AdamW 的 weight decay 与 β₂)以及不可预期的实现细节。Complete-P 把原版 µP 在现代 Transformer 组件下的失配拆成模块级规则与 coord check 表,适合作为 greenfield 栈的默认起点;但对成熟 SP 栈,重写初始化/残差缩放/norm 位置的 ROI 往往为负,经验公式 + 小规模 proxy run + 1–2 轮小 sweep 更划算。最容易被低估的是“只迁移 LR”的错觉:在 AdamW 下 wd 与 LR 不等价,wd 改动会移动稳定边界与最优点;β₂ 也会改变有效噪声与动量时间常数,这些都不被当前 parameterization 自动闭环。工程红线是:任何声称 µP/Complete-P 迁移有效的结论,如果没有多宽度×多 LR 的 pre-activation RMS 叠合(或等价 coord check 证据),都按未验证处理。

TL;DR

2026 年的 HP transfer 没有单一默认解,更稳的工程分层是三层:
(1) parameterization(µP/Complete-P/u-µP)负责定义“哪些量在 width/depth/precision 变化下应保持不变”,并用 coord check / pre-activation RMS 叠合做验收;
(2) 经验公式与联合 scaling law 负责在固定 SP recipe 下给出 LR、batch、token:param 的闭式起点;
(3) µP 覆盖外的变量(AdamW 的 weight decay、β₂、dropout 等)用 cost-aware 局部 BO(如 CARBS)在 10–20 次 proxy runs 内补齐。
Greenfield 栈优先 Complete-P,并把 coord check 设成合并门槛;目标不是零样本迁移所有超参,而是把 width/depth/precision 变化下的 LR 漂移压到约 10–15% [1][2][3][5]。成熟 SP 栈通常不值得为“更理论正确”重写初始化与模块缩放:用 Cerebras/DeepSeek 类公式 + 1–2 轮小 sweep,常见误差可压到约 10%,但前提是 recipe 不乱动 [10][9][11][14]。最容易误判的是“只迁移 LR”:在 AdamW 下 wd 往往比标称 LR 更主导迁移误差,β₂ 也不会被 parameterization 自动解决 [15][16][17]

核心断言

#1把 coord check / pre-activation RMS 叠合设为合并门槛,能把“LR 迁移失败”的排障从大规模训练后移到小规模诊断前移;在现代 Transformer 组件存在时,不做该诊断,µP 的 width 迁移结论经常被模块尺度破坏 [1][2][4].
#2“width 上 LR 可迁移”不能直接外推到 depth:在 residual 动力学下,最优 LR 仍可随 depth 漂移,且宽度/深度极限是否可交换取决于 residual scaling;因此 depth 变化至少需要单独的验证轴 [5][7][6].
#3在固定 SP recipe 下,经验公式/联合 scaling law 往往能把目标规模 LR、batch 的初值误差压到约 10% 量级;但一旦改动 aspect ratio、precision 或 schedule,最优点可能出现倍数级漂移,需要重拟合而不是沿用常数 [9][10][14].
#4AdamW 下 wd 是独立轴:wd 改动会移动稳定边界与最优 LR,使“只迁移 LR”在归因上经常出错;更稳的做法是把 (LR, wd, β₂) 当作耦合面,用 10–20 次 cost-aware 局部搜索补齐 [17][15][16][22].
#5HP transfer 现在是一个三层系统:parameterization 定边界、公式给初值、局部搜索 + 审计收尾;在 7-8B 主训练上把 HP 调参 FLOP 成本压到盲跑 grid 的 5-12%,[2] + [1] + [22] 三件齐全才能拿到接近极限的收益。
#6wd 与 LR 在大规模下不是正交轴:[15][16] 给出最近一次重要修正——把 (LR, wd) 当作耦合面处理才能把 µP 边界推过当前实测拐点;只调 LR 在 D 上 sweep 会系统性低估 wd 的 transfer 责任。

§0 演进谱系:从盲跑 grid 到 parameterization + 公式 + 搜索的分层系统

AdamW -> Kaplan -> muP -> depth-muP -> Complete-P / u-muP / CARBS -> wd-coupled (LR, wd)

HP transfer 的演化是一条从经验试调走向分层系统的脉络。[17] 将 weight decay 与 LR 解耦,使 wd 成为独立调参轴;[12] 给出 (N, D) 幂律和经验初值公式,把“在小 model 上调好 LR/bs 再放大”的直觉首次量化。2022 年 [1] 用 Tensor Programs V 推出 µP 与 coord check 协议,在“扩宽”意义上把迁移从口号变成可验证条件。2023 年 [5][6][7] 将同一范式扩到 depth,证明残差网络下 width 与 depth 可换序;[20] 同期给出 proxy fidelity 警告:小 proxy 可能漏掉大规模不稳定性。

2024 年 µP 进入工业化阶段:[2] 将现代 Transformer 组件纳入模块级缩放规则与诊断表;[3] 用 u-µP 将 FP8 的 unit-scaling 约束并入迁移目标;[22] 提供 cost-aware Bayesian 局部搜索;[4][8] 给出大规模实测,证实 parameterization + 公式 + 局部搜索三层组合后,7-8B 主训练的 HP 调参成本可压到盲跑 grid 的 ~5-12%。[15][16] 给出最近一次重要修正:wd 与 LR 在大规模下并不独立;把 (LR, wd) 当作耦合面处理,是继续外推 µP 边界的关键工件。至此,HP transfer 的现代用法是一套分层系统:parameterization 定边界,公式 给初值,局部搜索 + 经验审计 收尾,而不是“µP 一招通吃”或“盲跑 grid”这两个端点。

HP transfer: from grid sweeps to a layered parameterization + formula + search system Top: signature artifact. Bottom: which axis it covers. 2017 2020 2022 2023 2024 H1 2024 H2 2025 AdamW decouples wd Kaplan scaling laws muP coord check depth-µP (Bordelon/Jelassi) Complete-P / u-µP / CARBS empirical µP audits wd-decay coupling [Loshchilov2017AdamW] [Kaplan2020Scaling] [Yang2022muP] [Bordelon2023DepthwiseTransfer]/[Jelassi2023DepthDependenceMuP] [Cerebras2024CompleteP]/[Blake2024UMUP]/[CARBS2024] [Lingle2024EmpiricalMuP] [Kosson2025WDMoreThanMuP] wd as own axis (N, D) grid sweep width transfer depth transfer modules + numerics + search field calibration (LR, wd) coupled decouple wd / LR empirical baseline parameterization + depth scaling rule + formulae + bayes search proxy fidelity check 2D residual error map
图 1. 图 0.1 µP 与 HP transfer 的演化:每一代再添一条受控轴
正在渲染图示…
图 2. 图 0.2 现代 HP transfer 的三层系统及其反馈环
盲跑 grid (7-8B)
1baseline
Bayesian 直接搜 (CARBS only)
0.45[CARBS2024]
muP coord check + small-proxy
0.12[Yang2022muP]
Complete-P + Chinchilla 公式 + small proxy
0.07[Cerebras2024CompleteP]
+ wd 耦合修正 (Kosson)
0.05[Kosson2025WDMoreThanMuP]
单位:FLOP-cost relative
图 3. 图 0.3 各路线在 7-8B 主训练上的 HP 调参成本(近似相对值,越小越好)

§1 共享地基:把“迁移”从结果口号改成可验收协议

几条反复被采用、却常被归为“玄学”的共同假设,可以落成可验收的工程协议。
第一,先限定迁移对象:µP 的目标不是让所有超参零样本不变,而是让一组 base HP(典型是 init scale 与 LR)在同一网络族的 width 变化下近似不变 [1]。Complete-P 将“网络族定义”扩展到现代 Transformer 的模块组合,并给出逐模块尺度规则与 coord check 表,把验收标准从“loss 好不好”前移到“中间量尺度是否叠合” [2]
第二,迁移失败通常不是优化器突然变差,而是尺度闭包被破坏:Lingle [4] 的经验结果提醒,架构与实现细节(norm 位置、残差缩放、embedding tying 等)会打断理论假设;因此诊断图应当作为 CI 信号,而不是论文示意图 [1][2][4]
第三,precision 不是“跑得起来就行”的系统参数:u-µP 将 unit scaling 约束并入迁移目标,等价于把“可迁移 LR”和“数值稳定边界”绑定到同一套 RMS 约束上,避免把溢出/下溢误判为 LR 不可迁移 [3][21]
因此,更务实的验收口径是:先证明尺度叠合,再讨论 LR 迁移;否则任何“迁移成功/失败”都难以归因。

A clean HP-transfer claim has to ship all four pieces -- not just "transfers" 1. Parameterization what you scale and how - mup / completeP / base-eta scaling - explicit width-depth law Anchors: [Yang2022muP] [Cerebras2024CompleteP] Without this: scale-bound 2. Sweep budget proxy size + N points - proxy width / depth / data - enough HP grid to land flat - BO / random search budget Anchors: [CARBS2024] [Lingle2024EmpiricalMuP] Without this: unverifiable 3. Proxy fidelity does proxy rank target? - compare proxy vs target - per-axis ranking match - stop using on rank flip Anchors: [McLeish2025Gemstones] [Wortsman2023ProxiesInstabilities] Without this: lucky transfer 4. Metric ranking what we are minimizing - loss vs task delta - best @ end vs best @ all - batch / wd interaction Anchors: [Wang2024AdamWWeightDecayScaling] [Kosson2025WDMoreThanMuP] Without this: chasing wrong knob If a paper ships only (1) -- and not 2 / 3 / 4 -- treat the transfer as a hypothesis, not a result.
图 4. 图 1.1 一个干净的 HP transfer 申明需要的 4 件:parameterization / sweep / proxy / metric
把 coord check 当作 CI:没有多宽度×多 LR 的 pre-activation RMS 叠合图,就不要把“µP/Complete-P 迁移”当成已验证结论 [1][2]

§2 分歧轴与取舍:parameterization、公式、搜索各自解决什么

主要分歧不在“谁更聪明”,而在工程约束下各自优化的目标函数不同。
Parameterization 派把问题界定为:先做对网络族与尺度闭包,再讨论迁移。Complete-P 的主要产物是模块级规则与 coord check 表,适合 greenfield 栈把迁移固化为协议 [2][1];u-µP 进一步把 fp8 的 RMS 约束纳入同一协议,降低 precision 切换引入的隐性漂移 [3][21]。代价是必须改初始化/缩放/实现细节,并长期维护诊断基准。
公式派把问题界定为:固定 recipe 下的统计拟合。DeepSeek 将 LR 与 batch 作为联合变量拟合,并用 proxy run 求目标规模起点 [9];Cerebras-GPT 与 Chinchilla 将 compute-optimal 的 tokens 与模型规模关系作为外层约束 [10][11]。优势是工程侵入小;弱点是对 recipe 变化敏感。Gemstones 的结论是,aspect ratio 或 schedule/HP 组合改变后,最优点可能发生倍数级漂移,旧公式不应被视为跨 recipe 常数 [14]
搜索派强调:盲区不可避免。AdamW 下 wd 与 β₂ 会移动稳定边界与最优 LR,只迁移 LR 的叙事容易把误差归因错 [17][15][16];因此,CARBS 这类 cost-aware 局部 BO 更适合补齐 µP 覆盖外的耦合面,而不是替代所有规则 [22]
更稳的组合是:parameterization 给出可验收的边界,公式给起点,搜索补盲点。

路线主要可迁移对象前提条件典型失效模式验收信号
Parameterization(µP/Complete-P/u-µP)

base LR、init scale;扩展到 depth/precision 的稳定边界

网络族定义清晰;模块缩放规则齐全;实现细节可控

现代模块破坏尺度闭包;depth/precision 轴未验证

coord check / pre-activation RMS 叠合 [1][2]

经验公式/联合 scaling law

LR、batch、token:param 的闭式起点

recipe 稳定;proxy 与目标同分布;训练时长/预算目标明确

aspect ratio / schedule / precision / 数据混合变化导致倍数级漂移 [14]

proxy run 拟合误差 + 小 sweep 收敛 [9][10]

Cost-aware 局部搜索(CARBS 类)

wd、β₂、dropout 等耦合面补齐

有可复用 proxy 任务;可定义 cost×loss 目标;噪声可控

proxy fidelity 不足导致错误收敛;大规模不稳定性未被捕捉 [20]

10–20 次试验的帕累托改进 [22]

三类路线的工程定位对比(更像“分工”而不是互斥替代)
正在渲染图示…
图 5. 图 2.1 三轴互补不替代:parameterization / formula / search 各自定 rule、定 depth、定 wd-beta2

§3 容易踩坑的两条轴:depth 与 precision,以及 proxy fidelity

把迁移从 width 扩展到 depth 与 precision 时,常见失败更像边界条件改变,而不是调参不足。
Depth:Bordelon et al. [5] 把 depthwise transfer 表述为 residual 动力学与缩放极限问题;Hayou and Yang [7] 进一步给出极限可交换条件与 residual scaling 红线。Jelassi et al. [6] 在 MLP 里也观察到 depth 依赖,说明 depth 不是可忽略的二阶效应。工程上更稳的流程是:将 depth 作为独立迁移轴,至少跑“多 depth × 多 LR”的小规模验证,而不是仅凭 width 叠合就外推到更深模型。
Precision:u-µP 的关键是把 unit RMS 约束并入迁移目标 [3],这与 FP8 训练对 scaling 的要求一致 [21]。如果 bf16→fp8 后出现不稳定,先检查 RMS/scale 是否满足约束,再判断 LR 是否需要改;否则会把数值范围问题误判为优化理论问题。
Proxy fidelity:Wortsman et al. [20] 指出小规模 proxy 可能漏掉大规模不稳定性。更可操作的读法是:把 proxy 结果当作“起点生成器”,而不是“最终验收”;最终验收还需要稳定性信号(例如 pre-activation RMS 叠合、梯度/激活分布的漂移监控),否则 10% 的起点误差可能在大规模下放大成训练失败。

正在渲染图示…
图 6. 图 3.1 depth + precision + proxy:三处最容易让 mu-transfer 静默失败的轴

时间线

  1. AdamW 明确 wd 与 LR 解耦,wd 成为独立调参轴[17]
  2. µP + coord check:把宽度迁移变成可验证条件[1]
  3. Chinchilla:compute-optimal token:param 成为公式派外层约束[11]
  4. 小 proxy 可能漏掉大规模不稳定性,proxy fidelity 成为显式风险[20]
  5. Complete-P:把现代 Transformer 组件纳入模块级缩放规则与诊断表[2]
  6. u-µP:把 fp8 的 unit scaling 约束并入迁移目标[3]
  7. wd 可能主导 LR transfer 误差,促使把 (LR, wd) 当作耦合面处理[15]

研究立场对比

阵营 A:Complete-P 作为默认起点,经验公式只是权宜之计

立场 — 先把网络族与尺度闭包做对:用 Complete-P 的模块级规则修补现代组件,把 coord check / RMS 叠合作为硬验收;在此基础上,base LR 与 init scale 才有资格谈“可迁移”。经验公式只能在 recipe 不变时给近似起点,不能替代正确 parameterization。

证据:[1][2][3][8][7]

反方 — 修正 c-7d1c22d4b6:即便 Complete-P/u-µP 补齐模块与低精度,仍不能推出“所有预训练都应切换至 µP”。Lingle [4] 显示实际栈里仍有架构/实现依赖;此外 wd/β₂ 等变量不在 parameterization 的闭包内,会继续主导迁移误差 [15][17]

判词 — 更稳的定位:greenfield 栈把 Complete-P 当默认起点,并把 coord check 设为合并门槛;成熟 SP 栈不为“更理论正确”强行迁移到 µP,除非能证明迁移带来的节省超过重构与回归风险 [2][4]

阵营 B:经验公式 + 小 sweep 足够,µP 属于过度工程

立场 — 在固定 SP recipe 下,经验公式与联合 scaling law 能直接给出 LR、batch、token:param 的起点,配合 1–2 轮小 sweep 就能接近最优;相比之下,迁移到 µP/Complete-P 需要改初始化、模块缩放与诊断流程,工程风险与收益不匹配。

证据:[9][10][11][12][13]

反方 — 反驳 c-b807a6f58d:公式并非“无需改底层就能准确预测”的通用解。Gemstones 指出对 aspect ratio、schedule 与 HP 组合敏感,最优点可出现倍数级漂移 [14];而当现代模块或 precision 变化引入尺度失配时,公式无法提供失败归因,仍需要 coord check 类诊断 [2][3]

判词 — 更务实的建议:成熟 SP 栈优先公式 + 小 sweep,但把“recipe 稳定性”当作硬前提;一旦改动形状/precision/schedule/数据混合,就按需要重拟合而不是沿用常数 [9][14]

阵营 C:端到端自动化(BO/自动优化器)会替代迁移规则

立场 — 与其维护迁移规则,不如把目标函数交给自动化:warm-start BO 迁移历史试验分布,CARBS 类方法在 cost×loss 帕累托前沿上直接搜索;甚至可以用 AGD 或 symbolic discovery 学出“免超参”的更新规则,从根上减少迁移需求。

证据:[25][23][24][26]

反方 — 反驳 c-bec6705c6f:端到端搜索很难绕开 proxy fidelity 与失效归因问题。小 proxy 可能漏掉大规模不稳定性 [20];而没有 parameterization/诊断,搜索失败时难以判断是模型族定义错、模块尺度错,还是超参局部最优。更像可落地的分工是:用 parameterization/公式把可迁移部分固定住,再让搜索补齐 wd/β₂ 等盲区 [22][15]

判词 — 更稳的读法:自动化适合做“补盲点”的局部层,而不是替代“网络族定义 + 验收协议”。在成熟 LLM 栈上,优先把搜索预算留给 wd/β₂/dropout 这类 µP 覆盖外变量 [22][17]

阵营 D:迁移误差主要由不可迁移超参主导,尤其 wd/β₂

立场 — 很多“LR 不可迁移”现象是归因错误:在 AdamW 下 wd 是独立轴,β₂ 与 batch/噪声耦合会移动稳定边界与最优点;因此应把 wd/β₂ 显式建模或显式搜索,而不是把精力集中在 LR 的单标量迁移上。

证据:[17][15][16][19][18]

反方 — 修正 c-05156d3ad8 / c-bdb7a65e9e:wd/β₂ 很关键,但不意味着 parameterization 没价值。Complete-P 的模块级修补与 coord check 能减少“结构性漂移”,把搜索空间从全局缩到少数耦合轴 [2][1];否则 wd/β₂ 的搜索会被尺度失配噪声污染,难以稳定收敛 [20]

判词 — 结论层面的建议:把 (LR, wd, β₂) 当作耦合面管理;先用 parameterization/诊断把尺度闭包做对,再用 10–20 次 cost-aware 局部搜索补齐 wd/β₂ 的最优点 [15][2][22]

实践要点

可操作清单(按 ROI 从高到低):
1) Greenfield pretrain 栈默认 Complete-P,并把 coord check 设成合并门槛:至少做 3–4 个 width × 5 个 LR 的 pre-activation RMS 叠合;不叠合先修模块缩放(QK-Norm、tied embeddings、residual scaling、norm 位置),不要直接上大算力 [1][2]
2) depth 变化单独验收:把 depth 当独立轴做“小规模多 depth × 多 LR”验证;不要把 width 迁移结论外推到层数翻倍 [5][7]
3) bf16→fp8 迁移先看 RMS/scale 约束:优先对齐 u-µP 的 unit scaling 目标,再讨论 LR;否则溢出/下溢会伪装成“LR 不可迁移” [3][21]
4) 成熟 SP 栈不要为“更像 µP”重写初始化与缩放:先用联合 scaling law 解出 LR、batch、token:param 起点,再做 1–2 轮小 sweep;若 proxy→目标的误差已在约 10% 内就停止折腾 [9][10][11]
5) 不要把经验公式当跨 recipe 常数:只要 aspect ratio、precision、schedule、数据混合有一项变化,就按需要重拟合;把“最优点可能 3× 漂移”当作默认风险预算 [14]
6) 不要只迁移 LR:在 AdamW 下把 wd 当独立轴,至少联合考虑 (LR, wd);更稳的是把 (LR, wd, β₂) 交给 10–20 次 cost-aware 局部搜索补齐 [17][15][16][22]
7) proxy run 只当起点生成器,不当最终验收:小规模可能漏掉大规模不稳定性;最终验收需要稳定性信号(RMS 叠合、梯度/激活漂移监控),否则搜索与公式都会被误导 [20][2]
8) 对“端到端自动化替代一切”保持克制:AGD/符号优化更像替换内层优化器;在成熟 LLM 栈上,先把网络族与诊断协议固定住,再让自动化补盲点更稳 [23][24][22]

悬而未决的问题

  • Q1.Transformer 端到端对照:在同一训练栈里,Complete-P vs 原版 µP vs u-µP 跨 width×depth×precision 的 head-to-head,且必须给出 RMS-overlap/coord-check 图与失败归因 [1][2][3]
  • Q2.AdamW 的迁移误差分解:在 Transformer 预训练里,迁移误差有多少来自 wd、多少来自 β₂、多少来自标称 LR?需要公开的 controlled sweep 与稳定边界标注 [15][16][17]
  • Q3.CARBS(或同类 cost-aware BO)在成熟 LLM 预训练栈上的真实收益:10–20 次试验能否稳定超过“公式起点 + 1–2 轮小 sweep”?需要公开的预算对齐实验 [22][9][10]
  • Q4.小 proxy 漏检大规模不稳定性的失败边界:哪些失效模式会在 scale-up 才出现?pre-activation RMS 叠合/coord check 能否在大规模之前预测这些失败 [20][2]
  • Q5.经验公式在 recipe 变化后的竞争力:当架构、precision、数据混合变化但不重拟合时,公式派与 parameterization 派的误差与排障成本如何对比?需要公开的“改 recipe”基准 [14][2][3]
  1. [1]
    Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi. Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer. arXiv, 2022论文
  2. [2]
  3. [3]
    Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth. u-µP: The Unit-Scaled Maximal Update Parametrization. arXiv, 2024论文
  4. [4]
    Lucas Lingle. An Empirical Study of μP Learning Rate Transfer. arXiv, 2024论文
  5. [5]
    Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz Pehlevan. Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit. arXiv, 2023论文
  6. [6]
    Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh Bhojanapalli. Depth Dependence of μP Learning Rates in ReLU MLPs. arXiv, 2023论文
  7. [7]
    Soufiane Hayou, Greg Yang. Width and Depth Limits Commute in Residual Networks. arXiv, 2023论文
  8. [8]
    Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Bill Li, Blake Bordelon. Don't be lazy: CompleteP enables compute-efficient deep transformers. arXiv, 2025论文
  9. [9]
    DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. Technical Report (arXiv), 2024报告
  10. [10]
    Nolan Dey, Gurpreet Gosal, Zhiming Chen, Hemant Khachane. Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster. arXiv, 2023论文
  11. [11]
    Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
  12. [12]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, et al.. Scaling Laws for Neural Language Models. arXiv, 2020论文
  13. [13]
    Sam McCandlish, Jared Kaplan, Dario Amodei, OpenAI Dota Team. An Empirical Model of Large-Batch Training. arXiv, 2018论文
  14. [14]
  15. [15]
    Atli Kosson, Jeremy Welborn, Yang Liu, Martin Jaggi, Xi Chen. Weight Decay may matter more than muP for Learning Rate Transfer in Practice. arXiv, 2025论文
  16. [16]
    Xi Wang, Laurence Aitchison. How to set AdamW's weight decay as you scale model and dataset size. arXiv, 2024论文
  17. [17]
    Ilya Loshchilov, Frank Hutter. Decoupled Weight Decay Regularization. arXiv, 2017论文
  18. [18]
    Diederik P. Kingma, Jimmy Ba. Adam: A Method for Stochastic Optimization. arXiv, 2014论文
  19. [19]
    Guodong Zhang, Lala Li, Zachary Nado, James Martens, Sushant Sachdeva. Which Algorithmic Choices Matter at Which Batch Sizes? Insights From a Noisy Quadratic Model. arXiv, 2019论文
  20. [20]
    Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi. Small-scale proxies for large-scale Transformer training instabilities. arXiv, 2023论文
  21. [21]
    Paulius Micikevicius, et al.. FP8 Formats for Deep Learning. NVIDIA Technical Blog / paper, 2022论文
  22. [22]
    CARBS contributors. CARBS: Cost-Aware Randomized Bayesian Search (project page). GitHub, 2024文章
  23. [23]
    Jeremy Bernstein, Chris Mingard, Kevin Huang, Navid Azizan, Yisong Yue. Automatic Gradient Descent: Deep Learning without Hyperparameters. arXiv, 2023论文
  24. [24]
    Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang. Symbolic Discovery of Optimization Algorithms. arXiv, 2023论文
  25. [25]
    Jungtaek Kim, Saehoon Kim, Seungjin Choi. Learning to Warm-Start Bayesian Hyperparameter Optimization. arXiv, 2017论文
  26. [26]
    Abdelmajid Essofi, Ridwan Salahuddeen, Munachiso Nwadike, Elnura Zhalieva, Kun Zhang. Reducing Hyperparameter Tuning Costs in ML, Vision and Language Model Training Pipelines via Memoization-Awareness. arXiv, 2024论文

论文列表

Parameterization 作为可迁移协议:µP → Complete-P → u-µP(4)

关注点从“给一个可迁移 LR”转向“定义网络族 + 给出可验收的诊断”。核心工具是 coord check / pre-activation RMS 叠合:它把迁移失败从结果层(loss 变差)提前到机制层(尺度不对)。Complete-P 把现代 Transformer 组件(QK-Norm、tied embeddings、残差缩放、norm 位置等)逐项纳入规则;u-µP 进一步把低精度下的 unit scaling 约束并入迁移目标。

10

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg Yang,Edward J. Hu,Igor Babuschkin,Szymon Sidor,Xiaodong Liu,David Farhi2022年3月7日
把“宽度放大后 LR 是否还能沿用”变成可验证条件:通过 abc-parametrization 与 coord check,要求关键中间量的尺度在多宽度下叠合,从而把迁移失败定位为参数化/模块缩放问题,而不是盲目 sweep 不够。
10

The Practitioner's Guide to the Maximal Update Parameterization

Cerebras Research2024年9月19日
把“µP 在现代组件下会失效”拆成模块清单与修补规则,并把 coord check 从概念变成逐模块排障表。工程价值在于:先用诊断图确认尺度叠合,再谈 LR 迁移;不叠合就优先修模块缩放,而不是扩大 sweep。
9

u-µP: The Unit-Scaled Maximal Update Parametrization

Charlie Blake,Constantin Eichenberg,Josef Dean,Lukas Balles,Luke Y. Prince,Björn Deiseroth2024年7月8日
把 precision 从实现细节提升为迁移变量:用 unit scaling 约束激活/梯度/权重 RMS,减少 bf16→fp8 时因溢出/下溢导致的“看似 LR 不可迁移”。迁移对象从单一 LR 扩展为“LR + 数值稳定边界”。
8

An Empirical Study of μP Learning Rate Transfer

Lucas Lingle2024年4月8日
提供直接的工程反例材料:即便遵循 µP,LR 迁移仍会受架构与实现细节影响。更有用的读法不是否定 parameterization,而是把“理论成立”与“现代训练栈可直接复用”之间的条件(模块、norm、残差等)显式化。

深度与残差:width 迁移不能直接外推到 depth(4)

把“层数翻倍就得重调 LR”从经验抱怨变成可推导的依赖关系。关键机制是 residual 动力学与极限次序:深度极限需要特定 residual scaling 才能让宽度/深度极限可交换;否则同一 parameterization 下,最优 LR 仍会随 depth 漂移。

9

Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit

Blake Bordelon,Lorenzo Noci,Mufan Bill Li,Boris Hanin,Cengiz Pehlevan2023年9月28日
把 depth 变化下的 LR 漂移写成动力学与缩放极限问题,给出 depthwise transfer 的规则与失效边界。工程含义是:只在 width 上做过迁移验证,不足以支持“层数翻倍也能沿用 LR”。
9

Don't be lazy: CompleteP enables compute-efficient deep transformers

Nolan Dey,Bin Claire Zhang,Lorenzo Noci,Mufan Bill Li,Blake Bordelon2025年5月2日
把 Complete-P 从“修补 µP 的规则集”推进到“深 Transformer 的可复用 recipe”:base HP 开始部分跨 depth 迁移,但前提仍是模块缩放与验证协议(coord check)做对。它把 depth 迁移从口号变成可执行流程。
8

Depth Dependence of μP Learning Rates in ReLU MLPs

Samy Jelassi,Boris Hanin,Ziwei Ji,Sashank J. Reddi,Srinadh Bhojanapalli2023年5月13日
在更简化的 ReLU MLP 里也观察到 µP LR 的 depth 依赖,说明“µP = width-only 迁移”不是普适结论。它更像是:width 极限把一部分尺度问题固定住,但 depth 仍是独立轴。
7

Width and Depth Limits Commute in Residual Networks

Soufiane Hayou,Greg Yang2023年2月1日
给出一个清晰的“残差缩放红线”:只有在特定 residual scaling(如 1/sqrt(depth))下,宽度与深度极限才可交换。对迁移而言,这解释了为什么同一套 width 规则在深网络上会突然失效。

经验公式与联合 scaling law:固定 recipe 下的闭式起点(4)

把 HP transfer 当作统计拟合:在 recipe 稳定、数据分布与训练时长目标明确时,用少量 proxy run 拟合 loss 对 LR、batch、tokens 的响应,再解出目标规模的起点。优势是工程改造成本低;风险是对“形状/precision/schedule/数据混合”敏感,一旦改 recipe,旧公式可能漂移到倍数级。

10

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DeepSeek-AI2024年1月5日
把 LR 与 batch size 纳入联合拟合,并强调用 proxy run 直接解目标规模超参。它把“经验公式”从单变量经验曲线升级为多变量可解系统,但前提仍是 recipe 与数据分布稳定。
9

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

Nolan Dey,Gurpreet Gosal,Zhiming Chen,Hemant Khachane2023年4月6日
给出可复现的 compute-optimal 训练配方,并把超参选择与 scaling law 绑定成可操作流程。对成熟 SP 栈最实用的是:把 LR、batch、训练时长当作可拟合变量,而不是靠大网格搜索碰运气。
9

Training Compute-Optimal Large Language Models

Jordan Hoffmann,Sebastian Borgeaud,Arthur Mensch,Elena Buchatskaya,Trevor Cai2022年3月29日
把 token:param 的 compute-optimal 比例从“经验建议”变成可拟合的目标函数约束。它为公式派提供了一个稳定的外层约束:先定训练预算与 tokens,再在内层调 LR/batch。
8

Scaling Laws for Neural Language Models

Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B. Brown,Benjamin Chess2020年1月23日
提供了“从小规模外推大规模”的基本范式:loss 对模型/数据/compute 的幂律关系,使得经验公式可以被组织成可解的规划问题。它也隐含了一个前提:外推依赖训练栈与数据分布的稳定性。

µP 覆盖外的主导误差:AdamW 的 wd/β₂ 与 cost-aware 搜索(4)

把迁移误差从“LR 没迁好”改写为“正则化与稳定边界在移动”。AdamW 的 wd 与 LR 解耦,β₂ 改变有效噪声与动量时间常数;这些变量更适合显式剥离出来,用 cost-aware 的局部 BO(如 CARBS)在 10–20 次试验内补齐。另一个工程现实是 proxy fidelity:小模型上看不出的不稳定性会在大规模出现,需要额外诊断信号。

10

Weight Decay may matter more than muP for Learning Rate Transfer in Practice

Atli Kosson,Jeremy Welborn,Yang Liu,Martin Jaggi,Xi Chen2025年10月21日
把 wd 从“固定背景参数”提升为一阶变量:在实践中 wd 的设定可能比标称 LR 更主导迁移误差。工程含义是把 (LR, wd) 当作耦合面处理,而不是只迁移一个标量 LR。
10

How to set AdamW's weight decay as you scale model and dataset size

Xi Wang,Laurence Aitchison2024年5月22日
给出 wd 随模型/数据规模变化的显式规律与机制解释(AdamW 下权重演化可视作指数移动平均)。它支持一个更务实的迁移拆分:先按规则设 wd,再讨论 LR transfer 才不容易把误差归因错。
8

Decoupled Weight Decay Regularization

Ilya Loshchilov,Frank Hutter2017年11月14日
明确了 AdamW 的关键事实:wd 与 LR 不再等价缩放,因此“固定 wd 只调 LR”会系统性误导迁移结论。它是把 wd 作为独立轴纳入 transfer/搜索的理论起点。
8

Small-scale proxies for large-scale Transformer training instabilities

Mitchell Wortsman,Peter J. Liu,Lechao Xiao,Katie Everett,Alex Alemi2023年9月25日
指出 proxy fidelity 的硬问题:小规模上稳定不代表大规模稳定,即便超参匹配。它把“迁移成功”的验收从单一 loss 曲线扩展到稳定边界与失效模式,要求额外诊断信号而不只是更密的 sweep。