TL;DR
2026 年的 HP transfer 没有单一默认解,更稳的工程分层是三层:
(1) parameterization(µP/Complete-P/u-µP)负责定义“哪些量在 width/depth/precision 变化下应保持不变”,并用 coord check / pre-activation RMS 叠合做验收;
(2) 经验公式与联合 scaling law 负责在固定 SP recipe 下给出 LR、batch、token:param 的闭式起点;
(3) µP 覆盖外的变量(AdamW 的 weight decay、β₂、dropout 等)用 cost-aware 局部 BO(如 CARBS)在 10–20 次 proxy runs 内补齐。
Greenfield 栈优先 Complete-P,并把 coord check 设成合并门槛;目标不是零样本迁移所有超参,而是把 width/depth/precision 变化下的 LR 漂移压到约 10–15% [1][2][3][5]。成熟 SP 栈通常不值得为“更理论正确”重写初始化与模块缩放:用 Cerebras/DeepSeek 类公式 + 1–2 轮小 sweep,常见误差可压到约 10%,但前提是 recipe 不乱动 [10][9][11][14]。最容易误判的是“只迁移 LR”:在 AdamW 下 wd 往往比标称 LR 更主导迁移误差,β₂ 也不会被 parameterization 自动解决 [15][16][17]。
核心断言
§0 演进谱系:从盲跑 grid 到 parameterization + 公式 + 搜索的分层系统
AdamW -> Kaplan -> muP -> depth-muP -> Complete-P / u-muP / CARBS -> wd-coupled (LR, wd)
HP transfer 的演化是一条从经验试调走向分层系统的脉络。[17] 将 weight decay 与 LR 解耦,使 wd 成为独立调参轴;[12] 给出 (N, D) 幂律和经验初值公式,把“在小 model 上调好 LR/bs 再放大”的直觉首次量化。2022 年 [1] 用 Tensor Programs V 推出 µP 与 coord check 协议,在“扩宽”意义上把迁移从口号变成可验证条件。2023 年 [5]、[6]、[7] 将同一范式扩到 depth,证明残差网络下 width 与 depth 可换序;[20] 同期给出 proxy fidelity 警告:小 proxy 可能漏掉大规模不稳定性。
2024 年 µP 进入工业化阶段:[2] 将现代 Transformer 组件纳入模块级缩放规则与诊断表;[3] 用 u-µP 将 FP8 的 unit-scaling 约束并入迁移目标;[22] 提供 cost-aware Bayesian 局部搜索;[4] 与 [8] 给出大规模实测,证实 parameterization + 公式 + 局部搜索三层组合后,7-8B 主训练的 HP 调参成本可压到盲跑 grid 的 ~5-12%。[15] 与 [16] 给出最近一次重要修正:wd 与 LR 在大规模下并不独立;把 (LR, wd) 当作耦合面处理,是继续外推 µP 边界的关键工件。至此,HP transfer 的现代用法是一套分层系统:parameterization 定边界,公式 给初值,局部搜索 + 经验审计 收尾,而不是“µP 一招通吃”或“盲跑 grid”这两个端点。
§2 分歧轴与取舍:parameterization、公式、搜索各自解决什么
主要分歧不在“谁更聪明”,而在工程约束下各自优化的目标函数不同。
Parameterization 派把问题界定为:先做对网络族与尺度闭包,再讨论迁移。Complete-P 的主要产物是模块级规则与 coord check 表,适合 greenfield 栈把迁移固化为协议 [2][1];u-µP 进一步把 fp8 的 RMS 约束纳入同一协议,降低 precision 切换引入的隐性漂移 [3][21]。代价是必须改初始化/缩放/实现细节,并长期维护诊断基准。
公式派把问题界定为:固定 recipe 下的统计拟合。DeepSeek 将 LR 与 batch 作为联合变量拟合,并用 proxy run 求目标规模起点 [9];Cerebras-GPT 与 Chinchilla 将 compute-optimal 的 tokens 与模型规模关系作为外层约束 [10][11]。优势是工程侵入小;弱点是对 recipe 变化敏感。Gemstones 的结论是,aspect ratio 或 schedule/HP 组合改变后,最优点可能发生倍数级漂移,旧公式不应被视为跨 recipe 常数 [14]。
搜索派强调:盲区不可避免。AdamW 下 wd 与 β₂ 会移动稳定边界与最优 LR,只迁移 LR 的叙事容易把误差归因错 [17][15][16];因此,CARBS 这类 cost-aware 局部 BO 更适合补齐 µP 覆盖外的耦合面,而不是替代所有规则 [22]。
更稳的组合是:parameterization 给出可验收的边界,公式给起点,搜索补盲点。
| 路线 | 主要可迁移对象 | 前提条件 | 典型失效模式 | 验收信号 |
|---|---|---|---|---|
| Parameterization(µP/Complete-P/u-µP) | base LR、init scale;扩展到 depth/precision 的稳定边界 | 网络族定义清晰;模块缩放规则齐全;实现细节可控 | 现代模块破坏尺度闭包;depth/precision 轴未验证 | |
| 经验公式/联合 scaling law | LR、batch、token:param 的闭式起点 | recipe 稳定;proxy 与目标同分布;训练时长/预算目标明确 | aspect ratio / schedule / precision / 数据混合变化导致倍数级漂移 [14] | |
| Cost-aware 局部搜索(CARBS 类) | wd、β₂、dropout 等耦合面补齐 | 有可复用 proxy 任务;可定义 cost×loss 目标;噪声可控 | proxy fidelity 不足导致错误收敛;大规模不稳定性未被捕捉 [20] | 10–20 次试验的帕累托改进 [22] |
§3 容易踩坑的两条轴:depth 与 precision,以及 proxy fidelity
把迁移从 width 扩展到 depth 与 precision 时,常见失败更像边界条件改变,而不是调参不足。
Depth:Bordelon et al. [5] 把 depthwise transfer 表述为 residual 动力学与缩放极限问题;Hayou and Yang [7] 进一步给出极限可交换条件与 residual scaling 红线。Jelassi et al. [6] 在 MLP 里也观察到 depth 依赖,说明 depth 不是可忽略的二阶效应。工程上更稳的流程是:将 depth 作为独立迁移轴,至少跑“多 depth × 多 LR”的小规模验证,而不是仅凭 width 叠合就外推到更深模型。
Precision:u-µP 的关键是把 unit RMS 约束并入迁移目标 [3],这与 FP8 训练对 scaling 的要求一致 [21]。如果 bf16→fp8 后出现不稳定,先检查 RMS/scale 是否满足约束,再判断 LR 是否需要改;否则会把数值范围问题误判为优化理论问题。
Proxy fidelity:Wortsman et al. [20] 指出小规模 proxy 可能漏掉大规模不稳定性。更可操作的读法是:把 proxy 结果当作“起点生成器”,而不是“最终验收”;最终验收还需要稳定性信号(例如 pre-activation RMS 叠合、梯度/激活分布的漂移监控),否则 10% 的起点误差可能在大规模下放大成训练失败。
§4 迁移误差的主导项:AdamW 的 wd/β₂,及其与搜索的分工
把迁移误差拆到 AdamW 变量上,归因常会反转:表面是“LR 没迁好”,主因可能是 wd/β₂ 改写了稳定边界和最优点。
基础事实是,AdamW 的 decoupled weight decay 使 wd 不再等价于 L2 正则的“LR 缩放版本”,因此不能把 wd 当作背景常数 [17]。Wang and Aitchison [16] 进一步给出 wd 随模型/数据规模变化的规律和机制解释,说明 wd 本身也需要 transfer 规则或显式搜索。
Kosson et al. [15] 的实践结论是:wd 可能比标称 LR 更主导“LR transfer 的误差”;因此,只讨论“µP 是否让 LR 可迁移”会漏掉主要误差源。更稳的工程拆分是:parameterization 先把 width/depth/precision 下的尺度闭包做对,减少 LR 漂移的结构性来源 [1][2][3];再把 (LR, wd, β₂) 当作耦合面,用 cost-aware 的局部 BO 补齐 [22]。
自动化方法(例如 AGD、symbolic optimizer discovery)提供了“减少手工超参”的另一条路 [23][24],但它们更接近替换内层优化器,而不是替换“网络族定义 + 诊断 + 迁移验收”。在成熟 LLM 栈上,现实落点仍是:用规则锁住可迁移部分,把不可迁移部分交给小预算搜索。
时间线
研究立场对比
阵营 A:Complete-P 作为默认起点,经验公式只是权宜之计
立场 — 先把网络族与尺度闭包做对:用 Complete-P 的模块级规则修补现代组件,把 coord check / RMS 叠合作为硬验收;在此基础上,base LR 与 init scale 才有资格谈“可迁移”。经验公式只能在 recipe 不变时给近似起点,不能替代正确 parameterization。
反方 — 修正 c-7d1c22d4b6:即便 Complete-P/u-µP 补齐模块与低精度,仍不能推出“所有预训练都应切换至 µP”。Lingle [4] 显示实际栈里仍有架构/实现依赖;此外 wd/β₂ 等变量不在 parameterization 的闭包内,会继续主导迁移误差 [15][17]。
判词 — 更稳的定位:greenfield 栈把 Complete-P 当默认起点,并把 coord check 设为合并门槛;成熟 SP 栈不为“更理论正确”强行迁移到 µP,除非能证明迁移带来的节省超过重构与回归风险 [2][4]。
阵营 B:经验公式 + 小 sweep 足够,µP 属于过度工程
立场 — 在固定 SP recipe 下,经验公式与联合 scaling law 能直接给出 LR、batch、token:param 的起点,配合 1–2 轮小 sweep 就能接近最优;相比之下,迁移到 µP/Complete-P 需要改初始化、模块缩放与诊断流程,工程风险与收益不匹配。
反方 — 反驳 c-b807a6f58d:公式并非“无需改底层就能准确预测”的通用解。Gemstones 指出对 aspect ratio、schedule 与 HP 组合敏感,最优点可出现倍数级漂移 [14];而当现代模块或 precision 变化引入尺度失配时,公式无法提供失败归因,仍需要 coord check 类诊断 [2][3]。
判词 — 更务实的建议:成熟 SP 栈优先公式 + 小 sweep,但把“recipe 稳定性”当作硬前提;一旦改动形状/precision/schedule/数据混合,就按需要重拟合而不是沿用常数 [9][14]。
阵营 C:端到端自动化(BO/自动优化器)会替代迁移规则
立场 — 与其维护迁移规则,不如把目标函数交给自动化:warm-start BO 迁移历史试验分布,CARBS 类方法在 cost×loss 帕累托前沿上直接搜索;甚至可以用 AGD 或 symbolic discovery 学出“免超参”的更新规则,从根上减少迁移需求。
反方 — 反驳 c-bec6705c6f:端到端搜索很难绕开 proxy fidelity 与失效归因问题。小 proxy 可能漏掉大规模不稳定性 [20];而没有 parameterization/诊断,搜索失败时难以判断是模型族定义错、模块尺度错,还是超参局部最优。更像可落地的分工是:用 parameterization/公式把可迁移部分固定住,再让搜索补齐 wd/β₂ 等盲区 [22][15]。
判词 — 更稳的读法:自动化适合做“补盲点”的局部层,而不是替代“网络族定义 + 验收协议”。在成熟 LLM 栈上,优先把搜索预算留给 wd/β₂/dropout 这类 µP 覆盖外变量 [22][17]。
阵营 D:迁移误差主要由不可迁移超参主导,尤其 wd/β₂
立场 — 很多“LR 不可迁移”现象是归因错误:在 AdamW 下 wd 是独立轴,β₂ 与 batch/噪声耦合会移动稳定边界与最优点;因此应把 wd/β₂ 显式建模或显式搜索,而不是把精力集中在 LR 的单标量迁移上。
反方 — 修正 c-05156d3ad8 / c-bdb7a65e9e:wd/β₂ 很关键,但不意味着 parameterization 没价值。Complete-P 的模块级修补与 coord check 能减少“结构性漂移”,把搜索空间从全局缩到少数耦合轴 [2][1];否则 wd/β₂ 的搜索会被尺度失配噪声污染,难以稳定收敛 [20]。
判词 — 结论层面的建议:把 (LR, wd, β₂) 当作耦合面管理;先用 parameterization/诊断把尺度闭包做对,再用 10–20 次 cost-aware 局部搜索补齐 wd/β₂ 的最优点 [15][2][22]。
实践要点
可操作清单(按 ROI 从高到低):
1) Greenfield pretrain 栈默认 Complete-P,并把 coord check 设成合并门槛:至少做 3–4 个 width × 5 个 LR 的 pre-activation RMS 叠合;不叠合先修模块缩放(QK-Norm、tied embeddings、residual scaling、norm 位置),不要直接上大算力 [1][2]。
2) depth 变化单独验收:把 depth 当独立轴做“小规模多 depth × 多 LR”验证;不要把 width 迁移结论外推到层数翻倍 [5][7]。
3) bf16→fp8 迁移先看 RMS/scale 约束:优先对齐 u-µP 的 unit scaling 目标,再讨论 LR;否则溢出/下溢会伪装成“LR 不可迁移” [3][21]。
4) 成熟 SP 栈不要为“更像 µP”重写初始化与缩放:先用联合 scaling law 解出 LR、batch、token:param 起点,再做 1–2 轮小 sweep;若 proxy→目标的误差已在约 10% 内就停止折腾 [9][10][11]。
5) 不要把经验公式当跨 recipe 常数:只要 aspect ratio、precision、schedule、数据混合有一项变化,就按需要重拟合;把“最优点可能 3× 漂移”当作默认风险预算 [14]。
6) 不要只迁移 LR:在 AdamW 下把 wd 当独立轴,至少联合考虑 (LR, wd);更稳的是把 (LR, wd, β₂) 交给 10–20 次 cost-aware 局部搜索补齐 [17][15][16][22]。
7) proxy run 只当起点生成器,不当最终验收:小规模可能漏掉大规模不稳定性;最终验收需要稳定性信号(RMS 叠合、梯度/激活漂移监控),否则搜索与公式都会被误导 [20][2]。
8) 对“端到端自动化替代一切”保持克制:AGD/符号优化更像替换内层优化器;在成熟 LLM 栈上,先把网络族与诊断协议固定住,再让自动化补盲点更稳 [23][24][22]。
悬而未决的问题
- Q1.Transformer 端到端对照:在同一训练栈里,Complete-P vs 原版 µP vs u-µP 跨 width×depth×precision 的 head-to-head,且必须给出 RMS-overlap/coord-check 图与失败归因 [1][2][3]。
- Q2.AdamW 的迁移误差分解:在 Transformer 预训练里,迁移误差有多少来自 wd、多少来自 β₂、多少来自标称 LR?需要公开的 controlled sweep 与稳定边界标注 [15][16][17]。
- Q3.CARBS(或同类 cost-aware BO)在成熟 LLM 预训练栈上的真实收益:10–20 次试验能否稳定超过“公式起点 + 1–2 轮小 sweep”?需要公开的预算对齐实验 [22][9][10]。
- Q4.小 proxy 漏检大规模不稳定性的失败边界:哪些失效模式会在 scale-up 才出现?pre-activation RMS 叠合/coord check 能否在大规模之前预测这些失败 [20][2]?
- Q5.经验公式在 recipe 变化后的竞争力:当架构、precision、数据混合变化但不重拟合时,公式派与 parameterization 派的误差与排障成本如何对比?需要公开的“改 recipe”基准 [14][2][3]。
- [1]Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi. Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer. arXiv, 2022论文
- [2]
- [3]Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth. u-µP: The Unit-Scaled Maximal Update Parametrization. arXiv, 2024论文
- [4]
- [5]Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz Pehlevan. Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit. arXiv, 2023论文
- [6]Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh Bhojanapalli. Depth Dependence of μP Learning Rates in ReLU MLPs. arXiv, 2023论文
- [7]
- [8]Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Bill Li, Blake Bordelon. Don't be lazy: CompleteP enables compute-efficient deep transformers. arXiv, 2025论文
- [9]DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. Technical Report (arXiv), 2024报告
- [10]Nolan Dey, Gurpreet Gosal, Zhiming Chen, Hemant Khachane. Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster. arXiv, 2023论文
- [11]Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
- [12]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, et al.. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [13]Sam McCandlish, Jared Kaplan, Dario Amodei, OpenAI Dota Team. An Empirical Model of Large-Batch Training. arXiv, 2018论文
- [14]Sean McLeish, et al.. Gemstones: Scaling Laws for Compute-Optimal Model Training (and when they break). public report, 2025论文
- [15]Atli Kosson, Jeremy Welborn, Yang Liu, Martin Jaggi, Xi Chen. Weight Decay may matter more than muP for Learning Rate Transfer in Practice. arXiv, 2025论文
- [16]Xi Wang, Laurence Aitchison. How to set AdamW's weight decay as you scale model and dataset size. arXiv, 2024论文
- [17]
- [18]
- [19]Guodong Zhang, Lala Li, Zachary Nado, James Martens, Sushant Sachdeva. Which Algorithmic Choices Matter at Which Batch Sizes? Insights From a Noisy Quadratic Model. arXiv, 2019论文
- [20]Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi. Small-scale proxies for large-scale Transformer training instabilities. arXiv, 2023论文
- [21]
- [22]
- [23]Jeremy Bernstein, Chris Mingard, Kevin Huang, Navid Azizan, Yisong Yue. Automatic Gradient Descent: Deep Learning without Hyperparameters. arXiv, 2023论文
- [24]Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang. Symbolic Discovery of Optimization Algorithms. arXiv, 2023论文
- [25]Jungtaek Kim, Saehoon Kim, Seungjin Choi. Learning to Warm-Start Bayesian Hyperparameter Optimization. arXiv, 2017论文
- [26]Abdelmajid Essofi, Ridwan Salahuddeen, Munachiso Nwadike, Elnura Zhalieva, Kun Zhang. Reducing Hyperparameter Tuning Costs in ML, Vision and Language Model Training Pipelines via Memoization-Awareness. arXiv, 2024论文