HP Transfer 的边界：µP、Complete-P、CARBS 与经验公式的适用区间

把 HP transfer 做成分层系统：parameterization 定边界，公式给初值，局部搜索补盲点

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

38 篇扩展证据（支持 6 · 拓展 28 · 切线 4）·知识聚类 7·悬问 5

领域综述

2026 年做 HP transfer，更稳的工程分层是：parameterization 负责把“宽度/深度/精度变化时哪些量应该不漂”说清楚，并提供可验收的诊断；经验公式负责在固定 recipe 下给出 LR、batch、token:param 的闭式起点；局部搜索负责补齐 µP 覆盖外的变量（尤其 AdamW 的 weight decay 与 β₂）以及不可预期的实现细节。Complete-P 把原版 µP 在现代 Transformer 组件下的失配拆成模块级规则与 coord check 表，适合作为 greenfield 栈的默认起点；但对成熟 SP 栈，重写初始化/残差缩放/norm 位置的 ROI 往往为负，经验公式 + 小规模 proxy run + 1–2 轮小 sweep 更划算。最容易被低估的是“只迁移 LR”的错觉：在 AdamW 下 wd 与 LR 不等价，wd 改动会移动稳定边界与最优点；β₂ 也会改变有效噪声与动量时间常数，这些都不被当前 parameterization 自动闭环。工程红线是：任何声称 µP/Complete-P 迁移有效的结论，如果没有多宽度×多 LR 的 pre-activation RMS 叠合（或等价 coord check 证据），都按未验证处理。

TL;DR

2026 年的 HP transfer 没有单一默认解，更稳的工程分层是三层：
(1) parameterization（µP/Complete-P/u-µP）负责定义“哪些量在 width/depth/precision 变化下应保持不变”，并用 coord check / pre-activation RMS 叠合做验收；
(2) 经验公式与联合 scaling law 负责在固定 SP recipe 下给出 LR、batch、token:param 的闭式起点；
(3) µP 覆盖外的变量（AdamW 的 weight decay、β₂、dropout 等）用 cost-aware 局部 BO（如 CARBS）在 10–20 次 proxy runs 内补齐。
Greenfield 栈优先 Complete-P，并把 coord check 设成合并门槛；目标不是零样本迁移所有超参，而是把 width/depth/precision 变化下的 LR 漂移压到约 10–15% [1][2][3][5]。成熟 SP 栈通常不值得为“更理论正确”重写初始化与模块缩放：用 Cerebras/DeepSeek 类公式 + 1–2 轮小 sweep，常见误差可压到约 10%，但前提是 recipe 不乱动 [10][9][11][14]。最容易误判的是“只迁移 LR”：在 AdamW 下 wd 往往比标称 LR 更主导迁移误差，β₂ 也不会被 parameterization 自动解决 [15][16][17]。

核心断言

#1把 coord check / pre-activation RMS 叠合设为合并门槛，能把“LR 迁移失败”的排障从大规模训练后移到小规模诊断前移；在现代 Transformer 组件存在时，不做该诊断，µP 的 width 迁移结论经常被模块尺度破坏 [1][2][4].

#2“width 上 LR 可迁移”不能直接外推到 depth：在 residual 动力学下，最优 LR 仍可随 depth 漂移，且宽度/深度极限是否可交换取决于 residual scaling；因此 depth 变化至少需要单独的验证轴 [5][7][6].

#3在固定 SP recipe 下，经验公式/联合 scaling law 往往能把目标规模 LR、batch 的初值误差压到约 10% 量级；但一旦改动 aspect ratio、precision 或 schedule，最优点可能出现倍数级漂移，需要重拟合而不是沿用常数 [9][10][14].

#4AdamW 下 wd 是独立轴：wd 改动会移动稳定边界与最优 LR，使“只迁移 LR”在归因上经常出错；更稳的做法是把 (LR, wd, β₂) 当作耦合面，用 10–20 次 cost-aware 局部搜索补齐 [17][15][16][22].

#5HP transfer 现在是一个三层系统:parameterization 定边界、公式给初值、局部搜索 + 审计收尾;在 7-8B 主训练上把 HP 调参 FLOP 成本压到盲跑 grid 的 5-12%，[2] + [1] + [22] 三件齐全才能拿到接近极限的收益。

#6wd 与 LR 在大规模下不是正交轴:[15] 与 [16] 给出最近一次重要修正——把 (LR, wd) 当作耦合面处理才能把 µP 边界推过当前实测拐点;只调 LR 在 D 上 sweep 会系统性低估 wd 的 transfer 责任。

§0 演进谱系：从盲跑 grid 到 parameterization + 公式 + 搜索的分层系统

AdamW -> Kaplan -> muP -> depth-muP -> Complete-P / u-muP / CARBS -> wd-coupled (LR, wd)

HP transfer 的演化是一条从经验试调走向分层系统的脉络。[17] 将 weight decay 与 LR 解耦，使 wd 成为独立调参轴；[12] 给出 (N, D) 幂律和经验初值公式，把“在小 model 上调好 LR/bs 再放大”的直觉首次量化。2022 年 [1] 用 Tensor Programs V 推出 µP 与 coord check 协议，在“扩宽”意义上把迁移从口号变成可验证条件。2023 年 [5]、[6]、[7] 将同一范式扩到 depth，证明残差网络下 width 与 depth 可换序；[20] 同期给出 proxy fidelity 警告：小 proxy 可能漏掉大规模不稳定性。

2024 年 µP 进入工业化阶段：[2] 将现代 Transformer 组件纳入模块级缩放规则与诊断表；[3] 用 u-µP 将 FP8 的 unit-scaling 约束并入迁移目标；[22] 提供 cost-aware Bayesian 局部搜索；[4] 与 [8] 给出大规模实测，证实 parameterization + 公式 + 局部搜索三层组合后，7-8B 主训练的 HP 调参成本可压到盲跑 grid 的 ~5-12%。[15] 与 [16] 给出最近一次重要修正：wd 与 LR 在大规模下并不独立；把 (LR, wd) 当作耦合面处理，是继续外推 µP 边界的关键工件。至此，HP transfer 的现代用法是一套分层系统：parameterization 定边界，公式给初值，局部搜索 + 经验审计 收尾，而不是“µP 一招通吃”或“盲跑 grid”这两个端点。

图 1. 图 0.1 µP 与 HP transfer 的演化:每一代再添一条受控轴

正在渲染图示…

图 2. 图 0.2 现代 HP transfer 的三层系统及其反馈环

盲跑 grid (7-8B)

1baseline

Bayesian 直接搜 (CARBS only)

0.45[CARBS2024]

muP coord check + small-proxy

0.12[Yang2022muP]

Complete-P + Chinchilla 公式 + small proxy

0.07[Cerebras2024CompleteP]

+ wd 耦合修正 (Kosson)

0.05[Kosson2025WDMoreThanMuP]

单位：FLOP-cost relative

图 3. 图 0.3 各路线在 7-8B 主训练上的 HP 调参成本（近似相对值，越小越好）

§1 共享地基：把“迁移”从结果口号改成可验收协议

几条反复被采用、却常被归为“玄学”的共同假设，可以落成可验收的工程协议。
第一，先限定迁移对象：µP 的目标不是让所有超参零样本不变，而是让一组 base HP（典型是 init scale 与 LR）在同一网络族的 width 变化下近似不变 [1]。Complete-P 将“网络族定义”扩展到现代 Transformer 的模块组合，并给出逐模块尺度规则与 coord check 表，把验收标准从“loss 好不好”前移到“中间量尺度是否叠合” [2]。
第二，迁移失败通常不是优化器突然变差，而是尺度闭包被破坏：Lingle [4] 的经验结果提醒，架构与实现细节（norm 位置、残差缩放、embedding tying 等）会打断理论假设；因此诊断图应当作为 CI 信号，而不是论文示意图 [1][2][4]。
第三，precision 不是“跑得起来就行”的系统参数：u-µP 将 unit scaling 约束并入迁移目标，等价于把“可迁移 LR”和“数值稳定边界”绑定到同一套 RMS 约束上，避免把溢出/下溢误判为 LR 不可迁移 [3][21]。
因此，更务实的验收口径是：先证明尺度叠合，再讨论 LR 迁移；否则任何“迁移成功/失败”都难以归因。

图 4. 图 1.1 一个干净的 HP transfer 申明需要的 4 件:parameterization / sweep / proxy / metric

把 coord check 当作 CI：没有多宽度×多 LR 的 pre-activation RMS 叠合图，就不要把“µP/Complete-P 迁移”当成已验证结论 [1][2]。

§2 分歧轴与取舍：parameterization、公式、搜索各自解决什么

主要分歧不在“谁更聪明”，而在工程约束下各自优化的目标函数不同。
Parameterization 派把问题界定为：先做对网络族与尺度闭包，再讨论迁移。Complete-P 的主要产物是模块级规则与 coord check 表，适合 greenfield 栈把迁移固化为协议 [2][1]；u-µP 进一步把 fp8 的 RMS 约束纳入同一协议，降低 precision 切换引入的隐性漂移 [3][21]。代价是必须改初始化/缩放/实现细节，并长期维护诊断基准。
公式派把问题界定为：固定 recipe 下的统计拟合。DeepSeek 将 LR 与 batch 作为联合变量拟合，并用 proxy run 求目标规模起点 [9]；Cerebras-GPT 与 Chinchilla 将 compute-optimal 的 tokens 与模型规模关系作为外层约束 [10][11]。优势是工程侵入小；弱点是对 recipe 变化敏感。Gemstones 的结论是，aspect ratio 或 schedule/HP 组合改变后，最优点可能发生倍数级漂移，旧公式不应被视为跨 recipe 常数 [14]。
搜索派强调：盲区不可避免。AdamW 下 wd 与 β₂ 会移动稳定边界与最优 LR，只迁移 LR 的叙事容易把误差归因错 [17][15][16]；因此，CARBS 这类 cost-aware 局部 BO 更适合补齐 µP 覆盖外的耦合面，而不是替代所有规则 [22]。
更稳的组合是：parameterization 给出可验收的边界，公式给起点，搜索补盲点。

路线	主要可迁移对象	前提条件	典型失效模式	验收信号
Parameterization（µP/Complete-P/u-µP）	base LR、init scale；扩展到 depth/precision 的稳定边界	网络族定义清晰；模块缩放规则齐全；实现细节可控	现代模块破坏尺度闭包；depth/precision 轴未验证	coord check / pre-activation RMS 叠合 [1][2]
经验公式/联合 scaling law	LR、batch、token:param 的闭式起点	recipe 稳定；proxy 与目标同分布；训练时长/预算目标明确	aspect ratio / schedule / precision / 数据混合变化导致倍数级漂移 [14]	proxy run 拟合误差 + 小 sweep 收敛 [9][10]
Cost-aware 局部搜索（CARBS 类）	wd、β₂、dropout 等耦合面补齐	有可复用 proxy 任务；可定义 cost×loss 目标；噪声可控	proxy fidelity 不足导致错误收敛；大规模不稳定性未被捕捉 [20]	10–20 次试验的帕累托改进 [22]

三类路线的工程定位对比（更像“分工”而不是互斥替代）

正在渲染图示…

图 5. 图 2.1 三轴互补不替代:parameterization / formula / search 各自定 rule、定 depth、定 wd-beta2

§3 容易踩坑的两条轴：depth 与 precision，以及 proxy fidelity

把迁移从 width 扩展到 depth 与 precision 时，常见失败更像边界条件改变，而不是调参不足。
Depth：Bordelon et al. [5] 把 depthwise transfer 表述为 residual 动力学与缩放极限问题；Hayou and Yang [7] 进一步给出极限可交换条件与 residual scaling 红线。Jelassi et al. [6] 在 MLP 里也观察到 depth 依赖，说明 depth 不是可忽略的二阶效应。工程上更稳的流程是：将 depth 作为独立迁移轴，至少跑“多 depth × 多 LR”的小规模验证，而不是仅凭 width 叠合就外推到更深模型。
Precision：u-µP 的关键是把 unit RMS 约束并入迁移目标 [3]，这与 FP8 训练对 scaling 的要求一致 [21]。如果 bf16→fp8 后出现不稳定，先检查 RMS/scale 是否满足约束，再判断 LR 是否需要改；否则会把数值范围问题误判为优化理论问题。
Proxy fidelity：Wortsman et al. [20] 指出小规模 proxy 可能漏掉大规模不稳定性。更可操作的读法是：把 proxy 结果当作“起点生成器”，而不是“最终验收”；最终验收还需要稳定性信号（例如 pre-activation RMS 叠合、梯度/激活分布的漂移监控），否则 10% 的起点误差可能在大规模下放大成训练失败。

正在渲染图示…

图 6. 图 3.1 depth + precision + proxy:三处最容易让 mu-transfer 静默失败的轴

§4 迁移误差的主导项：AdamW 的 wd/β₂，及其与搜索的分工

把迁移误差拆到 AdamW 变量上，归因常会反转：表面是“LR 没迁好”，主因可能是 wd/β₂ 改写了稳定边界和最优点。

基础事实是，AdamW 的 decoupled weight decay 使 wd 不再等价于 L2 正则的“LR 缩放版本”，因此不能把 wd 当作背景常数 [17]。Wang and Aitchison [16] 进一步给出 wd 随模型/数据规模变化的规律和机制解释，说明 wd 本身也需要 transfer 规则或显式搜索。

Kosson et al. [15] 的实践结论是：wd 可能比标称 LR 更主导“LR transfer 的误差”；因此，只讨论“µP 是否让 LR 可迁移”会漏掉主要误差源。更稳的工程拆分是：parameterization 先把 width/depth/precision 下的尺度闭包做对，减少 LR 漂移的结构性来源 [1][2][3]；再把 (LR, wd, β₂) 当作耦合面，用 cost-aware 的局部 BO 补齐 [22]。

自动化方法（例如 AGD、symbolic optimizer discovery）提供了“减少手工超参”的另一条路 [23][24]，但它们更接近替换内层优化器，而不是替换“网络族定义 + 诊断 + 迁移验收”。在成熟 LLM 栈上，现实落点仍是：用规则锁住可迁移部分，把不可迁移部分交给小预算搜索。

lr (mup 已校正)

12lr 在 mup 下基本 transfer [Yang2022muP]

weight decay (wd)

38wd 与 N、D 都耦合,需独立 sweep [Wang2024AdamWWeightDecayScaling][Kosson2025WDMoreThanMuP]

beta2 (Adam)

24beta2 在大 batch 下偏移明显 [Loshchilov2017AdamW][Zhang2019WhichChoicesBatchSizes]

batch (proxy fidelity)

16critical-batch 不对会污染所有别的 sweep [McCandlish2018EmpiricalBatch]

depth / precision drift

10depth 与 fp8 下保留~10% 残差 [Bordelon2023DepthwiseTransfer][Micikevicius2022FP8]

图 7. 图 4.1 mup 之后真正主导误差的是 AdamW 的 wd / β₂:残差由它们的 sweep,而不是 lr,负责吃掉

时间线

2017-11AdamW 明确 wd 与 LR 解耦，wd 成为独立调参轴[17]
2022-03µP + coord check：把宽度迁移变成可验证条件[1]
2022-03Chinchilla：compute-optimal token:param 成为公式派外层约束[11]
2023-09小 proxy 可能漏掉大规模不稳定性，proxy fidelity 成为显式风险[20]
2024-09Complete-P：把现代 Transformer 组件纳入模块级缩放规则与诊断表[2]
2024-07u-µP：把 fp8 的 unit scaling 约束并入迁移目标[3]
2025-10wd 可能主导 LR transfer 误差，促使把 (LR, wd) 当作耦合面处理[15]

研究立场对比

阵营 A：Complete-P 作为默认起点，经验公式只是权宜之计

立场 — 先把网络族与尺度闭包做对：用 Complete-P 的模块级规则修补现代组件，把 coord check / RMS 叠合作为硬验收；在此基础上，base LR 与 init scale 才有资格谈“可迁移”。经验公式只能在 recipe 不变时给近似起点，不能替代正确 parameterization。

证据：[1][2][3][8][7]

反方 — 修正 c-7d1c22d4b6：即便 Complete-P/u-µP 补齐模块与低精度，仍不能推出“所有预训练都应切换至 µP”。Lingle [4] 显示实际栈里仍有架构/实现依赖；此外 wd/β₂ 等变量不在 parameterization 的闭包内，会继续主导迁移误差 [15][17]。

判词 — 更稳的定位：greenfield 栈把 Complete-P 当默认起点，并把 coord check 设为合并门槛；成熟 SP 栈不为“更理论正确”强行迁移到 µP，除非能证明迁移带来的节省超过重构与回归风险 [2][4]。

阵营 B：经验公式 + 小 sweep 足够，µP 属于过度工程

立场 — 在固定 SP recipe 下，经验公式与联合 scaling law 能直接给出 LR、batch、token:param 的起点，配合 1–2 轮小 sweep 就能接近最优；相比之下，迁移到 µP/Complete-P 需要改初始化、模块缩放与诊断流程，工程风险与收益不匹配。

证据：[9][10][11][12][13]

反方 — 反驳 c-b807a6f58d：公式并非“无需改底层就能准确预测”的通用解。Gemstones 指出对 aspect ratio、schedule 与 HP 组合敏感，最优点可出现倍数级漂移 [14]；而当现代模块或 precision 变化引入尺度失配时，公式无法提供失败归因，仍需要 coord check 类诊断 [2][3]。

判词 — 更务实的建议：成熟 SP 栈优先公式 + 小 sweep，但把“recipe 稳定性”当作硬前提；一旦改动形状/precision/schedule/数据混合，就按需要重拟合而不是沿用常数 [9][14]。

阵营 C：端到端自动化（BO/自动优化器）会替代迁移规则

立场 — 与其维护迁移规则，不如把目标函数交给自动化：warm-start BO 迁移历史试验分布，CARBS 类方法在 cost×loss 帕累托前沿上直接搜索；甚至可以用 AGD 或 symbolic discovery 学出“免超参”的更新规则，从根上减少迁移需求。

证据：[25][23][24][26]

反方 — 反驳 c-bec6705c6f：端到端搜索很难绕开 proxy fidelity 与失效归因问题。小 proxy 可能漏掉大规模不稳定性 [20]；而没有 parameterization/诊断，搜索失败时难以判断是模型族定义错、模块尺度错，还是超参局部最优。更像可落地的分工是：用 parameterization/公式把可迁移部分固定住，再让搜索补齐 wd/β₂ 等盲区 [22][15]。

判词 — 更稳的读法：自动化适合做“补盲点”的局部层，而不是替代“网络族定义 + 验收协议”。在成熟 LLM 栈上，优先把搜索预算留给 wd/β₂/dropout 这类 µP 覆盖外变量 [22][17]。

阵营 D：迁移误差主要由不可迁移超参主导，尤其 wd/β₂

立场 — 很多“LR 不可迁移”现象是归因错误：在 AdamW 下 wd 是独立轴，β₂ 与 batch/噪声耦合会移动稳定边界与最优点；因此应把 wd/β₂ 显式建模或显式搜索，而不是把精力集中在 LR 的单标量迁移上。

证据：[17][15][16][19][18]

反方 — 修正 c-05156d3ad8 / c-bdb7a65e9e：wd/β₂ 很关键，但不意味着 parameterization 没价值。Complete-P 的模块级修补与 coord check 能减少“结构性漂移”，把搜索空间从全局缩到少数耦合轴 [2][1]；否则 wd/β₂ 的搜索会被尺度失配噪声污染，难以稳定收敛 [20]。

判词 — 结论层面的建议：把 (LR, wd, β₂) 当作耦合面管理；先用 parameterization/诊断把尺度闭包做对，再用 10–20 次 cost-aware 局部搜索补齐 wd/β₂ 的最优点 [15][2][22]。

实践要点

可操作清单（按 ROI 从高到低）：
1) Greenfield pretrain 栈默认 Complete-P，并把 coord check 设成合并门槛：至少做 3–4 个 width × 5 个 LR 的 pre-activation RMS 叠合；不叠合先修模块缩放（QK-Norm、tied embeddings、residual scaling、norm 位置），不要直接上大算力 [1][2]。
2) depth 变化单独验收：把 depth 当独立轴做“小规模多 depth × 多 LR”验证；不要把 width 迁移结论外推到层数翻倍 [5][7]。
3) bf16→fp8 迁移先看 RMS/scale 约束：优先对齐 u-µP 的 unit scaling 目标，再讨论 LR；否则溢出/下溢会伪装成“LR 不可迁移” [3][21]。
4) 成熟 SP 栈不要为“更像 µP”重写初始化与缩放：先用联合 scaling law 解出 LR、batch、token:param 起点，再做 1–2 轮小 sweep；若 proxy→目标的误差已在约 10% 内就停止折腾 [9][10][11]。
5) 不要把经验公式当跨 recipe 常数：只要 aspect ratio、precision、schedule、数据混合有一项变化，就按需要重拟合；把“最优点可能 3× 漂移”当作默认风险预算 [14]。
6) 不要只迁移 LR：在 AdamW 下把 wd 当独立轴，至少联合考虑 (LR, wd)；更稳的是把 (LR, wd, β₂) 交给 10–20 次 cost-aware 局部搜索补齐 [17][15][16][22]。
7) proxy run 只当起点生成器，不当最终验收：小规模可能漏掉大规模不稳定性；最终验收需要稳定性信号（RMS 叠合、梯度/激活漂移监控），否则搜索与公式都会被误导 [20][2]。
8) 对“端到端自动化替代一切”保持克制：AGD/符号优化更像替换内层优化器；在成熟 LLM 栈上，先把网络族与诊断协议固定住，再让自动化补盲点更稳 [23][24][22]。

悬而未决的问题

Q1.Transformer 端到端对照：在同一训练栈里，Complete-P vs 原版 µP vs u-µP 跨 width×depth×precision 的 head-to-head，且必须给出 RMS-overlap/coord-check 图与失败归因 [1][2][3]。
Q2.AdamW 的迁移误差分解：在 Transformer 预训练里，迁移误差有多少来自 wd、多少来自 β₂、多少来自标称 LR？需要公开的 controlled sweep 与稳定边界标注 [15][16][17]。
Q3.CARBS（或同类 cost-aware BO）在成熟 LLM 预训练栈上的真实收益：10–20 次试验能否稳定超过“公式起点 + 1–2 轮小 sweep”？需要公开的预算对齐实验 [22][9][10]。
Q4.小 proxy 漏检大规模不稳定性的失败边界：哪些失效模式会在 scale-up 才出现？pre-activation RMS 叠合/coord check 能否在大规模之前预测这些失败 [20][2]？
Q5.经验公式在 recipe 变化后的竞争力：当架构、precision、数据混合变化但不重拟合时，公式派与 parameterization 派的误差与排障成本如何对比？需要公开的“改 recipe”基准 [14][2][3]。

[1]
Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi. Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer. arXiv, 2022论文
[2]
Cerebras Research. The Practitioner's Guide to the Maximal Update Parameterization. arXiv, 2024论文
[3]
Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth. u-µP: The Unit-Scaled Maximal Update Parametrization. arXiv, 2024论文
[4]
Lucas Lingle. An Empirical Study of μP Learning Rate Transfer. arXiv, 2024论文
[5]
Blake Bordelon, Lorenzo Noci, Mufan Bill Li, Boris Hanin, Cengiz Pehlevan. Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit. arXiv, 2023论文
[6]
Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh Bhojanapalli. Depth Dependence of μP Learning Rates in ReLU MLPs. arXiv, 2023论文
[7]
Soufiane Hayou, Greg Yang. Width and Depth Limits Commute in Residual Networks. arXiv, 2023论文
[8]
Nolan Dey, Bin Claire Zhang, Lorenzo Noci, Mufan Bill Li, Blake Bordelon. Don't be lazy: CompleteP enables compute-efficient deep transformers. arXiv, 2025论文
[9]
DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. Technical Report (arXiv), 2024报告
[10]
Nolan Dey, Gurpreet Gosal, Zhiming Chen, Hemant Khachane. Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster. arXiv, 2023论文
[11]
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, et al.. Training Compute-Optimal Large Language Models. arXiv, 2022论文
[12]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, et al.. Scaling Laws for Neural Language Models. arXiv, 2020论文
[13]
Sam McCandlish, Jared Kaplan, Dario Amodei, OpenAI Dota Team. An Empirical Model of Large-Batch Training. arXiv, 2018论文
[14]
Sean McLeish, et al.. Gemstones: Scaling Laws for Compute-Optimal Model Training (and when they break). public report, 2025论文
[15]
Atli Kosson, Jeremy Welborn, Yang Liu, Martin Jaggi, Xi Chen. Weight Decay may matter more than muP for Learning Rate Transfer in Practice. arXiv, 2025论文
[16]
Xi Wang, Laurence Aitchison. How to set AdamW's weight decay as you scale model and dataset size. arXiv, 2024论文
[17]
Ilya Loshchilov, Frank Hutter. Decoupled Weight Decay Regularization. arXiv, 2017论文
[18]
Diederik P. Kingma, Jimmy Ba. Adam: A Method for Stochastic Optimization. arXiv, 2014论文
[19]
Guodong Zhang, Lala Li, Zachary Nado, James Martens, Sushant Sachdeva. Which Algorithmic Choices Matter at Which Batch Sizes? Insights From a Noisy Quadratic Model. arXiv, 2019论文
[20]
Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi. Small-scale proxies for large-scale Transformer training instabilities. arXiv, 2023论文
[21]
Paulius Micikevicius, et al.. FP8 Formats for Deep Learning. NVIDIA Technical Blog / paper, 2022论文
[22]
CARBS contributors. CARBS: Cost-Aware Randomized Bayesian Search (project page). GitHub, 2024文章
[23]
Jeremy Bernstein, Chris Mingard, Kevin Huang, Navid Azizan, Yisong Yue. Automatic Gradient Descent: Deep Learning without Hyperparameters. arXiv, 2023论文
[24]
Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang. Symbolic Discovery of Optimization Algorithms. arXiv, 2023论文
[25]
Jungtaek Kim, Saehoon Kim, Seungjin Choi. Learning to Warm-Start Bayesian Hyperparameter Optimization. arXiv, 2017论文
[26]
Abdelmajid Essofi, Ridwan Salahuddeen, Munachiso Nwadike, Elnura Zhalieva, Kun Zhang. Reducing Hyperparameter Tuning Costs in ML, Vision and Language Model Training Pipelines via Memoization-Awareness. arXiv, 2024论文

论文列表

Parameterization 作为可迁移协议：µP → Complete-P → u-µP(4)

关注点从“给一个可迁移 LR”转向“定义网络族 + 给出可验收的诊断”。核心工具是 coord check / pre-activation RMS 叠合：它把迁移失败从结果层（loss 变差）提前到机制层（尺度不对）。Complete-P 把现代 Transformer 组件（QK-Norm、tied embeddings、残差缩放、norm 位置等）逐项纳入规则；u-µP 进一步把低精度下的 unit scaling 约束并入迁移目标。

Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg Yang,Edward J. Hu,Igor Babuschkin,Szymon Sidor,Xiaodong Liu,David Farhi2022年3月7日

把“宽度放大后 LR 是否还能沿用”变成可验证条件：通过 abc-parametrization 与 coord check，要求关键中间量的尺度在多宽度下叠合，从而把迁移失败定位为参数化/模块缩放问题，而不是盲目 sweep 不够。

The Practitioner's Guide to the Maximal Update Parameterization

Cerebras Research2024年9月19日

把“µP 在现代组件下会失效”拆成模块清单与修补规则，并把 coord check 从概念变成逐模块排障表。工程价值在于：先用诊断图确认尺度叠合，再谈 LR 迁移；不叠合就优先修模块缩放，而不是扩大 sweep。

u-µP: The Unit-Scaled Maximal Update Parametrization

Charlie Blake,Constantin Eichenberg,Josef Dean,Lukas Balles,Luke Y. Prince,Björn Deiseroth2024年7月8日

把 precision 从实现细节提升为迁移变量：用 unit scaling 约束激活/梯度/权重 RMS，减少 bf16→fp8 时因溢出/下溢导致的“看似 LR 不可迁移”。迁移对象从单一 LR 扩展为“LR + 数值稳定边界”。

An Empirical Study of μP Learning Rate Transfer

Lucas Lingle2024年4月8日

提供直接的工程反例材料：即便遵循 µP，LR 迁移仍会受架构与实现细节影响。更有用的读法不是否定 parameterization，而是把“理论成立”与“现代训练栈可直接复用”之间的条件（模块、norm、残差等）显式化。

深度与残差：width 迁移不能直接外推到 depth(4)

把“层数翻倍就得重调 LR”从经验抱怨变成可推导的依赖关系。关键机制是 residual 动力学与极限次序：深度极限需要特定 residual scaling 才能让宽度/深度极限可交换；否则同一 parameterization 下，最优 LR 仍会随 depth 漂移。

Depthwise Hyperparameter Transfer in Residual Networks: Dynamics and Scaling Limit

Blake Bordelon,Lorenzo Noci,Mufan Bill Li,Boris Hanin,Cengiz Pehlevan2023年9月28日

把 depth 变化下的 LR 漂移写成动力学与缩放极限问题，给出 depthwise transfer 的规则与失效边界。工程含义是：只在 width 上做过迁移验证，不足以支持“层数翻倍也能沿用 LR”。

Don't be lazy: CompleteP enables compute-efficient deep transformers

Nolan Dey,Bin Claire Zhang,Lorenzo Noci,Mufan Bill Li,Blake Bordelon2025年5月2日

把 Complete-P 从“修补 µP 的规则集”推进到“深 Transformer 的可复用 recipe”：base HP 开始部分跨 depth 迁移，但前提仍是模块缩放与验证协议（coord check）做对。它把 depth 迁移从口号变成可执行流程。

Depth Dependence of μP Learning Rates in ReLU MLPs

Samy Jelassi,Boris Hanin,Ziwei Ji,Sashank J. Reddi,Srinadh Bhojanapalli2023年5月13日

在更简化的 ReLU MLP 里也观察到 µP LR 的 depth 依赖，说明“µP = width-only 迁移”不是普适结论。它更像是：width 极限把一部分尺度问题固定住，但 depth 仍是独立轴。

Width and Depth Limits Commute in Residual Networks

Soufiane Hayou,Greg Yang2023年2月1日

给出一个清晰的“残差缩放红线”：只有在特定 residual scaling（如 1/sqrt(depth)）下，宽度与深度极限才可交换。对迁移而言，这解释了为什么同一套 width 规则在深网络上会突然失效。

经验公式与联合 scaling law：固定 recipe 下的闭式起点(4)

把 HP transfer 当作统计拟合：在 recipe 稳定、数据分布与训练时长目标明确时，用少量 proxy run 拟合 loss 对 LR、batch、tokens 的响应，再解出目标规模的起点。优势是工程改造成本低；风险是对“形状/precision/schedule/数据混合”敏感，一旦改 recipe，旧公式可能漂移到倍数级。

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DeepSeek-AI2024年1月5日

把 LR 与 batch size 纳入联合拟合，并强调用 proxy run 直接解目标规模超参。它把“经验公式”从单变量经验曲线升级为多变量可解系统，但前提仍是 recipe 与数据分布稳定。

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

Nolan Dey,Gurpreet Gosal,Zhiming Chen,Hemant Khachane2023年4月6日

给出可复现的 compute-optimal 训练配方，并把超参选择与 scaling law 绑定成可操作流程。对成熟 SP 栈最实用的是：把 LR、batch、训练时长当作可拟合变量，而不是靠大网格搜索碰运气。

Training Compute-Optimal Large Language Models

Jordan Hoffmann,Sebastian Borgeaud,Arthur Mensch,Elena Buchatskaya,Trevor Cai2022年3月29日

把 token:param 的 compute-optimal 比例从“经验建议”变成可拟合的目标函数约束。它为公式派提供了一个稳定的外层约束：先定训练预算与 tokens，再在内层调 LR/batch。

Scaling Laws for Neural Language Models

Jared Kaplan,Sam McCandlish,Tom Henighan,Tom B. Brown,Benjamin Chess2020年1月23日

提供了“从小规模外推大规模”的基本范式：loss 对模型/数据/compute 的幂律关系，使得经验公式可以被组织成可解的规划问题。它也隐含了一个前提：外推依赖训练栈与数据分布的稳定性。

µP 覆盖外的主导误差：AdamW 的 wd/β₂ 与 cost-aware 搜索(4)

把迁移误差从“LR 没迁好”改写为“正则化与稳定边界在移动”。AdamW 的 wd 与 LR 解耦，β₂ 改变有效噪声与动量时间常数；这些变量更适合显式剥离出来，用 cost-aware 的局部 BO（如 CARBS）在 10–20 次试验内补齐。另一个工程现实是 proxy fidelity：小模型上看不出的不稳定性会在大规模出现，需要额外诊断信号。

HP Transfer 的边界：µP、Complete-P、CARBS 与经验公式的适用区间

领域综述

TL;DR

核心断言

§0 演进谱系：从盲跑 grid 到 parameterization + 公式 + 搜索的分层系统

§1 共享地基：把“迁移”从结果口号改成可验收协议

§2 分歧轴与取舍：parameterization、公式、搜索各自解决什么

§3 容易踩坑的两条轴：depth 与 precision，以及 proxy fidelity

§4 迁移误差的主导项：AdamW 的 wd/β₂，及其与搜索的分工

时间线

研究立场对比

阵营 A：Complete-P 作为默认起点，经验公式只是权宜之计

阵营 B：经验公式 + 小 sweep 足够，µP 属于过度工程

阵营 C：端到端自动化（BO/自动优化器）会替代迁移规则

阵营 D：迁移误差主要由不可迁移超参主导，尤其 wd/β₂

实践要点

悬而未决的问题

参考文献 (26)

论文列表

Parameterization 作为可迁移协议：µP → Complete-P → u-µP(4)

深度与残差：width 迁移不能直接外推到 depth(4)

经验公式与联合 scaling law：固定 recipe 下的闭式起点(4)

µP 覆盖外的主导误差：AdamW 的 wd/β₂ 与 cost-aware 搜索(4)