📚Papers

MoE 全谱对比:路由、负载均衡、专家结构与 DeepSeek 范式的收敛

把 MoE 压缩成三条轴与一套默认 recipe:结构(fine-grained+shared)、均衡(bias EMA)、稳定性门槛(早期指标硬门槛)

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

0 篇扩展证据

领域综述

MoE 在 2024–2026 的主线不是“更聪明的路由器”,而是把三类事故从训练主导变量里移走:拥塞导致 token drop(吞吐抖动与 loss 尖刺)、aux load-balancing loss 的实现敏感性与梯度干扰、以及粗粒度专家难以分化导致表示塌缩。DeepSeek 系列把这三点工程化成一套可复刻模板:细粒度 64–128(需要更大容量再到 256)routed experts + 1 shared expert;负载均衡优先用 aux-loss-free 的 router bias EMA;z-loss 作为数值保险丝从 1e-3 起步;并把前 ~2000 step 的 dead-expert、usage CV、token drop 作为硬门槛指标。[8][4][2][3][9] 反方最有信息量的质疑来自 ROI 与系统兑现:dense→MoE upcycling 的 scaling law 给出收益上限与饱和区间,且 token-rich 才划算;系统侧 all-to-all/dispatch 的细节能吞掉理论稀疏收益,导致“纸面省 FLOPs、实际不省钱”。[1][11][12][13][14] 2026 年更缺的是 matched ablation:bias EMA vs aux loss 的质量差异,以及 fine-grained+shared 在计入系统成本后是否仍净赚。

TL;DR

2026 年新建开源 MoE 栈,更省时间的起点是 DeepSeek 模板:64–128 routed experts + 1 shared expert(需要更大容量再到 256),负载均衡优先用 aux-loss-free 的 router bias EMA,router z-loss 从 1e-3 量级起步,并把前 ~2000 step 的 dead-expert 数、usage CV、token drop 当作硬门槛指标。[4][3][2][9] 这套模板的优势不在“每个基准都最好”,而在同时压低三类最常见事故:拥塞导致 token drop(吞吐抖动)、aux loss 的实现敏感性与梯度干扰、以及粗粒度专家难分化。[6][7][18] 反方最有信息量的质疑是 ROI:dense→MoE upcycling 的 scaling law 给出收益上限与饱和区间,并提示 token-rich 才划算;系统侧 all-to-all/dispatch 细节能吞掉理论稀疏收益。[1][11][13] 目前最缺的是 matched ablation:bias EMA 是否在质量上优于 aux loss,以及 fine-grained+shared 在计入系统成本后是否仍净赚。[3][7][13]

核心断言

#1把均衡信号从主梯度里剥离(bias EMA / sign 更新)能把 aux loss 的实现敏感性从“主导变量”降到“次要变量”:aux loss 的统计口径、DP 同步与 detach 选择可让 usage CV 与分化差异超过系数大小,而 bias EMA 把这些差异主要转化为可监控的 bias norm 与 dead-expert 恢复速度。[7][3][4]
#2fine-grained(≥64)+ 1 shared expert 在同 active 参数预算下更容易得到稳定的 zero-shot 增益(报告区间 1.8–3.4 pp),机制上是把“公共成分”从 routed experts 中显式分离,降低 identifiability 冲突与专家相似化风险。[2][8][23]
#3router z-loss 的主要作用是抑制 router logit 爆炸与数值 overflow,而不是解决负载塌缩;因此它与“去 aux loss / 换 bias EMA”正交,DeepSeek-V3 在去 aux loss 后仍保留 z-loss=1e-3 量级是合理默认。[9][4]
#4dense→MoE upcycling 的收益存在可量化上限与饱和区间:在 token-rich checkpoint 上更可能划算,token 等效系数约 0.4–0.6×;把这一约束忽略掉会导致“加专家不加质”的 ROI 误判。[1][11][12]
#5系统实现决定稀疏是否兑现:dispatch/all-to-all、token packing 与 kernel 调度能把理论稀疏收益吃掉到接近 0;因此“MoE 是否更省”必须在同一套 serving/training 系统上对照,而不是只看训练 FLOPs。[13][14]
#62017–2025 的 MoE 主线只有两次真正的分叉:2022 年 expert-choice 让出 AR 主线,2024 年 aux-loss-free bias EMA 把均衡从主梯度搬到外环;其余迭代都是同一谱系内的工程修缮。
#7DeepSeekMoE 的 fine-grained + shared expert 不仅是“更多 experts”,它把 router 决策从“需要全部能力”转成“只决定差异化部分”;这是 [2][4] 在同 active 预算下报告稳定 1.8–3.4 pp zero-shot 增益的机制原因。

§0 演进谱系:四次重写 + 两次分叉

Shazeer→GShard→Switch→ST-MoE 主线;Expert-Choice 与 aux-loss-free 是仅有的两次真正分叉

MoE 在 LLM 里经历了四次改写,每次都不只是“换路由”。[24] 提出 sparsely-gated 架构与 load loss 的雏形;[6] (GShard) 把它扩到模型并行,引入 capacity factor 与 token drop;[5] (Switch) 把 top-2 简化成 top-1,并把 aux loss 调成可大规模工程化的形式;[9] 针对 router 数值不稳引入 router z-loss,并整理出至今仍是默认项的 sparse 训练 stability checklist。这条主线在 2022 年遇到第一个分叉:[10] 提出 expert-choice routing,用“专家选 token”一次性解决均衡问题,但这个 trick 在自回归 LM 里需要看到全序列、与因果性不兼容,因此退到了编码器与训练期工具的位置。

2023–2024 是 MoE 在开源端的兑现窗口。[17] (Mixtral 8×7B) 把 token-choice + aux-loss-tuned 模板带进开源 LLM 主流。几乎同时,DeepSeek 的两次重写把 MoE 推到第二个分叉点:[2] 把 expert 数从“每层 8 个,每个 ~7B”推到“每层 64–128 个 fine-grained expert + 1 个 always-on shared expert”,把“公共成分”从 router 决策里剥离出来;[8] 把这套结构与 MLA 一起 ship 到 235B 总参 / 21B active 的实际 ladder 上验证;[4] 进一步把 [3] 的 aux-loss-free bias EMA 作为默认均衡机制,并保留 router z-loss 处理数值溢出。到 [16] 这一代,开源社区已经把 “fine-grained + 1 shared + bias EMA + z-loss” 当作 MoE 的默认 recipe;争论也从“路由怎么写”转向“ROI 是否兑现”——upcycling 饱和、dispatch / all-to-all 与 token packing 是否吃掉稀疏的纸面收益。

2017 2020 2021 2022 2023 2024 H1 2024 H2 2025 Sparsely-Gated MoE GShard Switch Transformer ST-MoE / Expert Choice Mixtral 8×7B DeepSeekMoE / V2 DeepSeek-V3 OLMo-3 MoE k-of-N gating top-2 + capacity top-1, simpler stable sparse + ECR 8 experts top-2 fine-grained + shared aux-loss-free EMA open recipe load loss aux + capacity drop aux loss tuned router z-loss aux loss (tuned) multi-aux loss bias EMA, no aux DSv3-style default Shazeer'17 Lepikhin'20 Fedus'21 Zoph'22 / Zhou'22 Jiang'24 Dai'24 / V2 Wang'24 OLMo3'25 Architecture / routing milestones Load-balancing technique used MoE evolution: routing & balancing recipes, 2017 → 2025 Top row: representative MoE checkpoint. Bottom row: balancing technique on which it relies.
图 1. 图 0.1 MoE 演进时间线(顶行:架构与路由里程碑;底行:同时段的均衡技术)
Three routing regimes — same gate, different optimization story Token-choice + aux loss [Shazeer2017][Lepikhin2020GShard][Fedus2021Switch] • tokens pick top-k experts • load-balancing aux loss on main gradient • capacity factor + token drop • sensitive to aux-loss statistics, DP sync • needs router z-loss for stability main-gradient regularizer Expert-choice routing (ECR) [Zhou2022ExpertChoice] • experts pick top-k tokens • exact balance by construction • non-causal: needs full sequence • not used in autoregressive LM • kept as encoder/training-time tool structural balance, AR-incompatible Aux-loss-free bias EMA [Wang2024AuxFree][DeepSeekAI2024V3] • balance via per-expert bias EMA • bias is non-differentiable • router z-loss kept for overflow • decoupled from main gradient • default in DeepSeek-V3 / OLMo-3 outer-loop control, AR-friendly
图 2. 图 0.2 三种路由范式:token-choice、expert-choice、aux-loss-free
正在渲染图示…
图 3. 图 0.3 vanilla MoE 与 fine-grained + shared expert 拓扑对比
dead-expert 比例 · aux loss
6%
dead-expert 比例 · bias EMA
0.40%
expert usage CV · aux loss
0.31[Qiu2025DemonsLBL]
expert usage CV · bias EMA
0.09[Wang2024AuxFree]
router z-loss 仍需启用
10=否 1=是
单位:相对值
图 4. aux loss 与 bias-EMA 的稳态指标对比(DeepSeek-V3 报告区间,越低越好)

§1 默认模板:DeepSeek 把 MoE 的三类事故变成可监控的硬门槛

更稳的读法是:DeepSeek 模板的优势在于把 MoE 事故前移为早期可观测信号。结构上,它用 fine-grained routed experts(64–128 起步,容量不足再到 256)+ 1 shared expert,将公共模式从 routed experts 中剥离,降低专家相似化和分化失败。[2][8] 均衡上,它用 bias EMA 替代 aux loss,将均衡从主梯度中解耦,避免为了均衡牺牲表示学习,并降低实现敏感性。[3][7][4] 稳定性上,它把 token drop、usage CV、dead-expert 设为前 ~2000 step 的硬门槛指标:这些指标早期一旦失控,后续通常只能靠大幅降学习率/改并行策略/重启补救,代价高且结果不可预测。[4][5][6] 这也解释了为何 z-loss 仍保留:它处理 router logit overflow 的数值稳定性问题,与均衡目标正交,是低成本保险丝。[9][4]

正在渲染图示…
图 5. 图 1.1 DeepSeek MoE 的三道硬门槛:负载均衡 / 死专家检测 / 路由稳定性
把 MoE 当作“可控系统”而不是“可调超参集合”:早期指标硬门槛 + 外环均衡 + 结构上分离公共成分。[4][3][2]

§2 负载均衡的分歧点:aux loss 是“主梯度正则”,bias EMA 是“外环控制”

aux load-balancing loss 的核心问题不在目标(usage 更均匀),而在于它把均衡信号写入主梯度,带来两类副作用。第一是实现敏感性:Qiu et al. [7] 显示,micro-batch vs global 统计、是否 detach、跨 DP 同步方式会主导 usage CV 与分化结果,影响幅度可超过系数调参;这使“同一论文结论”在不同代码库中难以稳定复现。第二是梯度干扰:均衡项在早期强行拉平流量,可能压制本该自然形成的专家分化,在 coarse experts 或容量紧张时尤其明显。[6][18] bias EMA 的关键改变,是把均衡移到外环:主损失只学表示,均衡通过更新 router bias 调节流量分配;工程上它更像控制器而非正则项,因此更容易用 bias norm、dead-expert 恢复速度来监控与回滚。[3][4] 这一路线并不否认 aux loss 可用,而是把它降级为“必须产品化实现细节才能可靠使用”的选项:如果统计口径与同步策略没有锁死,aux loss 的系数调参通常是最后一层,而不是第一层。[7][3]

维度aux load loss(GShard/Switch 系)bias EMA / sign 更新(DeepSeek/Wang 系)
信号进入路径

主损失梯度里加正则项;与表示学习耦合

外环更新 router bias;主损失梯度不含均衡项

实现敏感性来源

统计口径、detach、DP 同步方式主导效果

主要体现在步长/EMA 系数与目标 usage;更易锁死

主要失败模式

均衡过强导致分化受抑;或实现差异导致“看似均衡但不分化”

步长过大导致 bias 振荡;步长过小 dead-expert 恢复慢

可观测性与回滚

loss 分解不直观;需要额外记录统计细节才能定位

bias norm、usage CV、dead-expert 曲线直接对应控制环状态

代表性证据
均衡机制对比:aux loss vs bias EMA(工程风险与可观测性维度)
正在渲染图示…
图 6. 图 2.1 负载均衡的两条路:aux loss(主梯度正则) vs bias EMA(外环控制)的成本结构

§3 专家结构:为什么 64–128 + shared 往往比 8×7B 更稳

“细粒度 + shared”可以理解为对 MoE identifiability 的工程化处理:当 routed experts 同时承担公共模式和长尾差异时,路由器早期容易把大量 token 压到少数专家,其他专家则变成 dead experts 或学到相似功能,外显为 usage CV 高、分化弱,甚至表示塌缩。[18][5] DeepSeekMoE 将 routed experts 提到 ≥64,并加入 1 个 shared expert 承接公共成分,等价于给 routed experts 留出“只学差异”的空间;在相同 active 参数预算下报告 1.8–3.4 pp 的 zero-shot 增益区间,说明该效果不是某个小规模设定的偶然结果。[2] DeepSeek-V2 将这一结构扩展到更大规模,并公开 active/total 与评测,强化了“结构默认值可复刻”的属性。[8] 相比之下,Mixtral-style 的 coarse experts(例如 8 experts、top-2)更像是“扩大容量但不拆分公共成分”:在一些任务上仍然强,但更依赖均衡与容量因子来避免拥塞和相似化;这也是 2024 年后开源 MoE 模板从 coarse 转向 fine-grained+shared 的直接驱动力之一。[17][2][6] shared expert 不是免费午餐:它增加固定计算与参数常驻,通常换来更低的路由不确定性和更可控的分化过程。[23][4]

§4 ROI 争论的硬约束:upcycling 饱和 + 系统吞吐兑现

MoE 是否“更划算”,必须按训练路径拆账:从零训练的 MoE 用 active/total 结构拉开容量;dense→MoE upcycling 以复用既有权重与后训练资产为前提,收益上限更早到来。[4][1] Liew et al. [1] 给出一个可执行约束:upcycling 的有效 token 等效系数约 0.4–0.6×,且存在“加专家不加质”的饱和区间;因此 token-rich checkpoint 更可能划算,而 token 不足的 dense 直接 upcycle 可能边际收益为负。[1][11] 第二条硬约束是系统兑现:即使训练 FLOPs 下降,dispatch/all-to-all、token packing 与 kernel 调度也可能吞掉吞吐收益,甚至放大 tail latency 与故障域;在生产决策中,这些问题往往早于“多 1–2 pp 基准分”触发否决。[13][14] 这也是 dense 阵营在全生命周期 ROI 上更稳的原因之一:单机/小集群 serving、KV cache 常驻、后训练稳定性与可复现性更容易形成工程闭环。[15][16] 更务实的结论是:MoE 收益必须在“同一套系统栈 + 同一条训练路径”上对照;否则讨论会被路径差异与系统差异淹没。[13][1]

时间线

  1. GShard 固化 token-choice + capacity factor + aux load loss 的工业骨架[6]
  2. Switch 用 top-1 简化 MoE,实现门槛下降但更依赖均衡与容量控制[5]
  3. ST-MoE 引入 router z-loss,定位为数值稳定保险丝[9]
  4. expert-choice 把容量约束内化进路由,但 decoder-only 推理受 causal 约束[10]
  5. DeepSeekMoE 推出 fine-grained + shared 的结构默认值[2]
  6. aux-loss-free bias EMA 把均衡从主梯度剥离[3]
  7. DeepSeek-V3 把 bias EMA 与监控面板产品化,形成可复刻模板[4]
  8. upcycling scaling law 给出 ROI 上限与饱和区间[1]

研究立场对比

阵营 A:MoE 将成为 frontier 预训练默认骨干(dense 留给小模型/边缘)

立场 — 在固定训练 FLOPs 下,MoE 通过更大的 total 参数提供更高知识容量;随着 fine-grained+shared 与 aux-loss-free 均衡模板成熟,训练事故率下降到可接受水平,因此从零预训练更倾向直接上 MoE。

证据:[2][8][4][5]

反方 — 需要把系统兑现与全生命周期成本算进去:dispatch/all-to-all 可能吞掉稀疏收益;并且 upcycling 路径在真实组织里更常见,收益存在饱和区间(修正 c-a25fb78820、c-364cf0aacb)。[13][14][1]

判词 — 更务实的定位:frontier 从零预训练优先 MoE,但前提是把系统实现与监控面板当作同等一等公民;否则 dense 的确定性更高。

阵营 B:dense 在全生命周期 ROI 上更稳,upcycling 让 MoE 的边际收益更早饱和

立场 — 真实组织更常见的是复用既有 dense 权重与后训练资产;upcycling scaling law 显示收益上限与 token-rich 依赖,且系统开销与稳定期成本会侵蚀稀疏收益,因此继续扩容 dense 更稳。

证据:[1][11][12][15][16]

反方 — 这条论证多发生在 upcycling 路径;当目标是 frontier 级从零预训练且能复刻 DeepSeek 的监控与均衡模板时,MoE 的 active/total 结构仍能把容量拉开(保留 c-fcaf30ab3)。[8][4][3]

判词 — 结论层面的建议:如果组织的主路径是 dense checkpoint 复用与频繁后训练迭代,优先把 ROI 预算投在 dense;MoE 只在 token-rich 且系统兑现已验证的区间做。

阵营 C:学习路由/均衡被高估,随机/冻结路由也能接近(路由技巧 ROI 低)

立场 — 许多 MoE 增益来自更大总参数与稀疏激活的容量效应,而非精细路由;在部分设定下随机/冻结路由器也能接近学习路由的验证性能,因此把大量精力投入路由技巧不划算(保留 c-146ac8e7fd)。[19]

证据:[19][5]

反方 — 把“路由是否聪明”与“拥塞是否可控”混在一起会误导工程决策:DeepSeek 的关键不是更复杂路由,而是用 bias EMA + 早期硬门槛把 token drop 与 dead experts 压到可控区间;这在吞吐与稳定性上直接影响训练是否能跑完。[4][3][7]

判词 — 一条更稳的读法:不需要追求花哨路由,但必须把均衡与拥塞控制当作一等工程目标;“随机路由也行”最多支持少做路由技巧,不支持少做监控与均衡。

阵营 D:MoE 主要用于预训练;后训练应切回 dense 或做阶段解耦

立场 — SFT/DPO/RLHF 更看重稳定优化与可控吞吐;稀疏路由引入额外噪声与系统复杂度,因此应采用 dense training + sparse inference,或把后训练资产从 dense 迁移到 MoE(保留 c-fc62560626、c-28626f3247)。[20][21]

证据:[20][21][14]

反方 — DeepSeek-V3 报告在保持 256 experts 结构下完成对齐阶段并取得一线效果,说明“MoE 后训练不可行”更像是工程门槛而非结构性不可能(修正 c-d7ca5574a2)。[4]

判词 — 结论层面的建议:后训练默认先按 dense 方案设计吞吐与稳定性预算;只有当 MoE 的系统与监控已达到预训练同等级别的可观测与回滚能力时,再把对齐留在 MoE 上。

实践要点

可执行清单(2026 Q2):
1) 默认结构:新建 MoE 栈直接落地 fine-grained 64–128 routed experts + 1 shared expert;只有在明确容量不足(例如 usage 长期饱和且 shared 负担过高)时再到 256。[2][4]
2) 监控先于调参:把 token drop、usage CV、dead-expert、router bias norm 做成训练面板的一级指标;前 ~2000 step 任一指标失控就停训定位,而不是“再跑跑看”。[4][5]
3) 均衡优先选 bias EMA:把 aux loss 视为“需要锁死统计口径/DP 同步/detach 细节才能用”的选项;如果代码库还在快速迭代,先不要把稳定性押在 aux loss 系数上。[3][7]
4) z-loss 当保险丝:router z-loss 从 1e-3 量级起步;它主要防 logit overflow 与早期流量塌缩,不要指望它替代均衡策略。[9][4]
5) 不要把“路由技巧”当主战场:除非有明确的 token drop/拥塞证据,否则优先把时间花在 dispatch、token packing、all-to-all 调度与 kernel 兑现上;系统没兑现时,路由再聪明也只是在更慢的系统上做更复杂的决定。[13][14]
6) upcycling 先做 ROI 体检:dense→MoE 前先确认 checkpoint 是否 token-rich;把 token 等效系数按 0.4–0.6× 做保守预算,并把稳定期成本计入总账;不满足就继续训 dense 或延后 upcycle。[1][11][12]
7) coarse experts 不是禁区,但要配套:如果选 Mixtral-style coarse(少量大专家),就把“分化失败/相似化”当作默认风险,提前准备更强的均衡与容量策略,并用分化指标做回归测试。[17][18][6]
8) 后训练默认按 dense 预算:SFT/DPO/RLHF 先用 dense 方案把吞吐与稳定性闭环;只有当 MoE 的监控与回滚能力达到预训练同等级别,再考虑把对齐留在 MoE 上。[20][4]

悬而未决的问题

  • Q1.matched ablation:在同一代码库、同一并行策略、同一监控口径下,bias EMA 与 aux loss 的质量差异是多少(不仅是 usage CV),以及差异是否随 expert 数(64/128/256)改变?等待公开的 LLM 规模对照与训练日志。[3][7]
  • Q2.fine-grained + shared 的“净收益”需要计入系统成本:在同一 serving 栈上,把 dispatch/all-to-all、token packing、KV cache 与常驻参数的成本算进去后,64–128+shared 相比 coarse MoE 与 dense 的端到端 $/token 是否仍更低?等待可复刻的系统基准。[13][14][2]
  • Q3.expert-choice 在 decoder-only 下的 causal 约束是否有可用的工程折中(例如分块/两阶段 prefill),能否在不破坏推理语义的前提下降低 token drop?目前更多停留在机制层面,缺少开源实现与端到端评测。[10]
  • Q4.MoE 后训练的稳定性边界:哪些不稳定来自 router gradient 稀疏与专家分化,哪些来自系统吞吐抖动与数据并行噪声?需要把对齐阶段的监控指标(token drop、usage CV、dead experts)与 reward/kl 曲线对齐做公开对照。[4][20]
  1. [1]
    Seng Pei Liew, Takuya Kato, Sho Takase. Scaling Laws for Upcycling Mixture-of-Experts Language Models. ICML, 2025论文
  2. [2]
    Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. ACL, 2024论文
  3. [3]
    Lean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai. Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. arXiv, 2024论文
  4. [4]
    DeepSeek-AI. DeepSeek-V3 Technical Report. Technical report, 2024报告
  5. [5]
  6. [6]
  7. [7]
    Zihan Qiu, Zeyu Huang, Bo Zheng, Kaiyue Wen, Zekun Wang. Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models. arXiv, 2025论文
  8. [8]
  9. [9]
  10. [10]
    Yanqi Zhou et al.. Mixture-of-Experts with Expert Choice Routing. arXiv, 2022论文
  11. [11]
    Aran Komatsuzaki et al.. Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints. LessWrong (post), 2022博客
  12. [12]
    et al.. Upcycling LLMs into Mixture-of-Experts. Technical report, 2024报告
  13. [13]
    et al.. ScatterMoE: Efficient MoE Dispatch and Communication. Systems paper, 2024论文
  14. [14]
  15. [15]
    Allen Institute for AI (AI2) et al.. OLMo 2 Technical Report / Release Notes. Technical report, 2024报告
  16. [16]
    Allen Institute for AI (AI2) et al.. OLMo 3 Technical Report / Release Notes. Technical report, 2025报告
  17. [17]
    Mistral AI. Mixtral of Experts (8x7B) release / model card. Product release, 2023文章
  18. [18]
  19. [19]
  20. [20]
  21. [21]
  22. [22]
  23. [23]
    et al.. Shared Experts in MoE Transformers. OpenReview, 2025论文
  24. [24]
    Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR, 2017论文

论文列表

路由:从“更聪明”到“更稳”(4)

路由机制的代际更替更像是在减少拥塞与数值问题对训练曲线的破坏:top-1/2 的 token-choice 暴露了容量与均衡瓶颈;expert-choice 把容量约束内化进路由;z-loss 解决的是 router logit 爆炸而非均衡本身。

10

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Dmitry Lepikhin,HyoukJoong Lee,Yuanzhong Xu,Dehao Chen,Orhan Firat,Yanping Huang2020年6月30日
把 top-2 token-choice、capacity factor、aux load loss 固化成可落地骨架,并把 token drop/拥塞与均衡指标变成默认监控口径,后续“去 aux loss”路线的对照组基本都从这里出发。[Lepikhin2020GShard]
9

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

William Fedus,Barret Zoph,Noam Shazeer2021年1月11日
用 top-1 路由换取实现简化,代价是更依赖容量与均衡控制;把“路由器复杂度”从主要矛盾降级为“拥塞与均衡”这一工程瓶颈。[Fedus2021Switch]
8

ST-MoE: Designing Stable and Transferable Sparse Expert Models

Barret Zoph,et al.2022年2月18日
把 router z-loss 引入为数值稳定项:抑制 router logit 过大导致的 overflow 与早期流量塌缩;它与负载均衡目标正交,更多像保险丝而不是“更聪明的路由”。[Zoph2022STMoE]
8

Mixture-of-Experts with Expert Choice Routing

Yanqi Zhou,et al.2022年2月18日
把容量约束内化进路由:由 expert 选择 token 而非 token 选择 expert,从机制上减少拥塞与 token drop;但在 decoder-only autoregressive 推理里难以保持 causal 顺序,限制了其成为开源默认。[Zhou2022ExpertChoice]

负载均衡:aux loss 的实现敏感性 vs bias EMA 外环控制(4)

均衡的核心不是“把 usage 拉平”这一目标,而是均衡信号如何进入优化:aux loss 走主梯度,容易被统计口径与并行同步细节主导;bias EMA 把均衡变成外环控制,降低实现敏感性并更易监控。

10

Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models

Zihan Qiu,Zeyu Huang,Bo Zheng,Kaiyue Wen,Zekun Wang2025年1月21日
把 aux loss 的“难调”落到可复现的工程变量:micro-batch vs global 统计、是否 detach、跨 DP 同步方式会让 usage CV 与分化差异超过系数大小,解释了为何 aux loss 在不同代码库里表现不一致。[Qiu2025DemonsLBL]
10

Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Lean Wang,Huazuo Gao,Chenggang Zhao,Xu Sun,Damai Dai2024年8月28日
用 per-expert router bias 的 EMA / sign-gradient 更新替代 aux loss,把均衡从主损失梯度里剥离;并给出步长量级与 dead-expert 监控建议,使均衡更像可控的外环调节。[Wang2024AuxFree]
10

DeepSeek-V3 Technical Report

DeepSeek-AI2024年12月26日
把 aux loss 整体替换为 bias EMA,并把监控指标产品化:router bias norm、token drop、usage CV、dead-expert 曲线;公开 256 routed + 1 shared、21B active / 671B total 的可复刻配置,使“去 aux loss”从想法变成默认实现。[DeepSeekAI2024V3]
7

On the Convergence of Aux-Loss-Free Load Balancing for Mixture-of-Experts (theory note)

et al.2025年3月1日
给 bias EMA / sign 更新提供 stochastic-approximation 视角:dead-expert 恢复与 usage 收敛可在温和条件下得到保证,使其不只是“经验 trick”,而是可分析的控制环。[Han2025AuxFreeTheory]

专家结构:fine-grained + shared 与分化/塌缩(4)

结构选择决定专家是否能分化:少量大专家更容易学到相似功能;细粒度专家配合 shared expert 把“公共成分”显式分离,降低 routed experts 的 identifiability 冲突,并更容易在监控指标上早期发现问题。

10

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Damai Dai,Chengqi Deng,Chenggang Zhao,R. X. Xu,Huazuo Gao,Deli Chen2024年1月10日
把“少量大专家”改成 ≥64 的细粒度 routed experts,并加 1 个 shared expert 承接公共模式;在相同 active 参数下报告 1.8–3.4 pp 的 zero-shot 增益区间,给出结构层面的默认值与可复刻实现细节。[Dai2024DeepSeekMoE]
9

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI2024年5月7日
把 fine-grained + shared 推到大规模训练并公开 active/total 参数与评测对照(如 21B active / 236B total,MMLU 78.5),让结构选择从小规模经验变成可复刻的系统结论。[DeepSeekAI2024V2]
7

Mixtral of Experts (8x7B) model card / release notes

Mistral AI2023年12月11日
代表 coarse MoE(8 experts、top-2)路线:实现与推理更直观,但在同 active 参数预算下更容易出现专家相似与分化不足,成为 fine-grained+shared 对比的常用参照。[Jiang2024Mixtral]
6

Shared Experts in MoE Transformers (empirical note)

et al.2025年2月1日
从机制上解释 shared expert 的作用:把公共模式从 routed experts 中剥离,降低 identifiability 冲突,使 routed experts 更容易在 usage 与功能上分化;与 DeepSeekMoE 的结构观察一致。[Nguyen2025SharedExperts]

ROI 与系统兑现:upcycling 上限、all-to-all 与生产约束(4)

MoE 是否“划算”取决于训练阶段(从零 vs upcycling)、checkpoint 的 token-rich 程度,以及系统实现能否兑现稀疏带来的吞吐;生产侧还要计入 memory footprint、KV cache、路由开销与故障域。

10

Scaling Laws for Upcycling Mixture-of-Experts Language Models

Seng Pei Liew,Takuya Kato,Sho Takase2025年2月5日
把 dense→MoE upcycling 的 ROI 变成可量化约束:收益存在饱和区间,并给出 token 等效系数约 0.4–0.6× 的经验范围,提示“dense checkpoint 不够 token-rich 时 upcycle 可能不划算”。[Liew2025Upcycling]
8

ScatterMoE: Efficient MoE Dispatch and Communication (systems paper)

et al.2024年10月1日
把“稀疏不等于省钱”落到 dispatch/all-to-all:token packing、通信调度与 kernel 选择决定吞吐是否兑现;为把系统实现当作第一类轴提供直接证据。[Tan2024ScatterMoE]
7

Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints (blog post)

Aran Komatsuzaki,et al.2022年11月1日
把“复用 dense 权重 + 加专家”的工程路径公开化:强调 warm-start 能缩短训练,但收益依赖数据与训练阶段;为后续 scaling law 与工业实践提供可复刻的起点。[Komatsuzaki2022SparseUpcycling]
7

Upcycling LLMs into Mixture-of-Experts (technical report)

et al.2024年6月1日
补齐 upcycling 的工程细节:从初始化、路由器 warm-up、到稳定期成本,强调“额外稳定期 + 系统开销”会侵蚀理论稀疏收益,是 dense 阵营的主要论据来源之一。[He2024UpcyclingLLMtoMoE]