TL;DR
可执行的定价规则:先把架构改动映射到单位 token 的推理账单(KV-cache 容量与带宽)、训练稳定性风险(loss spike 触发概率与排障时间)、以及迁移成本(kernel/serving/tooling 改造)。在 ≤70B 稠密 decoder-only 上,GQA 往往是低风险默认项:KV-cache 随 KV heads 近似线性下降,而质量退化更像在接近 MQA(KV heads=1)时才明显加速,因此 ≈h/8 是第一档值得扫的比率 [3][5]。当目标上下文 ≥128K,all-global attention 先被显存与带宽打满;Gemma 3 的 5:1 local/global 交错在 128K 报告约 4× 推理显存节省,Mistral 7B 证明 SWA+rolling cache 可部署 [1][7]。当规模到 ≥200B 或 MoE,MLA 把 cache 压到约 1/7 且质量接近 GQA,但需要 latent 重构与 serving 栈改造,适合作为“高并发长上下文 + MoE”的触发选项 [2]。稳定性上,Wortsman et al. 把 loss spike 机制化到 attention-logit 方差与输出范数增长,使 QK-Norm 更像针对性组件;sandwich norm 的证据仍偏相关而非因果 [4][1]。扩展规模不只 from-scratch:SOLAR 与 LLaMA Pro 显示在已有稳定 base 时,depth-up-scaling / block expansion 可能更省,但公开负例与边界条件仍不足 [8][6]。
核心断言
§0 attention 谱系:KV-cache 是底层预算轴
MHA->MQA->GQA->SWA+sinks->interleaved L/G->MLA
Transformer 架构在 LLM 时代的“改进”基本都围绕同一条预算轴展开:KV-cache 与带宽。原始 [Vaswani'17] / GPT-2 为每个 head 配独立 K/V,带来 ~256 KB/token 的 KV 占用,长上下文 serving 中很快成为主导项;[5] 让所有 query head 共享一个 KV head,把 cache 压到 1/H;[3] 提出 GQA,作为 MHA 与 MQA 之间的连续插值(实践中常用 8 组),并成为 Llama-2/3、Qwen2.5、Gemma 等开源模型的默认项 [11][12][19]。2023 年起,“拆带宽”成为另一条主线:[7] 用 sliding-window attention 将每层限制在 ~4K 局部窗口内,[14] 指出窗口 + 永驻 sink token 才能稳定外推;[1] 给出可工程化折中:5 层 local + 1 层 global 的 5:1 interleaving,在保持长程推理质量的同时把全局带宽压到 ~1/6。第三条线是 latent attention:[2] 将 K/V 压成低秩 latent(rank ~512),把 KV cache 压到 ~6%(相对 MHA 基线),并在 V3 上与 fine-grained MoE 组合成今天的代表性 stack [2]。归一化与位置编码也完成了静默收敛:RMSNorm 取代 LayerNorm [17],RoPE 取代绝对/sinusoidal [15],二者已是开源 stack 默认值。至此,“架构创新”的现代含义是在 KV-cache、稳定性、迁移成本三张账单之间做组合权衡,而不是替换一个 attention 模块换取单点涨分。
§1 定价框架:把架构改动拆成三张账单
架构改动的边际价值,工程上通常由三类成本定价。第一张账单是单位 token 推理成本:KV-cache 的容量与读写带宽,常比 FLOPs 更早触顶,尤其在长上下文与高并发下 [1][7]。第二张账单是训练稳定性风险:loss spike 能否被预测、复现,并由小规模 proxy 提前发现,决定排障时间是“几小时”还是“几周” [4]。第三张账单是迁移成本:attention 变体是否需要新 kernel、KV cache 管理是否要重写、是否兼容现有 serving/量化/并行策略;这类成本在 MLA 这类引入 latent 重构路径的方案上更突出 [2]。
三张账单合并定价,会给出更稳的优先级:先压 KV(GQA、local/global、SWA、cache 管理),再稳训练(QK-Norm 这类有机制解释的组件),最后才讨论“从头做大 vs 沿 base 长深/插块”。只看 scaling law 的 loss 会低估推理账单:Kaplan et al. [9] 的结论更贴合训练 compute 主导的目标函数,但在 128K+ 或高并发服务里,KV-cache 与带宽是硬约束,足以改变默认架构选择 [1][3]。
同一份训练 loss 的差异,可能抵不过 128K 解码时 KV-cache 带宽的差异;先把账单项写清楚,架构选择才不会被“名词新旧”带偏。
§2 KV-cache:GQA 是默认项,MQA 是端点,MLA 是 MoE/超大规模选项
把注意力改动置于“固定 KV-cache 预算”下评估,更贴近真实部署。GQA 的关键不是新结构,而是连续可调:将 KV heads 从 h 降到更小的 ,并允许从 MHA checkpoint uptrain;它把质量—cache 曲线变成可扫超参,而非一次性押注 [3]。MQA 更像端点:KV heads=1 提供极限压缩和最大推理收益,但更容易引发质量回退,适合标定退化曲线下界 [5][3]。
MLA 的逻辑不同:它不减少 head 数,而是将 K/V 存为低秩 latent,再按需重建每 head 的 K/V。DeepSeek-AI [2] 报告约 7× cache 压缩且质量接近 GQA,提示在 MoE 或 ≥200B 的服务瓶颈下,latent KV 可能比继续压缩 更划算;代价是重建路径、kernel 适配和 serving 栈复杂度,这些成本通常不反映在公开 benchmark 中 [2]。QCQA 进一步指出,GQA 的“统一分组比率”未必最优:固定 cache 预算下,按层/按头分配容量能更稳地守住质量 [13]。
缺口同样明确:公开证据很少在“同模型、同数据、同 KV-cache 大小、同 kernel/serving”条件下给出 GQA vs MQA vs MHA 的 head-to-head。缺少这种对照,讨论容易把训练 loss 差异误读为部署成本差异 [3][2]。
| 方案 | KV-cache 缩放规律(相对 MHA) | 质量风险形态 | 迁移成本(kernel/serving) | 更合适的触发条件 |
|---|---|---|---|---|
| MHA | 1×(KV heads=h) | 低(基线) | 最低(生态最成熟) | 短上下文或不受 KV 限制 |
| GQA | ≈/h(常见起扫 h/8)[3] | 中(分组与 cache 管理) | ≤70B 稠密默认项;高并发推理 | |
| MQA | ≈1/h(KV heads=1)[5] | 中(但实现相对直观) | 被 KV-cache 卡死且可接受回退 | |
| MLA | ≈1/7(latent KV)[2] | 接近 GQA(公开结果)[2] | 高(重建路径+kernel+serving 栈)[2] | MoE 或 ≥200B;带宽/显存硬约束 |
§3 长上下文:先把 all-global 的带宽账单拆掉
长上下文的争论常被压缩为“支持 128K/1M”,但部署首先要算解码阶段的 KV-cache 流量:每个 token 读写多少 KV,以及这些读写是否被 HBM/PCIe/NVLink 带宽限制。Gemma 3 [1] 的 5:1 local/global 交错给出一个可复现默认点:少量 global 层负责跨段信息路由,多数层用 local attention 将每步 KV 读写限制在窗口内,因此在 128K 报告约 4× 推理显存节省 [1]。Mistral 7B [7] 将 SWA 与 rolling cache 工程化,说明“窗口化 + cache 滚动”可以进入实际 serving。
共同假设是:不是每一层都需要全局路由;把 global 层密度作为预算变量,比把所有层做成 all-global 更容易控制账单 [1][7]。相对地,只依赖更长的 RoPE 外推不会降低 KV 读写成本;它更像防止位置几何先崩的前置条件 [15]。Attention sinks [14] 给出“流式对话的行为先验”:用 sink tokens 稳定注意力分布,使 cache 管理与近似策略更少触发灾难性遗忘。
评估也要更苛刻:Lost in the Middle [16] 提醒,长上下文 backbone 不能只按最大长度或困惑度判断,还要验证模型能否在长序列中稳定检索中间信息;否则 local/global 或 SWA 的预算分配可能压掉“可用信息”。
§4 稳定性与第二条 scaling 路径:先把“可控性”做出来
稳定性组件要成为默认项,必须落到可观测机制和可复现实验。Wortsman et al. [4] 将 loss spike 归因于 attention logits 方差与输出范数增长,并用小规模 proxy 复现大规模不稳;在这个框架下,QK-Norm 直接抑制 logits 的尺度漂移,更像针对性保险丝,而不是 recipe 噪声 [4]。Gemma 3 [1] 将 QK-Norm 与 sandwich norm 一起纳入公开配方,降低工程复现门槛;但 sandwich norm 的因果证据仍弱:缺少跨团队、同预算的独立消融来回答“它减少了多少 loss spike、代价是什么” [1]。
第二条 scaling 路径(grow-from-base)同样依赖可控性。SOLAR [8] 用 layer duplication + 200B tokens continued pretrain 支撑 7B→10.7B,说明表示与部分优化状态可以继承;LLaMA Pro [6] 通过插入 identity 初始化 block 并只训练新增部分,降低对原能力的扰动,更贴合 domain continued pretrain。更早的 Net2Net [22] 给出函数保持的加深/加宽思想,Sparse Upcycling [21] 则把 dense checkpoint 变成 MoE,说明“扩展容量”不必等同于“重训一遍”。
这条路径的短板也一致:公开负例太少,难以界定失败模式(例如扩深后训练不稳、通用能力回退、或对齐阶段更难)。因此它更适合作为“已有稳定 base 且目标规模不大”时的默认候选,而不是替代 from-scratch 的唯一路线 [8][6][9]。
时间线
研究立场对比
阵营 A:架构细节多为常数项,继续 from-scratch scaling 更干净
立场 — loss 与能力主要由参数、数据、compute 与训练 recipe 决定;架构改动多数只带来常数项收益,且会引入迁移与维护成本。更稳的路线是按 scaling law 规划,从头训练目标架构与目标数据分布,避免在旧 checkpoint 上背历史包袱 [9][10][11][12]。
反方 — 这条读法对“训练 compute 主导”的指标更贴合,但对“服务成本主导”的场景会失真:长上下文与高并发推理里,KV-cache 与带宽是硬上限,GQA/SWA/local-global/MLA 直接改变单位 token 成本,足以反过来改变默认架构选择 [3][7][1][2]。
判词 — 结论层面的建议:如果目标是全新超大模型与全新数据分布,from-scratch 仍是更干净的主线;但在 ≤70B 或 128K+ 服务约束明确的产品线里,把 KV 账单纳入目标函数后,架构细节不再是常数项,至少应默认扫 GQA 与 local/global 配方 [3][1]。
阵营 B:Transformer 的状态成本接近上限,应转向 recurrence/SSM 主干
立场 — attention 的二次复杂度与 KV-cache 是结构性瓶颈;即便做 GQA、SWA 或 cache 压缩,也是在补丁式优化。更合理的路线是转向 retention/SSM/递归结构,以常数状态或线性状态替代随上下文增长的 KV-cache [23][24]。
反方 — 公开证据显示,Transformer 内部的“压 KV + 局部化”已经覆盖了大量服务账单:≤70B 默认 GQA 可把 cache 压到 /h 的比例 [3],128K 用 local/global 交错可再降约 4× 显存 [1],MoE/超大规模还可用 MLA 把 cache 压到约 1/7 [2]。同时,SSM 的 length extension 也存在失败条件,不能默认假设“训练短、推理长”就能稳定泛化 [24]。
判词 — 一个更务实的定位:把 recurrence/SSM 当作“需要 head-to-head serving 账单对照”的备选主干,而不是立即替换 Transformer。短中期更稳的收益来自把 Transformer 的 KV 账单压到可接受区间,再用任务评估决定是否值得换主干 [1][2][16]。
阵营 C:第二条 scaling 路径应默认化——先 grow,再决定是否重训
立场 — 已有 pretrained base 是资产:扩深/插块/稀疏 upcycling 往往能继承表示与部分优化状态,用更少 token/compute 达到接近目标规模的效果,尤其适合 domain continued pretrain 与快速迭代 [8][6][20][21][22]。
反方 — 公开负例与边界条件不足:扩深/插块何时会破坏通用能力、何时会让对齐更难、何时会引入新的不稳定,目前缺少同预算对照与失败模式报告。对于全新数据分布与长期路线图,from-scratch 仍更容易按 scaling law 规划与复现 [9][10]。
判词 — 结论层面的建议:在“已有稳定 base + 目标规模不超过约 30B + 需要快速迭代”的约束下,优先把 grow-from-base 当默认候选;在“全新数据分布 + 目标超大规模”的约束下,把 grow 当作探索路径而非主线 [8][6][9]。
阵营 D:稳定性主要靠 LR/optimizer/data,QK-Norm/sandwich norm 多半是噪声
立场 — 训练不稳主要靠学习率、warmup、初始化、clipping 与数据清洗就能解决;额外 norm 组件会引入复杂度与潜在分布偏移,未必值得进入默认主干 [18][17]。
反方 — Wortsman et al. [4] 给出可观测机制:attention-logit 方差与输出范数增长会触发 loss spike,并能用小规模 proxy 复现;在这个机制下,QK-Norm 是直接抑制项,不等价于“再调一遍 LR”。证据不足的更像 sandwich norm:Gemma 3 [1] 把它放进配方,但缺少独立消融来量化其边际收益与副作用。
判词 — 一个更稳的读法:QK-Norm 值得作为“针对 loss spike 的保险丝”进入默认候选清单;sandwich norm 先当作可选项,除非在同预算消融里能证明它减少 spike 的幅度/频率并且不伤下游 [4][1]。
实践要点
可操作清单(按“推理账单→稳定性→迁移成本”排序):
1) Do:稠密 decoder-only ≤70B 默认从 GQA 起步,把 当作可扫超参;第一档从 ≈h/8 起扫,再向 h/4 与 h/16 扩展 [3]。Don’t:把 MHA 当主候选直到最后才“顺便换 GQA”,这会把 KV-cache 账单锁死 [3]。
2) Do:把 MQA 当作极限压缩下界,用来标定“质量退化曲线的端点”;只有在明确被 KV-cache 卡死且能接受回退时才考虑 KV_heads=1 [5][3]。
3) Do:目标上下文 ≥128K 且成本敏感,先试 local/global 交错或 SWA,而不是 all-global;从 Gemma 3 的 5:1 配方起步,并把 global 层密度当作预算变量 [1];SWA+rolling cache 可用 Mistral 7B 作为工程参考 [7]。
4) Do:长上下文评估至少加一类“中间信息检索”任务,避免只看最大长度或困惑度;否则 local/global 或 SWA 的预算分配可能把可用信息压没 [16][1]。
5) Don’t:在 ≤70B 上为了“先进”硬上 MLA;更合适的触发条件是 MoE 或 ≥200B,且 KV-cache/带宽已成为硬上限 [2]。
6) Do:当 MoE/≥200B 且 serving 被 KV-cache 卡死,再评估 MLA;把 kernel/serving 栈改造作为显式成本项,而不是把对比只做在训练 loss 或离线指标上 [2]。
7) Do:把 QK-Norm 当作“针对 loss spike 的保险丝”纳入默认候选,尤其在大 batch/大规模训练;它对应 attention-logit 方差机制,而不是纯经验 trick [4][1]。Don’t:把 sandwich norm 直接默认化,除非有同预算独立消融能量化其边际收益 [1]。
8) Do:已有稳定 base 且目标规模不超过约 30B,优先尝试 depth-up-scaling / block expansion;SOLAR 的 layer duplication + 200B tokens 与 LLaMA Pro 的 identity block 插入提供了可复现起点 [8][6]。Don’t:把 grow-from-base 当作替代 from-scratch 的通用解;新数据分布与长期路线图仍更适合按 scaling law 规划重训 [9][10]。
悬而未决的问题
- Q1.GQA vs MQA vs MHA 在固定 KV-cache 大小下的 head-to-head:同一模型、同一数据、同一 kernel/serving,报告质量+latency+throughput 曲线(而不是只报离线分数)。
- Q2.128K+ 解码 profiling:在 A100/H100 上,KV 带宽何时压过 FLOPs 成为主瓶颈?local/global 与 SWA 的最优预算点是否随 batch/concurrency 改变?
- Q3.独立的 QK-Norm / sandwich norm 大规模消融:在同预算下,分别减少了多少 loss spike(频率/幅度),是否引入下游分布偏移?
- Q4.第三方复现 MLA vs GQA:除了离线质量,还需公开 kernel/serving 栈复杂度、吞吐与延迟的端到端对照,明确“约 1/7 cache”对应的真实成本。
- Q5.depth-up-scaling / block expansion 的公开负例与失败模式:何时会破坏通用能力、何时会让对齐更难、何时会引入新的不稳定?需要同预算对照与可复现 artifact。
- [1]
- [2]DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024论文
- [3]Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. EMNLP, 2023论文
- [4]Mitchell Wortsman, Peter J. Liu, Ted Xiao, Katie Everett, Alexander A. Alemi, Joshua V. Dillon. Small-scale proxies for large-scale Transformer training instabilities. arXiv, 2023论文
- [5]
- [6]Yuhuai Wu, Zhe Gan, Yixiao Ge, Yao Lu, Jianfeng Wang, Lijuan Wang. LLaMA Pro: Progressive LLaMA with Block Expansion. arXiv, 2024论文
- [7]Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas. Mistral 7B. arXiv, 2023论文
- [8]Bokyung Kim, Hyeonji Park, Sanghyun Kim, Jihwan Lim, Donghyeon Kim, Jongwook Park. SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling. arXiv, 2023论文
- [9]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [10]Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, et al.. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
- [11]Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
- [12]
- [13]Vinay Joshi, Prashant Laddha, Shambhavi Sinha, Omi Omer, Sreenivas Subramoney. QCQA: Quality and Capacity-aware grouped Query Attention. arXiv, 2024论文
- [14]Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis. Efficient Streaming Language Models with Attention Sinks. arXiv, 2023论文
- [15]Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
- [16]Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
- [17]
- [18]Liyuan Liu, Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu. On the Variance of the Adaptive Learning Rate and Beyond. arXiv, 2019论文
- [19]Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, et al.. Gemma: Open Models Based on Gemini Research and Technology. arXiv, 2024报告
- [20]Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky. Learning to Grow Pretrained Models for Efficient Transformer Training. arXiv, 2023论文
- [21]Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos Riquelme Ruiz, Basil Mustafa. Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints. arXiv, 2022论文
- [22]Tianqi Chen, Ian Goodfellow, Jonathon Shlens. Net2Net: Accelerating Learning via Knowledge Transfer. arXiv, 2015论文
- [23]Matteo Tiezzi, Michele Casoni, Alessandro Betti, Tommaso Guidi, Marco Gori. On the Resurgence of Recurrent Models for Long Sequences -- Survey and Research Opportunities in the Transformer Era. arXiv, 2024论文
- [24]Shida Wang. LongSSM: On the Length Extension of State-space Models in Language Modelling. arXiv, 2024论文