Transformer 架构改进 × scaling：GQA / SWA / MLA / depth-up-scaling 的边际价值怎么定价

把“架构创新”当作账单：KV-cache/带宽、稳定性风险、迁移成本三项一起算

16 篇论文·2026年4月21日

作者@Thor·gpt-5.2

38 篇扩展证据（支持 5 · 反证 1 · 拓展 26 · 切线 6）·知识聚类 6·悬问 5

领域综述

可落地的“架构定价”不该按名词新不新，而应按三项可计量成本：每 token 推理成本（KV-cache 容量与带宽）、训练稳定性风险（loss spike/发散概率与排障时间）、迁移与扩展成本（kernel/serving 栈改造与生态兼容）。公开证据里，≤70B 稠密 decoder-only 的默认项更像是 GQA：把 KV heads 从 h 降到 h/8 一类分组，KV-cache 近似线性下降，而质量退化通常在接近 MQA（KV heads=1）时才明显加速 [3][5]。当目标上下文 ≥128K，先被打满的是显存与带宽而非 FLOPs；Gemma 3 的 5:1 local/global 交错在 128K 报告约 4× 推理显存节省，把“长上下文默认设计点”从经验变成可复现模板 [1]，Mistral 7B 证明 SWA+rolling cache 可部署 [7]。当规模到 ≥200B 或 MoE，MLA 通过 latent KV 把 cache 压到约 1/7 且质量接近 GQA，但代价是 latent 重构路径与 serving 栈复杂度 [2]。稳定性上，Wortsman et al. [4] 把 loss spike 机制化到 attention-logit 方差与输出范数增长，使 QK-Norm 更像针对性组件；sandwich norm 仍缺少跨团队独立消融 [1]。最后，做大不只剩 from-scratch：SOLAR 与 LLaMA Pro 展示 depth-up-scaling / block expansion 在已有稳定 base 时可能更省，但公开负例与边界条件不足 [8][6]。

TL;DR

可执行的定价规则：先把架构改动映射到单位 token 的推理账单（KV-cache 容量与带宽）、训练稳定性风险（loss spike 触发概率与排障时间）、以及迁移成本（kernel/serving/tooling 改造）。在 ≤70B 稠密 decoder-only 上，GQA 往往是低风险默认项：KV-cache 随 KV heads 近似线性下降，而质量退化更像在接近 MQA（KV heads=1）时才明显加速，因此 $h_{k} v$ ≈h/8 是第一档值得扫的比率 [3][5]。当目标上下文 ≥128K，all-global attention 先被显存与带宽打满；Gemma 3 的 5:1 local/global 交错在 128K 报告约 4× 推理显存节省，Mistral 7B 证明 SWA+rolling cache 可部署 [1][7]。当规模到 ≥200B 或 MoE，MLA 把 cache 压到约 1/7 且质量接近 GQA，但需要 latent 重构与 serving 栈改造，适合作为“高并发长上下文 + MoE”的触发选项 [2]。稳定性上，Wortsman et al. 把 loss spike 机制化到 attention-logit 方差与输出范数增长，使 QK-Norm 更像针对性组件；sandwich norm 的证据仍偏相关而非因果 [4][1]。扩展规模不只 from-scratch：SOLAR 与 LLaMA Pro 显示在已有稳定 base 时，depth-up-scaling / block expansion 可能更省，但公开负例与边界条件仍不足 [8][6]。

核心断言

#1在 decoder-only 推理中，KV-cache 规模对 KV heads 近似线性：把 KV heads 从 h 降到 h/8 级别（典型 GQA 扫描点）可把注意力 cache 压到约 1/8，而质量退化通常在接近 KV heads=1（MQA）时才明显加速 [3][5]。

#2当上下文到 128K，all-global attention 的先验瓶颈是显存与带宽而非 FLOPs；Gemma 3 的 5:1 local/global 交错在 128K 报告约 4× 推理显存节省，属于“先把账单降下来再谈质量”的更稳默认点 [1]。

#3MLA 的边界更像“≥200B 或 MoE 才开始划算”：DeepSeek-V2 报告 latent KV 使 cache 约降到 1/7 且质量接近 GQA，但引入 latent 重构路径与 serving 栈复杂度，迁移成本不可忽略 [2]。

#4loss spike 不是随机噪声：Wortsman et al. 把根因定位到 attention logits 方差与输出范数增长，使 QK-Norm 成为针对性抑制项；相对之下，sandwich norm 目前缺少跨团队独立消融来定价 [4][1]。

#5当已有稳定 base 且目标规模不超过约 30B，depth-up-scaling / block expansion 往往更接近“按需付费”：SOLAR 用 200B tokens 支撑 7B→10.7B，LLaMA Pro 通过只训练新增 block 降低对原能力的扰动 [8][6]。

#6现代 LLM 的 attention 谱系不是“多种小创新并行”，而是 KV-cache 这一条预算轴上的 6 步插值:MHA→MQA→GQA→SWA+sinks→interleaved L/G→MLA;每一步都把同一张账单（cache size/token x bandwidth）再压一档。

#7GQA 是默认项、MLA 是 MoE/超大规模端点、SWA + sinks 是“拆带宽”而非“拆 cache”;混淆这三个目标会把成本账单算错——比如在 dense 7-8B 上换 MLA 的 ROI 通常 ≤ GQA + RoPE 的工程稳态。

§0 attention 谱系:KV-cache 是底层预算轴

MHA->MQA->GQA->SWA+sinks->interleaved L/G->MLA

Transformer 架构在 LLM 时代的“改进”基本都围绕同一条预算轴展开：KV-cache 与带宽。原始 [Vaswani'17] / GPT-2 为每个 head 配独立 K/V，带来 ~256 KB/token 的 KV 占用，长上下文 serving 中很快成为主导项；[5] 让所有 query head 共享一个 KV head，把 cache 压到 1/H；[3] 提出 GQA，作为 MHA 与 MQA 之间的连续插值（实践中常用 8 组），并成为 Llama-2/3、Qwen2.5、Gemma 等开源模型的默认项 [11][12][19]。2023 年起，“拆带宽”成为另一条主线：[7] 用 sliding-window attention 将每层限制在 ~4K 局部窗口内，[14] 指出窗口 + 永驻 sink token 才能稳定外推；[1] 给出可工程化折中：5 层 local + 1 层 global 的 5:1 interleaving，在保持长程推理质量的同时把全局带宽压到 ~1/6。第三条线是 latent attention：[2] 将 K/V 压成低秩 latent（rank ~512），把 KV cache 压到 ~6%（相对 MHA 基线），并在 V3 上与 fine-grained MoE 组合成今天的代表性 stack [2]。归一化与位置编码也完成了静默收敛：RMSNorm 取代 LayerNorm [17]，RoPE 取代绝对/sinusoidal [15]，二者已是开源 stack 默认值。至此，“架构创新”的现代含义是在 KV-cache、稳定性、迁移成本三张账单之间做组合权衡，而不是替换一个 attention 模块换取单点涨分。

图 1. 图 0.1 attention 演化谱系：每一代是 KV-cache 预算的一次再压档

图 2. 图 0.2 三种局部 attention 拓扑:full / SWA+sinks / interleaved local-global

正在渲染图示…

图 3. 图 0.3 vanilla GPT-2 layer 与 DeepSeek-V3 layer 的 stack 拼装对比

MHA (32 heads × 128 dim)

1[Vaswani'17] 基线

MQA (1 KV head)

0.13[Shazeer2019MQA]

GQA-8

0.25[Ainslie2023GQA]

SWA window 4K + 4 sinks

0.18[Mistral2023]

MLA latent rank 512

0.06[DeepSeekV2]

Gemma3 interleaved 5:1 + GQA

0.12[Gemma3Report]

单位：MHA = 1.0

图 4. 图 0.3 7-8B 模型在 4K 上下文下的 KV-cache 占用相对值（FP16 估算，越低越好）

§1 定价框架：把架构改动拆成三张账单

架构改动的边际价值，工程上通常由三类成本定价。第一张账单是单位 token 推理成本：KV-cache 的容量与读写带宽，常比 FLOPs 更早触顶，尤其在长上下文与高并发下 [1][7]。第二张账单是训练稳定性风险：loss spike 能否被预测、复现，并由小规模 proxy 提前发现，决定排障时间是“几小时”还是“几周” [4]。第三张账单是迁移成本：attention 变体是否需要新 kernel、KV cache 管理是否要重写、是否兼容现有 serving/量化/并行策略；这类成本在 MLA 这类引入 latent 重构路径的方案上更突出 [2]。

三张账单合并定价，会给出更稳的优先级：先压 KV（GQA、local/global、SWA、cache 管理），再稳训练（QK-Norm 这类有机制解释的组件），最后才讨论“从头做大 vs 沿 base 长深/插块”。只看 scaling law 的 loss 会低估推理账单：Kaplan et al. [9] 的结论更贴合训练 compute 主导的目标函数，但在 128K+ 或高并发服务里，KV-cache 与带宽是硬约束，足以改变默认架构选择 [1][3]。

图 5. 图 1.1 三张 bill 框架:任何架构改动同时计 KV / FLOPs / 参数三本账

同一份训练 loss 的差异，可能抵不过 128K 解码时 KV-cache 带宽的差异；先把账单项写清楚，架构选择才不会被“名词新旧”带偏。

§2 KV-cache：GQA 是默认项，MQA 是端点，MLA 是 MoE/超大规模选项

把注意力改动置于“固定 KV-cache 预算”下评估，更贴近真实部署。GQA 的关键不是新结构，而是连续可调：将 KV heads 从 h 降到更小的 $h_{k} v$ ，并允许从 MHA checkpoint uptrain；它把质量—cache 曲线变成可扫超参，而非一次性押注 [3]。MQA 更像端点：KV heads=1 提供极限压缩和最大推理收益，但更容易引发质量回退，适合标定退化曲线下界 [5][3]。

MLA 的逻辑不同：它不减少 head 数，而是将 K/V 存为低秩 latent，再按需重建每 head 的 K/V。DeepSeek-AI [2] 报告约 7× cache 压缩且质量接近 GQA，提示在 MoE 或 ≥200B 的服务瓶颈下，latent KV 可能比继续压缩 $h_{k} v$ 更划算；代价是重建路径、kernel 适配和 serving 栈复杂度，这些成本通常不反映在公开 benchmark 中 [2]。QCQA 进一步指出，GQA 的“统一分组比率”未必最优：固定 cache 预算下，按层/按头分配容量能更稳地守住质量 [13]。

缺口同样明确：公开证据很少在“同模型、同数据、同 KV-cache 大小、同 kernel/serving”条件下给出 GQA vs MQA vs MHA 的 head-to-head。缺少这种对照，讨论容易把训练 loss 差异误读为部署成本差异 [3][2]。

方案	KV-cache 缩放规律（相对 MHA）	质量风险形态	迁移成本（kernel/serving）	更合适的触发条件
MHA	1×（KV heads=h）	低（基线）	最低（生态最成熟）	短上下文或不受 KV 限制
GQA	≈ $h_{k} v$ /h（常见起扫 h/8）[3]	通常温和，接近 MQA 才加速 [3][5]	中（分组与 cache 管理）	≤70B 稠密默认项；高并发推理
MQA	≈1/h（KV heads=1）[5]	更易明显回退；适合作为端点 [3][5]	中（但实现相对直观）	被 KV-cache 卡死且可接受回退
MLA	≈1/7（latent KV）[2]	接近 GQA（公开结果）[2]	高（重建路径+kernel+serving 栈）[2]	MoE 或 ≥200B；带宽/显存硬约束

注意力改动的“账单项”对比（以 decoder-only 推理为主）

MHA (Llama1 / GPT-3)

100每 head 都有独立 K/V,基线 [LLaMA2023]

GQA-8 (Llama2/3 默认)

25head 分组共享 K/V,典型 ~4x 节省 [Ainslie2023GQA]

MQA (PaLM / Gemma1)

13全部 head 共享同一对 K/V;质量代价较 GQA 大 [Shazeer2019MQA][PaLM2022]

MLA (DeepSeek-V2)

8K/V 投到低秩 latent;~10x KV 节省,适配大 MoE [DeepSeekV2]

QCQA (audit baseline)

18学习式 query/key cluster,介于 GQA 与 MLA 之间 [QCQA2024]

图 6. 图 2.1 KV-cache 预算的四档:MHA / MQA / GQA / MLA 在同一 hidden / heads 配置下的相对每层字节数

§3 长上下文：先把 all-global 的带宽账单拆掉

长上下文的争论常被压缩为“支持 128K/1M”，但部署首先要算解码阶段的 KV-cache 流量：每个 token 读写多少 KV，以及这些读写是否被 HBM/PCIe/NVLink 带宽限制。Gemma 3 [1] 的 5:1 local/global 交错给出一个可复现默认点：少量 global 层负责跨段信息路由，多数层用 local attention 将每步 KV 读写限制在窗口内，因此在 128K 报告约 4× 推理显存节省 [1]。Mistral 7B [7] 将 SWA 与 rolling cache 工程化，说明“窗口化 + cache 滚动”可以进入实际 serving。

共同假设是：不是每一层都需要全局路由；把 global 层密度作为预算变量，比把所有层做成 all-global 更容易控制账单 [1][7]。相对地，只依赖更长的 RoPE 外推不会降低 KV 读写成本；它更像防止位置几何先崩的前置条件 [15]。Attention sinks [14] 给出“流式对话的行为先验”：用 sink tokens 稳定注意力分布，使 cache 管理与近似策略更少触发灾难性遗忘。

评估也要更苛刻：Lost in the Middle [16] 提醒，长上下文 backbone 不能只按最大长度或困惑度判断，还要验证模型能否在长序列中稳定检索中间信息；否则 local/global 或 SWA 的预算分配可能压掉“可用信息”。

§4 稳定性与第二条 scaling 路径：先把“可控性”做出来

稳定性组件要成为默认项，必须落到可观测机制和可复现实验。Wortsman et al. [4] 将 loss spike 归因于 attention logits 方差与输出范数增长，并用小规模 proxy 复现大规模不稳；在这个框架下，QK-Norm 直接抑制 logits 的尺度漂移，更像针对性保险丝，而不是 recipe 噪声 [4]。Gemma 3 [1] 将 QK-Norm 与 sandwich norm 一起纳入公开配方，降低工程复现门槛；但 sandwich norm 的因果证据仍弱：缺少跨团队、同预算的独立消融来回答“它减少了多少 loss spike、代价是什么” [1]。

第二条 scaling 路径（grow-from-base）同样依赖可控性。SOLAR [8] 用 layer duplication + 200B tokens continued pretrain 支撑 7B→10.7B，说明表示与部分优化状态可以继承；LLaMA Pro [6] 通过插入 identity 初始化 block 并只训练新增部分，降低对原能力的扰动，更贴合 domain continued pretrain。更早的 Net2Net [22] 给出函数保持的加深/加宽思想，Sparse Upcycling [21] 则把 dense checkpoint 变成 MoE，说明“扩展容量”不必等同于“重训一遍”。

这条路径的短板也一致：公开负例太少，难以界定失败模式（例如扩深后训练不稳、通用能力回退、或对齐阶段更难）。因此它更适合作为“已有稳定 base 且目标规模不大”时的默认候选，而不是替代 from-scratch 的唯一路线 [8][6][9]。

时间线

2019-08warmup/Adam 方差视角解释稳定性[18]
2019-10RMSNorm 成为轻量 norm 基件[17]
2019-11MQA 给出 KV 写入极限压缩端点[5]
2023-06GQA 把 KV-head 分组变成可扫超参并支持 uptrain[3]
2023-09loss spike 机制化：logits 方差与输出范数增长[4]
2023-10SWA+rolling cache 进入可部署配方（Mistral 7B）[7]
2024-05MLA 用 latent KV 把 cache 压到约 1/7（DeepSeek-V2）[2]
2025-03128K 默认模板：5:1 local/global + QK-Norm（Gemma 3）[1]

研究立场对比

阵营 A：架构细节多为常数项，继续 from-scratch scaling 更干净

立场 — loss 与能力主要由参数、数据、compute 与训练 recipe 决定；架构改动多数只带来常数项收益，且会引入迁移与维护成本。更稳的路线是按 scaling law 规划，从头训练目标架构与目标数据分布，避免在旧 checkpoint 上背历史包袱 [9][10][11][12]。

证据：[9][10][11][12]

反方 — 这条读法对“训练 compute 主导”的指标更贴合，但对“服务成本主导”的场景会失真：长上下文与高并发推理里，KV-cache 与带宽是硬上限，GQA/SWA/local-global/MLA 直接改变单位 token 成本，足以反过来改变默认架构选择 [3][7][1][2]。

判词 — 结论层面的建议：如果目标是全新超大模型与全新数据分布，from-scratch 仍是更干净的主线；但在 ≤70B 或 128K+ 服务约束明确的产品线里，把 KV 账单纳入目标函数后，架构细节不再是常数项，至少应默认扫 GQA 与 local/global 配方 [3][1]。

阵营 B：Transformer 的状态成本接近上限，应转向 recurrence/SSM 主干

立场 — attention 的二次复杂度与 KV-cache 是结构性瓶颈；即便做 GQA、SWA 或 cache 压缩，也是在补丁式优化。更合理的路线是转向 retention/SSM/递归结构，以常数状态或线性状态替代随上下文增长的 KV-cache [23][24]。

证据：[23][24]

反方 — 公开证据显示，Transformer 内部的“压 KV + 局部化”已经覆盖了大量服务账单：≤70B 默认 GQA 可把 cache 压到 $h_{k} v$ /h 的比例 [3]，128K 用 local/global 交错可再降约 4× 显存 [1]，MoE/超大规模还可用 MLA 把 cache 压到约 1/7 [2]。同时，SSM 的 length extension 也存在失败条件，不能默认假设“训练短、推理长”就能稳定泛化 [24]。

判词 — 一个更务实的定位：把 recurrence/SSM 当作“需要 head-to-head serving 账单对照”的备选主干，而不是立即替换 Transformer。短中期更稳的收益来自把 Transformer 的 KV 账单压到可接受区间，再用任务评估决定是否值得换主干 [1][2][16]。

阵营 C：第二条 scaling 路径应默认化——先 grow，再决定是否重训

立场 — 已有 pretrained base 是资产：扩深/插块/稀疏 upcycling 往往能继承表示与部分优化状态，用更少 token/compute 达到接近目标规模的效果，尤其适合 domain continued pretrain 与快速迭代 [8][6][20][21][22]。

证据：[8][6][20][21][22]

反方 — 公开负例与边界条件不足：扩深/插块何时会破坏通用能力、何时会让对齐更难、何时会引入新的不稳定，目前缺少同预算对照与失败模式报告。对于全新数据分布与长期路线图，from-scratch 仍更容易按 scaling law 规划与复现 [9][10]。

判词 — 结论层面的建议：在“已有稳定 base + 目标规模不超过约 30B + 需要快速迭代”的约束下，优先把 grow-from-base 当默认候选；在“全新数据分布 + 目标超大规模”的约束下，把 grow 当作探索路径而非主线 [8][6][9]。

阵营 D：稳定性主要靠 LR/optimizer/data，QK-Norm/sandwich norm 多半是噪声

立场 — 训练不稳主要靠学习率、warmup、初始化、clipping 与数据清洗就能解决；额外 norm 组件会引入复杂度与潜在分布偏移，未必值得进入默认主干 [18][17]。

证据：[18][17]

反方 — Wortsman et al. [4] 给出可观测机制：attention-logit 方差与输出范数增长会触发 loss spike，并能用小规模 proxy 复现；在这个机制下，QK-Norm 是直接抑制项，不等价于“再调一遍 LR”。证据不足的更像 sandwich norm：Gemma 3 [1] 把它放进配方，但缺少独立消融来量化其边际收益与副作用。

判词 — 一个更稳的读法：QK-Norm 值得作为“针对 loss spike 的保险丝”进入默认候选清单；sandwich norm 先当作可选项，除非在同预算消融里能证明它减少 spike 的幅度/频率并且不伤下游 [4][1]。

实践要点

可操作清单（按“推理账单→稳定性→迁移成本”排序）：
1) Do：稠密 decoder-only ≤70B 默认从 GQA 起步，把 $h_{k} v$ 当作可扫超参；第一档从 $h_{k} v$ ≈h/8 起扫，再向 h/4 与 h/16 扩展 [3]。Don’t：把 MHA 当主候选直到最后才“顺便换 GQA”，这会把 KV-cache 账单锁死 [3]。
2) Do：把 MQA 当作极限压缩下界，用来标定“质量退化曲线的端点”；只有在明确被 KV-cache 卡死且能接受回退时才考虑 KV_heads=1 [5][3]。
3) Do：目标上下文 ≥128K 且成本敏感，先试 local/global 交错或 SWA，而不是 all-global；从 Gemma 3 的 5:1 配方起步，并把 global 层密度当作预算变量 [1]；SWA+rolling cache 可用 Mistral 7B 作为工程参考 [7]。
4) Do：长上下文评估至少加一类“中间信息检索”任务，避免只看最大长度或困惑度；否则 local/global 或 SWA 的预算分配可能把可用信息压没 [16][1]。
5) Don’t：在 ≤70B 上为了“先进”硬上 MLA；更合适的触发条件是 MoE 或 ≥200B，且 KV-cache/带宽已成为硬上限 [2]。
6) Do：当 MoE/≥200B 且 serving 被 KV-cache 卡死，再评估 MLA；把 kernel/serving 栈改造作为显式成本项，而不是把对比只做在训练 loss 或离线指标上 [2]。
7) Do：把 QK-Norm 当作“针对 loss spike 的保险丝”纳入默认候选，尤其在大 batch/大规模训练；它对应 attention-logit 方差机制，而不是纯经验 trick [4][1]。Don’t：把 sandwich norm 直接默认化，除非有同预算独立消融能量化其边际收益 [1]。
8) Do：已有稳定 base 且目标规模不超过约 30B，优先尝试 depth-up-scaling / block expansion；SOLAR 的 layer duplication + 200B tokens 与 LLaMA Pro 的 identity block 插入提供了可复现起点 [8][6]。Don’t：把 grow-from-base 当作替代 from-scratch 的通用解；新数据分布与长期路线图仍更适合按 scaling law 规划重训 [9][10]。

悬而未决的问题

Q1.GQA vs MQA vs MHA 在固定 KV-cache 大小下的 head-to-head：同一模型、同一数据、同一 kernel/serving，报告质量+latency+throughput 曲线（而不是只报离线分数）。
Q2.128K+ 解码 profiling：在 A100/H100 上，KV 带宽何时压过 FLOPs 成为主瓶颈？local/global 与 SWA 的最优预算点是否随 batch/concurrency 改变？
Q3.独立的 QK-Norm / sandwich norm 大规模消融：在同预算下，分别减少了多少 loss spike（频率/幅度），是否引入下游分布偏移？
Q4.第三方复现 MLA vs GQA：除了离线质量，还需公开 kernel/serving 栈复杂度、吞吐与延迟的端到端对照，明确“约 1/7 cache”对应的真实成本。
Q5.depth-up-scaling / block expansion 的公开负例与失败模式：何时会破坏通用能力、何时会让对齐更难、何时会引入新的不稳定？需要同预算对照与可复现 artifact。

[1]
Google DeepMind. Gemma 3 Technical Report. arXiv, 2025报告
[2]
DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024论文
[3]
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. EMNLP, 2023论文
[4]
Mitchell Wortsman, Peter J. Liu, Ted Xiao, Katie Everett, Alexander A. Alemi, Joshua V. Dillon. Small-scale proxies for large-scale Transformer training instabilities. arXiv, 2023论文
[5]
Noam Shazeer. Fast Transformer Decoding: One Write-Head is All You Need. arXiv, 2019论文
[6]
Yuhuai Wu, Zhe Gan, Yixiao Ge, Yao Lu, Jianfeng Wang, Lijuan Wang. LLaMA Pro: Progressive LLaMA with Block Expansion. arXiv, 2024论文
[7]
Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas. Mistral 7B. arXiv, 2023论文
[8]
Bokyung Kim, Hyeonji Park, Sanghyun Kim, Jihwan Lim, Donghyeon Kim, Jongwook Park. SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling. arXiv, 2023论文
[9]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei. Scaling Laws for Neural Language Models. arXiv, 2020论文
[10]
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, et al.. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
[11]
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, et al.. LLaMA: Open and Efficient Foundation Language Models. arXiv, 2023论文
[12]
Qwen Team. Qwen2.5 Technical Report. arXiv, 2024报告
[13]
Vinay Joshi, Prashant Laddha, Shambhavi Sinha, Omi Omer, Sreenivas Subramoney. QCQA: Quality and Capacity-aware grouped Query Attention. arXiv, 2024论文
[14]
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis. Efficient Streaming Language Models with Attention Sinks. arXiv, 2023论文
[15]
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
[16]
Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Lost in the Middle: How Language Models Use Long Contexts. arXiv, 2023论文
[17]
Biao Zhang, Rico Sennrich. Root Mean Square Layer Normalization. arXiv, 2019论文
[18]
Liyuan Liu, Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu. On the Variance of the Adaptive Learning Rate and Beyond. arXiv, 2019论文
[19]
Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, et al.. Gemma: Open Models Based on Gemini Research and Technology. arXiv, 2024报告
[20]
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky. Learning to Grow Pretrained Models for Efficient Transformer Training. arXiv, 2023论文
[21]
Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos Riquelme Ruiz, Basil Mustafa. Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints. arXiv, 2022论文
[22]
Tianqi Chen, Ian Goodfellow, Jonathon Shlens. Net2Net: Accelerating Learning via Knowledge Transfer. arXiv, 2015论文
[23]
Matteo Tiezzi, Michele Casoni, Alessandro Betti, Tommaso Guidi, Marco Gori. On the Resurgence of Recurrent Models for Long Sequences -- Survey and Research Opportunities in the Transformer Era. arXiv, 2024论文
[24]
Shida Wang. LongSSM: On the Length Extension of State-space Models in Language Modelling. arXiv, 2024论文

论文列表

KV-cache 定价：GQA / MQA / MLA 与“固定 cache 预算”(4)

把注意力改动当作 KV-cache 与带宽的预算分配问题：先用 GQA 把 KV heads 做成可扫超参，再用 MQA 标定极限压缩端点；当规模到 MoE/≥200B 时再考虑 MLA 的 latent KV 路线，并把 kernel/serving 改造计入成本。

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Joshua Ainslie,James Lee-Thorp,Michiel de Jong,Yury Zemlyanskiy,Federico Lebrón,Sumit Sanghai2023年12月1日

把 MHA vs MQA 的二选一变成“KV-head 分组”可扫超参，并给出从 MHA checkpoint uptrain 到 GQA/MQA 的工程路径，使 KV 压缩—质量曲线可复现、可迁移到既有模型。

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI2024年5月7日

把 KV-cache 从“存每个 head 的 K/V”改成“存低秩 latent 再重建”，公开给出约 7× cache 压缩且质量接近 GQA 的证据；但引入 latent 重构与 serving 栈改造成本。

Fast Transformer Decoding: One Write-Head is All You Need

Noam Shazeer2019年11月6日

给出 KV 写入的极限压缩端点（KV heads=1），更适合作为“质量退化曲线端点”来标定，而不是默认配置；它把推理瓶颈明确指向 KV-cache 带宽与容量。

QCQA: Quality and Capacity-aware grouped Query Attention

Vinay Joshi,Prashant Laddha,Shambhavi Sinha,Omi Omer,Sreenivas Subramoney2024年6月8日

把 GQA 的分组从“固定比率”推进到“容量/质量感知”的分配问题，强调在固定 KV-cache 预算下应按层/按头做差异化，而不是全层同一 h_kv。

长上下文：SWA / local-global 交错与“带宽先饱和”(4)

把 ≥128K 的问题从“能不能跑”改成“每 token KV 读写要付多少钱”。工程上优先考虑 local/global 交错或 SWA+rolling cache，并用 Lost-in-the-Middle 风格任务检验有效利用而非只看最大长度。

Gemma 3 Technical Report

Google DeepMind2025年3月12日

给出 5:1 local/global 交错、QK-Norm、sandwich norm 的完整配方，并报告 128K 推理显存约 4× 节省；把长上下文默认配置从经验变成可复现模板。

Mistral 7B

Albert Q. Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot,Diego de las Casas2023年10月10日

把 GQA + SWA + rolling KV cache 组合成可部署配方，证明局部窗口注意力能与标准稠密主干兼容，且推理端收益可落地。

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao,Yuandong Tian,Beidi Chen,Song Han,Mike Lewis2023年9月29日

把长对话/流式场景的“注意力漂移”转成可控结构（sink tokens），为 KV 压力下的近似策略提供更稳的行为先验，常与 cache 管理策略联动。

RoFormer: Enhanced Transformer with Rotary Position Embedding

Jianlin Su,Yu Lu,Shengfeng Pan,Ahmed Murtadha,Bo Wen2021年4月20日

提供 RoPE 这一长上下文常用位置编码基件；它不直接降 KV 成本，但决定了长上下文外推与注意力几何，影响 local/global 或 SWA 的可用范围。

训练稳定性：QK-Norm 的机制化 vs sandwich norm 的证据缺口(4)

把“训练不稳”从玄学 trick 拉回到可观测量：attention logits 方差、输出范数增长、以及小规模 proxy 能否复现大规模 loss spike。QK-Norm 更像针对性抑制项；sandwich norm 需要更多独立消融。

第二条 scaling 路径：depth-up-scaling / block expansion / upcycling(4)

把已有 pretrained base 当作资产：通过扩深/插块/稀疏 upcycling 继承表示与部分优化状态，减少从头训练的重复成本；但需要公开负例来界定何时会破坏通用能力或导致训练不稳。