TL;DR
一条更稳的读法是:DeepSeek 的主线不是“每版都换一个新技巧”,而是沿着八条工程子轴做联动重构。LLM 给出 dense 起点与 2T token 数据账本;DeepSeekMoE 把 fine-grained routed expert + shared expert 变成默认拓扑;V2 用 MLA 把长上下文的 KV cache 压到传统 MHA 的一个小分数,并把 160 routed × 2 shared 的 MoE 主干做成可量产配置;V3 再把 671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP 和 129280 byte-level BPE 一次性写清;R1 把 GRPO 从数学域推广到通用推理;V3.1 把 thinking / non-thinking 合并到同一产品面;V4 则把问题推进到 1M context:Pro/Flash 两档模型共享 CSA/HCA + sliding-window hybrid attention、mHC、Muon、32T+ pretrain、FP4/FP8 推理与 specialist → OPD 后训练。真正可复用的结论有三条:第一,MLA、fine-grained MoE、shared expert、FP8 per-block、CSA/HCA 这些设计不是独立插件,只有在数据组织、并行调度、KV cache layout 和数值回退一起设计时才稳定;第二,DeepSeek 真正新的是若干组合式工程默认值,而不是每个部件都首创;第三,谱系里也有明显边界:大 batch 短上下文时 MLA 相对 GQA 的收益缩小,1M context 又迫使 attention 从“KV latent 压缩”升级到“压缩 + 稀疏 + 本地窗口 + cache 管理”合体,many-expert 设计会遇到专家利用率不均,aux-loss-free 和 mHC/Muon 都把复杂度转移到了训练动力学与复现成本上。
核心断言
§1 先看版本树:每次跳版都在换一组默认值
DeepSeek 这条线最容易被误读的地方,是把 V2、V3、R1、V4 当成相互独立的“热点论文”。更接近事实的结构是:DeepSeek LLM [1] 先给出 dense 起点,包括 100K BBPE、2T token mixture、以及 SFT+DPO 的早期对齐配方;DeepSeek-Coder [4] 同期将 repo-level 数据组织、依赖图拼接与 FIM 训练工程化,说明数据轴从一开始就不是简单加量。随后 DeepSeekMoE [2] 引入 fine-grained routed expert 与 shared expert,把 MoE 问题从“要不要稀疏”改写为“专家切多细、公共通道留多少”。V2 [5] 再把这套 MoE 与 MLA 绑定,形成 236B 总参、21B 激活、128K context 的主干;其意义不只是省 KV,而是把长上下文推理、推理成本和 MoE 激活成本放到同一张账上。V3 [7] 没有推翻 V2,而是补齐训练栈:671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP、129280 byte-level BPE。R1 [8] 把变化重心从 pretrain 架构转向 post-training,沿着 DeepSeekMath [3] 的 GRPO 路线,把 reasoning 作为 RL 目标优化。V3.1 [9] 把 thinking / non-thinking 合并到同一产品面。V4 [10] 再把主轴拉回 architecture + serving:它保留 DeepSeekMoE 与 MTP,但用 CSA/HCA + sliding-window hybrid attention、mHC、Muon 和异构 KV cache 去支撑 1M context。更务实的定位是:这不是几篇彼此无关的论文,而是一条从 dense 基线、到稀疏主干、到训练栈、到后训练分叉、再到 million-token serving 的连续工程谱系。
真正稳定的信号不在单篇论文里,而在“哪项设计被下一版继承、哪项被替换、哪项只在特定规模下成立”。
§2 八条工程子轴里,哪些是继承,哪些是替换
如果只看模型参数量,DeepSeek 的版本演进像常规扩张;真正有信息量的是配置沿八条子轴的迁移。tokenizer 从 LLM/V2 的 100K 级 BBPE,到 Coder-V2 的 128K,再到 V3 的 129280 byte-level BPE,方向是用更细的 byte-level 表达统一多语言与代码的 token 粒度 [1][6][7]。数据体量从 2T、4.8T、8.1T 到 14.8T,变化不止 token 增长,还包括代码、数学、通用文本 mixture 的重排 [1][5][7]。attention 从 MHA 到 MLA,表明 DeepSeek 优先压缩 KV cache,再考虑更激进的 sequence 稀疏;这不同于 Mistral 7B [32] 的 GQA + sliding window 路线。MoE 拓扑从无稀疏,到 64 routed + 2 shared,再到 160 routed × 2 shared,最后到 256 routed + 1 shared [2][5][7]。关键点是 shared expert 数量没有单调增加,说明 shared 不是越多越稳。负载均衡从 V2 的 aux-loss + device-level 约束,转为 V3 以 bias 更新为主、sequence-level loss 兜底 [5][7]。pipeline 也从常规 1F1B 转向 DualPipe,目标不是理论最优,而是尽量重叠通信和计算 [7]。合在一起看,模式很清楚:DeepSeek 更偏好先把系统瓶颈写成结构性默认值,而不是后期再用 patch 修补。
| 版本 | attention / KV | MoE 拓扑 | 数据与 tokenizer | 后训练 |
|---|---|---|---|---|
| LLM | MHA;常规 KV | dense | 2T;100K BBPE | SFT + DPO |
| DeepSeekMoE | MHA | 64 routed + 2 shared | 4.8T 级 mixture | 预训练结构转折 |
| V2 / Coder-V2 | MLA;128K context | 160 routed × 2 shared | 8.1T;128K vocab(Coder-V2) | GRPO 前夜 |
| V3 | MLA;更激进 KV 压缩 | 256 routed + 1 shared | 14.8T;129280 byte-level BPE | aux-loss-free + MTP |
| R1 / V3.1 | 沿用 base;重点转向推理行为 | 沿用主干 | 沿用 V3 系列 | GRPO / hybrid thinking |
| V4 Pro / Flash | CSA/HCA + SWA;1M context;异构 KV cache | Pro 1.6T/49B active;Flash 284B/13B active | 32T+;V3-family 数据账本扩展 | specialists → full-vocab OPD;三档 effort |
§3 Tokenizer 与数据组织:被低估的杠杆
如果只把 DeepSeek 看成架构演化线,tokenizer 与数据组织最容易被略过。但这两条子轴的连续改动与 MLA、MoE 同等关键,只是没有一篇“代表作”单独承载信号。tokenizer 的链条很清楚:DeepSeek-LLM [1] 以 GPT-2 风格的 100K BBPE 起步;DeepSeek-Coder [4] 反而采用更小的 32K 词表,因为代码 token 分布不同于自然语言——重复关键字 / 标识符更多,过大词表会稀释 embedding。V2 [5] 将 vocab 微调到 102.4K,主要为多语言扩展腾位置。Coder-V2 [6] 跳到 128K,纳入更多编程语言关键字、Unicode CJK 块和数学符号。V3 [7] 最后落到 129280,并明确写成 byte-level BPE:所有字符先由 byte 兜底覆盖,再叠加 BPE merge;因此任何 OOV token 都能无损 fallback 到 byte 序列,不触发 unk。总体方向是统一:把多语言文本、代码语法和数学符号的 token 粒度收敛到更细的 byte-level 表达,而不是继续塞入更多英文词。
数据组织的影响更大。DeepSeek-Coder [4] 引入两件后续谱系持续受益的做法:第一是 repo-level 拼接——按依赖图将同 repo 文件依 import / include 排序并拼成长文档,让模型在真实跨文件依赖中学习;第二是 FIM 训练——把样本切成 (suffix, prefix, middle),再重排为 ‘<suffix><prefix><PRE><middle><EOS>’,迫使模型学习 fill-in-the-middle,而不只是左到右续写。到 Coder-V2 [6],这演变为更成熟的混合 corpus 策略:60% code、10% math、30% general,并叠加从 V2 base 的 continual pretrain。V3 [7] 继续上调代码与数学比例,同时显著降低 FIM rate,并加强文档级 dedup、toxicity / quality 过滤。业内反复对照的经验是:当模型规模足够大时,更多 FIM 不再提升自由生成,反而可能压缩通用语言能力;这与 Bavarian et al. [44] 对 FIM rate 的建议方向一致。整个谱系中,数据规模从 2T → 14.8T 并非线性堆量;每次跃升都伴随 mixture 重排(图 2、表 §3)。这也正是 RefinedWeb [12]、Dolma [11]、DsDm [13] 三条平行证据反复挑战的问题:mixture 重组到底贡献多少,透明大语料 + 模型感知选择又能补回多少。
| 版本 | vocab | tokenizer 形态 | 训练 token | mixture 重点 |
|---|---|---|---|---|
| DeepSeek-LLM | 100,256 | BBPE(GPT-2 系),含 byte fallback | 2T | 中英为主,code 占比小,dedup + perplexity 过滤 |
| DeepSeek-Coder | 32,000 | code-专用 BBPE(87 PL) | 2T(87% code) | repo-level FIM + 依赖图拼接 |
| DeepSeekMath | 100,256 | 继承 LLM tokenizer | 120B 数学专属 + 通用复用 | Common Crawl 数学过滤 → DeepSeekMath Corpus |
| DeepSeek-V2 | 102,400 | 重训 BBPE,多语扩展 | 8.1T | 中英扩到更多语言;上调代码 / 数学比例 |
| Coder-V2 | 128,000 | 扩展 V2 tokenizer,吸纳 PL keyword | 10.2T(持续预训) | 60% code · 10% math · 30% general |
| DeepSeek-V3 | 129,280 | byte-level BPE(多语+代码+数学统一) | 14.8T | 代码/数学进一步上调;FIM rate 调低;filter 流程更严 |
tokenizer 不是“词表大小”问题,是“多语 + 代码 + 数学如何在一张 byte-level grid 上对齐”问题;数据组织也不是“多喂多少”问题,是“样本边界画在哪”问题。
§4 MLA 与 fine-grained MoE 不是普适胜利,它们各有临界区
V2 [5] 之后,很多讨论把 MLA 称为“GQA 的下一代”。这只覆盖部分运行区间。MLA 的优势在于把 KV cache 压缩到更小的 latent 表示,因此长上下文 decode 的收益最明显;但收益并非免费,额外投影与重构会增加 attention 侧计算,所以在 batch 很大、上下文较短、prefill 主导成本的区间,优势会收窄,甚至贴近 GQA 的成本曲线 [5][32]。因此,MLA 更适合作为长上下文、内存受限推理的默认选择,而不是所有部署场景的无脑替换。MoE 侧同理。DeepSeekMoE [2] 的关键洞察不是专家越多越好,而是将专家切细后保留少量 shared expert 作为公共通道,从而同时维持 specialization 与稳定性。V2 [5] 和 V3 [7] 延续了这个方向,但 shared expert 从 2 个减到 1 个,说明系统在更大规模下没有继续提高共享比例。对照来看,Mixtral [16] 代表较粗粒度、无 shared expert 的传统路线;Lu et al. [14] 则指出 many-expert 设计中的专家贡献高度不均,部分专家可以被裁剪或跳过。更稳妥的结论是:fine-grained MoE + 1–2 个 shared expert 是当前公开证据支持的安全区;继续加 shared,会向 dense 退化;继续加 routed expert,则必须同步监控专家利用率,否则参数账面增长会快于有效容量增长。
MLA 解决的是 KV 内存,fine-grained MoE 解决的是激活成本;两者都不是“任何 regime 都更优”的通用答案。
§5 V3 工程账本:四件“看上去 free”的设计与它们的真实代价
V3 [7] 的工程账本里,四件事最容易被误读为“免费午餐”:aux-loss-free balancing、FP8 per-block、DualPipe、Multi-Token Prediction。放在一起看,模式很清楚:复杂度没有消失,只是在目标函数、数值精度、pipeline schedule、decoding 端之间转移。
Aux-loss-free [7](图 6)的表面叙事是:把 router 平衡损失从 LM loss 中拿走,模型不再被两个目标拉扯。实际机制是给每个专家配一个可学习偏置 ,并按 batch 内负载偏离量直接更新——均衡压力从“可微目标”变成“一阶 SGD 控制器”。代价是训练动力学更依赖学习率、γ 控制系数、batch 配置;好处是 LM loss 更干净,专家分布更稳定。一条轻量 sequence-level balance loss 仍保留作兜底,说明 DeepSeek 自己也不把 bias-only 视为无条件充分。
FP8 per-block [7][15](图 7)的关键不是“切到 FP8”,而是哪些算子允许切。V3 公开的算子级白名单大致是:高吞吐 GEMM(attention QKVO + FFN + MoE expert FFN + dispatch/combine all-to-all)走 FP8(前向 E4M3、反向 E5M2),尺度细到 (1×128) per-token tile / (128×128) per-block;累加先在 tensor-core 寄存器里 FP32,再每 Nc=4 拍提升一次到 FP32 累加,以缓解 E4M3 的指数下溢;embedding / output head / RMSNorm / softmax / RoPE / router gate / MTP head / loss reduction 全部留 BF16,master weights 与 Adam 一阶/二阶矩留 FP32。换句话说,FP8 不是“全局打开”,而是“算子级开关 + 白名单”。同样的 FP8-LM [15] 路径在更小模型上未必划算,复杂度与稳定性成本可能超过 GEMM 吞吐节省。
DualPipe [7] 是 pipeline 调度上的工程改进:在常规 1F1B 之外,交替排布 micro-batch 的前向 / 反向阶段,让通信(all-to-all、reduce-scatter)尽量与计算(GEMM、激活)重叠。论文没有完整给出边界条件;公开提示是,当 expert-parallel 通信占 step time 比例变高时收益最明显。在通信不是瓶颈的更小规模或纯 dense 训练里,DualPipe 额外引入的实现成本(micro-batch 配对、bubble 计费、debug 流程)很可能不值。
Multi-Token Prediction [7] 把 next-token 预测扩展到 next-1..N-token:在每个位置加一个轻量 MTP head,用相同的 hidden state 预测之后第 i 个 token。训练时,它把 token 级监督信号提高到 N 倍;推理时,可以关掉 MTP 头退化为标准自回归,也可以把它送入 speculative decoding,由主 head 负责验证。这是少见的“pretrain 数据效率 + 推理 speculative decoding”同时受益的设计,但它假设服务端能正确处理 MTP-augmented KV cache,而这条 serving 协议在公开文档里仍偏薄。
综合起来,V3 给后来者的真正提示不是“照搬这四件事”,而是“先做好分级”。每件事的收益曲线都不在小规模上启动;团队应先评估通信压力、显存约束、router 行为诊断能力、serving 端能力,再决定打开哪些开关。
| 设计 | 表面收益 | 复杂度搬到哪 | 适用规模 |
|---|---|---|---|
| aux-loss-free balancing | 把 router balance 信号从 LM loss 拽出去,不再扰动语言建模 | per-expert bias 滑动更新;动力学更难复现;一条轻量 sequence-level 项兜底 | ≥100B 总参 MoE,多机训练;小规模复用反而过度工程化 |
| FP8 per-block | GEMM 吞吐 ≈ 2× BF16;显存占用降一半 | 算子级白名单(图 7);BF16 partial-sum + Nc=4 promotion;embedding/output head 必留 BF16 | trillion-token + 多机长跑;短跑或小模型 BF16 更稳 |
| DualPipe | 前向/反向交替调度,让通信与计算尽量重叠 | 实现复杂度高(micro-batch 重叠、bubble 计费);对 expert-parallel 通信比例敏感 | expert / pipeline parallel 都被推到极限的场景 |
| Multi-Token Prediction (MTP) | 训练时每 token 同时预测下 1–N 个 token,提升数据效率与 speculative-decoding 兼容性 | 多一个 (或多个) 轻量 head;推理可关;和 KV cache / serving stack 需要协调 | 希望同时享受 pretrain 数据效率 + 推理 speculative decoding 的部署 |
V3 真正的工程信号不是“多了四个新技巧”,而是“四个开关在不同规模、不同瓶颈下分别什么时候值得打开”。
§6 V4:1M context 不是把 MLA 再拉长,而是重写 attention 与 KV 合约
V4 [10] 最重要的结论不是“又一个更大的 MoE”,而是长上下文瓶颈从单一 attention 算子变成 attention、KV cache、serving kernel、post-training rollout 的联合问题。V4-Pro 是 1.6T 总参、49B 激活;V4-Flash 是 284B 总参、13B 激活;两者都支持 1M context,并保留 DeepSeekMoE 与 MTP。真正的结构变化在 attention:CSA 先把每 m 个 token 的 KV 压成一个 compressed entry,再用 lightning indexer 选择 top-k compressed blocks 做稀疏 attention;HCA 用更大的压缩率 m′ 做极重压缩,但不再走 sparse selection;两者都叠加 sliding-window branch,补回局部细粒度依赖。这个设计承认一个事实:到 1M token 时,只靠 latent KV 压缩还不够,模型必须同时保留局部窗口、压缩全局记忆和可索引的稀疏远程证据。
代价也更明确。CSA/HCA 让每层 KV 形态不再统一,PagedAttention 的固定 block 假设被打破;V4 因此引入异构 KV cache:SWA 与尚未压缩的 tail states 作为 state cache 管,CSA/HCA compressed entries 作为 classical KV cache 管,并用 lcm(m, m′) 对齐 block。报告还把 on-disk KV cache 写进 serving 路径:共享 prefix 命中时直接复用 compressed KV,SWA KV 体量约为 compressed cache 的 8 倍,因此需要单独管理。这里的科学结论是:V4 的 27% single-token FLOPs 与 10% KV cache(相对 V3.2,1M context)不是一个 attention trick 的收益,而是 attention 结构、cache layout、kernel alignment、低精度存储共同闭环的结果。
V4 的训练与后训练同样不是孤立模块。mHC 替代传统 residual connection 的一部分角色,用 manifold-constrained hyper-connections 试图提高深层信号传播稳定性;Muon 负责大多数模块,embedding、prediction head、mHC bias/gating 与 RMSNorm 仍保留 AdamW,说明优化器切换也是算子/模块级白名单,而不是全局替换。预训练 token 增至 32T+。后训练先训练多个 domain specialist,再用 multi-teacher on-policy distillation 合入统一模型;OPD 使用学生自身轨迹上的 reverse KL,并在工程上做 full-vocabulary logit distillation。Quick Instruction 则把 search/action/title/query 等辅助任务改成特殊 token,复用已有 KV cache,避免再跑一个小模型做重复 prefill。V4 因此把 DeepSeek 谱系从“训练一个强 base + reasoning fork”推进到“base、长上下文 serving、specialist 合并、产品辅助任务共用一套 KV 账本”。
| 部件 | 直接作用 | 主要代价 |
|---|---|---|
| CSA | 先压缩 KV,再 top-k 选择 compressed blocks 做稀疏 attention | 需要 lightning indexer、稀疏 kernel 与 block 对齐 |
| HCA | 用更大压缩率保存全局记忆,不走 sparse selection | 远程细节被压缩,依赖 SWA/CSA 补局部与选择性远程证据 |
| SWA branch | 保留最近 nwin token 的未压缩局部依赖 | KV 体量大,必须和 compressed cache 分开管理 |
| 异构 KV cache | 把 CSA/HCA compressed KV、SWA KV、tail states 分层管理 | 打破 PagedAttention 式统一 block 假设,serving kernel 更复杂 |
| on-disk prefix KV | 共享 prefix 命中时复用 compressed KV,减少重复 prefill | incomplete compression block 与 SWA state 仍需特殊恢复逻辑 |
V4 的长上下文收益来自 attention、cache、kernel、低精度与后训练轨迹的一起重写;只复刻 CSA 或 HCA,拿不到同一条成本曲线。
§7 V3 → R1 → V3.1:复杂度从 pretrain 移到训练动力学与后训练
V3 [7] 最容易被低估的,是它把若干“看上去 free”的设计固化为工程默认值。aux-loss-free balancing 的表层结论很简单:把 router balance 信号从主 loss 中移出,减少对语言建模目标的干扰。实际机制是,平衡压力转入 per-expert bias 的滑动更新,再用一个轻量 sequence-level 项兜底;loss 更干净,训练动力学也更难复现 [7]。FP8 也是同一逻辑。FP8-LM [15] 已经说明 FP8 训练可行,但 V3 [7] 把它推进到 671B MoE,依赖更细的 per-block scaling、BF16 accumulation,以及部分关键 GEMM 回退 BF16。换句话说,低精度不是“全局切换”,而是算子级白名单。R1 [8] 则把复杂度继续搬到 post-training。DeepSeekMath [3] 用 GRPO 去掉 critic,降低 PPO 式 RL 的部分系统负担;R1-Zero [8] 证明纯 RL 能先撞出 reasoning 行为,但也暴露语言风格、可读性和稳定性问题,因此 R1 [8] 又引入 cold-start 与多阶段 RL。这里的关键信号不是“纯 RL 已经足够”,而是“纯 RL 可以作为起点,但产品级模型仍需要额外约束”。Math-Shepherd [21] 和 Lightman et al. [17] 代表另一条路线:把奖励细化到步骤级,缓解 outcome-only reward 的稀疏性。V3.1 [9] 再给出第三种答案:不把所有用户都送进长思考链,而是在同一 base 上提供 thinking / non-thinking 两种模式。更务实的理解是,DeepSeek 在 2025 年给出的不是单一后训练范式,而是三种并行答案:纯 RL 起步、cold-start 修正、以及 hybrid thinking 产品化。
时间线
- DeepSeek LLM 给出 dense 起点、2T token 与 100K BBPE[1]
- DeepSeekMoE 引入 fine-grained routed expert + shared expert[2]
- DeepSeekMath 提出 GRPO,先在数学域验证 RL-first[3]
- V2 把 MLA 与 DeepSeekMoE 绑定成主干[5]
- Coder-V2 证明 V2 主干可迁移到代码域并扩大 vocab[6]
- V3 把 FP8、DualPipe、aux-loss-free、MTP 写成工程账本[7]
- R1-Zero / R1 把 GRPO 从数学扩到通用推理[8]
- V3.1 把 thinking / non-thinking 合并到同一产品面[9]
- V4 发布 1M-context Pro/Flash 技术报告,主轴转向 CSA/HCA hybrid attention 与异构 KV cache[10]
研究立场对比
阵营 A:MLA 或 V4 hybrid attention 会成为 GQA 的通用替代
立场 — 支持者会指出,MLA 在长上下文下把 KV cache 压到传统 attention 的一个小分数,V2 [5] 与 V3 [7] 都把它作为主干;V4 [10] 又给出 CSA/HCA + SWA 的 million-token 路线,说明 DeepSeek 的注意力设计已经把 KV 成本当成第一等约束。
反方 — 反方会拿 GQA 路线作对照:Mistral 7B [32] 说明更简单的 KV 共享在很多短上下文、高 batch 场景已经足够;V4 自己也构成反证,因为它没有把 MLA 继续外推到 1M context,而是改成 compressed + sparse + local window + cache layout 的组合。
判词 — 一条更稳的读法是:MLA 是 32K–128K 长上下文、KV 受限推理的强默认值;到 1M context,问题升级为 hybrid attention + cache system;短上下文高 batch 场景仍然先把 GQA 做扎实。
阵营 B:many-expert + shared expert 是 MoE 的稳定终局
立场 — 支持者会强调,DeepSeekMoE [2]、V2 [5]、V3 [7] 连续三代都沿着更细专家与少量 shared expert 演进,说明这条路在大规模训练里是可持续的。
反方 — 反方会指出两点:Mixtral [16] 用较粗粒度专家也能给出强结果;Lu et al. [14] 进一步表明专家利用率高度不均,many-expert 设计并不自动等于更高有效容量。这里是在反驳“专家越多越稳”这条隐含前提。
判词 — 结论层面的建议是:把 fine-grained MoE + 1–2 个 shared expert 当作当前安全默认值,但不要把专家数当成单调优化轴。超过这个区间后,先做利用率诊断、裁剪模拟和 shared 比例扫描,再决定是否继续加专家。
阵营 C:数据质量主要靠 curated mixture,而不是透明大语料或模型感知选择
立场 — 支持者会说,DeepSeek LLM [1]、DeepSeek-Coder [4]、V2 [5]、V3 [7] 的连续提升,说明手工设计的 mixture、代码/数学上采样和任务导向数据组织仍然是主导杠杆。
反方 — 反方来自三类证据:RefinedWeb [12] 认为高质量 web-only 数据可打平 curated corpora;Dolma [11] 认为透明数据账本本身是关键变量;DsDm [13] 则认为模型感知选择能超过人工质量启发式。这是在修正“人工 mixture 一定更优”的默认想法。
判词 — 一个更务实的定位是:DeepSeek 证明了 mixture 重组有效,但没有证明它是唯一最优路径。若团队缺少大规模数据治理能力,先做透明数据账本与小规模 model-aware selection,再决定是否投入复杂 mixture 工程。
阵营 D:reasoning 的主路已经从 SFT/RLHF 转向 RL-first
立场 — 支持者会拿 DeepSeekMath [3] 与 R1 [8] 作证据:GRPO 去掉 critic 后,纯 RL 或 RL-first 路线可以在数学与通用推理上直接拉起能力,再通过蒸馏回流到 dense 学生模型。
反方 — 反方会指出,过程监督与传统对齐并没有失效。Lightman et al. [17]、Math-Shepherd [21]、Bai et al. [33] 说明 step-level supervision、reward modeling 与 RLHF 仍然能提供更稳定、更可控的行为约束,尤其在 reward 稀疏时更稳。这是在反驳“纯 RL 已经足够”这条过度外推。
判词 — 结论层面的建议是:把 RL-first 当成 reasoning 提升的强工具,而不是唯一主路。reward 稠密、可自动验证的任务优先用 GRPO;reward 稀疏、格式噪声大的任务,保留 process supervision 或 cold-start SFT 更稳。
实践要点
可操作清单:
1. 先把版本树画出来,再决定复刻哪一版。若目标是 10B–100B 级开源复现,优先复刻 V2 的“MLA + fine-grained MoE + 1–2 shared expert”组合,不要直接跳到 V3 全套;V3 [7] 的 FP8、DualPipe、aux-loss-free 只有在更大规模和更高通信压力下才值得一起上。
2. MLA 只在 32K–128K 长上下文、decode 受 KV 限制时优先级最高。若主流请求长度长期低于 16K,先把 GQA 路线做扎实;若目标是 1M context,不要把 MLA 线性外推,直接评估 V4 [10] 这种 CSA/HCA + SWA + 异构 KV cache 的系统方案。
3. MoE 拓扑先扫 shared expert 数量,再扫 routed expert 数量。推荐从 1–2 个 shared 开始,shared 占比再高就要警惕向 dense 退化;继续加 routed expert 前,先做专家利用率统计与裁剪模拟 [2][14]。
4. 不要把 aux-loss-free 当成“删掉一个 loss 项”这么简单。若没有足够好的训练监控,宁可保留轻量 balance loss,也不要盲上 bias-only 更新;V3 [7] 的做法更像高阶调参方案,而不是小团队默认值。
5. FP8/FP4 采用算子级白名单,不要全局切换。V3 的 FP8 训练与 V4 的 FP4 rollout 都说明同一条原则:embedding、head、norm、关键状态留高精度,只有吞吐主导路径逐步下沉低精度 [7][10]。
6. 数据工程先做透明账本,再做 mixture 微调。若没有公开可审计的数据记录,很多“数据配方有效”都无法复核;Dolma [11] 与 OLMo [22] 给出的教训比单纯再加 2T token 更实用。
7. reasoning 训练按 reward 稠密度分流。数学、代码、可自动验证任务优先试 GRPO [3][8];开放式对话或 reward 稀疏任务,保留 process supervision、PRM 或 RLHF 约束 [21][17][33]。
8. 若产品需要同时覆盖快问快答与长思考,不要默认训练两套完全独立模型。先评估 V3.1 [9] 这种 hybrid thinking 形态;只有当安全、延迟或 KV 行为冲突明显时,再考虑拆成 R1 式纯思考模型与普通 chat 模型两条线。
9. 若产品要做 million-token agent / search / long-document work,不要只问模型能不能收 1M token。先核对 KV cache layout、on-disk prefix reuse、SWA state、rollout WAL、sandbox 与 Quick Instruction 这些 serving/post-training 设施;V4 的成本曲线依赖这些系统件一起成立 [10]。
悬而未决的问题
- Q1.MLA 相对 GQA 的临界点仍缺少统一公开基准,尤其是 prefill / decode 在不同 batch × context 网格下的直接对照。现有证据主要来自 V2 [5] 与 GQA 路线代表 Mistral 7B [32],还缺一组同硬件、同实现风格的 controlled experiment。
- Q2.MoE 负载均衡的公开证据仍偏薄。V3 [7] 给出 aux-loss-free 的主张,但缺少与经典 aux-loss、bias-based、sequence-level balancing 的系统对照,尤其缺少跨规模复现实验。
- Q3.DualPipe 的收益边界还不清楚:在什么通信占比、pipeline 深度、expert parallel 组合下,它的 schedule 复杂度才值得。当前主要证据来自 V3 [7] 的主报告,缺少独立复现与反例。
- Q4.V3.1 的 hybrid thinking 公开细节不足,尤其是 thinking / non-thinking 是否完全共享权重、是否存在模式特定 adapter、以及两种模式的 KV 行为如何隔离。现阶段只能依据发布说明 [9] 做产品层推断。
- Q5.V4 的 CSA/HCA、SWA、异构 KV cache 与 on-disk prefix reuse 缺少拆分消融。公开报告给出了相对 V3.2 的 1M-context 成本曲线,但还不能判断收益分别来自压缩率、稀疏 top-k、sliding-window branch、低精度存储还是 cache layout [10]。
- Q6.mHC 与 Muon 的独立贡献仍不清楚。V4 同时改变 residual 连接、优化器、低精度、attention 和后训练,如果没有 same-data/same-compute 消融,很难判断 mHC 是稳定性主因,还是与 Muon、32T+ 数据和模型规模共振 [10]。
- Q7.DeepSeek tokenizer 的直接设计说明仍不够完整。可以从 LLM [1]、Coder-V2 [6]、V3 [7] 推出 vocab 演进,但缺少一篇专门讨论“大 byte-level vocab 是否优于更小词表”的直接反方论文。
- [1]DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv, 2024论文
- [2]Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. ACL, 2024论文
- [3]DeepSeek-AI. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
- [4]Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang. DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence. arXiv, 2024论文
- [5]DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024论文
- [6]DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv, 2024论文
- [7]DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu. DeepSeek-V3 Technical Report. arXiv, 2024论文
- [8]DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
- [9]
- [10]DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. Hugging Face, 2026
- [11]Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson. Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research. arXiv, 2024论文
- [12]Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. NeurIPS Datasets and Benchmarks, 2023论文
- [13]Logan Engstrom, Axel Feldmann, Aleksander Madry. DsDm: Model-Aware Dataset Selection with Datamodels. arXiv, 2024论文
- [14]Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang. Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models. arXiv, 2024论文
- [15]Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang. FP8-LM: Training FP8 Large Language Models. arXiv, 2023论文
- [16]Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary. Mixtral of Experts. arXiv, 2024论文
- [17]Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
- [18]
- [19]Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
- [20]Alon Albalak, Liangming Pan, Colin Raffel, William Yang Wang. Efficient Online Data Mixing For Language Model Pre-Training. arXiv, 2023论文
- [21]Peiyi Wang, Lei Li, Zhihong Shao, R. X. Xu, Damai Dai. Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL Findings, 2023论文
- [22]Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
- [23]Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
- [24]Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier. StarCoder 2 and The Stack v2: The Next Generation. arXiv, 2024论文
- [25]Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
- [26]Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
- [27]BigScience Workshop, Teven Le Scao, Angela Fan, Christopher Akiki. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv, 2022论文
- [28]Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov. StarCoder: may the source be with you!. TMLR, 2023论文
- [29]Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv, 2023论文
- [30]Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv, 2023论文
- [31]Peiyi Wang, Lei Li, Liang Chen, Feifan Song, Binghuai Lin. Making Large Language Models Better Reasoners with Alignment. arXiv, 2023论文
- [32]Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot. Mistral 7B. arXiv, 2023论文
- [33]Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
- [34]Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
- [35]Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct. arXiv, 2023论文
- [36]Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. ICLR, 2024论文
- [37]Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu. MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models. ICLR, 2024论文
- [38]Aiden Grossman, Ludger Paehler, Konstantinos Parasyris, Tal Ben-Nun, Jacob Hegna. ComPile: A Large IR Dataset from Production Sources. arXiv, 2023论文
- [39]Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Zhiqiang Hu. SeaLLMs -- Large Language Models for Southeast Asia. arXiv, 2023论文
- [40]Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza. Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model. arXiv, 2024论文
- [41]Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna. Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus. COLING, 2020论文
- [42]Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
- [43]Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
- [44]Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey. Efficient Training of Language Models to Fill in the Middle. arXiv, 2022论文
- [45]Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li. Source Code Data Augmentation for Deep Learning: A Survey. arXiv, 2023论文
- [46]Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks. TMLR, 2023论文
- [47]Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang. ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving. ICLR, 2024论文
- [48]Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He. UltraFeedback: Boosting Language Models with Scaled AI Feedback. arXiv, 2023论文
- [49]Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva. FinGPT: Large Generative Models for a Small Language. arXiv, 2023论文
- [50]Angela Fan, Beliz Gokkaya, Mark Harman, Mitya Lyubarskiy, Shubho Sengupta. Large Language Models for Software Engineering: Survey and Open Problems. arXiv, 2023论文