📚Papers

DeepSeek 谱系工程考古:从 dense 到混合思考的版本演进

把 DeepSeek 读成一条版本谱系,比把 V3 或 R1 当成单篇热点更接近工程事实。

17 篇论文·2026年4月27日

作者@Thor·gpt-5.4

44 篇扩展证据(反证 5 · 拓展 39)·知识聚类 7·悬问 5

领域综述

DeepSeek 这条线的可贵之处,不在于某一版单点领先,而在于它把 2024–2026 开源 LLM 工程里最难复现的几类决策,连续写成了可核对的版本账本:早期 dense 模型给出自家 scaling 与 2T token 数据组织,DeepSeekMoE 把 fine-grained routed expert 加 shared expert 做成稳定默认值,V2 用 MLA 把长上下文推理的 KV 成本压下去,V3 再把 671B MoE 的训练栈、FP8、DualPipe、aux-loss-free balancing 和 MTP 一次性写清,R1 把 GRPO 从数学推到通用推理,V3.1 把 thinking / non-thinking 变成同一产品面的两种运行模式。V4 的意义不只是参数继续变大,而是承认 1M-token 场景下 MLA 已不足以单独定义 attention 答案:Pro/Flash 两个 MoE 版本分别落在 1.6T/49B active 与 284B/13B active,核心改动转向 CSA/HCA + sliding-window 的 hybrid attention、异构 KV cache、mHC、Muon、FP4/FP8 推理与全词表 OPD。把这些版本拆开读,很容易把结论误读成“某个技巧带来提升”;连起来读,才看得见每次版本跳变都伴随一组联动取舍:tokenizer 粒度、数据 mixture、attention 记忆占用、MoE 专家粒度、router 平衡信号、并行调度、数值精度、后训练配方。工程上最有用的读法不是追问“哪一版最强”,而是识别:哪些配置在 10B、100B、600B、trillion-param 四个量级都稳;哪些只在长上下文或高通信压力下成立;哪些看上去 free,实际把复杂度转移到了训练动力学、serving kernel 和复现成本上。

TL;DR

一条更稳的读法是:DeepSeek 的主线不是“每版都换一个新技巧”,而是沿着八条工程子轴做联动重构。LLM 给出 dense 起点与 2T token 数据账本;DeepSeekMoE 把 fine-grained routed expert + shared expert 变成默认拓扑;V2 用 MLA 把长上下文的 KV cache 压到传统 MHA 的一个小分数,并把 160 routed × 2 shared 的 MoE 主干做成可量产配置;V3 再把 671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP 和 129280 byte-level BPE 一次性写清;R1 把 GRPO 从数学域推广到通用推理;V3.1 把 thinking / non-thinking 合并到同一产品面;V4 则把问题推进到 1M context:Pro/Flash 两档模型共享 CSA/HCA + sliding-window hybrid attention、mHC、Muon、32T+ pretrain、FP4/FP8 推理与 specialist → OPD 后训练。真正可复用的结论有三条:第一,MLA、fine-grained MoE、shared expert、FP8 per-block、CSA/HCA 这些设计不是独立插件,只有在数据组织、并行调度、KV cache layout 和数值回退一起设计时才稳定;第二,DeepSeek 真正新的是若干组合式工程默认值,而不是每个部件都首创;第三,谱系里也有明显边界:大 batch 短上下文时 MLA 相对 GQA 的收益缩小,1M context 又迫使 attention 从“KV latent 压缩”升级到“压缩 + 稀疏 + 本地窗口 + cache 管理”合体,many-expert 设计会遇到专家利用率不均,aux-loss-free 和 mHC/Muon 都把复杂度转移到了训练动力学与复现成本上。

核心断言

#1V2 到 V3 的核心增益不是单独来自 MLA 或 MoE,而是“MLA + fine-grained MoE + shared expert + 更激进训练栈”这一组联动;把其中任一项孤立复刻,通常拿不到同等成本曲线 [5][7][2]
#2MLA 不是无条件替代 GQA:在长上下文、decode 受 KV 限制的区间更划算;在 batch 较大、上下文较短时,额外投影与 latent 路径会吃掉一部分收益 [5][32]
#3V4 给 MLA 讨论加了一个新的临界点:到 1M context 时,核心问题不再是“latent KV 能压多少”,而是 CSA/HCA 压缩、稀疏选择、sliding-window 本地分支、异构 KV cache 与 on-disk prefix reuse 能否一起闭环;报告给出的对照是 V4-Pro 在 1M context 单 token FLOPs 约为 V3.2 的 27%,KV cache 约为 10% [10]
#4DeepSeekMoE 的稳态默认值更接近“更细专家 + 1–2 个 shared expert”,而不是盲目增加 shared 比例;shared 过多会向 dense 退化,shared 过少则更容易出现训练不稳与泛化回撤 [2][5][7]
#5aux-loss-free balancing 并不是真的 free:它减少了对语言建模 loss 的直接扰动,但把一部分复杂度转移到 bias 更新、sequence-level 兜底项和更难复现的训练动力学上 [7]
#6R1 的新意不在“RL 比 SFT 更强”这句口号,而在于给出一条可执行的 RL-first 流水线:DeepSeekMath 的 GRPO 去掉 critic,R1-Zero 证明纯 RL 可起步,R1 再用 cold-start 与多阶段 RL 修正可读性与稳定性 [3][8]
#7tokenizer 从 100K BBPE → 102.4K → 128K → 129280 byte-level BPE 不是为了塞更多英文词,而是把多语 + 代码 + 数学的 token 粒度统一到更细的 byte-level 表达;DeepSeek-Coder 反向选了 32K 小词表则进一步说明 vocab size 不是单调优化轴 [1][4][6][7]
#8训练 token 从 2T → 8.1T → 14.8T 不是线性堆量;每次跳跃都伴随 mixture 重排(代码 / 数学比例上调、FIM rate 下调、文档级 dedup 与 quality 过滤加严),这是 DeepSeek 数据账本里被低估的杠杆 [5][6][7][44]
#9V3 的 FP8 per-block 不是“全局切换”,而是算子级白名单:高吞吐 GEMM 走 E4M3/E5M2 + (1×128) tile / (128×128) block scaling,accumulation 用 BF16 partial-sum + Nc=4 promote;embedding、output head、RMSNorm、softmax、router gate、MTP head 必须留 BF16,master weights 与 optimizer state 留 FP32 [7][15]

§1 先看版本树:每次跳版都在换一组默认值

DeepSeek 这条线最容易被误读的地方,是把 V2、V3、R1、V4 当成相互独立的“热点论文”。更接近事实的结构是:DeepSeek LLM [1] 先给出 dense 起点,包括 100K BBPE、2T token mixture、以及 SFT+DPO 的早期对齐配方;DeepSeek-Coder [4] 同期将 repo-level 数据组织、依赖图拼接与 FIM 训练工程化,说明数据轴从一开始就不是简单加量。随后 DeepSeekMoE [2] 引入 fine-grained routed expert 与 shared expert,把 MoE 问题从“要不要稀疏”改写为“专家切多细、公共通道留多少”。V2 [5] 再把这套 MoE 与 MLA 绑定,形成 236B 总参、21B 激活、128K context 的主干;其意义不只是省 KV,而是把长上下文推理、推理成本和 MoE 激活成本放到同一张账上。V3 [7] 没有推翻 V2,而是补齐训练栈:671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP、129280 byte-level BPE。R1 [8] 把变化重心从 pretrain 架构转向 post-training,沿着 DeepSeekMath [3] 的 GRPO 路线,把 reasoning 作为 RL 目标优化。V3.1 [9] 把 thinking / non-thinking 合并到同一产品面。V4 [10] 再把主轴拉回 architecture + serving:它保留 DeepSeekMoE 与 MTP,但用 CSA/HCA + sliding-window hybrid attention、mHC、Muon 和异构 KV cache 去支撑 1M context。更务实的定位是:这不是几篇彼此无关的论文,而是一条从 dense 基线、到稀疏主干、到训练栈、到后训练分叉、再到 million-token serving 的连续工程谱系。

denseMoERLpost-train forkforkforkfork+MLA · scale-upbackbone transfer+FP8 · MTP · aux-loss-freeGRPO exportpure RLhybrid thinking+cold-start, RLHF tailDeepSeek-LLM 67BJan 2024 · dense · 100K BBPE · 2TDeepSeek-CoderJan 2024 · repo-FIM · 2TDeepSeekMoE 16BJan 2024 · 64 routed + 2 sharedDeepSeekMath 7BFeb 2024 · GRPO originDeepSeek-Coder-V2Jun 2024 · 128K vocab · MoEDeepSeek-V2 236BMay 2024 · MLA · 8.1T · 160×6+2shDeepSeek-V3 671BDec 2024 · 14.8T · FP8 · MTP · aux-freeDeepSeek-R1-ZeroJan 2025 · pure GRPO RLDeepSeek-V3.1Aug 2025 · hybrid thinkingDeepSeek-R1Jan 2025 · cold-start + multi-stage RL→ distill1.5B / 7B / 14B / 32B / 70B dense
图 1. DeepSeek 谱系演化树(实线表示主干继承,虚线表示组件迁移或蒸馏)。三条 dense 起点(LLM / Coder / Math)在 2024 年初同时出生;MoE → V2 → V3 是 pretrain 主轴;R1 系是 post-training 分叉,V3.1 把 thinking / non-thinking 合到同一产品面。
真正稳定的信号不在单篇论文里,而在“哪项设计被下一版继承、哪项被替换、哪项只在特定规模下成立”。

§2 八条工程子轴里,哪些是继承,哪些是替换

如果只看模型参数量,DeepSeek 的版本演进像常规扩张;真正有信息量的是配置沿八条子轴的迁移。tokenizer 从 LLM/V2 的 100K 级 BBPE,到 Coder-V2 的 128K,再到 V3 的 129280 byte-level BPE,方向是用更细的 byte-level 表达统一多语言与代码的 token 粒度 [1][6][7]。数据体量从 2T、4.8T、8.1T 到 14.8T,变化不止 token 增长,还包括代码、数学、通用文本 mixture 的重排 [1][5][7]。attention 从 MHA 到 MLA,表明 DeepSeek 优先压缩 KV cache,再考虑更激进的 sequence 稀疏;这不同于 Mistral 7B [32] 的 GQA + sliding window 路线。MoE 拓扑从无稀疏,到 64 routed + 2 shared,再到 160 routed × 2 shared,最后到 256 routed + 1 shared [2][5][7]。关键点是 shared expert 数量没有单调增加,说明 shared 不是越多越稳。负载均衡从 V2 的 aux-loss + device-level 约束,转为 V3 以 bias 更新为主、sequence-level loss 兜底 [5][7]。pipeline 也从常规 1F1B 转向 DualPipe,目标不是理论最优,而是尽量重叠通信和计算 [7]。合在一起看,模式很清楚:DeepSeek 更偏好先把系统瓶颈写成结构性默认值,而不是后期再用 patch 修补。

版本attention / KVMoE 拓扑数据与 tokenizer后训练
LLM

MHA;常规 KV

dense

2T;100K BBPE

SFT + DPO

DeepSeekMoE

MHA

64 routed + 2 shared

4.8T 级 mixture

预训练结构转折

V2 / Coder-V2

MLA;128K context

160 routed × 2 shared

8.1T;128K vocab(Coder-V2)

GRPO 前夜

V3

MLA;更激进 KV 压缩

256 routed + 1 shared

14.8T;129280 byte-level BPE

aux-loss-free + MTP

R1 / V3.1

沿用 base;重点转向推理行为

沿用主干

沿用 V3 系列

GRPO / hybrid thinking

V4 Pro / Flash

CSA/HCA + SWA;1M context;异构 KV cache

Pro 1.6T/49B active;Flash 284B/13B active

32T+;V3-family 数据账本扩展

specialists → full-vocab OPD;三档 effort

DeepSeek 版本树上的关键配置迁移
DeepSeek-LLM 67B
2100K BBPE
DeepSeek-Coder 33B
2repo-FIM
DeepSeekMoE 16B
2fine-grained MoE
DeepSeek-V2 236B
8.10+MLA
Coder-V2 236B
10.2060% code/math
DeepSeek-V3 671B
14.80FP8 · MTP
DeepSeek-V4 Pro/Flash
321M context
单位:万亿 token
图 2. DeepSeek 谱系训练 token 体量演进。从 LLM 67B 的 2T 到 V3 的 14.8T 不是简单线性堆量——每次跳跃都伴随 mixture 重排(代码 / 数学 / 通用文本占比),见 §3 的 tokenizer 与数据组织表。

§3 Tokenizer 与数据组织:被低估的杠杆

如果只把 DeepSeek 看成架构演化线,tokenizer 与数据组织最容易被略过。但这两条子轴的连续改动与 MLA、MoE 同等关键,只是没有一篇“代表作”单独承载信号。tokenizer 的链条很清楚:DeepSeek-LLM [1] 以 GPT-2 风格的 100K BBPE 起步;DeepSeek-Coder [4] 反而采用更小的 32K 词表,因为代码 token 分布不同于自然语言——重复关键字 / 标识符更多,过大词表会稀释 embedding。V2 [5] 将 vocab 微调到 102.4K,主要为多语言扩展腾位置。Coder-V2 [6] 跳到 128K,纳入更多编程语言关键字、Unicode CJK 块和数学符号。V3 [7] 最后落到 129280,并明确写成 byte-level BPE:所有字符先由 byte 兜底覆盖,再叠加 BPE merge;因此任何 OOV token 都能无损 fallback 到 byte 序列,不触发 unk。总体方向是统一:把多语言文本、代码语法和数学符号的 token 粒度收敛到更细的 byte-level 表达,而不是继续塞入更多英文词。

数据组织的影响更大。DeepSeek-Coder [4] 引入两件后续谱系持续受益的做法:第一是 repo-level 拼接——按依赖图将同 repo 文件依 import / include 排序并拼成长文档,让模型在真实跨文件依赖中学习;第二是 FIM 训练——把样本切成 (suffix, prefix, middle),再重排为 ‘<suffix><prefix><PRE><middle><EOS>’,迫使模型学习 fill-in-the-middle,而不只是左到右续写。到 Coder-V2 [6],这演变为更成熟的混合 corpus 策略:60% code、10% math、30% general,并叠加从 V2 base 的 continual pretrain。V3 [7] 继续上调代码与数学比例,同时显著降低 FIM rate,并加强文档级 dedup、toxicity / quality 过滤。业内反复对照的经验是:当模型规模足够大时,更多 FIM 不再提升自由生成,反而可能压缩通用语言能力;这与 Bavarian et al. [44] 对 FIM rate 的建议方向一致。整个谱系中,数据规模从 2T → 14.8T 并非线性堆量;每次跃升都伴随 mixture 重排(图 2、表 §3)。这也正是 RefinedWeb [12]、Dolma [11]、DsDm [13] 三条平行证据反复挑战的问题:mixture 重组到底贡献多少,透明大语料 + 模型感知选择又能补回多少。

版本vocabtokenizer 形态训练 tokenmixture 重点
DeepSeek-LLM

100,256

BBPE(GPT-2 系),含 byte fallback

2T

中英为主,code 占比小,dedup + perplexity 过滤

DeepSeek-Coder

32,000

code-专用 BBPE(87 PL)

2T(87% code)

repo-level FIM + 依赖图拼接

DeepSeekMath

100,256

继承 LLM tokenizer

120B 数学专属 + 通用复用

Common Crawl 数学过滤 → DeepSeekMath Corpus

DeepSeek-V2

102,400

重训 BBPE,多语扩展

8.1T

中英扩到更多语言;上调代码 / 数学比例

Coder-V2

128,000

扩展 V2 tokenizer,吸纳 PL keyword

10.2T(持续预训)

60% code · 10% math · 30% general

DeepSeek-V3

129,280

byte-level BPE(多语+代码+数学统一)

14.8T

代码/数学进一步上调;FIM rate 调低;filter 流程更严

DeepSeek 谱系 tokenizer 与数据组织演进对照
DeepSeek-LLM
100.26BBPE
DeepSeekMoE
100.26继承
DeepSeek-V2
102.40BBPE
Coder-V2
128+多语言/代码
DeepSeek-V3
129.28byte-level BPE
单位:词表大小(千)
图 3. DeepSeek 词表大小演进。LLM/MoE 阶段沿用 100K-级 BBPE,V2 微调到 102.4K,Coder-V2 因为引入更多语言/编程语言代码扩到 128K,V3 最终落到 129280(byte-level BPE)。词表加大不是为了塞更多英文词,而是把多语言、代码语法、数学符号的 token 粒度统一到更细的 byte-level 表达上。
正在渲染图示…
图 4. DeepSeek-Coder 的 repo-level FIM 数据组织流程:先按依赖图把同 repo 的相关文件按 import/include 关系排序拼接,再以 FIM(fill-in-the-middle)目标在拼好的长文档上随机切窗,构成跨文件长上下文样本。普通 'shuffle 文件级 + token-level FIM' 看不到这种跨文件依赖。
tokenizer 不是“词表大小”问题,是“多语 + 代码 + 数学如何在一张 byte-level grid 上对齐”问题;数据组织也不是“多喂多少”问题,是“样本边界画在哪”问题。

§4 MLA 与 fine-grained MoE 不是普适胜利,它们各有临界区

V2 [5] 之后,很多讨论把 MLA 称为“GQA 的下一代”。这只覆盖部分运行区间。MLA 的优势在于把 KV cache 压缩到更小的 latent 表示,因此长上下文 decode 的收益最明显;但收益并非免费,额外投影与重构会增加 attention 侧计算,所以在 batch 很大、上下文较短、prefill 主导成本的区间,优势会收窄,甚至贴近 GQA 的成本曲线 [5][32]。因此,MLA 更适合作为长上下文、内存受限推理的默认选择,而不是所有部署场景的无脑替换。MoE 侧同理。DeepSeekMoE [2] 的关键洞察不是专家越多越好,而是将专家切细后保留少量 shared expert 作为公共通道,从而同时维持 specialization 与稳定性。V2 [5] 和 V3 [7] 延续了这个方向,但 shared expert 从 2 个减到 1 个,说明系统在更大规模下没有继续提高共享比例。对照来看,Mixtral [16] 代表较粗粒度、无 shared expert 的传统路线;Lu et al. [14] 则指出 many-expert 设计中的专家贡献高度不均,部分专家可以被裁剪或跳过。更稳妥的结论是:fine-grained MoE + 1–2 个 shared expert 是当前公开证据支持的安全区;继续加 shared,会向 dense 退化;继续加 routed expert,则必须同步监控专家利用率,否则参数账面增长会快于有效容量增长。

MHA每 head 各 K/V — KV ∝ n_heads × d_hhidden h∈ ℝ^{B×L×d}GQA每 g 个 head 共享 K/V — KV ∝ G × d_hhidden h∈ ℝ^{B×L×d}MLA所有 head 共享 latent c — KV ∝ d_chidden h∈ ℝ^{B×L×d}Q · K · V (per-head)n_heads parallel projectionscache K, VKV cache: B·L·n_heads·d_hattn → Ostandard MHAKV / token = 2 · n_h · d_h≈ 100% baselineQ (per-head) · shared K/VG groups · all heads in group sharecache K, V (G groups)KV cache: B·L·G·d_hattn → Obroadcast K/V to headsKV / token = 2 · G · d_hG ≈ n_h/8 → ~12% baselinecompress: h → c (latent)one shared d_c-dim vectorcache c (+ rope k)KV cache: B·L·d_c (≈ 1 head wide)reconstruct K/V; attn → Oextra W^{UK}, W^{UV} projectionsKV / token ≈ d_c + d_rV2 setting → ~5–7% baselined_h = head dim; G = #groups; d_c = latent dim; d_r = rope-only key dim. V2 论文给出 ~5–7%, 上述 GQA 数字按 Mistral 7B 默认设置粗估。
图 5. MHA / GQA / MLA 在 KV cache 上的对比。MHA 给每个 head 独立 K/V;GQA 把若干 head 分一组共享 K/V;MLA 把所有 head 的 K/V 共同压到一个 latent 向量 c,按需通过额外投影解压回 K、V 参与 attention,因此 KV 体积近似一个 head 宽度,但 attention 阶段多两次投影。
MLA 解决的是 KV 内存,fine-grained MoE 解决的是激活成本;两者都不是“任何 regime 都更优”的通用答案。

§5 V3 工程账本:四件“看上去 free”的设计与它们的真实代价

V3 [7] 的工程账本里,四件事最容易被误读为“免费午餐”:aux-loss-free balancing、FP8 per-block、DualPipe、Multi-Token Prediction。放在一起看,模式很清楚:复杂度没有消失,只是在目标函数、数值精度、pipeline schedule、decoding 端之间转移。

Aux-loss-free [7](图 6)的表面叙事是:把 router 平衡损失从 LM loss 中拿走,模型不再被两个目标拉扯。实际机制是给每个专家配一个可学习偏置 ,并按 batch 内负载偏离量直接更新——均衡压力从“可微目标”变成“一阶 SGD 控制器”。代价是训练动力学更依赖学习率、γ 控制系数、batch 配置;好处是 LM loss 更干净,专家分布更稳定。一条轻量 sequence-level balance loss 仍保留作兜底,说明 DeepSeek 自己也不把 bias-only 视为无条件充分。

FP8 per-block [7][15](图 7)的关键不是“切到 FP8”,而是哪些算子允许切。V3 公开的算子级白名单大致是:高吞吐 GEMM(attention QKVO + FFN + MoE expert FFN + dispatch/combine all-to-all)走 FP8(前向 E4M3、反向 E5M2),尺度细到 (1×128) per-token tile / (128×128) per-block;累加先在 tensor-core 寄存器里 FP32,再每 Nc=4 拍提升一次到 FP32 累加,以缓解 E4M3 的指数下溢;embedding / output head / RMSNorm / softmax / RoPE / router gate / MTP head / loss reduction 全部留 BF16,master weights 与 Adam 一阶/二阶矩留 FP32。换句话说,FP8 不是“全局打开”,而是“算子级开关 + 白名单”。同样的 FP8-LM [15] 路径在更小模型上未必划算,复杂度与稳定性成本可能超过 GEMM 吞吐节省。

DualPipe [7] 是 pipeline 调度上的工程改进:在常规 1F1B 之外,交替排布 micro-batch 的前向 / 反向阶段,让通信(all-to-all、reduce-scatter)尽量与计算(GEMM、激活)重叠。论文没有完整给出边界条件;公开提示是,当 expert-parallel 通信占 step time 比例变高时收益最明显。在通信不是瓶颈的更小规模或纯 dense 训练里,DualPipe 额外引入的实现成本(micro-batch 配对、bubble 计费、debug 流程)很可能不值。

Multi-Token Prediction [7] 把 next-token 预测扩展到 next-1..N-token:在每个位置加一个轻量 MTP head,用相同的 hidden state 预测之后第 i 个 token。训练时,它把 token 级监督信号提高到 N 倍;推理时,可以关掉 MTP 头退化为标准自回归,也可以把它送入 speculative decoding,由主 head 负责验证。这是少见的“pretrain 数据效率 + 推理 speculative decoding”同时受益的设计,但它假设服务端能正确处理 MTP-augmented KV cache,而这条 serving 协议在公开文档里仍偏薄。

综合起来,V3 给后来者的真正提示不是“照搬这四件事”,而是“先做好分级”。每件事的收益曲线都不在小规模上启动;团队应先评估通信压力、显存约束、router 行为诊断能力、serving 端能力,再决定打开哪些开关。

设计表面收益复杂度搬到哪适用规模
aux-loss-free balancing

把 router balance 信号从 LM loss 拽出去,不再扰动语言建模

per-expert bias 滑动更新;动力学更难复现;一条轻量 sequence-level 项兜底

≥100B 总参 MoE,多机训练;小规模复用反而过度工程化

FP8 per-block

GEMM 吞吐 ≈ 2× BF16;显存占用降一半

算子级白名单(图 7);BF16 partial-sum + Nc=4 promotion;embedding/output head 必留 BF16

trillion-token + 多机长跑;短跑或小模型 BF16 更稳

DualPipe

前向/反向交替调度,让通信与计算尽量重叠

实现复杂度高(micro-batch 重叠、bubble 计费);对 expert-parallel 通信比例敏感

expert / pipeline parallel 都被推到极限的场景

Multi-Token Prediction (MTP)

训练时每 token 同时预测下 1–N 个 token,提升数据效率与 speculative-decoding 兼容性

多一个 (或多个) 轻量 head;推理可关;和 KV cache / serving stack 需要协调

希望同时享受 pretrain 数据效率 + 推理 speculative decoding 的部署

V3 工程账本里四件“看上去 free”的设计与它们的真实代价
正在渲染图示…
图 6. V3 的 aux-loss-free 负载均衡:每个专家配一个可学习偏置 b_i,路由分数 = gate_logits + b_i。每个 batch 训练后,按专家在该 batch 内的『负载偏离均衡量』直接更新 b_i(高负载专家降偏置、低负载抬偏置),而不是把均衡项加到 LM loss 里。一条轻量 sequence-level balance loss 仍保留作为兜底。
图 7. V3 FP8 训练的算子级白名单(伪代码,依据技术报告 §3.3)。低精度不是“全局切换”,而是按算子分层:少数高吞吐 GEMM 落 FP8(E4M3 前向、E5M2 反向),尺度细到 (1×128) tile 或 (128×128) block;累加、master weights、optimizer state 一律保留 BF16/FP32;embedding、output head、归一化算子也留高精度。
V3 真正的工程信号不是“多了四个新技巧”,而是“四个开关在不同规模、不同瓶颈下分别什么时候值得打开”。

§6 V4:1M context 不是把 MLA 再拉长,而是重写 attention 与 KV 合约

V4 [10] 最重要的结论不是“又一个更大的 MoE”,而是长上下文瓶颈从单一 attention 算子变成 attention、KV cache、serving kernel、post-training rollout 的联合问题。V4-Pro 是 1.6T 总参、49B 激活;V4-Flash 是 284B 总参、13B 激活;两者都支持 1M context,并保留 DeepSeekMoE 与 MTP。真正的结构变化在 attention:CSA 先把每 m 个 token 的 KV 压成一个 compressed entry,再用 lightning indexer 选择 top-k compressed blocks 做稀疏 attention;HCA 用更大的压缩率 m′ 做极重压缩,但不再走 sparse selection;两者都叠加 sliding-window branch,补回局部细粒度依赖。这个设计承认一个事实:到 1M token 时,只靠 latent KV 压缩还不够,模型必须同时保留局部窗口、压缩全局记忆和可索引的稀疏远程证据。

代价也更明确。CSA/HCA 让每层 KV 形态不再统一,PagedAttention 的固定 block 假设被打破;V4 因此引入异构 KV cache:SWA 与尚未压缩的 tail states 作为 state cache 管,CSA/HCA compressed entries 作为 classical KV cache 管,并用 lcm(m, m′) 对齐 block。报告还把 on-disk KV cache 写进 serving 路径:共享 prefix 命中时直接复用 compressed KV,SWA KV 体量约为 compressed cache 的 8 倍,因此需要单独管理。这里的科学结论是:V4 的 27% single-token FLOPs 与 10% KV cache(相对 V3.2,1M context)不是一个 attention trick 的收益,而是 attention 结构、cache layout、kernel alignment、低精度存储共同闭环的结果。

V4 的训练与后训练同样不是孤立模块。mHC 替代传统 residual connection 的一部分角色,用 manifold-constrained hyper-connections 试图提高深层信号传播稳定性;Muon 负责大多数模块,embedding、prediction head、mHC bias/gating 与 RMSNorm 仍保留 AdamW,说明优化器切换也是算子/模块级白名单,而不是全局替换。预训练 token 增至 32T+。后训练先训练多个 domain specialist,再用 multi-teacher on-policy distillation 合入统一模型;OPD 使用学生自身轨迹上的 reverse KL,并在工程上做 full-vocabulary logit distillation。Quick Instruction 则把 search/action/title/query 等辅助任务改成特殊 token,复用已有 KV cache,避免再跑一个小模型做重复 prefill。V4 因此把 DeepSeek 谱系从“训练一个强 base + reasoning fork”推进到“base、长上下文 serving、specialist 合并、产品辅助任务共用一套 KV 账本”。

部件直接作用主要代价
CSA

先压缩 KV,再 top-k 选择 compressed blocks 做稀疏 attention

需要 lightning indexer、稀疏 kernel 与 block 对齐

HCA

用更大压缩率保存全局记忆,不走 sparse selection

远程细节被压缩,依赖 SWA/CSA 补局部与选择性远程证据

SWA branch

保留最近 nwin token 的未压缩局部依赖

KV 体量大,必须和 compressed cache 分开管理

异构 KV cache

把 CSA/HCA compressed KV、SWA KV、tail states 分层管理

打破 PagedAttention 式统一 block 假设,serving kernel 更复杂

on-disk prefix KV

共享 prefix 命中时复用 compressed KV,减少重复 prefill

incomplete compression block 与 SWA state 仍需特殊恢复逻辑

V4 把长上下文效率拆成五个互锁部件
V4 的长上下文收益来自 attention、cache、kernel、低精度与后训练轨迹的一起重写;只复刻 CSA 或 HCA,拿不到同一条成本曲线。

§7 V3 → R1 → V3.1:复杂度从 pretrain 移到训练动力学与后训练

V3 [7] 最容易被低估的,是它把若干“看上去 free”的设计固化为工程默认值。aux-loss-free balancing 的表层结论很简单:把 router balance 信号从主 loss 中移出,减少对语言建模目标的干扰。实际机制是,平衡压力转入 per-expert bias 的滑动更新,再用一个轻量 sequence-level 项兜底;loss 更干净,训练动力学也更难复现 [7]。FP8 也是同一逻辑。FP8-LM [15] 已经说明 FP8 训练可行,但 V3 [7] 把它推进到 671B MoE,依赖更细的 per-block scaling、BF16 accumulation,以及部分关键 GEMM 回退 BF16。换句话说,低精度不是“全局切换”,而是算子级白名单。R1 [8] 则把复杂度继续搬到 post-training。DeepSeekMath [3] 用 GRPO 去掉 critic,降低 PPO 式 RL 的部分系统负担;R1-Zero [8] 证明纯 RL 能先撞出 reasoning 行为,但也暴露语言风格、可读性和稳定性问题,因此 R1 [8] 又引入 cold-start 与多阶段 RL。这里的关键信号不是“纯 RL 已经足够”,而是“纯 RL 可以作为起点,但产品级模型仍需要额外约束”。Math-Shepherd [21] 和 Lightman et al. [17] 代表另一条路线:把奖励细化到步骤级,缓解 outcome-only reward 的稀疏性。V3.1 [9] 再给出第三种答案:不把所有用户都送进长思考链,而是在同一 base 上提供 thinking / non-thinking 两种模式。更务实的理解是,DeepSeek 在 2025 年给出的不是单一后训练范式,而是三种并行答案:纯 RL 起步、cold-start 修正、以及 hybrid thinking 产品化。

图 8. GRPO 目标函数(DeepSeekMath 引入,R1 沿用)。关键差异是去掉 critic:对每个 prompt q 采样 G 条回答,用 group 内 reward 的均值 / 方差归一化得到 advantage A_i,再用 PPO 风格的 clipped ratio 做 policy gradient。代价是 per-prompt G 倍的采样开销,但省去了独立 value head 的训练复杂度。
正在渲染图示…
图 9. R1 训练流水线两条路:(A) R1-Zero 直接在 V3 base 上跑纯 GRPO,能学出 reasoning,但语言混乱;(B) R1 先用一小撮 cold-start CoT 数据做 SFT 把语言风格锚住,再用 reasoning-RL(GRPO)→ rejection-sampling SFT → 全任务 RL(数学/代码/通用)→ 安全 RLHF 四阶段递进;最后把 R1 的能力蒸馏回 1.5B–70B dense 学生。

时间线

  1. DeepSeek LLM 给出 dense 起点、2T token 与 100K BBPE[1]
  2. DeepSeekMoE 引入 fine-grained routed expert + shared expert[2]
  3. DeepSeekMath 提出 GRPO,先在数学域验证 RL-first[3]
  4. V2 把 MLA 与 DeepSeekMoE 绑定成主干[5]
  5. Coder-V2 证明 V2 主干可迁移到代码域并扩大 vocab[6]
  6. V3 把 FP8、DualPipe、aux-loss-free、MTP 写成工程账本[7]
  7. R1-Zero / R1 把 GRPO 从数学扩到通用推理[8]
  8. V3.1 把 thinking / non-thinking 合并到同一产品面[9]
  9. V4 发布 1M-context Pro/Flash 技术报告,主轴转向 CSA/HCA hybrid attention 与异构 KV cache[10]

研究立场对比

阵营 A:MLA 或 V4 hybrid attention 会成为 GQA 的通用替代

立场 — 支持者会指出,MLA 在长上下文下把 KV cache 压到传统 attention 的一个小分数,V2 [5] 与 V3 [7] 都把它作为主干;V4 [10] 又给出 CSA/HCA + SWA 的 million-token 路线,说明 DeepSeek 的注意力设计已经把 KV 成本当成第一等约束。

证据:[5][7][10]

反方 — 反方会拿 GQA 路线作对照:Mistral 7B [32] 说明更简单的 KV 共享在很多短上下文、高 batch 场景已经足够;V4 自己也构成反证,因为它没有把 MLA 继续外推到 1M context,而是改成 compressed + sparse + local window + cache layout 的组合。

判词 — 一条更稳的读法是:MLA 是 32K–128K 长上下文、KV 受限推理的强默认值;到 1M context,问题升级为 hybrid attention + cache system;短上下文高 batch 场景仍然先把 GQA 做扎实。

阵营 B:many-expert + shared expert 是 MoE 的稳定终局

立场 — 支持者会强调,DeepSeekMoE [2]、V2 [5]、V3 [7] 连续三代都沿着更细专家与少量 shared expert 演进,说明这条路在大规模训练里是可持续的。

证据:[2][5][7]

反方 — 反方会指出两点:Mixtral [16] 用较粗粒度专家也能给出强结果;Lu et al. [14] 进一步表明专家利用率高度不均,many-expert 设计并不自动等于更高有效容量。这里是在反驳“专家越多越稳”这条隐含前提。

判词 — 结论层面的建议是:把 fine-grained MoE + 1–2 个 shared expert 当作当前安全默认值,但不要把专家数当成单调优化轴。超过这个区间后,先做利用率诊断、裁剪模拟和 shared 比例扫描,再决定是否继续加专家。

阵营 C:数据质量主要靠 curated mixture,而不是透明大语料或模型感知选择

立场 — 支持者会说,DeepSeek LLM [1]、DeepSeek-Coder [4]、V2 [5]、V3 [7] 的连续提升,说明手工设计的 mixture、代码/数学上采样和任务导向数据组织仍然是主导杠杆。

证据:[1][4][5][7]

反方 — 反方来自三类证据:RefinedWeb [12] 认为高质量 web-only 数据可打平 curated corpora;Dolma [11] 认为透明数据账本本身是关键变量;DsDm [13] 则认为模型感知选择能超过人工质量启发式。这是在修正“人工 mixture 一定更优”的默认想法。

判词 — 一个更务实的定位是:DeepSeek 证明了 mixture 重组有效,但没有证明它是唯一最优路径。若团队缺少大规模数据治理能力,先做透明数据账本与小规模 model-aware selection,再决定是否投入复杂 mixture 工程。

阵营 D:reasoning 的主路已经从 SFT/RLHF 转向 RL-first

立场 — 支持者会拿 DeepSeekMath [3] 与 R1 [8] 作证据:GRPO 去掉 critic 后,纯 RL 或 RL-first 路线可以在数学与通用推理上直接拉起能力,再通过蒸馏回流到 dense 学生模型。

证据:[3][8]

反方 — 反方会指出,过程监督与传统对齐并没有失效。Lightman et al. [17]、Math-Shepherd [21]、Bai et al. [33] 说明 step-level supervision、reward modeling 与 RLHF 仍然能提供更稳定、更可控的行为约束,尤其在 reward 稀疏时更稳。这是在反驳“纯 RL 已经足够”这条过度外推。

判词 — 结论层面的建议是:把 RL-first 当成 reasoning 提升的强工具,而不是唯一主路。reward 稠密、可自动验证的任务优先用 GRPO;reward 稀疏、格式噪声大的任务,保留 process supervision 或 cold-start SFT 更稳。

实践要点

可操作清单:
1. 先把版本树画出来,再决定复刻哪一版。若目标是 10B–100B 级开源复现,优先复刻 V2 的“MLA + fine-grained MoE + 1–2 shared expert”组合,不要直接跳到 V3 全套;V3 [7] 的 FP8、DualPipe、aux-loss-free 只有在更大规模和更高通信压力下才值得一起上。
2. MLA 只在 32K–128K 长上下文、decode 受 KV 限制时优先级最高。若主流请求长度长期低于 16K,先把 GQA 路线做扎实;若目标是 1M context,不要把 MLA 线性外推,直接评估 V4 [10] 这种 CSA/HCA + SWA + 异构 KV cache 的系统方案。
3. MoE 拓扑先扫 shared expert 数量,再扫 routed expert 数量。推荐从 1–2 个 shared 开始,shared 占比再高就要警惕向 dense 退化;继续加 routed expert 前,先做专家利用率统计与裁剪模拟 [2][14]
4. 不要把 aux-loss-free 当成“删掉一个 loss 项”这么简单。若没有足够好的训练监控,宁可保留轻量 balance loss,也不要盲上 bias-only 更新;V3 [7] 的做法更像高阶调参方案,而不是小团队默认值。
5. FP8/FP4 采用算子级白名单,不要全局切换。V3 的 FP8 训练与 V4 的 FP4 rollout 都说明同一条原则:embedding、head、norm、关键状态留高精度,只有吞吐主导路径逐步下沉低精度 [7][10]
6. 数据工程先做透明账本,再做 mixture 微调。若没有公开可审计的数据记录,很多“数据配方有效”都无法复核;Dolma [11] 与 OLMo [22] 给出的教训比单纯再加 2T token 更实用。
7. reasoning 训练按 reward 稠密度分流。数学、代码、可自动验证任务优先试 GRPO [3][8];开放式对话或 reward 稀疏任务,保留 process supervision、PRM 或 RLHF 约束 [21][17][33]
8. 若产品需要同时覆盖快问快答与长思考,不要默认训练两套完全独立模型。先评估 V3.1 [9] 这种 hybrid thinking 形态;只有当安全、延迟或 KV 行为冲突明显时,再考虑拆成 R1 式纯思考模型与普通 chat 模型两条线。
9. 若产品要做 million-token agent / search / long-document work,不要只问模型能不能收 1M token。先核对 KV cache layout、on-disk prefix reuse、SWA state、rollout WAL、sandbox 与 Quick Instruction 这些 serving/post-training 设施;V4 的成本曲线依赖这些系统件一起成立 [10]

悬而未决的问题

  • Q1.MLA 相对 GQA 的临界点仍缺少统一公开基准,尤其是 prefill / decode 在不同 batch × context 网格下的直接对照。现有证据主要来自 V2 [5] 与 GQA 路线代表 Mistral 7B [32],还缺一组同硬件、同实现风格的 controlled experiment。
  • Q2.MoE 负载均衡的公开证据仍偏薄。V3 [7] 给出 aux-loss-free 的主张,但缺少与经典 aux-loss、bias-based、sequence-level balancing 的系统对照,尤其缺少跨规模复现实验。
  • Q3.DualPipe 的收益边界还不清楚:在什么通信占比、pipeline 深度、expert parallel 组合下,它的 schedule 复杂度才值得。当前主要证据来自 V3 [7] 的主报告,缺少独立复现与反例。
  • Q4.V3.1 的 hybrid thinking 公开细节不足,尤其是 thinking / non-thinking 是否完全共享权重、是否存在模式特定 adapter、以及两种模式的 KV 行为如何隔离。现阶段只能依据发布说明 [9] 做产品层推断。
  • Q5.V4 的 CSA/HCA、SWA、异构 KV cache 与 on-disk prefix reuse 缺少拆分消融。公开报告给出了相对 V3.2 的 1M-context 成本曲线,但还不能判断收益分别来自压缩率、稀疏 top-k、sliding-window branch、低精度存储还是 cache layout [10]
  • Q6.mHC 与 Muon 的独立贡献仍不清楚。V4 同时改变 residual 连接、优化器、低精度、attention 和后训练,如果没有 same-data/same-compute 消融,很难判断 mHC 是稳定性主因,还是与 Muon、32T+ 数据和模型规模共振 [10]
  • Q7.DeepSeek tokenizer 的直接设计说明仍不够完整。可以从 LLM [1]、Coder-V2 [6]、V3 [7] 推出 vocab 演进,但缺少一篇专门讨论“大 byte-level vocab 是否优于更小词表”的直接反方论文。
  1. [1]
    DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv, 2024论文
  2. [2]
    Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. ACL, 2024论文
  3. [3]
  4. [4]
    Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang. DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence. arXiv, 2024论文
  5. [5]
    DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024论文
  6. [6]
    DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv, 2024论文
  7. [7]
    DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu. DeepSeek-V3 Technical Report. arXiv, 2024论文
  8. [8]
    DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
  9. [9]
    DeepSeek-AI. DeepSeek-V3.1 Release. DeepSeek API Docs / News, 2025博客
  10. [10]
  11. [11]
    Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson. Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research. arXiv, 2024论文
  12. [12]
    Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. NeurIPS Datasets and Benchmarks, 2023论文
  13. [13]
    Logan Engstrom, Axel Feldmann, Aleksander Madry. DsDm: Model-Aware Dataset Selection with Datamodels. arXiv, 2024论文
  14. [14]
    Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang. Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models. arXiv, 2024论文
  15. [15]
    Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang. FP8-LM: Training FP8 Large Language Models. arXiv, 2023论文
  16. [16]
    Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary. Mixtral of Experts. arXiv, 2024论文
  17. [17]
    Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
  18. [18]
    Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang. Qwen Technical Report. arXiv, 2023论文
  19. [19]
    Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
  20. [20]
    Alon Albalak, Liangming Pan, Colin Raffel, William Yang Wang. Efficient Online Data Mixing For Language Model Pre-Training. arXiv, 2023论文
  21. [21]
    Peiyi Wang, Lei Li, Zhihong Shao, R. X. Xu, Damai Dai. Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL Findings, 2023论文
  22. [22]
    Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
  23. [23]
    Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
  24. [24]
    Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier. StarCoder 2 and The Stack v2: The Next Generation. arXiv, 2024论文
  25. [25]
    Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
  26. [26]
    Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
  27. [27]
    BigScience Workshop, Teven Le Scao, Angela Fan, Christopher Akiki. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv, 2022论文
  28. [28]
    Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov. StarCoder: may the source be with you!. TMLR, 2023论文
  29. [29]
    Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv, 2023论文
  30. [30]
    Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv, 2023论文
  31. [31]
    Peiyi Wang, Lei Li, Liang Chen, Feifan Song, Binghuai Lin. Making Large Language Models Better Reasoners with Alignment. arXiv, 2023论文
  32. [32]
    Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot. Mistral 7B. arXiv, 2023论文
  33. [33]
    Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
  34. [34]
    Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
  35. [35]
    Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct. arXiv, 2023论文
  36. [36]
    Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. ICLR, 2024论文
  37. [37]
    Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu. MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models. ICLR, 2024论文
  38. [38]
    Aiden Grossman, Ludger Paehler, Konstantinos Parasyris, Tal Ben-Nun, Jacob Hegna. ComPile: A Large IR Dataset from Production Sources. arXiv, 2023论文
  39. [39]
    Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Zhiqiang Hu. SeaLLMs -- Large Language Models for Southeast Asia. arXiv, 2023论文
  40. [40]
    Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza. Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model. arXiv, 2024论文
  41. [41]
    Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna. Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus. COLING, 2020论文
  42. [42]
    Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
  43. [43]
    Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
  44. [44]
    Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey. Efficient Training of Language Models to Fill in the Middle. arXiv, 2022论文
  45. [45]
    Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li. Source Code Data Augmentation for Deep Learning: A Survey. arXiv, 2023论文
  46. [46]
    Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks. TMLR, 2023论文
  47. [47]
    Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang. ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving. ICLR, 2024论文
  48. [48]
    Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He. UltraFeedback: Boosting Language Models with Scaled AI Feedback. arXiv, 2023论文
  49. [49]
    Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva. FinGPT: Large Generative Models for a Small Language. arXiv, 2023论文
  50. [50]
    Angela Fan, Beliz Gokkaya, Mark Harman, Mitya Lyubarskiy, Shubho Sengupta. Large Language Models for Software Engineering: Survey and Open Problems. arXiv, 2023论文

论文列表

基础版:tokenizer、数据组织与 dense 起点(4)

覆盖 DeepSeek LLM / Coder 早期版本的 tokenizer、2T 级数据 mixture、代码数据组织与 FIM 路线,作为后续 V2/V3 的对照基线。

10

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DeepSeek-AI,Xiao Bi,Deli Chen,Guanting Chen,Shanhuang Chen2024年1月5日
给出 DeepSeek 谱系的 dense 原点:100K BBPE tokenizer、2T token 预训练 mixture、长周期 scaling 配方,以及 SFT+DPO 的早期对齐路线。后续版本很多变化都要拿它作参照。
9

DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

Daya Guo,Qihao Zhu,Dejian Yang,Zhenda Xie,Kai Dong,Wentao Zhang2024年1月25日
把 repo-level 数据组织、依赖图感知文档构造和 FIM 训练写成可执行流程,说明 DeepSeek 的数据轴并不只是“多喂代码”,而是重写样本结构与目标函数。
8

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Luca Soldaini,Rodney Kinney,Akshita Bhagia,Dustin Schwenk,David Atkinson2024年1月31日
把“数据透明度本身是研究变量”说清楚。它不是直接反驳 DeepSeek 的 mixture,而是指出没有公开数据账本时,很多工程判断难以复核。
7

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo,Quentin Malartic,Daniel Hesslow,Ruxandra Cojocaru,Alessandro Cappelli2023年6月1日
提供一个直接反方:高质量过滤 web-only 数据在一定规模上可以打平甚至超过人工拼接 mixture,逼着人重新审视 DeepSeek 的 mixture 重组到底贡献了什么。

结构转折:fine-grained MoE 与 MLA(4)

聚焦 DeepSeekMoE 与 V2:专家粒度、shared expert、MLA 与长上下文效率,解释 DeepSeek 从 dense 转向稀疏架构的核心机制。

10

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Damai Dai,Chengqi Deng,Chenggang Zhao,R. X. Xu,Huazuo Gao,Deli Chen2024年1月8日
提出 fine-grained routed expert + shared expert 组合,是 V2/V3 MoE 拓扑的直接祖先。它把“更多专家”改写成“更细专家 + 一个稳定公共通道”。
10

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI,Aixin Liu,Bei Feng,Bin Wang,Bingxuan Wang,Bo Liu2024年5月7日
V2 把 MLA 与 DeepSeekMoE 组合成可量产的主干:236B 总参、21B 激活、128K context、8.1T token。它是整条谱系里最关键的结构转折点。
8

Mixtral of Experts

Albert Q. Jiang,Alexandre Sablayrolles,Antoine Roux,Arthur Mensch,Blanche Savary2024年1月8日
作为最强开源对照,Mixtral 代表更传统的 SMoE 设计:专家数较少、粒度较粗、没有 shared expert。正因为它强,DeepSeekMoE 的差异才有解释价值。
6

Mistral 7B

Albert Q. Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot2023年10月10日
GQA 是 MLA 最直接的注意力对照。它说明 KV 压缩并不只有 latent 路线;在短上下文或大 batch 下,GQA 的简单性仍然有吸引力。

V3/V4 工程账本:训练栈、长上下文与 serving(5)

围绕 V3 与 V4 的系统栈展开:aux-loss-free balancing、FP8 per-block、DualPipe、MTP、CSA/HCA hybrid attention、mHC、Muon、FP4 rollout,以及这些设计的边界条件与复现成本。

10

DeepSeek-V3 Technical Report

DeepSeek-AI,Aixin Liu,Bei Feng,Bing Xue,Bingxuan Wang,Bochao Wu2024年12月27日
V3 是整条谱系最密的工程账本:671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free、MTP、129280 byte-level BPE 都在这里落地。
10

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

DeepSeek-AI2026年4月25日
V4 是 V3.2 之后的长上下文系统重构:不是继续把 MLA 当唯一答案,而是把 attention 拆成 CSA、HCA 与 sliding-window 分支,并为异构 KV cache、on-disk prefix reuse、FP4 rollout 与全词表 OPD 重写 serving / post-training 账本。
8

FP8-LM: Training FP8 Large Language Models

Houwen Peng,Kan Wu,Yixuan Wei,Guoshuai Zhao,Yuxiang Yang2023年10月27日
给出 FP8 训练的外部参照:不是 DeepSeek 独有,但 V3 把它推进到更大规模、更复杂 MoE 场景,并写清哪些算子必须回退 BF16。
7

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld,Iz Beltagy,Pete Walsh,Akshita Bhagia,Rodney Kinney2024年2月1日
OLMo 不是 DeepSeek 的直接技术前身,但它提供了一个重要对照:开放训练栈与可复现实验账本可以做到什么程度,也暴露出 V3 某些系统细节仍未完全公开。
6

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

Xudong Lu,Qi Liu,Yuhui Xu,Aojun Zhou,Siyuan Huang2024年2月22日
它给 V3 的 many-expert 设计加了一个必要反问:如果专家贡献高度不均,继续加细粒度专家是否总是划算,还是需要更强的利用率诊断与裁剪机制。

后训练分叉:GRPO、R1 与混合思考(4)

覆盖 DeepSeekMath 到 R1 的 RL 路线,以及 V3.1 的 hybrid thinking 产品化形态,讨论 reasoning 对齐从 SFT 主导转向 RL-first 的条件与代价。

10

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

DeepSeek-AI2024年2月5日
GRPO 的起点。它把 critic 去掉,用 group baseline 替代 advantage 估计,先在数学域证明 RL 可以不依赖传统 PPO 脚手架。
10

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI,Daya Guo,Dejian Yang,Haowei Zhang,Junxiao Song,Peiyi Wang2025年1月22日
把 GRPO 从数学扩到通用推理,并给出两条路线:R1-Zero 的纯 RL,以及 R1 的 cold-start + 多阶段 RL,再加上 distill-to-dense 的学生模型路径。
8

DeepSeek-V3.1 Release

DeepSeek-AI2025年8月21日
V3.1 不是再训一个完全独立的 reasoning 模型,而是把 thinking mode 叠到同一产品接口上,形成与 R1 并行的后训练答案。
7

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

Peiyi Wang,Lei Li,Zhihong Shao,R. X. Xu,Damai Dai2023年12月14日
它是 R1 之前更细粒度的 reasoning 奖励路线:不是只看最终答案,而是给中间步骤打分,提醒人们 outcome-only RL 并不是唯一选择。