DeepSeek 谱系工程考古：从 dense 到混合思考的版本演进

把 DeepSeek 读成一条版本谱系，比把 V3 或 R1 当成单篇热点更接近工程事实。

17 篇论文·2026年4月27日

作者@Thor·gpt-5.4

44 篇扩展证据（反证 5 · 拓展 39）·知识聚类 7·悬问 5

领域综述

DeepSeek 这条线的可贵之处，不在于某一版单点领先，而在于它把 2024–2026 开源 LLM 工程里最难复现的几类决策，连续写成了可核对的版本账本：早期 dense 模型给出自家 scaling 与 2T token 数据组织，DeepSeekMoE 把 fine-grained routed expert 加 shared expert 做成稳定默认值，V2 用 MLA 把长上下文推理的 KV 成本压下去，V3 再把 671B MoE 的训练栈、FP8、DualPipe、aux-loss-free balancing 和 MTP 一次性写清，R1 把 GRPO 从数学推到通用推理，V3.1 把 thinking / non-thinking 变成同一产品面的两种运行模式。V4 的意义不只是参数继续变大，而是承认 1M-token 场景下 MLA 已不足以单独定义 attention 答案：Pro/Flash 两个 MoE 版本分别落在 1.6T/49B active 与 284B/13B active，核心改动转向 CSA/HCA + sliding-window 的 hybrid attention、异构 KV cache、mHC、Muon、FP4/FP8 推理与全词表 OPD。把这些版本拆开读，很容易把结论误读成“某个技巧带来提升”；连起来读，才看得见每次版本跳变都伴随一组联动取舍：tokenizer 粒度、数据 mixture、attention 记忆占用、MoE 专家粒度、router 平衡信号、并行调度、数值精度、后训练配方。工程上最有用的读法不是追问“哪一版最强”，而是识别：哪些配置在 10B、100B、600B、trillion-param 四个量级都稳；哪些只在长上下文或高通信压力下成立；哪些看上去 free，实际把复杂度转移到了训练动力学、serving kernel 和复现成本上。

TL;DR

一条更稳的读法是：DeepSeek 的主线不是“每版都换一个新技巧”，而是沿着八条工程子轴做联动重构。LLM 给出 dense 起点与 2T token 数据账本；DeepSeekMoE 把 fine-grained routed expert + shared expert 变成默认拓扑；V2 用 MLA 把长上下文的 KV cache 压到传统 MHA 的一个小分数，并把 160 routed × 2 shared 的 MoE 主干做成可量产配置；V3 再把 671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP 和 129280 byte-level BPE 一次性写清；R1 把 GRPO 从数学域推广到通用推理；V3.1 把 thinking / non-thinking 合并到同一产品面；V4 则把问题推进到 1M context：Pro/Flash 两档模型共享 CSA/HCA + sliding-window hybrid attention、mHC、Muon、32T+ pretrain、FP4/FP8 推理与 specialist → OPD 后训练。真正可复用的结论有三条：第一，MLA、fine-grained MoE、shared expert、FP8 per-block、CSA/HCA 这些设计不是独立插件，只有在数据组织、并行调度、KV cache layout 和数值回退一起设计时才稳定；第二，DeepSeek 真正新的是若干组合式工程默认值，而不是每个部件都首创；第三，谱系里也有明显边界：大 batch 短上下文时 MLA 相对 GQA 的收益缩小，1M context 又迫使 attention 从“KV latent 压缩”升级到“压缩 + 稀疏 + 本地窗口 + cache 管理”合体，many-expert 设计会遇到专家利用率不均，aux-loss-free 和 mHC/Muon 都把复杂度转移到了训练动力学与复现成本上。

核心断言

#1V2 到 V3 的核心增益不是单独来自 MLA 或 MoE，而是“MLA + fine-grained MoE + shared expert + 更激进训练栈”这一组联动；把其中任一项孤立复刻，通常拿不到同等成本曲线 [5][7][2]。

#2MLA 不是无条件替代 GQA：在长上下文、decode 受 KV 限制的区间更划算；在 batch 较大、上下文较短时，额外投影与 latent 路径会吃掉一部分收益 [5][32]。

#3V4 给 MLA 讨论加了一个新的临界点：到 1M context 时，核心问题不再是“latent KV 能压多少”，而是 CSA/HCA 压缩、稀疏选择、sliding-window 本地分支、异构 KV cache 与 on-disk prefix reuse 能否一起闭环；报告给出的对照是 V4-Pro 在 1M context 单 token FLOPs 约为 V3.2 的 27%，KV cache 约为 10% [10]。

#4DeepSeekMoE 的稳态默认值更接近“更细专家 + 1–2 个 shared expert”，而不是盲目增加 shared 比例；shared 过多会向 dense 退化，shared 过少则更容易出现训练不稳与泛化回撤 [2][5][7]。

#5aux-loss-free balancing 并不是真的 free：它减少了对语言建模 loss 的直接扰动，但把一部分复杂度转移到 bias 更新、sequence-level 兜底项和更难复现的训练动力学上 [7]。

#6R1 的新意不在“RL 比 SFT 更强”这句口号，而在于给出一条可执行的 RL-first 流水线：DeepSeekMath 的 GRPO 去掉 critic，R1-Zero 证明纯 RL 可起步，R1 再用 cold-start 与多阶段 RL 修正可读性与稳定性 [3][8]。

#7tokenizer 从 100K BBPE → 102.4K → 128K → 129280 byte-level BPE 不是为了塞更多英文词，而是把多语 + 代码 + 数学的 token 粒度统一到更细的 byte-level 表达；DeepSeek-Coder 反向选了 32K 小词表则进一步说明 vocab size 不是单调优化轴 [1][4][6][7]。

#8训练 token 从 2T → 8.1T → 14.8T 不是线性堆量；每次跳跃都伴随 mixture 重排（代码 / 数学比例上调、FIM rate 下调、文档级 dedup 与 quality 过滤加严），这是 DeepSeek 数据账本里被低估的杠杆 [5][6][7][44]。

#9V3 的 FP8 per-block 不是“全局切换”，而是算子级白名单：高吞吐 GEMM 走 E4M3/E5M2 + (1×128) tile / (128×128) block scaling，accumulation 用 BF16 partial-sum + Nc=4 promote；embedding、output head、RMSNorm、softmax、router gate、MTP head 必须留 BF16，master weights 与 optimizer state 留 FP32 [7][15]。

§1 先看版本树：每次跳版都在换一组默认值

DeepSeek 这条线最容易被误读的地方，是把 V2、V3、R1、V4 当成相互独立的“热点论文”。更接近事实的结构是：DeepSeek LLM [1] 先给出 dense 起点，包括 100K BBPE、2T token mixture、以及 SFT+DPO 的早期对齐配方；DeepSeek-Coder [4] 同期将 repo-level 数据组织、依赖图拼接与 FIM 训练工程化，说明数据轴从一开始就不是简单加量。随后 DeepSeekMoE [2] 引入 fine-grained routed expert 与 shared expert，把 MoE 问题从“要不要稀疏”改写为“专家切多细、公共通道留多少”。V2 [5] 再把这套 MoE 与 MLA 绑定，形成 236B 总参、21B 激活、128K context 的主干；其意义不只是省 KV，而是把长上下文推理、推理成本和 MoE 激活成本放到同一张账上。V3 [7] 没有推翻 V2，而是补齐训练栈：671B/37B、14.8T token、FP8 per-block、DualPipe、aux-loss-free balancing、MTP、129280 byte-level BPE。R1 [8] 把变化重心从 pretrain 架构转向 post-training，沿着 DeepSeekMath [3] 的 GRPO 路线，把 reasoning 作为 RL 目标优化。V3.1 [9] 把 thinking / non-thinking 合并到同一产品面。V4 [10] 再把主轴拉回 architecture + serving：它保留 DeepSeekMoE 与 MTP，但用 CSA/HCA + sliding-window hybrid attention、mHC、Muon 和异构 KV cache 去支撑 1M context。更务实的定位是：这不是几篇彼此无关的论文，而是一条从 dense 基线、到稀疏主干、到训练栈、到后训练分叉、再到 million-token serving 的连续工程谱系。

图 1. DeepSeek 谱系演化树（实线表示主干继承，虚线表示组件迁移或蒸馏）。三条 dense 起点（LLM / Coder / Math）在 2024 年初同时出生；MoE → V2 → V3 是 pretrain 主轴；R1 系是 post-training 分叉，V3.1 把 thinking / non-thinking 合到同一产品面。

真正稳定的信号不在单篇论文里，而在“哪项设计被下一版继承、哪项被替换、哪项只在特定规模下成立”。

§2 八条工程子轴里，哪些是继承，哪些是替换

如果只看模型参数量，DeepSeek 的版本演进像常规扩张；真正有信息量的是配置沿八条子轴的迁移。tokenizer 从 LLM/V2 的 100K 级 BBPE，到 Coder-V2 的 128K，再到 V3 的 129280 byte-level BPE，方向是用更细的 byte-level 表达统一多语言与代码的 token 粒度 [1][6][7]。数据体量从 2T、4.8T、8.1T 到 14.8T，变化不止 token 增长，还包括代码、数学、通用文本 mixture 的重排 [1][5][7]。attention 从 MHA 到 MLA，表明 DeepSeek 优先压缩 KV cache，再考虑更激进的 sequence 稀疏；这不同于 Mistral 7B [32] 的 GQA + sliding window 路线。MoE 拓扑从无稀疏，到 64 routed + 2 shared，再到 160 routed × 2 shared，最后到 256 routed + 1 shared [2][5][7]。关键点是 shared expert 数量没有单调增加，说明 shared 不是越多越稳。负载均衡从 V2 的 aux-loss + device-level 约束，转为 V3 以 bias 更新为主、sequence-level loss 兜底 [5][7]。pipeline 也从常规 1F1B 转向 DualPipe，目标不是理论最优，而是尽量重叠通信和计算 [7]。合在一起看，模式很清楚：DeepSeek 更偏好先把系统瓶颈写成结构性默认值，而不是后期再用 patch 修补。

版本	attention / KV	MoE 拓扑	数据与 tokenizer	后训练
LLM	MHA；常规 KV	dense	2T；100K BBPE	SFT + DPO
DeepSeekMoE	MHA	64 routed + 2 shared	4.8T 级 mixture	预训练结构转折
V2 / Coder-V2	MLA；128K context	160 routed × 2 shared	8.1T；128K vocab（Coder-V2）	GRPO 前夜
V3	MLA；更激进 KV 压缩	256 routed + 1 shared	14.8T；129280 byte-level BPE	aux-loss-free + MTP
R1 / V3.1	沿用 base；重点转向推理行为	沿用主干	沿用 V3 系列	GRPO / hybrid thinking
V4 Pro / Flash	CSA/HCA + SWA；1M context；异构 KV cache	Pro 1.6T/49B active；Flash 284B/13B active	32T+；V3-family 数据账本扩展	specialists → full-vocab OPD；三档 effort

DeepSeek 版本树上的关键配置迁移

DeepSeek-LLM 67B

2100K BBPE

DeepSeek-Coder 33B

2repo-FIM

DeepSeekMoE 16B

2fine-grained MoE

DeepSeek-V2 236B

8.10+MLA

Coder-V2 236B

10.2060% code/math

DeepSeek-V3 671B

14.80FP8 · MTP

DeepSeek-V4 Pro/Flash

321M context

单位：万亿 token

图 2. DeepSeek 谱系训练 token 体量演进。从 LLM 67B 的 2T 到 V3 的 14.8T 不是简单线性堆量——每次跳跃都伴随 mixture 重排（代码 / 数学 / 通用文本占比），见 §3 的 tokenizer 与数据组织表。

§3 Tokenizer 与数据组织：被低估的杠杆

如果只把 DeepSeek 看成架构演化线，tokenizer 与数据组织最容易被略过。但这两条子轴的连续改动与 MLA、MoE 同等关键，只是没有一篇“代表作”单独承载信号。tokenizer 的链条很清楚：DeepSeek-LLM [1] 以 GPT-2 风格的 100K BBPE 起步；DeepSeek-Coder [4] 反而采用更小的 32K 词表，因为代码 token 分布不同于自然语言——重复关键字 / 标识符更多，过大词表会稀释 embedding。V2 [5] 将 vocab 微调到 102.4K，主要为多语言扩展腾位置。Coder-V2 [6] 跳到 128K，纳入更多编程语言关键字、Unicode CJK 块和数学符号。V3 [7] 最后落到 129280，并明确写成 byte-level BPE：所有字符先由 byte 兜底覆盖，再叠加 BPE merge；因此任何 OOV token 都能无损 fallback 到 byte 序列，不触发 unk。总体方向是统一：把多语言文本、代码语法和数学符号的 token 粒度收敛到更细的 byte-level 表达，而不是继续塞入更多英文词。

数据组织的影响更大。DeepSeek-Coder [4] 引入两件后续谱系持续受益的做法：第一是 repo-level 拼接——按依赖图将同 repo 文件依 import / include 排序并拼成长文档，让模型在真实跨文件依赖中学习；第二是 FIM 训练——把样本切成 (suffix, prefix, middle)，再重排为 ‘<suffix><prefix><PRE><middle><EOS>’，迫使模型学习 fill-in-the-middle，而不只是左到右续写。到 Coder-V2 [6]，这演变为更成熟的混合 corpus 策略：60% code、10% math、30% general，并叠加从 V2 base 的 continual pretrain。V3 [7] 继续上调代码与数学比例，同时显著降低 FIM rate，并加强文档级 dedup、toxicity / quality 过滤。业内反复对照的经验是：当模型规模足够大时，更多 FIM 不再提升自由生成，反而可能压缩通用语言能力；这与 Bavarian et al. [44] 对 FIM rate 的建议方向一致。整个谱系中，数据规模从 2T → 14.8T 并非线性堆量；每次跃升都伴随 mixture 重排（图 2、表 §3）。这也正是 RefinedWeb [12]、Dolma [11]、DsDm [13] 三条平行证据反复挑战的问题：mixture 重组到底贡献多少，透明大语料 + 模型感知选择又能补回多少。

版本	vocab	tokenizer 形态	训练 token	mixture 重点
DeepSeek-LLM	100,256	BBPE（GPT-2 系），含 byte fallback	2T	中英为主，code 占比小，dedup + perplexity 过滤
DeepSeek-Coder	32,000	code-专用 BBPE（87 PL）	2T（87% code）	repo-level FIM + 依赖图拼接
DeepSeekMath	100,256	继承 LLM tokenizer	120B 数学专属 + 通用复用	Common Crawl 数学过滤 → DeepSeekMath Corpus
DeepSeek-V2	102,400	重训 BBPE，多语扩展	8.1T	中英扩到更多语言；上调代码 / 数学比例
Coder-V2	128,000	扩展 V2 tokenizer，吸纳 PL keyword	10.2T（持续预训）	60% code · 10% math · 30% general
DeepSeek-V3	129,280	byte-level BPE（多语+代码+数学统一）	14.8T	代码/数学进一步上调；FIM rate 调低；filter 流程更严

DeepSeek 谱系 tokenizer 与数据组织演进对照

DeepSeek-LLM

100.26BBPE

DeepSeekMoE

100.26继承

DeepSeek-V2

102.40BBPE

Coder-V2

128+多语言/代码

DeepSeek-V3

129.28byte-level BPE

单位：词表大小（千）

图 3. DeepSeek 词表大小演进。LLM/MoE 阶段沿用 100K-级 BBPE，V2 微调到 102.4K，Coder-V2 因为引入更多语言/编程语言代码扩到 128K，V3 最终落到 129280（byte-level BPE）。词表加大不是为了塞更多英文词，而是把多语言、代码语法、数学符号的 token 粒度统一到更细的 byte-level 表达上。

正在渲染图示…

图 4. DeepSeek-Coder 的 repo-level FIM 数据组织流程：先按依赖图把同 repo 的相关文件按 import/include 关系排序拼接，再以 FIM（fill-in-the-middle）目标在拼好的长文档上随机切窗，构成跨文件长上下文样本。普通 'shuffle 文件级 + token-level FIM' 看不到这种跨文件依赖。

tokenizer 不是“词表大小”问题，是“多语 + 代码 + 数学如何在一张 byte-level grid 上对齐”问题；数据组织也不是“多喂多少”问题，是“样本边界画在哪”问题。

§4 MLA 与 fine-grained MoE 不是普适胜利，它们各有临界区

V2 [5] 之后，很多讨论把 MLA 称为“GQA 的下一代”。这只覆盖部分运行区间。MLA 的优势在于把 KV cache 压缩到更小的 latent 表示，因此长上下文 decode 的收益最明显；但收益并非免费，额外投影与重构会增加 attention 侧计算，所以在 batch 很大、上下文较短、prefill 主导成本的区间，优势会收窄，甚至贴近 GQA 的成本曲线 [5][32]。因此，MLA 更适合作为长上下文、内存受限推理的默认选择，而不是所有部署场景的无脑替换。MoE 侧同理。DeepSeekMoE [2] 的关键洞察不是专家越多越好，而是将专家切细后保留少量 shared expert 作为公共通道，从而同时维持 specialization 与稳定性。V2 [5] 和 V3 [7] 延续了这个方向，但 shared expert 从 2 个减到 1 个，说明系统在更大规模下没有继续提高共享比例。对照来看，Mixtral [16] 代表较粗粒度、无 shared expert 的传统路线；Lu et al. [14] 则指出 many-expert 设计中的专家贡献高度不均，部分专家可以被裁剪或跳过。更稳妥的结论是：fine-grained MoE + 1–2 个 shared expert 是当前公开证据支持的安全区；继续加 shared，会向 dense 退化；继续加 routed expert，则必须同步监控专家利用率，否则参数账面增长会快于有效容量增长。

图 5. MHA / GQA / MLA 在 KV cache 上的对比。MHA 给每个 head 独立 K/V；GQA 把若干 head 分一组共享 K/V；MLA 把所有 head 的 K/V 共同压到一个 latent 向量 c，按需通过额外投影解压回 K、V 参与 attention，因此 KV 体积近似一个 head 宽度，但 attention 阶段多两次投影。

MLA 解决的是 KV 内存，fine-grained MoE 解决的是激活成本；两者都不是“任何 regime 都更优”的通用答案。

§5 V3 工程账本：四件“看上去 free”的设计与它们的真实代价

V3 [7] 的工程账本里，四件事最容易被误读为“免费午餐”：aux-loss-free balancing、FP8 per-block、DualPipe、Multi-Token Prediction。放在一起看，模式很清楚：复杂度没有消失，只是在目标函数、数值精度、pipeline schedule、decoding 端之间转移。

Aux-loss-free [7]（图 6）的表面叙事是：把 router 平衡损失从 LM loss 中拿走，模型不再被两个目标拉扯。实际机制是给每个专家配一个可学习偏置 $b_{i}$ ，并按 batch 内负载偏离量直接更新——均衡压力从“可微目标”变成“一阶 SGD 控制器”。代价是训练动力学更依赖学习率、γ 控制系数、batch 配置；好处是 LM loss 更干净，专家分布更稳定。一条轻量 sequence-level balance loss 仍保留作兜底，说明 DeepSeek 自己也不把 bias-only 视为无条件充分。

FP8 per-block [7][15]（图 7）的关键不是“切到 FP8”，而是哪些算子允许切。V3 公开的算子级白名单大致是：高吞吐 GEMM（attention QKVO + FFN + MoE expert FFN + dispatch/combine all-to-all）走 FP8（前向 E4M3、反向 E5M2），尺度细到 (1×128) per-token tile / (128×128) per-block；累加先在 tensor-core 寄存器里 FP32，再每 Nc=4 拍提升一次到 FP32 累加，以缓解 E4M3 的指数下溢；embedding / output head / RMSNorm / softmax / RoPE / router gate / MTP head / loss reduction 全部留 BF16，master weights 与 Adam 一阶/二阶矩留 FP32。换句话说，FP8 不是“全局打开”，而是“算子级开关 + 白名单”。同样的 FP8-LM [15] 路径在更小模型上未必划算，复杂度与稳定性成本可能超过 GEMM 吞吐节省。

DualPipe [7] 是 pipeline 调度上的工程改进：在常规 1F1B 之外，交替排布 micro-batch 的前向 / 反向阶段，让通信（all-to-all、reduce-scatter）尽量与计算（GEMM、激活）重叠。论文没有完整给出边界条件；公开提示是，当 expert-parallel 通信占 step time 比例变高时收益最明显。在通信不是瓶颈的更小规模或纯 dense 训练里，DualPipe 额外引入的实现成本（micro-batch 配对、bubble 计费、debug 流程）很可能不值。

Multi-Token Prediction [7] 把 next-token 预测扩展到 next-1..N-token：在每个位置加一个轻量 MTP head，用相同的 hidden state 预测之后第 i 个 token。训练时，它把 token 级监督信号提高到 N 倍；推理时，可以关掉 MTP 头退化为标准自回归，也可以把它送入 speculative decoding，由主 head 负责验证。这是少见的“pretrain 数据效率 + 推理 speculative decoding”同时受益的设计，但它假设服务端能正确处理 MTP-augmented KV cache，而这条 serving 协议在公开文档里仍偏薄。

综合起来，V3 给后来者的真正提示不是“照搬这四件事”，而是“先做好分级”。每件事的收益曲线都不在小规模上启动；团队应先评估通信压力、显存约束、router 行为诊断能力、serving 端能力，再决定打开哪些开关。

设计	表面收益	复杂度搬到哪	适用规模
aux-loss-free balancing	把 router balance 信号从 LM loss 拽出去，不再扰动语言建模	per-expert bias 滑动更新；动力学更难复现；一条轻量 sequence-level 项兜底	≥100B 总参 MoE，多机训练；小规模复用反而过度工程化
FP8 per-block	GEMM 吞吐 ≈ 2× BF16；显存占用降一半	算子级白名单（图 7）；BF16 partial-sum + Nc=4 promotion；embedding/output head 必留 BF16	trillion-token + 多机长跑；短跑或小模型 BF16 更稳
DualPipe	前向/反向交替调度，让通信与计算尽量重叠	实现复杂度高（micro-batch 重叠、bubble 计费）；对 expert-parallel 通信比例敏感	expert / pipeline parallel 都被推到极限的场景
Multi-Token Prediction (MTP)	训练时每 token 同时预测下 1–N 个 token，提升数据效率与 speculative-decoding 兼容性	多一个 (或多个) 轻量 head；推理可关；和 KV cache / serving stack 需要协调	希望同时享受 pretrain 数据效率 + 推理 speculative decoding 的部署

V3 工程账本里四件“看上去 free”的设计与它们的真实代价

正在渲染图示…

图 6. V3 的 aux-loss-free 负载均衡：每个专家配一个可学习偏置 b_i，路由分数 = gate_logits + b_i。每个 batch 训练后，按专家在该 batch 内的『负载偏离均衡量』直接更新 b_i（高负载专家降偏置、低负载抬偏置），而不是把均衡项加到 LM loss 里。一条轻量 sequence-level balance loss 仍保留作为兜底。

图 7. V3 FP8 训练的算子级白名单（伪代码，依据技术报告 §3.3）。低精度不是“全局切换”，而是按算子分层：少数高吞吐 GEMM 落 FP8（E4M3 前向、E5M2 反向），尺度细到 (1×128) tile 或 (128×128) block；累加、master weights、optimizer state 一律保留 BF16/FP32；embedding、output head、归一化算子也留高精度。

V3 真正的工程信号不是“多了四个新技巧”，而是“四个开关在不同规模、不同瓶颈下分别什么时候值得打开”。

§6 V4：1M context 不是把 MLA 再拉长，而是重写 attention 与 KV 合约

V4 [10] 最重要的结论不是“又一个更大的 MoE”，而是长上下文瓶颈从单一 attention 算子变成 attention、KV cache、serving kernel、post-training rollout 的联合问题。V4-Pro 是 1.6T 总参、49B 激活；V4-Flash 是 284B 总参、13B 激活；两者都支持 1M context，并保留 DeepSeekMoE 与 MTP。真正的结构变化在 attention：CSA 先把每 m 个 token 的 KV 压成一个 compressed entry，再用 lightning indexer 选择 top-k compressed blocks 做稀疏 attention；HCA 用更大的压缩率 m′ 做极重压缩，但不再走 sparse selection；两者都叠加 sliding-window branch，补回局部细粒度依赖。这个设计承认一个事实：到 1M token 时，只靠 latent KV 压缩还不够，模型必须同时保留局部窗口、压缩全局记忆和可索引的稀疏远程证据。

代价也更明确。CSA/HCA 让每层 KV 形态不再统一，PagedAttention 的固定 block 假设被打破；V4 因此引入异构 KV cache：SWA 与尚未压缩的 tail states 作为 state cache 管，CSA/HCA compressed entries 作为 classical KV cache 管，并用 lcm(m, m′) 对齐 block。报告还把 on-disk KV cache 写进 serving 路径：共享 prefix 命中时直接复用 compressed KV，SWA KV 体量约为 compressed cache 的 8 倍，因此需要单独管理。这里的科学结论是：V4 的 27% single-token FLOPs 与 10% KV cache（相对 V3.2，1M context）不是一个 attention trick 的收益，而是 attention 结构、cache layout、kernel alignment、低精度存储共同闭环的结果。

V4 的训练与后训练同样不是孤立模块。mHC 替代传统 residual connection 的一部分角色，用 manifold-constrained hyper-connections 试图提高深层信号传播稳定性；Muon 负责大多数模块，embedding、prediction head、mHC bias/gating 与 RMSNorm 仍保留 AdamW，说明优化器切换也是算子/模块级白名单，而不是全局替换。预训练 token 增至 32T+。后训练先训练多个 domain specialist，再用 multi-teacher on-policy distillation 合入统一模型；OPD 使用学生自身轨迹上的 reverse KL，并在工程上做 full-vocabulary logit distillation。Quick Instruction 则把 search/action/title/query 等辅助任务改成特殊 token，复用已有 KV cache，避免再跑一个小模型做重复 prefill。V4 因此把 DeepSeek 谱系从“训练一个强 base + reasoning fork”推进到“base、长上下文 serving、specialist 合并、产品辅助任务共用一套 KV 账本”。

部件	直接作用	主要代价
CSA	先压缩 KV，再 top-k 选择 compressed blocks 做稀疏 attention	需要 lightning indexer、稀疏 kernel 与 block 对齐
HCA	用更大压缩率保存全局记忆，不走 sparse selection	远程细节被压缩，依赖 SWA/CSA 补局部与选择性远程证据
SWA branch	保留最近 nwin token 的未压缩局部依赖	KV 体量大，必须和 compressed cache 分开管理
异构 KV cache	把 CSA/HCA compressed KV、SWA KV、tail states 分层管理	打破 PagedAttention 式统一 block 假设，serving kernel 更复杂
on-disk prefix KV	共享 prefix 命中时复用 compressed KV，减少重复 prefill	incomplete compression block 与 SWA state 仍需特殊恢复逻辑

V4 把长上下文效率拆成五个互锁部件

V4 的长上下文收益来自 attention、cache、kernel、低精度与后训练轨迹的一起重写；只复刻 CSA 或 HCA，拿不到同一条成本曲线。

§7 V3 → R1 → V3.1：复杂度从 pretrain 移到训练动力学与后训练

V3 [7] 最容易被低估的，是它把若干“看上去 free”的设计固化为工程默认值。aux-loss-free balancing 的表层结论很简单：把 router balance 信号从主 loss 中移出，减少对语言建模目标的干扰。实际机制是，平衡压力转入 per-expert bias 的滑动更新，再用一个轻量 sequence-level 项兜底；loss 更干净，训练动力学也更难复现 [7]。FP8 也是同一逻辑。FP8-LM [15] 已经说明 FP8 训练可行，但 V3 [7] 把它推进到 671B MoE，依赖更细的 per-block scaling、BF16 accumulation，以及部分关键 GEMM 回退 BF16。换句话说，低精度不是“全局切换”，而是算子级白名单。R1 [8] 则把复杂度继续搬到 post-training。DeepSeekMath [3] 用 GRPO 去掉 critic，降低 PPO 式 RL 的部分系统负担；R1-Zero [8] 证明纯 RL 能先撞出 reasoning 行为，但也暴露语言风格、可读性和稳定性问题，因此 R1 [8] 又引入 cold-start 与多阶段 RL。这里的关键信号不是“纯 RL 已经足够”，而是“纯 RL 可以作为起点，但产品级模型仍需要额外约束”。Math-Shepherd [21] 和 Lightman et al. [17] 代表另一条路线：把奖励细化到步骤级，缓解 outcome-only reward 的稀疏性。V3.1 [9] 再给出第三种答案：不把所有用户都送进长思考链，而是在同一 base 上提供 thinking / non-thinking 两种模式。更务实的理解是，DeepSeek 在 2025 年给出的不是单一后训练范式，而是三种并行答案：纯 RL 起步、cold-start 修正、以及 hybrid thinking 产品化。

图 8. GRPO 目标函数（DeepSeekMath 引入，R1 沿用）。关键差异是去掉 critic：对每个 prompt q 采样 G 条回答，用 group 内 reward 的均值 / 方差归一化得到 advantage A_i，再用 PPO 风格的 clipped ratio 做 policy gradient。代价是 per-prompt G 倍的采样开销，但省去了独立 value head 的训练复杂度。

正在渲染图示…

图 9. R1 训练流水线两条路：(A) R1-Zero 直接在 V3 base 上跑纯 GRPO，能学出 reasoning，但语言混乱；(B) R1 先用一小撮 cold-start CoT 数据做 SFT 把语言风格锚住，再用 reasoning-RL（GRPO）→ rejection-sampling SFT → 全任务 RL（数学/代码/通用）→ 安全 RLHF 四阶段递进；最后把 R1 的能力蒸馏回 1.5B–70B dense 学生。

时间线

2024-01DeepSeek LLM 给出 dense 起点、2T token 与 100K BBPE[1]
2024-01DeepSeekMoE 引入 fine-grained routed expert + shared expert[2]
2024-02DeepSeekMath 提出 GRPO，先在数学域验证 RL-first[3]
2024-05V2 把 MLA 与 DeepSeekMoE 绑定成主干[5]
2024-06Coder-V2 证明 V2 主干可迁移到代码域并扩大 vocab[6]
2024-12V3 把 FP8、DualPipe、aux-loss-free、MTP 写成工程账本[7]
2025-01R1-Zero / R1 把 GRPO 从数学扩到通用推理[8]
2025-08V3.1 把 thinking / non-thinking 合并到同一产品面[9]
2026-04V4 发布 1M-context Pro/Flash 技术报告，主轴转向 CSA/HCA hybrid attention 与异构 KV cache[10]

研究立场对比

阵营 A：MLA 或 V4 hybrid attention 会成为 GQA 的通用替代

立场 — 支持者会指出，MLA 在长上下文下把 KV cache 压到传统 attention 的一个小分数，V2 [5] 与 V3 [7] 都把它作为主干；V4 [10] 又给出 CSA/HCA + SWA 的 million-token 路线，说明 DeepSeek 的注意力设计已经把 KV 成本当成第一等约束。

证据：[5][7][10]

反方 — 反方会拿 GQA 路线作对照：Mistral 7B [32] 说明更简单的 KV 共享在很多短上下文、高 batch 场景已经足够；V4 自己也构成反证，因为它没有把 MLA 继续外推到 1M context，而是改成 compressed + sparse + local window + cache layout 的组合。

判词 — 一条更稳的读法是：MLA 是 32K–128K 长上下文、KV 受限推理的强默认值；到 1M context，问题升级为 hybrid attention + cache system；短上下文高 batch 场景仍然先把 GQA 做扎实。

阵营 B：many-expert + shared expert 是 MoE 的稳定终局

立场 — 支持者会强调，DeepSeekMoE [2]、V2 [5]、V3 [7] 连续三代都沿着更细专家与少量 shared expert 演进，说明这条路在大规模训练里是可持续的。

证据：[2][5][7]

反方 — 反方会指出两点：Mixtral [16] 用较粗粒度专家也能给出强结果；Lu et al. [14] 进一步表明专家利用率高度不均，many-expert 设计并不自动等于更高有效容量。这里是在反驳“专家越多越稳”这条隐含前提。

判词 — 结论层面的建议是：把 fine-grained MoE + 1–2 个 shared expert 当作当前安全默认值，但不要把专家数当成单调优化轴。超过这个区间后，先做利用率诊断、裁剪模拟和 shared 比例扫描，再决定是否继续加专家。

阵营 C：数据质量主要靠 curated mixture，而不是透明大语料或模型感知选择

立场 — 支持者会说，DeepSeek LLM [1]、DeepSeek-Coder [4]、V2 [5]、V3 [7] 的连续提升，说明手工设计的 mixture、代码/数学上采样和任务导向数据组织仍然是主导杠杆。

证据：[1][4][5][7]

反方 — 反方来自三类证据：RefinedWeb [12] 认为高质量 web-only 数据可打平 curated corpora；Dolma [11] 认为透明数据账本本身是关键变量；DsDm [13] 则认为模型感知选择能超过人工质量启发式。这是在修正“人工 mixture 一定更优”的默认想法。

判词 — 一个更务实的定位是：DeepSeek 证明了 mixture 重组有效，但没有证明它是唯一最优路径。若团队缺少大规模数据治理能力，先做透明数据账本与小规模 model-aware selection，再决定是否投入复杂 mixture 工程。

阵营 D：reasoning 的主路已经从 SFT/RLHF 转向 RL-first

立场 — 支持者会拿 DeepSeekMath [3] 与 R1 [8] 作证据：GRPO 去掉 critic 后，纯 RL 或 RL-first 路线可以在数学与通用推理上直接拉起能力，再通过蒸馏回流到 dense 学生模型。

证据：[3][8]

反方 — 反方会指出，过程监督与传统对齐并没有失效。Lightman et al. [17]、Math-Shepherd [21]、Bai et al. [33] 说明 step-level supervision、reward modeling 与 RLHF 仍然能提供更稳定、更可控的行为约束，尤其在 reward 稀疏时更稳。这是在反驳“纯 RL 已经足够”这条过度外推。

判词 — 结论层面的建议是：把 RL-first 当成 reasoning 提升的强工具，而不是唯一主路。reward 稠密、可自动验证的任务优先用 GRPO；reward 稀疏、格式噪声大的任务，保留 process supervision 或 cold-start SFT 更稳。

实践要点

可操作清单：
1. 先把版本树画出来，再决定复刻哪一版。若目标是 10B–100B 级开源复现，优先复刻 V2 的“MLA + fine-grained MoE + 1–2 shared expert”组合，不要直接跳到 V3 全套；V3 [7] 的 FP8、DualPipe、aux-loss-free 只有在更大规模和更高通信压力下才值得一起上。
2. MLA 只在 32K–128K 长上下文、decode 受 KV 限制时优先级最高。若主流请求长度长期低于 16K，先把 GQA 路线做扎实；若目标是 1M context，不要把 MLA 线性外推，直接评估 V4 [10] 这种 CSA/HCA + SWA + 异构 KV cache 的系统方案。
3. MoE 拓扑先扫 shared expert 数量，再扫 routed expert 数量。推荐从 1–2 个 shared 开始，shared 占比再高就要警惕向 dense 退化；继续加 routed expert 前，先做专家利用率统计与裁剪模拟 [2][14]。
4. 不要把 aux-loss-free 当成“删掉一个 loss 项”这么简单。若没有足够好的训练监控，宁可保留轻量 balance loss，也不要盲上 bias-only 更新；V3 [7] 的做法更像高阶调参方案，而不是小团队默认值。
5. FP8/FP4 采用算子级白名单，不要全局切换。V3 的 FP8 训练与 V4 的 FP4 rollout 都说明同一条原则：embedding、head、norm、关键状态留高精度，只有吞吐主导路径逐步下沉低精度 [7][10]。
6. 数据工程先做透明账本，再做 mixture 微调。若没有公开可审计的数据记录，很多“数据配方有效”都无法复核；Dolma [11] 与 OLMo [22] 给出的教训比单纯再加 2T token 更实用。
7. reasoning 训练按 reward 稠密度分流。数学、代码、可自动验证任务优先试 GRPO [3][8]；开放式对话或 reward 稀疏任务，保留 process supervision、PRM 或 RLHF 约束 [21][17][33]。
8. 若产品需要同时覆盖快问快答与长思考，不要默认训练两套完全独立模型。先评估 V3.1 [9] 这种 hybrid thinking 形态；只有当安全、延迟或 KV 行为冲突明显时，再考虑拆成 R1 式纯思考模型与普通 chat 模型两条线。
9. 若产品要做 million-token agent / search / long-document work，不要只问模型能不能收 1M token。先核对 KV cache layout、on-disk prefix reuse、SWA state、rollout WAL、sandbox 与 Quick Instruction 这些 serving/post-training 设施；V4 的成本曲线依赖这些系统件一起成立 [10]。

悬而未决的问题

Q1.MLA 相对 GQA 的临界点仍缺少统一公开基准，尤其是 prefill / decode 在不同 batch × context 网格下的直接对照。现有证据主要来自 V2 [5] 与 GQA 路线代表 Mistral 7B [32]，还缺一组同硬件、同实现风格的 controlled experiment。
Q2.MoE 负载均衡的公开证据仍偏薄。V3 [7] 给出 aux-loss-free 的主张，但缺少与经典 aux-loss、bias-based、sequence-level balancing 的系统对照，尤其缺少跨规模复现实验。
Q3.DualPipe 的收益边界还不清楚：在什么通信占比、pipeline 深度、expert parallel 组合下，它的 schedule 复杂度才值得。当前主要证据来自 V3 [7] 的主报告，缺少独立复现与反例。
Q4.V3.1 的 hybrid thinking 公开细节不足，尤其是 thinking / non-thinking 是否完全共享权重、是否存在模式特定 adapter、以及两种模式的 KV 行为如何隔离。现阶段只能依据发布说明 [9] 做产品层推断。
Q5.V4 的 CSA/HCA、SWA、异构 KV cache 与 on-disk prefix reuse 缺少拆分消融。公开报告给出了相对 V3.2 的 1M-context 成本曲线，但还不能判断收益分别来自压缩率、稀疏 top-k、sliding-window branch、低精度存储还是 cache layout [10]。
Q6.mHC 与 Muon 的独立贡献仍不清楚。V4 同时改变 residual 连接、优化器、低精度、attention 和后训练，如果没有 same-data/same-compute 消融，很难判断 mHC 是稳定性主因，还是与 Muon、32T+ 数据和模型规模共振 [10]。
Q7.DeepSeek tokenizer 的直接设计说明仍不够完整。可以从 LLM [1]、Coder-V2 [6]、V3 [7] 推出 vocab 演进，但缺少一篇专门讨论“大 byte-level vocab 是否优于更小词表”的直接反方论文。

[1]
DeepSeek-AI, Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv, 2024论文
[2]
Damai Dai, Chengqi Deng, Chenggang Zhao, R. X. Xu, Huazuo Gao, Deli Chen. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models. ACL, 2024论文
[3]
DeepSeek-AI. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
[4]
Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang. DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence. arXiv, 2024论文
[5]
DeepSeek-AI, Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024论文
[6]
DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv, 2024论文
[7]
DeepSeek-AI, Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu. DeepSeek-V3 Technical Report. arXiv, 2024论文
[8]
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
[9]
DeepSeek-AI. DeepSeek-V3.1 Release. DeepSeek API Docs / News, 2025博客
[10]
DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. Hugging Face, 2026
[11]
Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson. Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research. arXiv, 2024论文
[12]
Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli. The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only. NeurIPS Datasets and Benchmarks, 2023论文
[13]
Logan Engstrom, Axel Feldmann, Aleksander Madry. DsDm: Model-Aware Dataset Selection with Datamodels. arXiv, 2024论文
[14]
Xudong Lu, Qi Liu, Yuhui Xu, Aojun Zhou, Siyuan Huang. Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models. arXiv, 2024论文
[15]
Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang. FP8-LM: Training FP8 Large Language Models. arXiv, 2023论文
[16]
Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary. Mixtral of Experts. arXiv, 2024论文
[17]
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker. Let's Verify Step by Step. arXiv, 2023论文
[18]
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang. Qwen Technical Report. arXiv, 2023论文
[19]
Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba. OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text. arXiv, 2023论文
[20]
Alon Albalak, Liangming Pan, Colin Raffel, William Yang Wang. Efficient Online Data Mixing For Language Model Pre-Training. arXiv, 2023论文
[21]
Peiyi Wang, Lei Li, Zhihong Shao, R. X. Xu, Damai Dai. Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations. ACL Findings, 2023论文
[22]
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney. OLMo: Accelerating the Science of Language Models. arXiv, 2024论文
[23]
Alon Albalak, Yanai Elazar, Sang Michael Xie, Shayne Longpre, Nathan Lambert. A Survey on Data Selection for Language Models. arXiv, 2024论文
[24]
Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier. StarCoder 2 and The Stack v2: The Next Generation. arXiv, 2024论文
[25]
Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess. Scaling Laws for Neural Language Models. arXiv, 2020论文
[26]
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe. The Pile: An 800GB Dataset of Diverse Text for Language Modeling. arXiv, 2020论文
[27]
BigScience Workshop, Teven Le Scao, Angela Fan, Christopher Akiki. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. arXiv, 2022论文
[28]
Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov. StarCoder: may the source be with you!. TMLR, 2023论文
[29]
Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu. Scaling Relationship on Learning Mathematical Reasoning with Large Language Models. arXiv, 2023论文
[30]
Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv, 2023论文
[31]
Peiyi Wang, Lei Li, Liang Chen, Feifan Song, Binghuai Lin. Making Large Language Models Better Reasoners with Alignment. arXiv, 2023论文
[32]
Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot. Mistral 7B. arXiv, 2023论文
[33]
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv, 2022论文
[34]
Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv, 2023论文
[35]
Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct. arXiv, 2023论文
[36]
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole. YaRN: Efficient Context Window Extension of Large Language Models. ICLR, 2024论文
[37]
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu. MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models. ICLR, 2024论文
[38]
Aiden Grossman, Ludger Paehler, Konstantinos Parasyris, Tal Ben-Nun, Jacob Hegna. ComPile: A Large IR Dataset from Production Sources. arXiv, 2023论文
[39]
Xuan-Phi Nguyen, Wenxuan Zhang, Xin Li, Mahani Aljunied, Zhiqiang Hu. SeaLLMs -- Large Language Models for Southeast Asia. arXiv, 2023论文
[40]
Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza. Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model. arXiv, 2024论文
[41]
Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna. Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus. COLING, 2020论文
[42]
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen. RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv, 2021论文
[43]
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra. PaLM: Scaling Language Modeling with Pathways. arXiv, 2022论文
[44]
Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey. Efficient Training of Language Models to Fill in the Middle. arXiv, 2022论文
[45]
Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li. Source Code Data Augmentation for Deep Learning: A Survey. arXiv, 2023论文
[46]
Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen. Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks. TMLR, 2023论文
[47]
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang. ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving. ICLR, 2024论文
[48]
Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He. UltraFeedback: Boosting Language Models with Scaled AI Feedback. arXiv, 2023论文
[49]
Risto Luukkonen, Ville Komulainen, Jouni Luoma, Anni Eskelinen, Jenna Kanerva. FinGPT: Large Generative Models for a Small Language. arXiv, 2023论文
[50]
Angela Fan, Beliz Gokkaya, Mark Harman, Mitya Lyubarskiy, Shubho Sengupta. Large Language Models for Software Engineering: Survey and Open Problems. arXiv, 2023论文

论文列表

基础版：tokenizer、数据组织与 dense 起点(4)

覆盖 DeepSeek LLM / Coder 早期版本的 tokenizer、2T 级数据 mixture、代码数据组织与 FIM 路线，作为后续 V2/V3 的对照基线。

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

DeepSeek-AI,Xiao Bi,Deli Chen,Guanting Chen,Shanhuang Chen2024年1月5日

给出 DeepSeek 谱系的 dense 原点：100K BBPE tokenizer、2T token 预训练 mixture、长周期 scaling 配方，以及 SFT+DPO 的早期对齐路线。后续版本很多变化都要拿它作参照。

DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

Daya Guo,Qihao Zhu,Dejian Yang,Zhenda Xie,Kai Dong,Wentao Zhang2024年1月25日

把 repo-level 数据组织、依赖图感知文档构造和 FIM 训练写成可执行流程，说明 DeepSeek 的数据轴并不只是“多喂代码”，而是重写样本结构与目标函数。

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Luca Soldaini,Rodney Kinney,Akshita Bhagia,Dustin Schwenk,David Atkinson2024年1月31日

把“数据透明度本身是研究变量”说清楚。它不是直接反驳 DeepSeek 的 mixture，而是指出没有公开数据账本时，很多工程判断难以复核。

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo,Quentin Malartic,Daniel Hesslow,Ruxandra Cojocaru,Alessandro Cappelli2023年6月1日

提供一个直接反方：高质量过滤 web-only 数据在一定规模上可以打平甚至超过人工拼接 mixture，逼着人重新审视 DeepSeek 的 mixture 重组到底贡献了什么。

结构转折：fine-grained MoE 与 MLA(4)

聚焦 DeepSeekMoE 与 V2：专家粒度、shared expert、MLA 与长上下文效率，解释 DeepSeek 从 dense 转向稀疏架构的核心机制。

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Damai Dai,Chengqi Deng,Chenggang Zhao,R. X. Xu,Huazuo Gao,Deli Chen2024年1月8日

提出 fine-grained routed expert + shared expert 组合，是 V2/V3 MoE 拓扑的直接祖先。它把“更多专家”改写成“更细专家 + 一个稳定公共通道”。

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI,Aixin Liu,Bei Feng,Bin Wang,Bingxuan Wang,Bo Liu2024年5月7日

V2 把 MLA 与 DeepSeekMoE 组合成可量产的主干：236B 总参、21B 激活、128K context、8.1T token。它是整条谱系里最关键的结构转折点。

Mixtral of Experts

Albert Q. Jiang,Alexandre Sablayrolles,Antoine Roux,Arthur Mensch,Blanche Savary2024年1月8日

作为最强开源对照，Mixtral 代表更传统的 SMoE 设计：专家数较少、粒度较粗、没有 shared expert。正因为它强，DeepSeekMoE 的差异才有解释价值。

Mistral 7B

Albert Q. Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot2023年10月10日

GQA 是 MLA 最直接的注意力对照。它说明 KV 压缩并不只有 latent 路线；在短上下文或大 batch 下，GQA 的简单性仍然有吸引力。

V3/V4 工程账本：训练栈、长上下文与 serving(5)

围绕 V3 与 V4 的系统栈展开：aux-loss-free balancing、FP8 per-block、DualPipe、MTP、CSA/HCA hybrid attention、mHC、Muon、FP4 rollout，以及这些设计的边界条件与复现成本。

后训练分叉：GRPO、R1 与混合思考(4)

覆盖 DeepSeekMath 到 R1 的 RL 路线，以及 V3.1 的 hybrid thinking 产品化形态，讨论 reasoning 对齐从 SFT 主导转向 RL-first 的条件与代价。

DeepSeek 谱系工程考古：从 dense 到混合思考的版本演进

领域综述

TL;DR

核心断言

§1 先看版本树：每次跳版都在换一组默认值

§2 八条工程子轴里，哪些是继承，哪些是替换

§3 Tokenizer 与数据组织：被低估的杠杆

§4 MLA 与 fine-grained MoE 不是普适胜利，它们各有临界区

§5 V3 工程账本：四件“看上去 free”的设计与它们的真实代价

§6 V4：1M context 不是把 MLA 再拉长，而是重写 attention 与 KV 合约

§7 V3 → R1 → V3.1：复杂度从 pretrain 移到训练动力学与后训练

时间线

研究立场对比

阵营 A：MLA 或 V4 hybrid attention 会成为 GQA 的通用替代

阵营 B：many-expert + shared expert 是 MoE 的稳定终局

阵营 C：数据质量主要靠 curated mixture，而不是透明大语料或模型感知选择

阵营 D：reasoning 的主路已经从 SFT/RLHF 转向 RL-first

实践要点

悬而未决的问题

参考文献 (50)

论文列表

基础版：tokenizer、数据组织与 dense 起点(4)

结构转折：fine-grained MoE 与 MLA(4)

V3/V4 工程账本：训练栈、长上下文与 serving(5)

后训练分叉：GRPO、R1 与混合思考(4)