🗂️ 专题

Looped Language Modeling：depth-recurrence 作为预训练 FLOPs 与推理算力之间的第三根旋钮

loop 的可用性来自中层可重复语义电路；它是同一 checkpoint 的推理算力档位，不是 dense scaling 的免费替代。

Looped Language Modeling：depth-recurrence 作为 pretrain FLOPs 与 inference compute 之间的第三根旋钮

looped LM 最强的论点不是“共享参数省钱”，而是“某些中层语义电路可以被再次执行，并在不改权重的情况下把额外 depth compute 变成可测收益”。RYS 三篇文章给这个判断补了一块机制证据：层扫描发现可重复的不是任意层，而是 Transformer 中部的连续 block；跨语言 / Base64 / 代码与 LaTeX 的 hidden-state 轨迹又显示，中部表示更接近 language-agnostic semantic space，早层负责把表面形式读入，晚层负责写回…

架构16篇论文·4个子主题·2026年5月1日

Programming Every Example：把预训练数据质量提升从全局规则推进到逐样本程序

逐样本程序化改写不是“更聪明的过滤器”；它更像位于去重与混料之后的数据精修层，前提是变换可验证、成本受控、收益能在预训练而非只在离线打分上兑现。

数据scaling12篇论文·4个子主题·2026年4月28日

预训练数据质量控制长期依赖两类手段：一类是全局过滤与去重，另一类是少量专家规则。前者便宜、稳定，但对单条样本的细粒度缺陷无能为力；后者更懂任务，却难以扩展到万亿 token 级语料。Programming Every Example 把问题改写成“为每个样本生成可执行的数据变换程序”，核心不是再造一个更强的过滤器，而是把专家式修订流程程序化、批量化，并把收益落实到预训练 loss…

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

DeepSeek 谱系工程考古：从 dense 到混合思考的版本演进

把 DeepSeek 读成一条版本谱系，比把 V3 或 R1 当成单篇热点更接近工程事实。

DeepSeek 谱系工程考古：tokenizer / 数据 / 注意力 / MoE / 训练栈 / 对齐的版本演进

DeepSeek 这条线的可贵之处，不在于某一版单点领先，而在于它把 2024–2026 开源 LLM 工程里最难复现的几类决策，连续写成了可核对的版本账本：早期 dense 模型给出自家 scaling 与 2T token 数据组织，DeepSeekMoE 把 fine-grained routed expert 加 shared expert 做成稳定默认值，V2 用 MLA 把长上下文推理的 KV 成本压下去，V3 再把 671B MoE 的训练栈、FP8、DualPipe、aux-loss-free…

架构17篇论文·4个子主题·2026年4月27日

长文能力的本质：从「窗口长度」到「pattern capacity × 衰减斜率」

窗口长度只是上限；真正决定长文可用性的，是 attention pattern 能承载多少条路径、这些路径是否足够多样，以及性能随长度与位置如何衰减。

分析与评估16篇论文·4个子主题·2026年4月27日

长文能力不该再被写成一个标量。标称窗口回答的是“能塞多少 token”，有效能力回答的是“在多长距离上还能稳定 retrieve、track、aggregate，并且衰减成什么形状”。2024–2025 的关键变化，是测量端与机制端终于接上：RULER 把单针 NIAH 拆成 retrieval、tracking、aggregation 三种压力；LongBench v2、LV-Eval、BABILong、Loong 把真实任务、长度分层和 reasoning 压力补齐；Wu et al. 进一步给出…

长文能力的本质：从「窗口长度」到「pattern capacity × 衰减斜率」 / The Essence of Long-Context Capability: From “Window Size” to “Pattern Capacity × Decay Slope”

下游任务的缩放律：从“涌现是惊喜”到可预测性工程化

把下游任务预测从“看曲线猜趋势”改成“主训前可审计的预算工艺”

Scaling Law12篇论文·4个子主题·2026年4月27日

核心变化不在于又多了一条幂律，而在于下游预测已经从“解释现象”转成“支持预算决策”。早期讨论把 BIG-Bench 一类任务上的跳变曲线读成能力突然出现，默认结论是下游表现难以外推。后续两步把这个直觉拆开：Schaeffer et al. 把大量跳变归因到 exact-match 这类离散指标的非线性；Du et al. 再把横轴从 compute 换成 pretraining loss，发现不同架构、token 预算、dense/sparse 训练轨迹在 loss…

下游任务的缩放律：从『涌现是惊喜』到可预测性工程化 / Scaling Laws for Downstream Tasks: From 'Emergence Is a Surprise' to Operational Predictability

Context Scaling 的三根轴：数据分布、拼接工程与 induction headPart I

把问题从“窗口能开多大”改成“远处证据何时进入可用语义计算”：PE 是门槛，数据与 packing 是主变量

Context Scaling 三部曲第一篇聚焦工程视角：长窗口的 runnability、数据分布与 packing 工程；`agent-context-scaling-hyperdoc`（认知视角）与 `context-scaling-4d`（分类视角）从不同轴互相补充。结论先说窄：context scaling 的目标不是把可寻址窗口做大，而是让远处证据在训练中反复成为降 loss 所必需，并在评测中真正参与组合、综合和生成。标称 128K 是系统能力，effective 128K…

Context Scaling 的三根轴：数据分布、拼接工程与 induction head

Tokenizer Scaling：从 32K 到 128K 之外——被当常量的那根杠杆

把 tokenizer 当作训练目标 + 系统成本 + 后训练债务的共同回归项

结论先行：tokenizer 不是“预处理常量”，而是会同时改变训练目标的可达字符串集合、训练信号在 token 之间的分配、以及推理系统的序列长度与 KV cache 成本，因此必须像 data mixture 或训练配方一样走强制回归。受控 fixed-compute 预训练已经把影响量级钉死：同一 2.6B 与预算下，仅替换 tokenizer 就能带来 0.6–5.1 pp 下游方差 [Ali2024TokenizerChoice]。工业侧也把收益写成可交付口径：128K vocab 对训练 loss 约…

Tokenizer Scaling：从 32K 到 128K 之外——被当常量的那根杠杆

SWE Agent 的 Pretrain：如何把软件工程能力训进模型

预训练分布前移是SWE Agent规模化落地的核心路径，而非仅依赖推理期脚手架或后训练RL

智能体17篇论文·5个子主题·2026年4月21日

SWE Agent 的核心能力要求是完成仓库级开发闭环：理解issue描述、定位关联代码文件、生成可合并的diff、通过所有相关测试，这一任务范式与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四类：推理期脚手架与工具链设计、后训练阶段RL与验证器优化、大规模纯代码语料预训练、预训练阶段数据形状与任务分布对齐。现有公开实验显示，推理期优化与RL均为能力放大器，当基座模型预训练仅覆盖文件级代码片段时，会缺失跨文件引用、补丁插入、故障→修复轨迹的统计先验，导致agent…

如何把软件工程能力训进基础大模型

Transformer 架构改进 × scaling：GQA / SWA / MLA / depth-up-scaling 的边际价值怎么定价

把“架构创新”当作账单：KV-cache/带宽、稳定性风险、迁移成本三项一起算

Transformer 架构改进 × scaling：GQA / SWA / MLA / depth-up-scaling 的边际价值怎么定价

可落地的“架构定价”不该按名词新不新，而应按三项可计量成本：每 token 推理成本（KV-cache 容量与带宽）、训练稳定性风险（loss spike/发散概率与排障时间）、迁移与扩展成本（kernel/serving 栈改造与生态兼容）。公开证据里，≤70B 稠密 decoder-only 的默认项更像是 GQA：把 KV heads 从 h 降到 h/8 一类分组，KV-cache 近似线性下降，而质量退化通常在接近 MQA（KV heads=1）时才明显加速…

架构16篇论文·4个子主题·2026年4月21日

合成数据 × Mid-train：Pretrain 的工程蓝图

把 mid-train 固化成分布迁移阶段；synthetic 用于可控 shaping，而不是 token 堆量

数据scaling15篇论文·4个子主题·2026年4月21日

一个更稳的工程读法：把 mid-train 固化成“主干预训练之后的分布迁移阶段”，synthetic 的默认角色是 distribution shaping——把学习信号集中到可验证、结构化、覆盖目标任务的子分布，而不是单纯把 token 规模堆上去。[Llama3Herd2024][Phi3Report2024][WRAP2024] 给出可复用的分阶段配方：web-heavy backbone 负责广覆盖与长尾，mid-train 负责 code/math/long-context/reasoning…

synthetic data mid-train distribution shaping compute split collapse accumulation replacement verifier loops WRAP Phi-3 Llama 3 herd DeepSeekMath DataComp-LM

SWE Agent 的分阶段评估：从 pretrain PPL 到 SWE-bench Verified

把“一个 Verified 分数”拆成可复核的分阶段 scorecard，并把 harness 公开当作可比性的前提

智能体16篇论文·4个子主题·2026年4月21日

结论先行：比较 SWE agent 时，把“一个 SWE-bench Verified 分数”当作唯一排名依据不稳，尤其当差距只有 0.x 个百分点时，harness 设定与采样噪声足以改写排序。更可复核的口径是按训练阶段给出 composite scorecard：pretrain 阶段用 code BPB/patch-PPL 作为“像代码”的辅助信号，同时并列执行语义（CRUXEval）与…

SWE agent evaluation across training stages; composite scorecard; harness disclosure; pretrain BPB/patch-PPL vs execution semantics; SFT-ready freshness + EvalPlus; SFT/RL anchored by SWE-bench Verified with cross-language + environment cross-check; deployment UX metrics

SSM/Mamba/RWKV/线性注意力：次二次序列建模的工程最优解与边界

把次二次序列模型当预算旋钮：用少量 attention 兜底精确寻址，用 recall 曲线约束退化，用蒸馏/转换降低训练风险

SSM/Mamba/RWKV/linear attention as subquadratic sequence modeling: engineering optima, limits on exact retrieval/copying, hybrid designs, and distillation/retrofit from Transformers

结论先行：SSM/RWKV/线性注意力更像“推理吞吐与显存预算的旋钮”，而不是 Transformer 的直接替代。原因不在于训练不够，而在于“固定维度状态/低秩状态”对精确寻址的结构性约束：当任务需要把远处 token 以 exact-match 方式复制、或在密集实体绑定里做可逆引用时，纯递推会出现可复现的 recall 掉点…

架构14篇论文·4个子主题·2026年4月21日

Packing × Masking × 长度训练：LLM pretrain 数据流的工程蓝图

面向7B-70B参数模型的可复现预训练数据流默认配置

数据scaling12篇论文·3个子主题·2026年4月21日

本主题聚焦7B-70B参数规模LLM预训练数据流的三个核心工程选型：序列打包（packing）效率、attention mask正确性、长度训练算力分配。当前工业界与学术界在四个维度存在明确分歧：是否默认隔离同pack内跨文档注意力、是否采用short-to-long长度课程、是否默认启用FIM填充目标、超长文档的切分策略。现有公开落地结果已收敛出一套可复现的高性价比配置，可在packing ratio>98%的前提下，同时保证训练目标与评估分布对齐，长上下文能力无退化，同算力下wallclock降低20-40%。

Packing × Masking × 长度训练：LLM pretrain 数据流的工程蓝图

大模型 Scaling Law：从 Kaplan 到 Chinchilla，再到数据配方、词表与下游能力

把 Kaplan≈1.7 与 Chinchilla≈20 视为“局部拟合”，把 scaling law 扩到 (N, D, mixture, vocab) 四轴并做常驻 sweep

Scaling Law19篇论文·7个子主题·2026年4月21日

结论先行：把 Kaplan≈1.7 与 Chinchilla≈20 当成“常数”会在真实训练里产生系统性预算误差；更稳的做法是把 scaling law 当作每个 recipe 都要重拟合的监控件，并把它的“维度”从 (N, D) 扩到 (N, D, mixture, vocab)。Kaplan et al. [Kaplan2020ScalingLaws] 在固定训练步数与特定优化设定下拟合到“更大模型、更少 tokens”的有效区间；Hoffmann et al.…

Scaling laws for LLMs: compute-optimal N vs D (Kaplan vs Chinchilla), recipe sensitivity, data-mixture as an independent axis, and the gap between loss scaling and downstream capability scaling.

困惑度与下游性能的缩放关联

把 PPL 从“发版决策者”降级为“训练闭环信号”：阶段一看 loss，阶段二看逐任务曲线与多面板

分析与评估16篇论文·4个子主题·2026年4月21日

PPL/验证集 cross-entropy 在训练闭环里仍然是最便宜、最稳定的信号：同 tokenizer、同目标函数、同模型家族时，它能支撑 early-stop、异常检测、数据混合调参和 compute-optimal 预算拟合。[Kaplan2020ScalingLaws][Hoffmann2022Chinchilla] 但把 PPL 当“发版决策者”会在三个地方失效：其一，跨 tokenizer/跨语言时 raw PPL 不再是统一单位，分词粒度会改变数值语义，至少需要…

Scaling Relationships Between Language-Model Perplexity and Downstream Task Performance

预训练数据重复与去重：把“重复”拆成三条账

把“重复”拆成 web 冗余、有限池 epochs、敏感数据曝光上限三条账；用跨语料指纹把曝光次数算清

数据scaling12篇论文·6个子主题·2026年4月21日

“去重 vs 重复”不是一个开关，而是三条账：①web 爬取池的被动冗余（镜像页、模板页、长重复 substring、近重复文档）主要消耗无效 token，并把逐字记忆化与评测泄漏概率抬高；默认应做强 exact/near-exact dedup，并把“长重复 substring 占比”单列 KPI [Lee2021Dedup]。②漂白后的有限高质量池（例如人工筛选、许可明确、格式统一）里，均匀多 epoch 在约 2–4 轮内接近“等效新鲜…

Pretraining data repetition and deduplication: split repetition into three ledgers (web redundancy, finite-pool multi-epoch, sensitive/eval zero-exposure), with cross-corpus fingerprinting, exposure distribution control, and contamination/memorization risk management.

Optimizer 全景：AdamW 仍是默认，Muon 的混合路由与 SOAP 的二阶路线

把“谁更强”改写成：规模 × 显存 × 调参预算的可审计决策

训练与优化15篇论文·4个子主题·2026年4月21日

2026 年做 optimizer 选型，最稳的框架不是“谁更强”，而是三轴决策：规模（≤30B vs ≥70B）、显存（state/通信能否承受）、调参预算（能否做多轮 sweep）。在固定 HP 搜索预算与对齐 schedule 家族的前提下，很多“新 optimizer 胜出”的差距会收缩，甚至发生 rank flip；因此 AdamW 仍常作为默认，不是因为单点最优，而是因为 recipe 可复用、失败模式可预期、以及 μP 下的 LR transfer…

Optimizer 全景 2026：AdamW 仍是默认、Muon 的混合路由、SOAP 的二阶正路

HP Transfer 的边界：µP、Complete-P、CARBS 与经验公式的适用区间

把 HP transfer 做成分层系统：parameterization 定边界，公式给初值，局部搜索补盲点

Scaling Law16篇论文·4个子主题·2026年4月21日

2026 年做 HP transfer，更稳的工程分层是：parameterization 负责把“宽度/深度/精度变化时哪些量应该不漂”说清楚，并提供可验收的诊断；经验公式负责在固定 recipe 下给出 LR、batch、token:param 的闭式起点；局部搜索负责补齐 µP 覆盖外的变量（尤其 AdamW 的 weight decay 与 β₂）以及不可预期的实现细节。Complete-P 把原版 µP 在现代 Transformer 组件下的失配拆成模块级规则与 coord check 表，适合作为…

HP Transfer 2026：µP、Complete-P、CARBS 与经验公式的边界

上下文长度扩展的全栈工程：从“放得下”到“用得上”

把“窗口长度”当作配置项，把“有效上下文”当作交付指标：评估闭环与数据分布先行，位置与系统按区间选型

训练与优化14篇论文·4个子主题·2026年4月21日

长上下文扩展的瓶颈已经从“显存能不能放下”转向“模型能不能在真实任务里稳定用上中段与远端证据”。RoPE 外推（PI、YaRN、LongRoPE）把 32K→128K→2M+ 做成了可复用的参数化路径，但它主要解决的是位置几何与数值稳定性，不能自动带来任务级收益 [PI2023][YaRN2023][LongRoPE2024]。评估侧，RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 反复指出：perplexity 与 NIAH…

Full-Stack Context Length Scaling: From “Fitting” to “Using” Long Context

长上下文 LLM 的位置编码路径：从 RoPE 到 ABF 的六步演化

结论先行：长文能力 = RoPE 相位覆盖 × 训练分布 × 评估闭环；“窗口数字”只是接口参数

长文 LLM 2026：从 RoPE 到 ABF 的六步路径

可交付的长文能力不是“把窗口参数改大”，而是三件事同时对齐：RoPE 的相位覆盖（尤其低频维度在目标长度上的可分性）、训练分布里远距离依赖出现的方式与比例、以及能测 recall/聚合/多跳追踪的评估闭环。[Xu2024RoPEBaseBounds][Dubey2024Llama3][Hsieh2024RULER] 对存量模型，32K–128K 的主流落地更像“retrofit + 严格验收”：YaRN 的 per-dim ramp 把插值主要放在低频维度，同时用 attention temperature…

架构14篇论文·4个子主题·2026年4月21日

MoE 全谱对比：路由、负载均衡、专家结构与 DeepSeek 范式的收敛

把 MoE 压缩成三条轴与一套默认 recipe：结构（fine-grained+shared）、均衡（bias EMA）、稳定性门槛（早期指标硬门槛）

MoE 全谱对比 2026：路由 / 负载均衡 / 专家结构与 DeepSeek 模板的胜出

MoE 在 2024–2026 的主线不是“更聪明的路由器”，而是把三类事故从训练主导变量里移走：拥塞导致 token drop（吞吐抖动与 loss 尖刺）、aux load-balancing loss 的实现敏感性与梯度干扰、以及粗粒度专家难以分化导致表示塌缩。DeepSeek 系列把这三点工程化成一套可复刻模板：细粒度 64–128（需要更大容量再到 256）routed experts + 1 shared expert；负载均衡优先用 aux-loss-free 的 router bias…

架构16篇论文·4个子主题·2026年4月21日

数据配比：把 ratio 当成可优化的控制变量，而不是经验玄学

把 ratio 当作可记账的控制变量：dedup → 分桶 → 按算力选搜索 → curriculum

数据scaling14篇论文·4个子主题·2026年4月21日

数据配比在工程里经常被写成一张“固定比例表”，但更稳的理解是：ratio 是训练过程中的控制变量，必须和去重、分桶、搜索预算、训练阶段一起记账，否则很难解释回归、也很难回滚。第一条底线是先 dedup 再谈 ratio：document-level dedup 至少要做，能做就加语义去重/多样化，否则 web 域的 effective token…

数据配比：ratio 是 optimization，不是 lore

FlashAttention 演进：从 IO-aware kernel 到 FP8 与 FlexAttention 生态

把 attention 优化拆成四层：数据流、调度、硬件映射、系统语义；争议集中在 FP8 与可移植性，而不是“再写一个更快的 kernel”

系统与工程13篇论文·4个子主题·2026年4月21日

attention 优化在 2026 更像一套分层工程学，而不是单点 kernel 竞赛：训练侧的 exact attention 主线基本收敛到 FA2/FA3 的“调度 + 硬件映射”，推理侧瓶颈更多落在 decode 并行与 KV cache 组织，变体侧则从“写 CUDA”迁移到“写语义再编译”。争议集中在三处：其一，FA3 把 Hopper 的 TMA、warp specialization、FP8 tensor core 深度揉进…

FlashAttention 2026：从 IO-aware kernel 到 FP8 与 FlexAttention 生态

数据价值评估 × 因果：influence、ablation 与 causal inference 的工程地图

把 ladder 作为合并门禁：bulk 负责吞吐，influence 负责诊断，因果负责处理混杂与评估偏差

数据scaling15篇论文·4个子主题·2026年4月21日

结论先行：把 ablation ladder 作为数据决策的主干与合并门禁；bulk filtering 负责吞吐与成本；influence/attribution 用于定位失败样例与数据缺口；因果方法用于处理混杂与评估偏差，但不替代 ladder。排序背后有三条工程机制。第一，数据价值对 capability 异质：同一套过滤/混合策略在知识/理解任务上跨规模更稳定，而在 code/math/reasoning…

数据价值评估 × 因果：influence、ablation 与 causal inference 的工程地图

Code 浓度 × Pretrain：reasoning 迁移、头部模型实践与 20% sweet spot

把 code 占比从“经验参数”改成可预算、可回归、可解释的训练旋钮

把 code 占比当作“预算旋钮”而不是经验参数：对 generalist 预训练，更稳的默认区间是 15–25%（常用 20%），<15% 常见表现是 reasoning/ICL 像没喂够，>30% 需要显式 NL-retention gate，>~40% 更容易进入 mixture interference 区。公开 continual 证据表明两位数 code token 不必然伤通用能力：Code Llama 在 Llama 2 基座上追加约 500B code token，代码能力大幅上升而 MMLU…

Code 浓度 × Pretrain：reasoning 迁移、御三家实践与 20% sweet spot

CUDA Kernel × Pretrain 算法：共同演化、诊断与前沿方向

把 bytes/FLOPs/数值路径写进 pretrain：roofline 先行，结构与 kernel 同步迭代

系统与工程13篇论文·4个子主题·2026年4月21日

把 kernel 约束当作 pretrain 算法的一等公民，能更快把“吞吐/成本/稳定性”三件事对齐到同一张账：bytes/FLOPs/数值路径。实践上，roofline 先把关键 kernel 归类为 memory/compute/latency bound，再决定优先改结构（MQA/GQA/MLA/KV 压缩）、改数据流（FlashAttention 的 tiling/async）、还是改数值合约（FP8/MXFP8 per-block…

CUDA Kernel × Pretrain 算法：共同演化、诊断与 2026 前沿方向

4D 并行的正确答案：拓扑、形状与序列长度的联合决策

把 TP/EP/PP/DP(FSDP)/SP/CP 还原成通信原语：频次决定拓扑内外圈，序列长度决定 CP 是否进入 mesh

系统与工程16篇论文·4个子主题·2026年4月21日

结论先行：4D 并行（TP/PP/DP(FSDP)/SP/CP/EP）不是“选一个配方”，而是把通信原语按频次分层放到拓扑上，并在长上下文下把 CP 当作 mesh 维度纳入形状决策。可复现的公开证据显示，>10K GPU 的吞吐上限更多由 mesh→topology 映射与 schedule 决定，而不是单点 kernel 优化：MegaScale 把 TP=8 固定在 NVLink 域、PP 跨 IB、DP/FSDP 跨 pod，并用 dense 175B 55.2% MFU 给出可对照的配置…

4D 并行的正确答案：拓扑、形状与序列长度的联合决策

面向 Agent 的预训练：从 Intra-Doc 到 Hyper-Doc 的认知视角重构Part II

把“窗口够了还脑补”当作训练目标缺失：离线找回 Z，训练时显式条件化与严格 loss mask

Context Scaling 三部曲第二篇聚焦认知视角：补充而非取代 `context-scaling-pretrain` 的工程视角；与 `context-scaling-4d`（分类视角）分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互相补充。结论先行：把“长上下文”只当作 PE/packing 的工程问题，会把主要失败模式漏掉。业务里更常见的是窗口足够大但仍然“脑补”，根因是标准 NTP teacher-forcing 把 doc 边界外的相关变量 Z 边缘化进了 p(y|S) 的…

Agent-Purpose Pretraining: reframing context scaling as cognitive context recovery (IDP → HDP), reverse-engineering out-of-doc context Z into pretraining via extended NTP with loss masking; compare retrieval-to-augment vs inference-time RAG; plan-before-act vs self-reflection CoT; token-importance curricula vs uniform NTP.

4D Context Scaling：Hyper-Doc 预训练的跨域统一框架（空间 · 时间 · 语义 · 编排）Part III

Hyper-Doc预训练的统一结构范式与跨域落地指南

数据scaling13篇论文·4个子主题·2026年4月21日

Context Scaling 三部曲第三篇聚焦分类视角；`context-scaling-pretrain`（工程视角，pinned）与 `agent-context-scaling-hyperdoc`（认知视角）分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互补。核心判断要收窄：Hyper-Doc 预训练缺的不是更长窗口，而是对训练时上下文 Z 的结构化描述。4D Context Scaling 将 Z 分解为 3…

4D Context Scaling 跨域 Hyper-Doc 预训练统一框架研究

SSM / Mamba / RWKV / Hybrid 架构：从 S4 到 Jamba 的演化与选型

把“长上下文更快”与“长上下文可用”拆开：Hybrid 用少量 attention 修补精确召回，用大量 SSM 赚吞吐