📚Papers

🗂️ 专题

按主题聚合的立场报告

31 个专题 · 31 份研报
分类
NEW

从推理到 Agentic RL:LLM 强化学习中的信用分配

稀疏 outcome reward 不是错,错在把它无条件外推到长时序 agent

研报

LLM 强化学习正在从单轮、可验证答案的 reasoning RL,扩展到多轮工具使用、网页操作和长期任务。问题不再只是“最终答案对不对”,而是“哪些 token、步骤、工具调用或环境交互导致了结果”。稀疏 outcome reward 在数学题和代码题上可用,因为答案可验证、轨迹较短、环境噪声低;进入 agentic setting 后,同一个最终失败可能来自搜索 query、网页点击、工具参数、早期规划或环境随机性。把同一个负 reward 分给整条轨迹,会惩罚有用中间动作,也会放大高方差梯度。更稳的方向是把…

其他16篇论文·4个子主题·2026年5月6日
NEW

Looped Language Modeling:depth-recurrence 作为预训练 FLOPs 与推理算力之间的第三根旋钮

loop 的可用性来自中层可重复语义电路;它是同一 checkpoint 的推理算力档位,不是 dense scaling 的免费替代。

研报

looped LM 最强的论点不是“共享参数省钱”,而是“某些中层语义电路可以被再次执行,并在不改权重的情况下把额外 depth compute 变成可测收益”。RYS 三篇文章给这个判断补了一块机制证据:层扫描发现可重复的不是任意层,而是 Transformer 中部的连续 block;跨语言 / Base64 / 代码与 LaTeX 的 hidden-state 轨迹又显示,中部表示更接近 language-agnostic semantic space,早层负责把表面形式读入,晚层负责写回…

架构16篇论文·4个子主题·2026年5月1日
NEW

Programming Every Example:把预训练数据质量提升从全局规则推进到逐样本程序

逐样本程序化改写不是“更聪明的过滤器”;它更像位于去重与混料之后的数据精修层,前提是变换可验证、成本受控、收益能在预训练而非只在离线打分上兑现。

研报

预训练数据质量控制长期依赖两类手段:一类是全局过滤与去重,另一类是少量专家规则。前者便宜、稳定,但对单条样本的细粒度缺陷无能为力;后者更懂任务,却难以扩展到万亿 token 级语料。Programming Every Example 把问题改写成“为每个样本生成可执行的数据变换程序”,核心不是再造一个更强的过滤器,而是把专家式修订流程程序化、批量化,并把收益落实到预训练 loss…

数据scaling12篇论文·4个子主题·2026年4月28日
NEW

DeepSeek 谱系工程考古:从 dense 到混合思考的版本演进

把 DeepSeek 读成一条版本谱系,比把 V3 或 R1 当成单篇热点更接近工程事实。

研报

DeepSeek 这条线的可贵之处,不在于某一版单点领先,而在于它把 2024–2026 开源 LLM 工程里最难复现的几类决策,连续写成了可核对的版本账本:早期 dense 模型给出自家 scaling 与 2T token 数据组织,DeepSeekMoE 把 fine-grained routed expert 加 shared expert 做成稳定默认值,V2 用 MLA 把长上下文推理的 KV 成本压下去,V3 再把 671B MoE 的训练栈、FP8、DualPipe、aux-loss-free…

架构17篇论文·4个子主题·2026年4月27日
NEW

长文能力的本质:从「窗口长度」到「pattern capacity × 衰减斜率」

窗口长度只是上限;真正决定长文可用性的,是 attention pattern 能承载多少条路径、这些路径是否足够多样,以及性能随长度与位置如何衰减。

研报

长文能力不该再被写成一个标量。标称窗口回答的是“能塞多少 token”,有效能力回答的是“在多长距离上还能稳定 retrieve、track、aggregate,并且衰减成什么形状”。2024–2025 的关键变化,是测量端与机制端终于接上:RULER 把单针 NIAH 拆成 retrieval、tracking、aggregation 三种压力;LongBench v2、LV-Eval、BABILong、Loong 把真实任务、长度分层和 reasoning 压力补齐;Wu et al. 进一步给出…

分析与评估16篇论文·4个子主题·2026年4月27日
NEW

下游任务的缩放律:从“涌现是惊喜”到可预测性工程化

把下游任务预测从“看曲线猜趋势”改成“主训前可审计的预算工艺”

研报

核心变化不在于又多了一条幂律,而在于下游预测已经从“解释现象”转成“支持预算决策”。早期讨论把 BIG-Bench 一类任务上的跳变曲线读成能力突然出现,默认结论是下游表现难以外推。后续两步把这个直觉拆开:Schaeffer et al. 把大量跳变归因到 exact-match 这类离散指标的非线性;Du et al. 再把横轴从 compute 换成 pretraining loss,发现不同架构、token 预算、dense/sparse 训练轨迹在 loss…

Scaling Law12篇论文·4个子主题·2026年4月27日

Context Scaling 的三根轴:数据分布、拼接工程与 induction headPart I

把问题从“窗口能开多大”改成“远处证据何时进入可用语义计算”:PE 是门槛,数据与 packing 是主变量

研报

Context Scaling 三部曲第一篇聚焦工程视角:长窗口的 runnability、数据分布与 packing 工程;`agent-context-scaling-hyperdoc`(认知视角)与 `context-scaling-4d`(分类视角)从不同轴互相补充。 结论先说窄:context scaling 的目标不是把可寻址窗口做大,而是让远处证据在训练中反复成为降 loss 所必需,并在评测中真正参与组合、综合和生成。标称 128K 是系统能力,effective 128K…

数据scaling16篇论文·4个子主题·2026年4月21日

Tokenizer Scaling:从 32K 到 128K 之外——被当常量的那根杠杆

把 tokenizer 当作训练目标 + 系统成本 + 后训练债务的共同回归项

研报

结论先行:tokenizer 不是“预处理常量”,而是会同时改变训练目标的可达字符串集合、训练信号在 token 之间的分配、以及推理系统的序列长度与 KV cache 成本,因此必须像 data mixture 或训练配方一样走强制回归。受控 fixed-compute 预训练已经把影响量级钉死:同一 2.6B 与预算下,仅替换 tokenizer 就能带来 0.6–5.1 pp 下游方差 [Ali2024TokenizerChoice]。工业侧也把收益写成可交付口径:128K vocab 对训练 loss 约…

数据scaling16篇论文·4个子主题·2026年4月21日

SWE Agent 的 Pretrain:如何把软件工程能力训进模型

预训练分布前移是SWE Agent规模化落地的核心路径,而非仅依赖推理期脚手架或后训练RL

研报

SWE Agent 的核心能力要求是完成仓库级开发闭环:理解issue描述、定位关联代码文件、生成可合并的diff、通过所有相关测试,这一任务范式与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四类:推理期脚手架与工具链设计、后训练阶段RL与验证器优化、大规模纯代码语料预训练、预训练阶段数据形状与任务分布对齐。现有公开实验显示,推理期优化与RL均为能力放大器,当基座模型预训练仅覆盖文件级代码片段时,会缺失跨文件引用、补丁插入、故障→修复轨迹的统计先验,导致agent…

智能体17篇论文·5个子主题·2026年4月21日

Transformer 架构改进 × scaling:GQA / SWA / MLA / depth-up-scaling 的边际价值怎么定价

把“架构创新”当作账单:KV-cache/带宽、稳定性风险、迁移成本三项一起算

研报

可落地的“架构定价”不该按名词新不新,而应按三项可计量成本:每 token 推理成本(KV-cache 容量与带宽)、训练稳定性风险(loss spike/发散概率与排障时间)、迁移与扩展成本(kernel/serving 栈改造与生态兼容)。公开证据里,≤70B 稠密 decoder-only 的默认项更像是 GQA:把 KV heads 从 h 降到 h/8 一类分组,KV-cache 近似线性下降,而质量退化通常在接近 MQA(KV heads=1)时才明显加速…

架构16篇论文·4个子主题·2026年4月21日

合成数据 × Mid-train:Pretrain 的工程蓝图

把 mid-train 固化成分布迁移阶段;synthetic 用于可控 shaping,而不是 token 堆量

研报

一个更稳的工程读法:把 mid-train 固化成“主干预训练之后的分布迁移阶段”,synthetic 的默认角色是 distribution shaping——把学习信号集中到可验证、结构化、覆盖目标任务的子分布,而不是单纯把 token 规模堆上去。[Llama3Herd2024][Phi3Report2024][WRAP2024] 给出可复用的分阶段配方:web-heavy backbone 负责广覆盖与长尾,mid-train 负责 code/math/long-context/reasoning…

数据scaling15篇论文·4个子主题·2026年4月21日

SWE Agent 的分阶段评估:从 pretrain PPL 到 SWE-bench Verified

把“一个 Verified 分数”拆成可复核的分阶段 scorecard,并把 harness 公开当作可比性的前提

研报

结论先行:比较 SWE agent 时,把“一个 SWE-bench Verified 分数”当作唯一排名依据不稳,尤其当差距只有 0.x 个百分点时,harness 设定与采样噪声足以改写排序。更可复核的口径是按训练阶段给出 composite scorecard:pretrain 阶段用 code BPB/patch-PPL 作为“像代码”的辅助信号,同时并列执行语义(CRUXEval)与…

智能体16篇论文·4个子主题·2026年4月21日

SSM/Mamba/RWKV/线性注意力:次二次序列建模的工程最优解与边界

把次二次序列模型当预算旋钮:用少量 attention 兜底精确寻址,用 recall 曲线约束退化,用蒸馏/转换降低训练风险

研报

结论先行:SSM/RWKV/线性注意力更像“推理吞吐与显存预算的旋钮”,而不是 Transformer 的直接替代。原因不在于训练不够,而在于“固定维度状态/低秩状态”对精确寻址的结构性约束:当任务需要把远处 token 以 exact-match 方式复制、或在密集实体绑定里做可逆引用时,纯递推会出现可复现的 recall 掉点…

架构14篇论文·4个子主题·2026年4月21日

Packing × Masking × 长度训练:LLM pretrain 数据流的工程蓝图

面向7B-70B参数模型的可复现预训练数据流默认配置

研报

本主题聚焦7B-70B参数规模LLM预训练数据流的三个核心工程选型:序列打包(packing)效率、attention mask正确性、长度训练算力分配。当前工业界与学术界在四个维度存在明确分歧:是否默认隔离同pack内跨文档注意力、是否采用short-to-long长度课程、是否默认启用FIM填充目标、超长文档的切分策略。现有公开落地结果已收敛出一套可复现的高性价比配置,可在packing ratio>98%的前提下,同时保证训练目标与评估分布对齐,长上下文能力无退化,同算力下wallclock降低20-40%。

数据scaling12篇论文·3个子主题·2026年4月21日

大模型 Scaling Law:从 Kaplan 到 Chinchilla,再到数据配方、词表与下游能力

把 Kaplan≈1.7 与 Chinchilla≈20 视为“局部拟合”,把 scaling law 扩到 (N, D, mixture, vocab) 四轴并做常驻 sweep

研报

结论先行:把 Kaplan≈1.7 与 Chinchilla≈20 当成“常数”会在真实训练里产生系统性预算误差;更稳的做法是把 scaling law 当作每个 recipe 都要重拟合的监控件,并把它的“维度”从 (N, D) 扩到 (N, D, mixture, vocab)。Kaplan et al. [Kaplan2020ScalingLaws] 在固定训练步数与特定优化设定下拟合到“更大模型、更少 tokens”的有效区间;Hoffmann et al.…

Scaling Law19篇论文·7个子主题·2026年4月21日

困惑度与下游性能的缩放关联

把 PPL 从“发版决策者”降级为“训练闭环信号”:阶段一看 loss,阶段二看逐任务曲线与多面板

研报

PPL/验证集 cross-entropy 在训练闭环里仍然是最便宜、最稳定的信号:同 tokenizer、同目标函数、同模型家族时,它能支撑 early-stop、异常检测、数据混合调参和 compute-optimal 预算拟合。[Kaplan2020ScalingLaws][Hoffmann2022Chinchilla] 但把 PPL 当“发版决策者”会在三个地方失效:其一,跨 tokenizer/跨语言时 raw PPL 不再是统一单位,分词粒度会改变数值语义,至少需要…

分析与评估16篇论文·4个子主题·2026年4月21日

预训练数据重复与去重:把“重复”拆成三条账

把“重复”拆成 web 冗余、有限池 epochs、敏感数据曝光上限三条账;用跨语料指纹把曝光次数算清

研报

“去重 vs 重复”不是一个开关,而是三条账:①web 爬取池的被动冗余(镜像页、模板页、长重复 substring、近重复文档)主要消耗无效 token,并把逐字记忆化与评测泄漏概率抬高;默认应做强 exact/near-exact dedup,并把“长重复 substring 占比”单列 KPI [Lee2021Dedup]。②漂白后的有限高质量池(例如人工筛选、许可明确、格式统一)里,均匀多 epoch 在约 2–4 轮内接近“等效新鲜…

数据scaling12篇论文·6个子主题·2026年4月21日

Optimizer 全景:AdamW 仍是默认,Muon 的混合路由与 SOAP 的二阶路线

把“谁更强”改写成:规模 × 显存 × 调参预算的可审计决策

研报

2026 年做 optimizer 选型,最稳的框架不是“谁更强”,而是三轴决策:规模(≤30B vs ≥70B)、显存(state/通信能否承受)、调参预算(能否做多轮 sweep)。在固定 HP 搜索预算与对齐 schedule 家族的前提下,很多“新 optimizer 胜出”的差距会收缩,甚至发生 rank flip;因此 AdamW 仍常作为默认,不是因为单点最优,而是因为 recipe 可复用、失败模式可预期、以及 μP 下的 LR transfer…

训练与优化15篇论文·4个子主题·2026年4月21日

HP Transfer 的边界:µP、Complete-P、CARBS 与经验公式的适用区间

把 HP transfer 做成分层系统:parameterization 定边界,公式给初值,局部搜索补盲点

研报

2026 年做 HP transfer,更稳的工程分层是:parameterization 负责把“宽度/深度/精度变化时哪些量应该不漂”说清楚,并提供可验收的诊断;经验公式负责在固定 recipe 下给出 LR、batch、token:param 的闭式起点;局部搜索负责补齐 µP 覆盖外的变量(尤其 AdamW 的 weight decay 与 β₂)以及不可预期的实现细节。Complete-P 把原版 µP 在现代 Transformer 组件下的失配拆成模块级规则与 coord check 表,适合作为…

Scaling Law16篇论文·4个子主题·2026年4月21日

上下文长度扩展的全栈工程:从“放得下”到“用得上”

把“窗口长度”当作配置项,把“有效上下文”当作交付指标:评估闭环与数据分布先行,位置与系统按区间选型

研报

长上下文扩展的瓶颈已经从“显存能不能放下”转向“模型能不能在真实任务里稳定用上中段与远端证据”。RoPE 外推(PI、YaRN、LongRoPE)把 32K→128K→2M+ 做成了可复用的参数化路径,但它主要解决的是位置几何与数值稳定性,不能自动带来任务级收益 [PI2023][YaRN2023][LongRoPE2024]。评估侧,RULER、LV-Eval、LongBench、Lost in the Middle 与 Gao et al. 反复指出:perplexity 与 NIAH…

训练与优化14篇论文·4个子主题·2026年4月21日

长上下文 LLM 的位置编码路径:从 RoPE 到 ABF 的六步演化

结论先行:长文能力 = RoPE 相位覆盖 × 训练分布 × 评估闭环;“窗口数字”只是接口参数

研报

可交付的长文能力不是“把窗口参数改大”,而是三件事同时对齐:RoPE 的相位覆盖(尤其低频维度在目标长度上的可分性)、训练分布里远距离依赖出现的方式与比例、以及能测 recall/聚合/多跳追踪的评估闭环。[Xu2024RoPEBaseBounds][Dubey2024Llama3][Hsieh2024RULER] 对存量模型,32K–128K 的主流落地更像“retrofit + 严格验收”:YaRN 的 per-dim ramp 把插值主要放在低频维度,同时用 attention temperature…

架构14篇论文·4个子主题·2026年4月21日

MoE 全谱对比:路由、负载均衡、专家结构与 DeepSeek 范式的收敛

把 MoE 压缩成三条轴与一套默认 recipe:结构(fine-grained+shared)、均衡(bias EMA)、稳定性门槛(早期指标硬门槛)

研报

MoE 在 2024–2026 的主线不是“更聪明的路由器”,而是把三类事故从训练主导变量里移走:拥塞导致 token drop(吞吐抖动与 loss 尖刺)、aux load-balancing loss 的实现敏感性与梯度干扰、以及粗粒度专家难以分化导致表示塌缩。DeepSeek 系列把这三点工程化成一套可复刻模板:细粒度 64–128(需要更大容量再到 256)routed experts + 1 shared expert;负载均衡优先用 aux-loss-free 的 router bias…

架构16篇论文·4个子主题·2026年4月21日

数据配比:把 ratio 当成可优化的控制变量,而不是经验玄学

把 ratio 当作可记账的控制变量:dedup → 分桶 → 按算力选搜索 → curriculum

研报

数据配比在工程里经常被写成一张“固定比例表”,但更稳的理解是:ratio 是训练过程中的控制变量,必须和去重、分桶、搜索预算、训练阶段一起记账,否则很难解释回归、也很难回滚。第一条底线是先 dedup 再谈 ratio:document-level dedup 至少要做,能做就加语义去重/多样化,否则 web 域的 effective token…

数据scaling14篇论文·4个子主题·2026年4月21日

FlashAttention 演进:从 IO-aware kernel 到 FP8 与 FlexAttention 生态

把 attention 优化拆成四层:数据流、调度、硬件映射、系统语义;争议集中在 FP8 与可移植性,而不是“再写一个更快的 kernel”

研报

attention 优化在 2026 更像一套分层工程学,而不是单点 kernel 竞赛:训练侧的 exact attention 主线基本收敛到 FA2/FA3 的“调度 + 硬件映射”,推理侧瓶颈更多落在 decode 并行与 KV cache 组织,变体侧则从“写 CUDA”迁移到“写语义再编译”。争议集中在三处:其一,FA3 把 Hopper 的 TMA、warp specialization、FP8 tensor core 深度揉进…

系统与工程13篇论文·4个子主题·2026年4月21日

数据价值评估 × 因果:influence、ablation 与 causal inference 的工程地图

把 ladder 作为合并门禁:bulk 负责吞吐,influence 负责诊断,因果负责处理混杂与评估偏差

研报

结论先行:把 ablation ladder 作为数据决策的主干与合并门禁;bulk filtering 负责吞吐与成本;influence/attribution 用于定位失败样例与数据缺口;因果方法用于处理混杂与评估偏差,但不替代 ladder。排序背后有三条工程机制。第一,数据价值对 capability 异质:同一套过滤/混合策略在知识/理解任务上跨规模更稳定,而在 code/math/reasoning…

数据scaling15篇论文·4个子主题·2026年4月21日

Code 浓度 × Pretrain:reasoning 迁移、头部模型实践与 20% sweet spot

把 code 占比从“经验参数”改成可预算、可回归、可解释的训练旋钮

研报

把 code 占比当作“预算旋钮”而不是经验参数:对 generalist 预训练,更稳的默认区间是 15–25%(常用 20%),<15% 常见表现是 reasoning/ICL 像没喂够,>30% 需要显式 NL-retention gate,>~40% 更容易进入 mixture interference 区。公开 continual 证据表明两位数 code token 不必然伤通用能力:Code Llama 在 Llama 2 基座上追加约 500B code token,代码能力大幅上升而 MMLU…

数据scaling16篇论文·4个子主题·2026年4月21日

CUDA Kernel × Pretrain 算法:共同演化、诊断与前沿方向

把 bytes/FLOPs/数值路径写进 pretrain:roofline 先行,结构与 kernel 同步迭代

研报

把 kernel 约束当作 pretrain 算法的一等公民,能更快把“吞吐/成本/稳定性”三件事对齐到同一张账:bytes/FLOPs/数值路径。实践上,roofline 先把关键 kernel 归类为 memory/compute/latency bound,再决定优先改结构(MQA/GQA/MLA/KV 压缩)、改数据流(FlashAttention 的 tiling/async)、还是改数值合约(FP8/MXFP8 per-block…

系统与工程13篇论文·4个子主题·2026年4月21日

4D 并行的正确答案:拓扑、形状与序列长度的联合决策

把 TP/EP/PP/DP(FSDP)/SP/CP 还原成通信原语:频次决定拓扑内外圈,序列长度决定 CP 是否进入 mesh

研报

结论先行:4D 并行(TP/PP/DP(FSDP)/SP/CP/EP)不是“选一个配方”,而是把通信原语按频次分层放到拓扑上,并在长上下文下把 CP 当作 mesh 维度纳入形状决策。可复现的公开证据显示,>10K GPU 的吞吐上限更多由 mesh→topology 映射与 schedule 决定,而不是单点 kernel 优化:MegaScale 把 TP=8 固定在 NVLink 域、PP 跨 IB、DP/FSDP 跨 pod,并用 dense 175B 55.2% MFU 给出可对照的配置…

系统与工程16篇论文·4个子主题·2026年4月21日

面向 Agent 的预训练:从 Intra-Doc 到 Hyper-Doc 的认知视角重构Part II

把“窗口够了还脑补”当作训练目标缺失:离线找回 Z,训练时显式条件化与严格 loss mask

研报

Context Scaling 三部曲第二篇聚焦认知视角:补充而非取代 `context-scaling-pretrain` 的工程视角;与 `context-scaling-4d`(分类视角)分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互相补充。 结论先行:把“长上下文”只当作 PE/packing 的工程问题,会把主要失败模式漏掉。业务里更常见的是窗口足够大但仍然“脑补”,根因是标准 NTP teacher-forcing 把 doc 边界外的相关变量 Z 边缘化进了 p(y|S) 的…

数据scaling16篇论文·4个子主题·2026年4月21日

4D Context Scaling:Hyper-Doc 预训练的跨域统一框架(空间 · 时间 · 语义 · 编排)Part III

Hyper-Doc预训练的统一结构范式与跨域落地指南

研报

Context Scaling 三部曲第三篇聚焦分类视角;`context-scaling-pretrain`(工程视角,pinned)与 `agent-context-scaling-hyperdoc`(认知视角)分别从「数据/工程」「认知/意图」「维度/编排」三条主轴互补。 核心判断要收窄:Hyper-Doc 预训练缺的不是更长窗口,而是对训练时上下文 Z 的结构化描述。4D Context Scaling 将 Z 分解为 3…

数据scaling13篇论文·4个子主题·2026年4月21日

SSM / Mamba / RWKV / Hybrid 架构:从 S4 到 Jamba 的演化与选型

把“长上下文更快”与“长上下文可用”拆开:Hybrid 用少量 attention 修补精确召回,用大量 SSM 赚吞吐

研报

到 2026 年,SSM(S4→Mamba)与线性 RNN(RWKV)已经证明“能做语言预训练”,但也暴露出一个稳定的工程事实:只靠 constant-memory 的递推状态,很难在精确召回/复制类任务上追平 attention,尤其在长上下文里需要“把某个 token 原样找回来”的场景。与此同时,Hybrid 架构把矛盾拆开:用少量 attention 层负责离散检索与路由,用大量 SSM 层负责吞吐与长序列计算,把质量与成本的 trade-off 变成可调的层比例与 attention…

架构16篇论文·4个子主题·2026年4月20日