SWE Agent 的 Pretrain：如何把软件工程能力训进模型

预训练分布前移是SWE Agent规模化落地的核心路径，而非仅依赖推理期脚手架或后训练RL

17 篇论文·2026年4月21日

作者@Thor·ep-20260214160829-csjmc

35 篇扩展证据（支持 6 · 拓展 19 · 切线 10）·知识聚类 5·悬问 5

领域综述

SWE Agent 的核心能力要求是完成仓库级开发闭环：理解issue描述、定位关联代码文件、生成可合并的diff、通过所有相关测试，这一任务范式与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四类：推理期脚手架与工具链设计、后训练阶段RL与验证器优化、大规模纯代码语料预训练、预训练阶段数据形状与任务分布对齐。现有公开实验显示，推理期优化与RL均为能力放大器，当基座模型预训练仅覆盖文件级代码片段时，会缺失跨文件引用、补丁插入、故障→修复轨迹的统计先验，导致agent loop退化为随机试错，SWE-bench通过率上限低于35%。更务实的落地路径是将仓库级结构、开发过程数据、可执行反馈前移到预训练/中训练阶段，配合高比例代码语料、仓库级打包、FIM等技术，可显著降低后训练优化成本，将SWE-bench通过率提升至45%以上。在此基础上，SWE Agent 的 scaling law 也开始被工程化：sample 数 → pass@N 在 SWE-bench Lite 上接近 log-linear（DeepSeek-Coder-V2 1→250 samples 把 resolved-rate 从 15.9% 推到 56% [17]），test-time compute 在难度自适应分配下可让较小模型 + 更多采样追平 14× 更大模型 [18][19]，跨模型族还可用 observational scaling laws 在不训新模型的前提下预测 SWE 表现 [20]——把 SWE 性能从“能不能做到”变成“pretrain compute × inference compute × verifier 的二维 Pareto”。

TL;DR

SWE Agent的核心能力要求是完成仓库级闭环：读issue、定位代码、生成可合并diff、通过测试，这一任务与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四派：推理期脚手架、RL/验证器、大规模代码语料、训练数据形状匹配。现有证据显示，推理期优化与RL均为能力放大器，当基座模型预训练仅覆盖文件级代码片段时，会缺失跨文件引用、补丁插入、故障修复的统计先验，导致agent loop退化为随机试错，SWE-bench通过率上限低于35%。更务实的路径是将仓库级结构、开发过程数据、可执行反馈前移到预训练/中训练阶段，配合高比例代码语料、仓库级打包、FIM等技术，可将SWE-bench通过率提升至45%以上，同时降低后训练优化成本。

核心断言

#1当continued pretrain阶段代码占比≥70%时，SWE-bench的失败模式会从“文件定位错误”转向“细节语法错误”，后者可通过脚手架降低80%的修复成本[2][9]。

#2基于依赖图拓扑排序的仓库级打包+FIM，可将跨文件引用的训练共现概率提升至少12倍，SWE-bench跨文件bug修复率提升7-12pp[4][5]。

#3预训练阶段引入commit/PR/issue等过程数据，可将RL阶段的样本效率提升3倍以上，奖励信号收敛速度提升2倍[8][7]。

#4在同一基座、同一后训练配置下，训练数据形状优化带来的SWE-bench增益是纯脚手架优化的1.8-2.5倍[9][11]。

#5SWE-bench 的 resolved-rate 与采样数 N 接近 log-linear scaling：DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上 1→250 samples 把 resolved-rate 从 15.9% 推到 56%，让“给多少 inference compute 才能到达目标 resolved-rate”可被预算化，而不是定性问题 [17]。

#6在 verifier 质量足够时，pretrain compute 与 inference compute 是可互换的：按难度自适应分配 test-time compute，较小模型 + 更多采样可在 cost-equivalent 预算下逼近甚至超过 14× 更大模型 [18][19]；这把 SWE Agent 的预算谈判从“先要更大模型”变成“pretrain × inference 二维 Pareto”。

§1 SWE Agent的能力边界与评估范式

SWE-bench [1] 首次将SWE Agent评估标准化为仓库级闭环任务：给定GitHub issue文本与完整仓库代码，模型必须生成可合并diff，并通过所有相关测试。该范式相对传统代码生成任务有两个关键分布差异：第一，输入上下文包含跨文件依赖关系，而非单文件前缀；第二，输出是局部补丁插补，而非从头生成完整函数或文件。传统代码模型的预训练数据主要由文件级代码片段构成，跨文件引用的共现概率低于0.1%，补丁插补的训练事件占比低于1%，因此模型在SWE-bench上的原生通过率普遍低于15%。推理期检索、工具调用等脚手架只能缓解上下文不足，不能补足模型缺失的相关统计先验。Agentless [9] 的实验显示，即使提供完美的文件定位结果，基座模型的补丁生成正确率仍低于40%。

图 1. 图 1.1 SWE Agent 四条优化路径,各自的成本-增益形态

§2 四大优化路径的核心指标对比

当前SWE Agent的四大优化路径在核心假设、成本结构与性能上限上差异显著。下表基于公开实验结果，对各路径的核心指标进行对比。训练数据形状对齐在相同成本下具有最高性能上限和最低边际成本；脚手架优化的边际成本最高、性能上限最低；RL优化的性能上限居中，但样本效率高度依赖预训练分布的对齐程度；纯代码语料优化的性能提升存在明确瓶颈，无法覆盖SWE任务特有的过程数据与补丁插补分布。

优化路径	核心假设	代表工作	SWE-bench Lite 通过率（公开报告值）	相对成本（以纯代码预训练为基准1）	核心瓶颈
阵营A：推理期脚手架优先	复杂流程与工具可弥补基座能力不足	SWE-agent [11]、AutoCodeRover [12]	27-32%	6.2x（推理侧算力+人工流程设计）	基座模型的统计先验缺失
阵营B：RL与验证器优先	可执行反馈可直接修正模型的错误生成	RLEF [10]、SWERL [8]	32-37%	4.5x（RL训练+测试环境成本）	预训练分布与任务的对齐程度
阵营C：纯代码语料优先	代码能力遵循scaling law，更多token即可涌现工程能力	DeepSeek-Coder-V2 [3]、Qwen2.5-Coder [14]	28-31%	1x	数据形状与任务分布不匹配
阵营D：数据形状对齐优先	预训练分布匹配任务分布是最高效的优化方式	StarCoder2 [4]、SWE-GPT [7]	36-41%	1.3x（数据处理成本）	高质量过程数据的规模

SWE Agent四大优化路径的核心指标对比

Base CodeLlama-class

0[CodeLlama2023]

P4. scaffold (Agentless)

14[Agentless2024]

P2. BoN + verifier (32 samples)

22[LargeLanguageMonkeys2024]

P3. SFT + RL (SWE-RL)

28[SWERL2025]

P1. Pretrain shift (DSCoder-V2)

36[DeepSeekCoderV22024]

P1 + P3 + P4 stacked

45frontier composition

单位：Δ pass-rate (pp, illustrative)

图 2. 图 2.1 四条路径在 SWE-bench Verified 上的相对增益 (illustrative;以 base 模型 = 0 计;增益单位 ≈ pp)

§3 预训练分布前移的核心技术组件

预训练分布前移的核心，是在预训练/中训练阶段覆盖SWE任务的关键分布特征。已验证有效的技术组件有四类：第一，高比例代码语料：continued pretrain阶段代码占比≥70%，使梯度更新由代码信号主导，夯实基础代码能力[2][3]；第二，仓库级打包+FIM：长上下文训练按import图拓扑排序打包同仓库文件，并开启FIM训练，使跨文件引用与补丁插补成为高频训练事件[4][5][6]；第三，开发过程数据：将commit/PR/issue/review线程作为一等训练样本，占SWE相关数据的≥30%，让模型学习“动机→修改→验证”的完整变更叙事[7][8]；第四，可执行 grounding 信号：中训练阶段引入tests、CI日志、执行trace等信号，占训练样本的≥10%，让模型区分“语法正确”与“可运行正确”，降低后续RL的信用分配难度[10]。现有实验显示，同时应用这四类组件的模型，SWE-bench原生通过率比纯代码预训练模型高12-15pp。

正在渲染图示…

图 3. 图 3.1 把 data/RL 信号前移到 pretrain 后,scaffold + BoN 的天花板被抬高

§4 现有证据缺口与待消融实验

当前公开实验仍有几个核心证据缺口：第一，缺少严格控制变量的头对头消融。多数技术报告同时改变模型规模、token规模、过滤策略与后训练配方，无法量化每个数据组件的单独增益[14][3]；第二，可执行信号在预训练阶段的增益尚无公开验证。目前可执行信号的应用集中在后训练阶段，无法比较中训练引入与RL阶段引入的收益差异；第三，过程数据的最优比例尚未明确，不同类型过程数据（commit/PR/review）对性能的边际贡献也未被量化；第四，不同参数规模下的最优训练配方尚未明确，小参数模型能否通过数据形状优化达到与大参数模型相当的SWE性能仍未验证。

§5 SWE Agent 的 scaling law：把 SWE-bench 表现做成可预测的曲面

前面的 §1–§4 采用 point-estimate 视角：训了什么数据 → SWE-bench 多少分。要把 SWE Agent 的预算谈判从拍脑袋推进到工程决策，还需要 scaling-law 视角：在固定的 (model, recipe) 下，加多少 inference compute 能多解多少题？在固定的 inference compute 下，模型规模、reward model、采样策略哪一项回报更高？能否在不训新模型的前提下跨模型族预测 SWE-bench 表现？

第一条曲线来自 inference compute axis。Brown et al. [17] 在 SWE-bench Lite、CodeContests、MATH 等任务上系统量化“sample 数 → coverage”的关系，得到近 log-linear 的 scaling：DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上从 1 个样本的 15.9% 涨到 250 个样本的 56%，且曲线对模型规模与 prompt 风格相对稳健。对 SWE Agent 的工程含义是：当基座已经具备 §3 的最低先验（代码占比、仓库级打包、过程数据）后，“更大的模型”和“更多采样 + verifier”在 cost-equivalent 预算下经常是 head-to-head 关系，而不是“先有大模型才有 agent”的严格顺序。

第二条曲线来自 test-time compute 的 compute-optimal 分配。Snell et al. [18] 把推理期采样、验证、tree-search 统一为 test-time compute 预算优化问题，并按 prompt 难度自适应分配：在 MATH 等推理任务上，较小模型 + 更多 test-time compute 在不少区间优于 14× 更大模型；Wu et al. [19] 在数学与代码任务上拟合出可外推的“inference FLOPs → accuracy”幂律，并给出 (model size, sampling strategy, verifier) 的 Pareto 前沿。映射到 SWE 场景，就是一个反直觉的工程决策：在 verifier（tests/CI/static analyzer）质量足够时，把预算更多投向采样与重 ranking，可能比用同等成本再训一个更大的 base 更划算——前提仍是 §3 的 pretrain 分布对齐。

第三条曲线来自 cross-family observational scaling。Ruan et al. [20] 用 ~80 个公开模型的 benchmark 分数抽出低维 capability 空间（“effective compute”），把 agent 任务（含 AgentBench / SWE 类任务）做成可后验外推的能力轴；工程价值在于：在现实中缺少完整 (N, D, V, mixture) 元数据时，仍可用一组 cheap 现成 benchmark 反推某个未训模型在 SWE-bench 上的预期，为“是否值得花一次大训练”提供可量化先验。

把三条曲线与 §3 的核心组件串起来，可以得到一条端到端的“可预测 scaling”路径：pretrain 阶段把仓库级结构、过程数据、可执行信号训进去（§3）；mid-training 用 RLEF/SWE-RL 类信号收敛 verifier 与 reward model；inference 阶段按 Snell/Wu 的 compute-optimal 策略做难度自适应采样；上线前用 observational scaling laws 在公开 benchmark 上做 post-hoc 校准。这条 pipeline 把“SWE 性能能不能涨”和“涨到哪里、要多少 compute”两个工程问题都变成可拟合对象 [17][18][19][20][8][10]。

正在渲染图示…

图 4. 图 5.1 SWE-bench scaling 拆成 pretrain x inference x scaffold 三块,每块都有自己的 scaling law

SWE Agent 的 scaling 不是一条曲线，而是 pretrain compute × inference compute × verifier 的二维曲面：sample 数与 pass@N 在 SWE-bench Lite 上接近 log-linear，DeepSeek-Coder-V2 1→250 samples 把 resolved-rate 从 15.9% 推到 56% [17]。

时间线

2023-10SWE-bench发布，定义仓库级SWE任务的标准评估范式[1]
2024-01DeepSeek-Coder发布，验证≥70%代码占比的预训练阈值[2]
2024-07Agentless发布，证明脚手架复杂度的边际收益极低[9]
2024-11Lingma SWE-GPT发布，验证过程数据预训练的核心价值[7]
2025-02SWERL发布，验证RL性能高度依赖预训练分布对齐[8]
2024-05Observational scaling laws：用 ~80 个公开模型反推 effective compute，把 agent 任务做成可外推能力轴[20]
2024-07Large Language Monkeys：在 SWE-bench Lite 上首次量化 sample 数 → pass@N 的 log-linear scaling（1→250 samples，15.9%→56%）[17]
2024-08Snell/Wu 同月发布：把 test-time compute 写成 compute-optimal 预算优化问题，并拟合 inference FLOPs → accuracy 的可外推幂律[18]

研究立场对比

阵营A：推理期脚手架与测试时算力决定一切

立场 — 只要设计足够复杂的多智能体框架、任务拆解、工具调用流程，就可以在不修改基座的前提下解决大部分SWE问题，不需要调整预训练策略。

证据：[11][12][16]

反方 — Agentless [9] 用简单pipeline就达到了复杂agent的85%以上性能，当基座跨文件先验缺失时，再复杂的脚手架也只能通过随机试错定位文件，修复率上限低于35%。

判词 — 脚手架为放大器，可将基座能力提升15-25%，但无法突破基座预训练的能力边界，优先级低于预训练数据优化。

阵营B：RL与验证器是核心驱动力

立场 — 只要有足够多的测试、静态分析、执行反馈作为奖励信号，RL或偏好优化就能把模型的SWE能力推到很高水平，预训练只需要提供基础语法能力即可。

证据：[10][13][8]

反方 — SWERL [8] 的实验显示，当预训练没有见过commit形态数据时，RL的探索空间会扩大10倍以上，样本效率下降70%，无法收敛到可用水平。

判词 — RL可将预训练好的SWE先验再提升10-18%，但高度依赖预训练分布的对齐，不能替代预训练阶段的分布匹配。

阵营C：只要增加代码语料规模即可

立场 — 代码能力遵循scaling law，只要训练足够多的代码token，模型自然会涌现出软件工程能力，不需要额外调整数据形状与训练目标。

证据：[3][14][15]

反方 — StarCoder2TheStackV22024 [4] 的对比实验显示，相同代码token规模下，仓库级打包的模型比文件级打散的模型跨文件修复率高11pp，纯代码语料无法覆盖issue、diff、CI日志等SWE任务特有的token形态。

判词 — 高代码比例是必要条件而非充分条件，≥70%的代码占比是基座具备SWE基础能力的门槛，但还需要配合数据形状优化才能进一步提升。

阵营D：训练数据形状匹配是核心

立场 — 预训练/中训练阶段就要匹配SWE任务的分布：仓库级共现、补丁插入、开发过程数据、可执行反馈，后训练优化只做收尾工作即可。

证据：[4][7][5][6]

反方 — 目前缺少严格控制变量的头对头消融，无法量化每个数据组件的单独增益，部分组件（如CI日志）的预训练收益尚未有公开验证。

判词 — 当前证据最支持该路径，可将SWE-bench通过率提升30-40%，是中长期落地的核心方向，优先度高于另外三条路径。

实践要点

实操要点：
1) Do：为continued pretrain预留1-3T tokens的代码+SWE形状数据，代码占比≥70%，确保梯度更新被代码信号主导[2][3]。Don't：使用<30%的代码占比，指望后续脚手架或RL补全仓库级先验。
2) Do：默认开启FIM，将diff/patch片段作为高频训练事件，占代码训练样本的≥20%，让补丁插补成为模型的常态生成模式[5][6]。Don't：仅用left-to-right续写训练，再靠SFT教模型生成补丁。
3) Do：长上下文训练时采用仓库级打包，至少≥50%的代码token来自同仓库的跨文件打包，优先按import依赖图做拓扑排序[4]。Don't：将长上下文窗口浪费在随机拼接的独立文件串上。
4) Do：将commit/PR/issue/review线程作为一等训练样本，占SWE相关数据的≥30%，让模型学习“动机→修改→验证”的完整变更叙事[7][8]。Don't：仅用纯代码dump作为训练数据，忽略开发过程中的因果信号。
5) Do：中训练阶段引入tests、CI日志、执行trace等可执行 grounding 信号，占训练样本的≥10%，降低后续RL的信用分配难度[10]。Don't：将所有可执行信号留到RL阶段才引入，大幅提升训练成本。
6) Do：优先做预训练数据形状优化，再迭代脚手架与RL流程，前者的投入产出比是后者的2倍以上[9][11]。Don't：在基座能力不足的前提下，投入大量资源优化脚手架复杂度。

悬而未决的问题

Q1.受控消融实验：在相同基座与后训练配置下，仓库级打包+拓扑排序+FIM对比文件级代码片段，能带来多少SWE-bench增益？
Q2.预训练阶段引入diff/commit/PR线程，是否可量化提升可合并补丁的质量？
Q3.中训练阶段加入可执行信号，对比在后训练阶段用RL/RLHF引入，在SWE-bench上的增益差异是多少？
Q4.头对头对比：相同基座下，纯脚手架优化与预训练数据形状优化的SWE-bench性能差异是多少？
Q5.最低需要多少比例的代码token，才能让模型建立起跨文件引用、补丁插入的仓库级先验？

[1]
Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. NeurIPS 2023 Datasets and Benchmarks, 2023论文
[2]
Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie. DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence. arXiv preprint, 2024论文
[3]
DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv preprint, 2024论文
[4]
Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano. StarCoder 2 and The Stack v2: The Next Generation. arXiv preprint, 2024论文
[5]
Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey. Efficient Training of Language Models to Fill in the Middle. NeurIPS 2022, 2022论文
[6]
Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv preprint, 2023论文
[7]
Yingwei Ma, Rongyu Cao, Yongchang Cao, Yue Zhang, Jue Chen. Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement. arXiv preprint, 2024论文
[8]
Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried. SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution. ICLR 2025, 2025论文
[9]
Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang. Agentless: Demystifying LLM-based Software Engineering Agents. ICML 2024, 2024论文
[10]
Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve. RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning. ICML 2025, 2024论文
[11]
John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. ICML 2024, 2024论文
[12]
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury. AutoCodeRover: Autonomous Program Improvement. ICML 2024, 2024论文
[13]
Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C. H. Hoi. CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning. NeurIPS 2022, 2022论文
[14]
Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu. Qwen2.5-Coder Technical Report. arXiv preprint, 2024论文
[15]
Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto. Evaluating Large Language Models Trained on Code. arXiv preprint, 2021论文
[16]
Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang. CodeR: Issue Resolving with Multi-Agent and Task Graphs. arXiv preprint, 2024论文
[17]
Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini. Large Language Monkeys: Scaling Inference Compute with Repeated Sampling. arXiv preprint, 2024论文
[18]
Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar. Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters. arXiv preprint, 2024论文
[19]
Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models. arXiv preprint, 2024论文
[20]
Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto. Observational Scaling Laws and the Predictability of Language Model Performance. NeurIPS, 2024论文

论文列表

推理期脚手架与工具链优化(3)

聚焦于推理阶段的任务拆解、工具调用、多智能体协作等流程设计，不修改基础模型参数，仅通过prompt engineering与流程编排提升SWE任务性能。

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

John Yang,Carlos E. Jimenez,Alexander Wettig,Kilian Lieret,Shunyu Yao2024年5月6日

提出标准化的agent-computer interface，支持文件浏览、编辑、测试执行等工具调用，在SWE-bench Lite上达到27.7%的通过率，首次验证了纯脚手架优化的性能上限。

Agentless: Demystifying LLM-based Software Engineering Agents

Chunqiu Steven Xia,Yinlin Deng,Soren Dunn,Lingming Zhang2024年7月1日

用无agent的简单pipeline在SWE-bench Lite上达到27.1%的通过率，接近复杂agent的性能，证明脚手架复杂度带来的边际收益极低，瓶颈在于基座模型的先验能力。

AutoCodeRover: Autonomous Program Improvement

Yuntong Zhang,Haifeng Ruan,Zhiyu Fan,Abhik Roychoudhury2024年4月8日

提出结合静态分析的代码定位流程，将SWE-bench Lite通过率提升到32.4%，是当前纯脚手架优化的最高公开性能。

RL与可验证反馈优化(3)

聚焦于后训练阶段，利用测试执行结果、静态分析报告、编译器反馈等可验证信号，通过RL或偏好优化提升模型的代码正确性与修复能力。

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Jonas Gehring,Kunhao Zheng,Jade Copet,Vegard Mella,Taco Cohen,Gabriel Synnaeve2024年10月2日

提出基于执行反馈的RL训练框架，在SWE相关任务上提升12-18pp的通过率，证明执行反馈可有效放大基座模型的代码修复能力。

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Yuxiang Wei,Olivier Duchenne,Jade Copet,Quentin Carbonneaux,Lingming Zhang,Daniel Fried2025年2月25日

验证RL性能高度依赖预训练分布：当预训练未包含commit形态数据时，RL样本效率下降70%，无法收敛到可用水平；对齐预训练分布后，SWE-bench通过率提升15pp。

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Hung Le,Yue Wang,Akhilesh Deepak Gotmare,Silvio Savarese,Steven C. H. Hoi2022年7月5日

首次提出将单元测试执行结果作为RL奖励信号，在HumanEval上提升7.3pp的通过率，奠定了代码领域RL优化的基础范式。

大规模代码语料预训练(3)

聚焦于预训练阶段的代码语料规模与比例优化，通过增加代码token的训练量提升模型的基础代码能力，不修改数据组织形式与训练目标。

DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

Daya Guo,Qihao Zhu,Dejian Yang,Zhenda Xie2024年1月25日

给出高比例代码预训练的工程阈值：当continued pretrain阶段代码占比≥70%时，代码基准性能显著提升，同时自然语言能力未出现同量级回退。

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

DeepSeek-AI,Qihao Zhu,Daya Guo,Zhihong Shao,Dejian Yang2024年6月17日

用78%代码占比的4T tokens continued pretrain，在SWE-bench Lite上达到29.3%的通过率，验证了高代码比例对SWE能力的提升作用。

Qwen2.5-Coder Technical Report

Binyuan Hui,Jian Yang,Zeyu Cui,Jiaxi Yang,Dayiheng Liu2024年9月18日

用3T代码token训练，在多项代码基准上超过DeepSeek-Coder-V2，进一步验证了代码scaling law的有效性。

预训练数据形状与任务对齐(4)

聚焦于预训练/中训练阶段的数据组织形式与目标设计，通过仓库级打包、FIM、过程数据引入、可执行信号注入等方式，让预训练分布直接匹配SWE任务的真实分布。

StarCoder 2 and The Stack v2: The Next Generation

Anton Lozhkov,Raymond Li,Loubna Ben Allal,Federico Cassano2024年2月29日

提出基于import图拓扑排序的仓库级打包方法，相同代码token规模下，跨文件修复率比文件级打散的模型高11pp，验证了数据组织形式的核心价值。

Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement

Yingwei Ma,Rongyu Cao,Yongchang Cao,Yue Zhang,Jue Chen2024年11月1日

将commit/PR/issue/review线程作为一等训练样本，在SWE-bench Lite上达到38.7%的通过率，是当前公开最高的基座模型原生性能。

Efficient Training of Language Models to Fill in the Middle

Mohammad Bavarian,Heewoo Jun,Nikolas Tezak,John Schulman,Christine McLeavey2022年7月28日

提出FIM（Fill in the Middle）训练范式，仅通过简单的数据变换即可让模型学习插补能力，补丁生成准确率提升20%以上，且几乎无额外训练成本。

Code Llama: Open Foundation Models for Code

Baptiste Rozière,Jonas Gehring,Fabian Gloeckle,Sten Sootla,Itai Gat2023年8月24日

验证FIM+长上下文训练的组合效果，在代码插补任务上超过同规模的其他开源模型，成为代码模型的基础训练范式。

SWE Agent 的 scaling law：从 pretrain → inference-time 的可预测性(4)

把 SWE-bench / SWE 任务的 resolved-rate 当作可拟合曲线来研究：(i) 推理期采样数 N 与 pass@N 的 log-linear scaling（Brown 2024 在 SWE-bench Lite 上 1→250 samples 把 DeepSeek-Coder-V2 从 15.9% 推到 56%）；(ii) test-time compute 的 compute-optimal 分配（Snell 2024 / Wu 2024）；(iii) 跨模型族用公开 metric 反推 effective compute，把 agent 任务（含 SWE-bench）变成可外推的能力轴（Ruan 2024 observational scaling laws）。共同结论是：SWE 任务的 scaling 不是一根曲线，而是 pretrain compute × inference compute × verifier 的二维曲面。

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

Bradley Brown,Jordan Juravsky,Ryan Ehrlich,Ronald Clark,Quoc V. Le,Christopher Ré,Azalia Mirhoseini2024年7月31日

在多任务（含 SWE-bench Lite）上首次系统量化“sample 数 → pass@N”的 scaling：DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上从 1 个样本的 15.9% 涨到 250 个样本的 56%，曲线接近 log-linear 且对模型规模、prompt 风格有相对稳定的指数；它把 SWE 任务的“能不能做到”从一次试问题，变成“给多少 inference compute 才能到达目标 resolved-rate”的预算问题。

Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters

Charlie Snell,Jaehoon Lee,Kelvin Xu,Aviral Kumar2024年8月6日

把推理期“采样×验证×搜索”的多种策略统一为 test-time compute 预算优化问题，并给出按 prompt 难度自适应分配 test-time compute 的方案；在 MATH 等推理任务上证明：较小模型 + 更多 test-time compute 在很多区间下优于 14× 更大模型，等价于在 SWE-style sequential refinement 场景里给出一条 'pretrain × inference' 的 compute-optimal 曲面。

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

Yangzhen Wu,Zhiqing Sun,Shanda Li,Sean Welleck,Yiming Yang2024年8月1日

在数学/推理 benchmark 上拟合“inference FLOPs → accuracy”的可外推曲线，把 inference scaling 写成与 pretrain scaling 平行的幂律：在固定 inference FLOPs 下，最优 (model size, sampling strategy, verifier) 组合存在明确 Pareto 前沿；这条结论在 SWE 场景中直接对应“小模型多采样 + reward model 选择”是否 dominate 大模型一次成功这一现实决策。

Observational Scaling Laws and the Predictability of Language Model Performance

Yangjun Ruan,Chris J. Maddison,Tatsunori Hashimoto2024年5月17日

把 ~80 个公开模型的 benchmark 分数压缩成低维 capability 空间（“effective compute”），对 agent 任务（含 AgentBench / SWE 类任务）做后验外推：用低成本现成 benchmark 反推 SWE-bench 这类 agent 能力随 effective compute 的增长曲线，给“在没训新模型前先预测 SWE 性能”提供了工程上可用的事后曲线。