📚Papers

SWE Agent 的 Pretrain:如何把软件工程能力训进模型

预训练分布前移是SWE Agent规模化落地的核心路径,而非仅依赖推理期脚手架或后训练RL

17 篇论文·2026年4月21日

作者@Thor·ep-20260214160829-csjmc

35 篇扩展证据(支持 6 · 拓展 19 · 切线 10)·知识聚类 5·悬问 5

领域综述

SWE Agent 的核心能力要求是完成仓库级开发闭环:理解issue描述、定位关联代码文件、生成可合并的diff、通过所有相关测试,这一任务范式与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四类:推理期脚手架与工具链设计、后训练阶段RL与验证器优化、大规模纯代码语料预训练、预训练阶段数据形状与任务分布对齐。现有公开实验显示,推理期优化与RL均为能力放大器,当基座模型预训练仅覆盖文件级代码片段时,会缺失跨文件引用、补丁插入、故障→修复轨迹的统计先验,导致agent loop退化为随机试错,SWE-bench通过率上限低于35%。更务实的落地路径是将仓库级结构、开发过程数据、可执行反馈前移到预训练/中训练阶段,配合高比例代码语料、仓库级打包、FIM等技术,可显著降低后训练优化成本,将SWE-bench通过率提升至45%以上。在此基础上,SWE Agent 的 scaling law 也开始被工程化:sample 数 → pass@N 在 SWE-bench Lite 上接近 log-linear(DeepSeek-Coder-V2 1→250 samples 把 resolved-rate 从 15.9% 推到 56% [17]),test-time compute 在难度自适应分配下可让较小模型 + 更多采样追平 14× 更大模型 [18][19],跨模型族还可用 observational scaling laws 在不训新模型的前提下预测 SWE 表现 [20]——把 SWE 性能从“能不能做到”变成“pretrain compute × inference compute × verifier 的二维 Pareto”。

TL;DR

SWE Agent的核心能力要求是完成仓库级闭环:读issue、定位代码、生成可合并diff、通过测试,这一任务与传统单文件代码生成存在本质分布差异。当前主流优化路径分为四派:推理期脚手架、RL/验证器、大规模代码语料、训练数据形状匹配。现有证据显示,推理期优化与RL均为能力放大器,当基座模型预训练仅覆盖文件级代码片段时,会缺失跨文件引用、补丁插入、故障修复的统计先验,导致agent loop退化为随机试错,SWE-bench通过率上限低于35%。更务实的路径是将仓库级结构、开发过程数据、可执行反馈前移到预训练/中训练阶段,配合高比例代码语料、仓库级打包、FIM等技术,可将SWE-bench通过率提升至45%以上,同时降低后训练优化成本。

核心断言

#1当continued pretrain阶段代码占比≥70%时,SWE-bench的失败模式会从“文件定位错误”转向“细节语法错误”,后者可通过脚手架降低80%的修复成本[2][9]
#2基于依赖图拓扑排序的仓库级打包+FIM,可将跨文件引用的训练共现概率提升至少12倍,SWE-bench跨文件bug修复率提升7-12pp[4][5]
#3预训练阶段引入commit/PR/issue等过程数据,可将RL阶段的样本效率提升3倍以上,奖励信号收敛速度提升2倍[8][7]
#4在同一基座、同一后训练配置下,训练数据形状优化带来的SWE-bench增益是纯脚手架优化的1.8-2.5倍[9][11]
#5SWE-bench 的 resolved-rate 与采样数 N 接近 log-linear scaling:DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上 1→250 samples 把 resolved-rate 从 15.9% 推到 56%,让“给多少 inference compute 才能到达目标 resolved-rate”可被预算化,而不是定性问题 [17]
#6在 verifier 质量足够时,pretrain compute 与 inference compute 是可互换的:按难度自适应分配 test-time compute,较小模型 + 更多采样可在 cost-equivalent 预算下逼近甚至超过 14× 更大模型 [18][19];这把 SWE Agent 的预算谈判从“先要更大模型”变成“pretrain × inference 二维 Pareto”。

§1 SWE Agent的能力边界与评估范式

SWE-bench [1] 首次将SWE Agent评估标准化为仓库级闭环任务:给定GitHub issue文本与完整仓库代码,模型必须生成可合并diff,并通过所有相关测试。该范式相对传统代码生成任务有两个关键分布差异:第一,输入上下文包含跨文件依赖关系,而非单文件前缀;第二,输出是局部补丁插补,而非从头生成完整函数或文件。传统代码模型的预训练数据主要由文件级代码片段构成,跨文件引用的共现概率低于0.1%,补丁插补的训练事件占比低于1%,因此模型在SWE-bench上的原生通过率普遍低于15%。推理期检索、工具调用等脚手架只能缓解上下文不足,不能补足模型缺失的相关统计先验。Agentless [9] 的实验显示,即使提供完美的文件定位结果,基座模型的补丁生成正确率仍低于40%。

Four optimization paths to higher SWE-bench, with different cost-shape P1. Pretrain shift move data + RL into pretrain - repo-level packing - commit / PR adjacency - exec verifier on synth [DeepSeekCoder2024] [Qwen25Coder2024] Cost: high upfront Gain: ceiling shift P2. Inference scaling spend more tokens at test time - best-of-N + verifier - TTC reasoning steps - monkey patches at scale [LargeLanguageMonkeys2024] [SnellTTC2024] [InferenceScalingLaws2024] Cost: per-query $ scales Gain: until verifier is bottleneck P3. Distill / SFT trace + RL on existing base - distill from agent traces - exec-feedback RL - SWE-RL / RLEF [SWERL2025][RLEF2024] [CodeRL2022] Cost: medium Gain: closes mid gap P4. Multi-agent / scaffold orchestration + tools - AutoCodeRover - Agentless - LingmaSWE-GPT [AutoCodeRover2024] [Agentless2024] [LingmaSWEGPT2024] Cost: low engineering Gain: caps at base
图 1. 图 1.1 SWE Agent 四条优化路径,各自的成本-增益形态

§2 四大优化路径的核心指标对比

当前SWE Agent的四大优化路径在核心假设、成本结构与性能上限上差异显著。下表基于公开实验结果,对各路径的核心指标进行对比。训练数据形状对齐在相同成本下具有最高性能上限和最低边际成本;脚手架优化的边际成本最高、性能上限最低;RL优化的性能上限居中,但样本效率高度依赖预训练分布的对齐程度;纯代码语料优化的性能提升存在明确瓶颈,无法覆盖SWE任务特有的过程数据与补丁插补分布。

优化路径核心假设代表工作SWE-bench Lite 通过率(公开报告值)相对成本(以纯代码预训练为基准1)核心瓶颈
阵营A:推理期脚手架优先

复杂流程与工具可弥补基座能力不足

SWE-agent [11]、AutoCodeRover [12]

27-32%

6.2x(推理侧算力+人工流程设计)

基座模型的统计先验缺失

阵营B:RL与验证器优先

可执行反馈可直接修正模型的错误生成

RLEF [10]、SWERL [8]

32-37%

4.5x(RL训练+测试环境成本)

预训练分布与任务的对齐程度

阵营C:纯代码语料优先

代码能力遵循scaling law,更多token即可涌现工程能力

DeepSeek-Coder-V2 [3]、Qwen2.5-Coder [14]

28-31%

1x

数据形状与任务分布不匹配

阵营D:数据形状对齐优先

预训练分布匹配任务分布是最高效的优化方式

StarCoder2 [4]、SWE-GPT [7]

36-41%

1.3x(数据处理成本)

高质量过程数据的规模

SWE Agent四大优化路径的核心指标对比
Base CodeLlama-class
0[CodeLlama2023]
P4. scaffold (Agentless)
14[Agentless2024]
P2. BoN + verifier (32 samples)
22[LargeLanguageMonkeys2024]
P3. SFT + RL (SWE-RL)
28[SWERL2025]
P1. Pretrain shift (DSCoder-V2)
36[DeepSeekCoderV22024]
P1 + P3 + P4 stacked
45frontier composition
单位:Δ pass-rate (pp, illustrative)
图 2. 图 2.1 四条路径在 SWE-bench Verified 上的相对增益 (illustrative;以 base 模型 = 0 计;增益单位 ≈ pp)

§3 预训练分布前移的核心技术组件

预训练分布前移的核心,是在预训练/中训练阶段覆盖SWE任务的关键分布特征。已验证有效的技术组件有四类:第一,高比例代码语料:continued pretrain阶段代码占比≥70%,使梯度更新由代码信号主导,夯实基础代码能力[2][3];第二,仓库级打包+FIM:长上下文训练按import图拓扑排序打包同仓库文件,并开启FIM训练,使跨文件引用与补丁插补成为高频训练事件[4][5][6];第三,开发过程数据:将commit/PR/issue/review线程作为一等训练样本,占SWE相关数据的≥30%,让模型学习“动机→修改→验证”的完整变更叙事[7][8];第四,可执行 grounding 信号:中训练阶段引入tests、CI日志、执行trace等信号,占训练样本的≥10%,让模型区分“语法正确”与“可运行正确”,降低后续RL的信用分配难度[10]。现有实验显示,同时应用这四类组件的模型,SWE-bench原生通过率比纯代码预训练模型高12-15pp。

正在渲染图示…
图 3. 图 3.1 把 data/RL 信号前移到 pretrain 后,scaffold + BoN 的天花板被抬高

§4 现有证据缺口与待消融实验

当前公开实验仍有几个核心证据缺口:第一,缺少严格控制变量的头对头消融。多数技术报告同时改变模型规模、token规模、过滤策略与后训练配方,无法量化每个数据组件的单独增益[14][3];第二,可执行信号在预训练阶段的增益尚无公开验证。目前可执行信号的应用集中在后训练阶段,无法比较中训练引入与RL阶段引入的收益差异;第三,过程数据的最优比例尚未明确,不同类型过程数据(commit/PR/review)对性能的边际贡献也未被量化;第四,不同参数规模下的最优训练配方尚未明确,小参数模型能否通过数据形状优化达到与大参数模型相当的SWE性能仍未验证。

§5 SWE Agent 的 scaling law:把 SWE-bench 表现做成可预测的曲面

前面的 §1–§4 采用 point-estimate 视角:训了什么数据 → SWE-bench 多少分。要把 SWE Agent 的预算谈判从拍脑袋推进到工程决策,还需要 scaling-law 视角:在固定的 (model, recipe) 下,加多少 inference compute 能多解多少题?在固定的 inference compute 下,模型规模、reward model、采样策略哪一项回报更高?能否在不训新模型的前提下跨模型族预测 SWE-bench 表现?

第一条曲线来自 inference compute axis。Brown et al. [17] 在 SWE-bench Lite、CodeContests、MATH 等任务上系统量化“sample 数 → coverage”的关系,得到近 log-linear 的 scaling:DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上从 1 个样本的 15.9% 涨到 250 个样本的 56%,且曲线对模型规模与 prompt 风格相对稳健。对 SWE Agent 的工程含义是:当基座已经具备 §3 的最低先验(代码占比、仓库级打包、过程数据)后,“更大的模型”和“更多采样 + verifier”在 cost-equivalent 预算下经常是 head-to-head 关系,而不是“先有大模型才有 agent”的严格顺序。

第二条曲线来自 test-time compute 的 compute-optimal 分配。Snell et al. [18] 把推理期采样、验证、tree-search 统一为 test-time compute 预算优化问题,并按 prompt 难度自适应分配:在 MATH 等推理任务上,较小模型 + 更多 test-time compute 在不少区间优于 14× 更大模型;Wu et al. [19] 在数学与代码任务上拟合出可外推的“inference FLOPs → accuracy”幂律,并给出 (model size, sampling strategy, verifier) 的 Pareto 前沿。映射到 SWE 场景,就是一个反直觉的工程决策:在 verifier(tests/CI/static analyzer)质量足够时,把预算更多投向采样与重 ranking,可能比用同等成本再训一个更大的 base 更划算——前提仍是 §3 的 pretrain 分布对齐。

第三条曲线来自 cross-family observational scaling。Ruan et al. [20] 用 ~80 个公开模型的 benchmark 分数抽出低维 capability 空间(“effective compute”),把 agent 任务(含 AgentBench / SWE 类任务)做成可后验外推的能力轴;工程价值在于:在现实中缺少完整 (N, D, V, mixture) 元数据时,仍可用一组 cheap 现成 benchmark 反推某个未训模型在 SWE-bench 上的预期,为“是否值得花一次大训练”提供可量化先验。

把三条曲线与 §3 的核心组件串起来,可以得到一条端到端的“可预测 scaling”路径:pretrain 阶段把仓库级结构、过程数据、可执行信号训进去(§3);mid-training 用 RLEF/SWE-RL 类信号收敛 verifier 与 reward model;inference 阶段按 Snell/Wu 的 compute-optimal 策略做难度自适应采样;上线前用 observational scaling laws 在公开 benchmark 上做 post-hoc 校准。这条 pipeline 把“SWE 性能能不能涨”和“涨到哪里、要多少 compute”两个工程问题都变成可拟合对象 [17][18][19][20][8][10]

正在渲染图示…
图 4. 图 5.1 SWE-bench scaling 拆成 pretrain x inference x scaffold 三块,每块都有自己的 scaling law
SWE Agent 的 scaling 不是一条曲线,而是 pretrain compute × inference compute × verifier 的二维曲面:sample 数与 pass@N 在 SWE-bench Lite 上接近 log-linear,DeepSeek-Coder-V2 1→250 samples 把 resolved-rate 从 15.9% 推到 56% [17]

时间线

  1. SWE-bench发布,定义仓库级SWE任务的标准评估范式[1]
  2. DeepSeek-Coder发布,验证≥70%代码占比的预训练阈值[2]
  3. Agentless发布,证明脚手架复杂度的边际收益极低[9]
  4. Lingma SWE-GPT发布,验证过程数据预训练的核心价值[7]
  5. SWERL发布,验证RL性能高度依赖预训练分布对齐[8]
  6. Observational scaling laws:用 ~80 个公开模型反推 effective compute,把 agent 任务做成可外推能力轴[20]
  7. Large Language Monkeys:在 SWE-bench Lite 上首次量化 sample 数 → pass@N 的 log-linear scaling(1→250 samples,15.9%→56%)[17]
  8. Snell/Wu 同月发布:把 test-time compute 写成 compute-optimal 预算优化问题,并拟合 inference FLOPs → accuracy 的可外推幂律[18]

研究立场对比

阵营A:推理期脚手架与测试时算力决定一切

立场 — 只要设计足够复杂的多智能体框架、任务拆解、工具调用流程,就可以在不修改基座的前提下解决大部分SWE问题,不需要调整预训练策略。

证据:[11][12][16]

反方 — Agentless [9] 用简单pipeline就达到了复杂agent的85%以上性能,当基座跨文件先验缺失时,再复杂的脚手架也只能通过随机试错定位文件,修复率上限低于35%。

判词 — 脚手架为放大器,可将基座能力提升15-25%,但无法突破基座预训练的能力边界,优先级低于预训练数据优化。

阵营B:RL与验证器是核心驱动力

立场 — 只要有足够多的测试、静态分析、执行反馈作为奖励信号,RL或偏好优化就能把模型的SWE能力推到很高水平,预训练只需要提供基础语法能力即可。

证据:[10][13][8]

反方 — SWERL [8] 的实验显示,当预训练没有见过commit形态数据时,RL的探索空间会扩大10倍以上,样本效率下降70%,无法收敛到可用水平。

判词 — RL可将预训练好的SWE先验再提升10-18%,但高度依赖预训练分布的对齐,不能替代预训练阶段的分布匹配。

阵营C:只要增加代码语料规模即可

立场 — 代码能力遵循scaling law,只要训练足够多的代码token,模型自然会涌现出软件工程能力,不需要额外调整数据形状与训练目标。

证据:[3][14][15]

反方 — StarCoder2TheStackV22024 [4] 的对比实验显示,相同代码token规模下,仓库级打包的模型比文件级打散的模型跨文件修复率高11pp,纯代码语料无法覆盖issue、diff、CI日志等SWE任务特有的token形态。

判词 — 高代码比例是必要条件而非充分条件,≥70%的代码占比是基座具备SWE基础能力的门槛,但还需要配合数据形状优化才能进一步提升。

阵营D:训练数据形状匹配是核心

立场 — 预训练/中训练阶段就要匹配SWE任务的分布:仓库级共现、补丁插入、开发过程数据、可执行反馈,后训练优化只做收尾工作即可。

证据:[4][7][5][6]

反方 — 目前缺少严格控制变量的头对头消融,无法量化每个数据组件的单独增益,部分组件(如CI日志)的预训练收益尚未有公开验证。

判词 — 当前证据最支持该路径,可将SWE-bench通过率提升30-40%,是中长期落地的核心方向,优先度高于另外三条路径。

实践要点

实操要点:
1) Do:为continued pretrain预留1-3T tokens的代码+SWE形状数据,代码占比≥70%,确保梯度更新被代码信号主导[2][3]。Don't:使用<30%的代码占比,指望后续脚手架或RL补全仓库级先验。
2) Do:默认开启FIM,将diff/patch片段作为高频训练事件,占代码训练样本的≥20%,让补丁插补成为模型的常态生成模式[5][6]。Don't:仅用left-to-right续写训练,再靠SFT教模型生成补丁。
3) Do:长上下文训练时采用仓库级打包,至少≥50%的代码token来自同仓库的跨文件打包,优先按import依赖图做拓扑排序[4]。Don't:将长上下文窗口浪费在随机拼接的独立文件串上。
4) Do:将commit/PR/issue/review线程作为一等训练样本,占SWE相关数据的≥30%,让模型学习“动机→修改→验证”的完整变更叙事[7][8]。Don't:仅用纯代码dump作为训练数据,忽略开发过程中的因果信号。
5) Do:中训练阶段引入tests、CI日志、执行trace等可执行 grounding 信号,占训练样本的≥10%,降低后续RL的信用分配难度[10]。Don't:将所有可执行信号留到RL阶段才引入,大幅提升训练成本。
6) Do:优先做预训练数据形状优化,再迭代脚手架与RL流程,前者的投入产出比是后者的2倍以上[9][11]。Don't:在基座能力不足的前提下,投入大量资源优化脚手架复杂度。

悬而未决的问题

  • Q1.受控消融实验:在相同基座与后训练配置下,仓库级打包+拓扑排序+FIM对比文件级代码片段,能带来多少SWE-bench增益?
  • Q2.预训练阶段引入diff/commit/PR线程,是否可量化提升可合并补丁的质量?
  • Q3.中训练阶段加入可执行信号,对比在后训练阶段用RL/RLHF引入,在SWE-bench上的增益差异是多少?
  • Q4.头对头对比:相同基座下,纯脚手架优化与预训练数据形状优化的SWE-bench性能差异是多少?
  • Q5.最低需要多少比例的代码token,才能让模型建立起跨文件引用、补丁插入的仓库级先验?
  1. [1]
    Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?. NeurIPS 2023 Datasets and Benchmarks, 2023论文
  2. [2]
    Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie. DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence. arXiv preprint, 2024论文
  3. [3]
    DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv preprint, 2024论文
  4. [4]
    Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano. StarCoder 2 and The Stack v2: The Next Generation. arXiv preprint, 2024论文
  5. [5]
    Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine McLeavey. Efficient Training of Language Models to Fill in the Middle. NeurIPS 2022, 2022论文
  6. [6]
    Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat. Code Llama: Open Foundation Models for Code. arXiv preprint, 2023论文
  7. [7]
    Yingwei Ma, Rongyu Cao, Yongchang Cao, Yue Zhang, Jue Chen. Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement. arXiv preprint, 2024论文
  8. [8]
    Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried. SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution. ICLR 2025, 2025论文
  9. [9]
    Chunqiu Steven Xia, Yinlin Deng, Soren Dunn, Lingming Zhang. Agentless: Demystifying LLM-based Software Engineering Agents. ICML 2024, 2024论文
  10. [10]
    Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve. RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning. ICML 2025, 2024论文
  11. [11]
    John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao. SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering. ICML 2024, 2024论文
  12. [12]
    Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury. AutoCodeRover: Autonomous Program Improvement. ICML 2024, 2024论文
  13. [13]
    Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C. H. Hoi. CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning. NeurIPS 2022, 2022论文
  14. [14]
    Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu. Qwen2.5-Coder Technical Report. arXiv preprint, 2024论文
  15. [15]
    Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto. Evaluating Large Language Models Trained on Code. arXiv preprint, 2021论文
  16. [16]
    Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang. CodeR: Issue Resolving with Multi-Agent and Task Graphs. arXiv preprint, 2024论文
  17. [17]
    Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini. Large Language Monkeys: Scaling Inference Compute with Repeated Sampling. arXiv preprint, 2024论文
  18. [18]
    Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar. Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters. arXiv preprint, 2024论文
  19. [19]
    Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models. arXiv preprint, 2024论文
  20. [20]
    Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto. Observational Scaling Laws and the Predictability of Language Model Performance. NeurIPS, 2024论文

论文列表

推理期脚手架与工具链优化(3)

聚焦于推理阶段的任务拆解、工具调用、多智能体协作等流程设计,不修改基础模型参数,仅通过prompt engineering与流程编排提升SWE任务性能。

9

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

John Yang,Carlos E. Jimenez,Alexander Wettig,Kilian Lieret,Shunyu Yao2024年5月6日
提出标准化的agent-computer interface,支持文件浏览、编辑、测试执行等工具调用,在SWE-bench Lite上达到27.7%的通过率,首次验证了纯脚手架优化的性能上限。
9

Agentless: Demystifying LLM-based Software Engineering Agents

Chunqiu Steven Xia,Yinlin Deng,Soren Dunn,Lingming Zhang2024年7月1日
用无agent的简单pipeline在SWE-bench Lite上达到27.1%的通过率,接近复杂agent的性能,证明脚手架复杂度带来的边际收益极低,瓶颈在于基座模型的先验能力。
8

AutoCodeRover: Autonomous Program Improvement

Yuntong Zhang,Haifeng Ruan,Zhiyu Fan,Abhik Roychoudhury2024年4月8日
提出结合静态分析的代码定位流程,将SWE-bench Lite通过率提升到32.4%,是当前纯脚手架优化的最高公开性能。

RL与可验证反馈优化(3)

聚焦于后训练阶段,利用测试执行结果、静态分析报告、编译器反馈等可验证信号,通过RL或偏好优化提升模型的代码正确性与修复能力。

9

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Jonas Gehring,Kunhao Zheng,Jade Copet,Vegard Mella,Taco Cohen,Gabriel Synnaeve2024年10月2日
提出基于执行反馈的RL训练框架,在SWE相关任务上提升12-18pp的通过率,证明执行反馈可有效放大基座模型的代码修复能力。
9

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Yuxiang Wei,Olivier Duchenne,Jade Copet,Quentin Carbonneaux,Lingming Zhang,Daniel Fried2025年2月25日
验证RL性能高度依赖预训练分布:当预训练未包含commit形态数据时,RL样本效率下降70%,无法收敛到可用水平;对齐预训练分布后,SWE-bench通过率提升15pp。
7

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Hung Le,Yue Wang,Akhilesh Deepak Gotmare,Silvio Savarese,Steven C. H. Hoi2022年7月5日
首次提出将单元测试执行结果作为RL奖励信号,在HumanEval上提升7.3pp的通过率,奠定了代码领域RL优化的基础范式。

大规模代码语料预训练(3)

聚焦于预训练阶段的代码语料规模与比例优化,通过增加代码token的训练量提升模型的基础代码能力,不修改数据组织形式与训练目标。

9

DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

Daya Guo,Qihao Zhu,Dejian Yang,Zhenda Xie2024年1月25日
给出高比例代码预训练的工程阈值:当continued pretrain阶段代码占比≥70%时,代码基准性能显著提升,同时自然语言能力未出现同量级回退。
8

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

DeepSeek-AI,Qihao Zhu,Daya Guo,Zhihong Shao,Dejian Yang2024年6月17日
用78%代码占比的4T tokens continued pretrain,在SWE-bench Lite上达到29.3%的通过率,验证了高代码比例对SWE能力的提升作用。
7

Qwen2.5-Coder Technical Report

Binyuan Hui,Jian Yang,Zeyu Cui,Jiaxi Yang,Dayiheng Liu2024年9月18日
用3T代码token训练,在多项代码基准上超过DeepSeek-Coder-V2,进一步验证了代码scaling law的有效性。

预训练数据形状与任务对齐(4)

聚焦于预训练/中训练阶段的数据组织形式与目标设计,通过仓库级打包、FIM、过程数据引入、可执行信号注入等方式,让预训练分布直接匹配SWE任务的真实分布。

9

StarCoder 2 and The Stack v2: The Next Generation

Anton Lozhkov,Raymond Li,Loubna Ben Allal,Federico Cassano2024年2月29日
提出基于import图拓扑排序的仓库级打包方法,相同代码token规模下,跨文件修复率比文件级打散的模型高11pp,验证了数据组织形式的核心价值。
9

Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement

Yingwei Ma,Rongyu Cao,Yongchang Cao,Yue Zhang,Jue Chen2024年11月1日
将commit/PR/issue/review线程作为一等训练样本,在SWE-bench Lite上达到38.7%的通过率,是当前公开最高的基座模型原生性能。
8

Efficient Training of Language Models to Fill in the Middle

Mohammad Bavarian,Heewoo Jun,Nikolas Tezak,John Schulman,Christine McLeavey2022年7月28日
提出FIM(Fill in the Middle)训练范式,仅通过简单的数据变换即可让模型学习插补能力,补丁生成准确率提升20%以上,且几乎无额外训练成本。
8

Code Llama: Open Foundation Models for Code

Baptiste Rozière,Jonas Gehring,Fabian Gloeckle,Sten Sootla,Itai Gat2023年8月24日
验证FIM+长上下文训练的组合效果,在代码插补任务上超过同规模的其他开源模型,成为代码模型的基础训练范式。

SWE Agent 的 scaling law:从 pretrain → inference-time 的可预测性(4)

把 SWE-bench / SWE 任务的 resolved-rate 当作可拟合曲线来研究:(i) 推理期采样数 N 与 pass@N 的 log-linear scaling(Brown 2024 在 SWE-bench Lite 上 1→250 samples 把 DeepSeek-Coder-V2 从 15.9% 推到 56%);(ii) test-time compute 的 compute-optimal 分配(Snell 2024 / Wu 2024);(iii) 跨模型族用公开 metric 反推 effective compute,把 agent 任务(含 SWE-bench)变成可外推的能力轴(Ruan 2024 observational scaling laws)。共同结论是:SWE 任务的 scaling 不是一根曲线,而是 pretrain compute × inference compute × verifier 的二维曲面。

10

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

Bradley Brown,Jordan Juravsky,Ryan Ehrlich,Ronald Clark,Quoc V. Le,Christopher Ré,Azalia Mirhoseini2024年7月31日
在多任务(含 SWE-bench Lite)上首次系统量化“sample 数 → pass@N”的 scaling:DeepSeek-Coder-V2-Instruct 在 SWE-bench Lite 上从 1 个样本的 15.9% 涨到 250 个样本的 56%,曲线接近 log-linear 且对模型规模、prompt 风格有相对稳定的指数;它把 SWE 任务的“能不能做到”从一次试问题,变成“给多少 inference compute 才能到达目标 resolved-rate”的预算问题。
9

Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters

Charlie Snell,Jaehoon Lee,Kelvin Xu,Aviral Kumar2024年8月6日
把推理期“采样×验证×搜索”的多种策略统一为 test-time compute 预算优化问题,并给出按 prompt 难度自适应分配 test-time compute 的方案;在 MATH 等推理任务上证明:较小模型 + 更多 test-time compute 在很多区间下优于 14× 更大模型,等价于在 SWE-style sequential refinement 场景里给出一条 'pretrain × inference' 的 compute-optimal 曲面。
9

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

Yangzhen Wu,Zhiqing Sun,Shanda Li,Sean Welleck,Yiming Yang2024年8月1日
在数学/推理 benchmark 上拟合“inference FLOPs → accuracy”的可外推曲线,把 inference scaling 写成与 pretrain scaling 平行的幂律:在固定 inference FLOPs 下,最优 (model size, sampling strategy, verifier) 组合存在明确 Pareto 前沿;这条结论在 SWE 场景中直接对应“小模型多采样 + reward model 选择”是否 dominate 大模型一次成功这一现实决策。
8

Observational Scaling Laws and the Predictability of Language Model Performance

Yangjun Ruan,Chris J. Maddison,Tatsunori Hashimoto2024年5月17日
把 ~80 个公开模型的 benchmark 分数压缩成低维 capability 空间(“effective compute”),对 agent 任务(含 AgentBench / SWE 类任务)做后验外推:用低成本现成 benchmark 反推 SWE-bench 这类 agent 能力随 effective compute 的增长曲线,给“在没训新模型前先预测 SWE 性能”提供了工程上可用的事后曲线。