📚Papers

从推理到 Agentic RL:LLM 强化学习中的信用分配

稀疏 outcome reward 不是错,错在把它无条件外推到长时序 agent

16 篇论文·2026年5月6日

作者@Thor·gpt-5.5

60 篇扩展证据(支持 9 · 反证 1 · 拓展 50)·知识聚类 11·悬问 5

领域综述

LLM 强化学习正在从单轮、可验证答案的 reasoning RL,扩展到多轮工具使用、网页操作和长期任务。问题不再只是“最终答案对不对”,而是“哪些 token、步骤、工具调用或环境交互导致了结果”。稀疏 outcome reward 在数学题和代码题上可用,因为答案可验证、轨迹较短、环境噪声低;进入 agentic setting 后,同一个最终失败可能来自搜索 query、网页点击、工具参数、早期规划或环境随机性。把同一个负 reward 分给整条轨迹,会惩罚有用中间动作,也会放大高方差梯度。更稳的方向是把 reward 粒度从 trajectory 下沉到 segment、step、turn 或 attribution 单元,同时保留 outcome reward 的可验证性。当前证据还不支持“RL 本身解释全部推理收益”的宽泛说法;base model、数据、distillation 和 inference compute 都会混入收益。工程上应先用 outcome-only RLVR 验证可学性,再加入过程奖励、归因或 turn-level 设计,而不是一开始构造重型 actor-critic agent 系统。

TL;DR

结论先行:LLM RL 的下一道瓶颈是信用分配粒度,而不是再换一个 PPO 变体。outcome-only RLVR 在数学、代码这类可验证、短到中等长度任务上够用;一旦轨迹超过约 8–12 个有状态决策,或者包含搜索、点击、工具参数和环境反馈,同奖同罚会把有用步骤和错误步骤混在一起。DeepSeek-R1 [4] 和 OpenAI o1 [3] 说明大规模 RL 能诱发长推理,但 Liu et al. [5] 提醒 base、数据、distillation 和 inference compute 必须做 matched control。更稳的训练栈是:先 outcome reward 验证可学性,再按失败类型加入 segment、step、turn 或 attribution reward;没有可 reset 环境和自动 verifier 时,不要把 agentic RL 当作默认解。

核心断言

#1如果任务没有自动 verifier,且单条轨迹包含超过 8–12 个有状态决策,outcome-only RL 的主要风险会从“reward 稀疏”变成“错误 credit 被系统性传播”。
#2R1-Zero-like 训练的收益不能在没有 matched base、数据、distillation 和 inference compute 的条件下归因给 RL;任一控制缺失都足以让结论不可判定。
#3segment/step/turn reward 的合理适用区间是 4–64 个中间决策;少于 4 个决策时 outcome reward 往往够用,多于 64 个决策时需要层级化或 hindsight attribution。
#4工具/搜索 RL 只有在工具调用成功率、参数合法率和最终任务成功率三者都被记录时才可诊断;只报最终准确率无法区分推理失败和工具策略失败。
#5sequence-level ratio 优先优化长 CoT 的训练稳定性,attribution reward 优先优化错误定位;二者应在同一 KL budget 下比较,而不是各自调参后比较最终分数。

§1 推理收益不能只归因给 RL

更稳的读法是:RL 是把可验证任务上的采样、筛选和更新闭环跑起来的机制,但不是推理能力提升的单一原因。DeepSeekMath [2] 先把数学数据和 GRPO 接上,说明领域数据、base model 和 RL recipe 会同时起作用。OpenAI o1 [3] 把大规模 RL 与 chain-of-thought reasoning 绑定在一起,DeepSeek-R1 [4] 又把 outcome reward 下的长推理轨迹公开到更可讨论的范围。问题在于,这三类证据都不是“只改变 RL、其他不变”的实验。

Liu et al. [5] 反驳宽泛的 R1-Zero-like 叙事,是因为 base model 起点、prompt template、训练数据、distillation 和 inference compute 都会改变最终分数;缺少任一 matched control,RL 的边际贡献就不能干净估计。Ahmadian et al. [8] 进一步削弱了“必须复杂 PPO”的默认假设:REINFORCE-style 优化在若干 RLHF setting 中可以作为强基线。Rafailov et al. [9] 从 Q-function 角度解释 language-model reward,也提醒 reward parameterization 本身会改变我们看到的“策略提升”。两篇 survey [6] [7] 的共同结论可以压缩成一句:先把任务可验证性、采样预算和 base/data 控制做干净,再比较 RL 算法。

先控制 base、数据和推理预算,再谈 RL 算法差异。

§2 信用粒度是从 reasoning RL 走向 agentic RL 的分水岭

From Reasoning to Agentic [1] 的核心价值在于把两个 regime 放到同一张图上:reasoning RL 的 credit 多在 token、step、segment 之间分配;agentic RL 的 credit 还要跨 turn、tool call 和环境状态。trajectory-level outcome reward 的优点是便宜、可验证、少引入 reward model 偏差;缺点也清楚:同一条失败轨迹里,正确的中间推理会被负 reward 惩罚。

几条方法线在争同一个边界。Process Reinforcement through Implicit Rewards [10] 和 PRL [14] 选择 densify process signal;AgentPRM [11] 把 PRM 放进 agent actor-critic 框架;Self-Guided PRL [12] 试图少依赖额外 PRM;RLVMR [13] 用可验证 meta-reasoning reward 限制长时序无效思考。另一条线不直接训练 PRM,而是估计哪些片段真的贡献了 outcome:SCAR [15] 用 Shapley-style 边际贡献,SPA-RL [16] 做 stepwise progress attribution,SPO [17] 用 segment-level advantage,CAPO [18] 用 generative credit assignment,Tree-structured CA [19] 利用推理树,Attribution-based CA [20] 定位 crucial steps,InT [22] 用 self-proposed interventions 做因果探针,Hindsight CA [23] 和 CARL [21] 则面向长时序 agent,把更新集中到事后可识别的关键动作。更务实的取舍是:短可验证任务先用 outcome reward;中等长度 reasoning 用 segment/step;多轮 agent 用 turn/action;超过几十步时,引入 hierarchy 或 hindsight。

方案credit 单元适用范围主要风险
Outcome-only RLVR

整条 trajectory [4]

答案可验证、轨迹较短

错误 credit 平均传播

Process / PRM

推理步骤 [11] [14]

多步 reasoning

PRM 偏差会被 policy 放大

Segment / step attribution

segment 或 crucial step [17] [20]

4–64 个中间决策

归因不一定等于因果贡献

Turn / action reward

turn、tool call、环境动作 [29]

网页、搜索、设备控制 agent

环境噪声会污染 reward

奖励粒度与适用 regime 的对比

§3 Agentic RL 的难点是环境纪律,不是把 CoT 拉长

agentic RL 和 reasoning RL 共享“采样—评分—更新”的外壳,但工程约束完全不同。ArCHer [24] 用 hierarchical multi-turn RL 拆动作层级,Action Decomposition [25] 把巨大 action space 分解,Turn-Level Reward [29] 把反馈放在 turn 上,GIPO [28] 处理 group-based 方法在多轮 agent 上的扩展,RAGEN [27] 研究 self-evolution,Agentic Implicit Step Rewards [31] 选择在稀疏反馈下学习隐式 step reward。它们共同反驳一个简单外推:把数学题上的 outcome-only GRPO 直接搬到网页或工具 agent,不能自动解决长时序 credit assignment。

工具和搜索任务把这个问题放大。WebGPT [34] 早期依赖 imitation 与 human feedback;Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38] 和 ToolRL [39] 则把搜索、代码解释器或通用工具纳入 RL loop。它们的分歧不在“要不要工具”,而在 reward 是否能区分 query 质量、工具参数合法性、环境返回质量和最终答案。WebRL [26]、WebAgent-R1 [30]、Agent Lightning [32] 和 Autonomous Evaluation [33] 给出更接近产品栈的训练与评估形态,但也要求环境可 reset、状态可记录、失败可重放。ReAct [42] 和 Toolformer [43] 仍应作为非 RL 对照,因为 prompting、imitation 或 self-supervised tool traces 在低交互成本任务上可能达到相近效果。

没有可重放环境的 agentic RL,常常只是把噪声写进 policy。

§4 优化稳定性要和信用定位分开评估

很多争论被混在同一个 leaderboard 分数里:优化是否稳定、credit 是否准确、环境是否可靠、policy 是否只是更会采样。DAPO [40] 的价值在于公开 scaled RL 系统细节,说明 batch 过滤、采样策略、KL 控制和长度分布都会影响结果。GSPO [41] 把 token-level importance ratio 换成 sequence-level ratio,目标是减少长 CoT 中 ratio 波动;这不是细粒度 credit assignment 的替代,而是稳定性优先的 parameterization。两者应在同一 KL budget、同一 response length cap 和同一 verifier 下比较。

agentic setting 还需要更细的 evaluation contract。只报 final success rate 会隐藏三类失败:第一,工具调用格式合法但语义无效;第二,早期搜索把环境带入坏状态,后续推理无法恢复;第三,policy 学会利用 evaluator 漏洞。Process reward 和 attribution reward 可以降低第一、第二类错误的不可见性,但也可能引入 reward hacking。当前公开证据仍缺少直接展示 agentic RL 导致 KL drift、entropy collapse 或 unsafe tool use 的 matched experiment;这个缺口不能靠 anecdote 填补。更干净的 benchmark 应同时记录 final success、per-turn progress、tool-call validity、environment reset success、KL/entropy 曲线和人工抽检错误类型。

时间线

  1. WebGPT 将浏览器辅助 QA 与 human feedback 接上[34]
  2. DeepSeekMath 使用数学数据和 GRPO 推动开源数学推理[2]
  3. ArCHer 将 LLM agent 训练转向 hierarchical multi-turn RL[24]
  4. OpenAI o1 system card 把 large-scale RL 与 CoT reasoning 绑定[3]
  5. DeepSeek-R1 公开展示 outcome reward 下的长推理训练路径[4]
  6. Understanding R1-Zero-Like Training 对 RL-only 归因提出控制变量要求[5]
  7. SPA-RL、SCAR、SPO 将信用分配下沉到 step、Shapley 和 segment[17]
  8. GSPO 用 sequence-level ratio 处理长 CoT 稳定性[41]
  9. From Reasoning to Agentic 将 reasoning RL 和 agentic RL 放入同一信用分配框架[1]

研究立场对比

阵营 A:Outcome-only RLVR 足够派

立场 — 可验证任务上,final answer reward 加 group-based policy optimization 可以形成简洁训练闭环;DeepSeekMath [2]、OpenAI o1 [3] 和 DeepSeek-R1 [4] 都支持这一路径。

证据:[2][3][4]

反方 — Liu et al. [5] 反驳的是宽泛外推:没有 matched base、数据、distillation 和 inference compute,不能说 RL alone 解释收益。From Reasoning to Agentic [1] 也指出 agentic RL 的 credit 跨动作和环境状态,不能只靠 final answer。

判词 — 结论层面的建议:短可验证 reasoning 任务可以从 outcome-only 开始;一旦超过约 8–12 个有状态决策,就应加入更细 credit signal。

阵营 B:过程奖励与步骤奖励派

立场 — 稀疏 reward 的主要问题不是 reward 少,而是无法区分哪一步错。Implicit Rewards [10]、AgentPRM [11]、PRL [14] 和 Self-Guided PRL [12] 都把训练信号下沉到过程层。

证据:[10][11][14][12]

反方 — PRM 会引入第二个模型的偏差,且公开实验还缺少同模型、同任务、同预算下 outcome、process、step、turn 和 attribution reward 的直接对比。

判词 — 一个更务实的定位:process reward 适合作为诊断和 densification 工具,不应替代 outcome verifier;两者冲突时,优先相信可审计 outcome。

阵营 C:归因与因果 credit 派

立场 — 当轨迹里只有少数步骤真正决定成败时,平均分配 reward 会浪费更新。SCAR [15]、SPA-RL [16]、CAPO [18]、Attribution-based CA [20]、InT [22] 和 Hindsight CA [23] 都试图把更新集中到关键片段。

证据:[15][16][18][20][22][23]

反方 — 归因分数不自动等于因果贡献。Tree-structured CA [19] 和 CARL [21] 更适合有结构或可重放轨迹;在开放网页环境里,外部状态变化会让反事实估计变脏。

判词 — 一条更稳的读法:把 attribution 当作降低方差和定位错误的工具,而不是 truth oracle;关键实验是 intervention 后 outcome 是否按预测变化。

阵营 D:Agentic RL 与非 RL agent 基线之争

立场 — Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38]、ToolRL [39]、WebRL [26] 和 WebAgent-R1 [30] 说明 RL 可以探索工具和搜索策略。

证据:[35][36][37][38][39][26][30]

反方 — ReAct [42]、Toolformer [43] 和 WebGPT [34] 表明 prompting、self-supervised tool traces、imitation 与 human feedback 仍是强对照。没有 fair budget 对比时,RL gain 可能只是更多交互采样。

判词 — 结论层面的建议:只有当环境可 reset、reward 可自动评分、非 RL baseline 已经饱和时,再投入 agentic RL;否则先做 prompting、SFT、planning 或 MCTS 对照。

实践要点

实操要点:
1. Do:先用 outcome-only RLVR 做 1–2 个训练周期的 learnability check;如果 verifier pass@k 没有随采样预算单调上升,先修数据和 verifier,不要加 PRM。[4] [40]
2. Don't:不要在没有 matched base、数据、distillation、response length cap 和 inference compute 的条件下宣称 RL 带来推理收益;这类结论应标为不可归因。[5] [6]
3. Do:轨迹少于 4 个中间决策时用 outcome reward;4–64 个决策优先试 segment/step/turn reward;超过 64 个决策时加入 hierarchy、hindsight 或 action decomposition。[17] [29] [23] [24]
4. Don't:不要把 PRM 分数当成最终真值。PRM 适合 densify 和 debug;policy 与 PRM 发生冲突时,用可验证 outcome 和人工抽检裁决。[11] [14]
5. Do:工具/搜索 RL 必须记录 tool-call validity、argument validity、per-turn progress、final success 和环境 reset success;只报 final accuracy 不够诊断。[35] [37] [30]
6. Don't:不要跳过非 RL 对照。ReAct、Toolformer、imitation、planning 或 MCTS 在低交互成本 setting 中可能给出同等收益;RL 需要在同等 token、tool-call 和 wall-clock budget 下获胜。[42] [43] [34]
7. Do:把优化稳定性和 credit 定位分开看。GSPO 这类 sequence-level ratio 适合先稳住 KL/entropy;如果错误集中在少数步骤,再加 attribution 或 intervention-based credit。[41] [20] [22]
8. Open:真实用户在线 agentic RL 证据不足。偏好漂移、部署反馈环和安全工具调用还缺少 public artifact;上线前用 shadow mode 和离线 replay 限制风险。[7] [33]

悬而未决的问题

  • Q1.哪些 reasoning gains 在 matched base model、数据、distillation 和 inference compute 后仍然保留?需要同一 base、同一 verifier、同一 response length cap 的 controlled experiment。[5] [4]
  • Q2.agentic RL 导致 reward hacking、KL drift、entropy collapse 或 unsafe tool use 的直接经验证据在哪里?当前更多是风险推理,缺少 matched public artifact。[40] [41]
  • Q3.outcome、process、step、turn 和 attribution reward 在同模型、同任务、同预算下谁更稳?现有论文多改变多个变量,难以分离 reward 粒度本身的贡献。[10] [17] [29] [20]
  • Q4.非 RL prompting、imitation、planning 或 MCTS 能否在 fair budget 下追平 RL-trained tool/search/SWE agents?这个问题需要同时限制 token、tool-call、wall-clock 和环境交互次数。[42] [43] [35] [37]
  • Q5.在线 agentic RL 遇到真实用户、变化偏好和部署反馈环时会怎样?当前证据主要来自离线或可控环境,interactive user RL 仍然稀疏。[7] [32]
  1. [1]
  2. [2]
    Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
  3. [3]
    OpenAI, Aaron Jaech, Adam Kalai, Adam Lerer. OpenAI o1 System Card. OpenAI / arXiv, 2024报告
  4. [4]
    DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
  5. [5]
    Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang. Understanding R1-Zero-Like Training: A Critical Perspective. arXiv, 2025论文
  6. [6]
    Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu. A Survey of Reinforcement Learning for Large Reasoning Models. arXiv, 2025论文
  7. [7]
    Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey. arXiv, 2025论文
  8. [8]
    Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer. Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. arXiv, 2024论文
  9. [9]
    Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn. From r to Q*: Your Language Model is Secretly a Q-Function. arXiv, 2024论文
  10. [10]
    Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Yuchen Zhang. Process Reinforcement through Implicit Rewards. arXiv, 2025论文
  11. [11]
  12. [12]
    Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang. Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning. arXiv, 2025论文
  13. [13]
    Zijing Zhang, Ziyang Chen, Mingxiao Li, Zhaopeng Tu, Xiaolong Li. RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents. arXiv, 2025论文
  14. [14]
  15. [15]
    Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup. SCAR: Shapley Credit Assignment for More Efficient RLHF. arXiv, 2025论文
  16. [16]
    Hanlin Wang, Chak Tou Leong, Jiashuo Wang, Jian Wang, Wenjie Li. SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution. arXiv, 2025论文
  17. [17]
    Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu. Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models. arXiv, 2025论文
  18. [18]
    Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang. CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment. arXiv, 2025论文
  19. [19]
    Hieu Tran, Zonghai Yao, Hong Yu. Exploiting Tree Structure for Credit Assignment in RL Training of LLMs. arXiv, 2025论文
  20. [20]
    Junxi Yin, Haisen Luo, Zhenyu Li, Yihua Liu, Dan Liu. Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning. arXiv, 2025论文
  21. [21]
    Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua. CARL: Focusing Agentic Reinforcement Learning on Critical Actions. arXiv, 2025论文
  22. [22]
    Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur. InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning. arXiv, 2026论文
  23. [23]
    Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen. Hindsight Credit Assignment for Long-Horizon LLM Agents. arXiv, 2026论文
  24. [24]
    Yifei Zhou, Andrea Zanette, Jiayi Pan, Sergey Levine, Aviral Kumar. ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL. arXiv, 2024论文
  25. [25]
    Muning Wen, Ziyu Wan, Weinan Zhang, Jun Wang, Ying Wen. Reinforcing Language Agents via Policy Optimization with Action Decomposition. arXiv, 2024论文
  26. [26]
    Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning. arXiv, 2024论文
  27. [27]
    Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv, 2025论文
  28. [28]
    Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An. Group-in-Group Policy Optimization for LLM Agent Training. arXiv, 2025论文
  29. [29]
    Quan Wei, Siliang Zeng, Chenliang Li, William Brown, Oana Frunza. Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design. arXiv, 2025论文
  30. [30]
    Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu. WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning. arXiv, 2025论文
  31. [31]
    Xiaoqian Liu, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li. Agentic Reinforcement Learning with Implicit Step Rewards. arXiv, 2025论文
  32. [32]
    Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv, 2025论文
  33. [33]
    Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine. Autonomous Evaluation and Refinement of Digital Agents. arXiv, 2024论文
  34. [34]
    Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
  35. [35]
    Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv, 2025论文
  36. [36]
    Mingyang Chen, Linzhuang Sun, Tianpeng Li, Haoze Sun, Yijie Zhou. ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning. arXiv, 2025论文
  37. [37]
    Xuefeng Li, Haoyang Zou, Pengfei Liu. ToRL: Scaling Tool-Integrated RL. arXiv, 2025论文
  38. [38]
    Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs. arXiv, 2025论文
  39. [39]
    Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen. ToolRL: Reward is All Tool Learning Needs. arXiv, 2025论文
  40. [40]
    Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv, 2025论文
  41. [41]
    Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu. Group Sequence Policy Optimization. arXiv, 2025论文
  42. [42]
    Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv, 2022论文
  43. [43]
    Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文

论文列表

推理 RL 与信用分配(4)

关注单轮或准单轮推理任务中,outcome reward 如何分配到 token、步骤、segment 或关键推理动作。

10

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Unknown2026年4月13日
把 reasoning RL 和 agentic RL 放在同一个信用分配框架下:前者主要面对 token/step 级归因,后者还要处理动作、工具和环境反馈。这个划分适合作为全文的机制主线。
10

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI,Daya Guo,Dejian Yang,Haowei Zhang,Junxiao Song2025年1月22日
给 outcome-reward reasoning RL 提供强案例:可验证任务、长 CoT 和 group-based 更新可以形成可训练闭环。它同时留下一个未解问题:收益中有多少来自 RL,而不是 base/data/distillation。
10

Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu,Changyu Chen,Wenjun Li,Penghui Qi,Tianyu Pang2025年3月26日
把“RL alone 解释推理收益”的宽读法拉回可检验范围:没有 matched base、数据、distillation 和推理预算,训练收益不能干净归因给 RL 算法。
9

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Yiran Guo,Lijie Xu,Jie Liu,Dan Ye,Shuang Qiu2025年5月29日
把信用粒度设在 segment,而不是整条轨迹或每个 token。这个选择减少 outcome-only 的粗糙惩罚,也避免 token 级 advantage 的高噪声和实现复杂度。

过程奖励、步骤奖励与归因奖励(4)

比较 PRM、implicit reward、Shapley、generative credit assignment 和 attribution-based credit assignment 的奖励粒度与失败模式。

9

Process Reinforcement through Implicit Rewards

Ganqu Cui,Lifan Yuan,Zefan Wang,Hanbin Wang,Yuchen Zhang2025年2月3日
用 implicit process reward 降低稀疏 reward 的训练方差。它的取舍是少依赖人工 step label,但 reward 可解释性弱于显式 PRM。
9

SCAR: Shapley Credit Assignment for More Efficient RLHF

Meng Cao,Shuyuan Zhang,Xiao-Wen Chang,Doina Precup2025年5月26日
把 Shapley value 引入 RLHF 信用分配,目标是估计各片段对最终 preference 或 outcome 的边际贡献。优点是机制清楚,代价是采样与近似质量会影响稳定性。
9

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment

Guofu Xie,Yunsheng Shi,Hongtao Tian,Ting Yao,Xiao Zhang2025年8月4日
用生成式模块产生更细的 credit signal,直接反对“整条轨迹同奖同罚”的默认做法。风险是 credit generator 自身可能继承模型偏差。
9

Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning

Junxi Yin,Haisen Luo,Zhenyu Li,Yihua Liu,Dan Liu2025年10月10日
把 credit 集中到 crucial steps,而不是平均摊给所有中间 token。这个粒度更接近人类审题改错,但需要证明 attribution 与真实因果贡献一致。

多轮 Agentic RL(4)

关注网页、设备、对话和开放环境中的长时序交互,核心变量是 turn-level reward、环境 reset、在线 curriculum 和动作分解。

9

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Yifei Zhou,Andrea Zanette,Jiayi Pan,Sergey Levine,Aviral Kumar2024年2月29日
把 agent 任务拆成高层决策和低层动作,降低长时序 credit assignment 难度。它说明 agentic RL 不应直接照搬单轮数学题 recipe。
9

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Zihan Wang,Kangrui Wang,Qineng Wang,Pingyue Zhang,Linjie Li2025年4月24日
聚焦 agent 在多轮环境里的 self-evolution,而不是单次回答质量。它把 credit assignment 与环境反馈随机性、长时序探索和策略退化联系起来。
9

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design

Quan Wei,Siliang Zeng,Chenliang Li,William Brown,Oana Frunza2025年5月17日
把 reward 单元从完整 episode 下沉到 turn,适合网页和对话 agent。相比 token reward,turn reward 更贴近环境状态变化,也更容易审计。
9

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Xufang Luo,Yuge Zhang,Zhiyuan He,Zilong Wang,Siyun Zhao2025年8月5日
把 agent runtime 与 RL trainer 解耦,工程价值在于可接入已有 agent 栈。它也暴露一个风险:框架通用性不等于 credit signal 可靠。

工具/搜索 RL 与优化稳定性(4)

覆盖搜索引擎、代码解释器和外部工具使用中的 RL 训练,以及 PPO、REINFORCE、GRPO、sequence-level ratio 等优化选择。

9

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Bowen Jin,Hansi Zeng,Zhenrui Yue,Jinsung Yoon,Sercan Arik2025年3月12日
把外部搜索纳入 reasoning trajectory,credit 需要同时覆盖文字推理和 query/action。它代表从 closed-book RL 到 environment-coupled RL 的过渡。
9

ToRL: Scaling Tool-Integrated RL

Xuefeng Li,Haoyang Zou,Pengfei Liu2025年3月30日
主张工具使用不能只靠 SFT 轨迹覆盖,RL 能让模型探索新工具调用组合。边界在于工具 reward 必须可验证或可自动评分。
9

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu,Zheng Zhang,Ruofei Zhu,Yufeng Yuan,Xiaochen Zuo2025年3月18日
提供可复现系统细节,包括 batch、过滤、KL、采样和训练稳定性处理。对 credit assignment 讨论很有用,因为算法收益常被系统 recipe 放大或掩盖。
9

Group Sequence Policy Optimization

Chujie Zheng,Shixuan Liu,Mingze Li,Xiong-Hui Chen,Bowen Yu2025年7月24日
把 importance ratio 从 token 级换到 sequence 级,目标是降低长 CoT 训练里的 ratio 噪声。它和细粒度 credit assignment 形成清晰张力:稳定性与定位精度不能同时免费获得。