从推理到 Agentic RL：LLM 强化学习中的信用分配

稀疏 outcome reward 不是错，错在把它无条件外推到长时序 agent

16 篇论文·2026年5月6日

作者@Thor·gpt-5.5

60 篇扩展证据（支持 9 · 反证 1 · 拓展 50）·知识聚类 11·悬问 5

领域综述

LLM 强化学习正在从单轮、可验证答案的 reasoning RL，扩展到多轮工具使用、网页操作和长期任务。问题不再只是“最终答案对不对”，而是“哪些 token、步骤、工具调用或环境交互导致了结果”。稀疏 outcome reward 在数学题和代码题上可用，因为答案可验证、轨迹较短、环境噪声低；进入 agentic setting 后，同一个最终失败可能来自搜索 query、网页点击、工具参数、早期规划或环境随机性。把同一个负 reward 分给整条轨迹，会惩罚有用中间动作，也会放大高方差梯度。更稳的方向是把 reward 粒度从 trajectory 下沉到 segment、step、turn 或 attribution 单元，同时保留 outcome reward 的可验证性。当前证据还不支持“RL 本身解释全部推理收益”的宽泛说法；base model、数据、distillation 和 inference compute 都会混入收益。工程上应先用 outcome-only RLVR 验证可学性，再加入过程奖励、归因或 turn-level 设计，而不是一开始构造重型 actor-critic agent 系统。

TL;DR

结论先行：LLM RL 的下一道瓶颈是信用分配粒度，而不是再换一个 PPO 变体。outcome-only RLVR 在数学、代码这类可验证、短到中等长度任务上够用；一旦轨迹超过约 8–12 个有状态决策，或者包含搜索、点击、工具参数和环境反馈，同奖同罚会把有用步骤和错误步骤混在一起。DeepSeek-R1 [4] 和 OpenAI o1 [3] 说明大规模 RL 能诱发长推理，但 Liu et al. [5] 提醒 base、数据、distillation 和 inference compute 必须做 matched control。更稳的训练栈是：先 outcome reward 验证可学性，再按失败类型加入 segment、step、turn 或 attribution reward；没有可 reset 环境和自动 verifier 时，不要把 agentic RL 当作默认解。

核心断言

#1如果任务没有自动 verifier，且单条轨迹包含超过 8–12 个有状态决策，outcome-only RL 的主要风险会从“reward 稀疏”变成“错误 credit 被系统性传播”。

#2R1-Zero-like 训练的收益不能在没有 matched base、数据、distillation 和 inference compute 的条件下归因给 RL；任一控制缺失都足以让结论不可判定。

#3segment/step/turn reward 的合理适用区间是 4–64 个中间决策；少于 4 个决策时 outcome reward 往往够用，多于 64 个决策时需要层级化或 hindsight attribution。

#4工具/搜索 RL 只有在工具调用成功率、参数合法率和最终任务成功率三者都被记录时才可诊断；只报最终准确率无法区分推理失败和工具策略失败。

#5sequence-level ratio 优先优化长 CoT 的训练稳定性，attribution reward 优先优化错误定位；二者应在同一 KL budget 下比较，而不是各自调参后比较最终分数。

§1 推理收益不能只归因给 RL

更稳的读法是：RL 是把可验证任务上的采样、筛选和更新闭环跑起来的机制，但不是推理能力提升的单一原因。DeepSeekMath [2] 先把数学数据和 GRPO 接上，说明领域数据、base model 和 RL recipe 会同时起作用。OpenAI o1 [3] 把大规模 RL 与 chain-of-thought reasoning 绑定在一起，DeepSeek-R1 [4] 又把 outcome reward 下的长推理轨迹公开到更可讨论的范围。问题在于，这三类证据都不是“只改变 RL、其他不变”的实验。

Liu et al. [5] 反驳宽泛的 R1-Zero-like 叙事，是因为 base model 起点、prompt template、训练数据、distillation 和 inference compute 都会改变最终分数；缺少任一 matched control，RL 的边际贡献就不能干净估计。Ahmadian et al. [8] 进一步削弱了“必须复杂 PPO”的默认假设：REINFORCE-style 优化在若干 RLHF setting 中可以作为强基线。Rafailov et al. [9] 从 Q-function 角度解释 language-model reward，也提醒 reward parameterization 本身会改变我们看到的“策略提升”。两篇 survey [6] [7] 的共同结论可以压缩成一句：先把任务可验证性、采样预算和 base/data 控制做干净，再比较 RL 算法。

先控制 base、数据和推理预算，再谈 RL 算法差异。

§2 信用粒度是从 reasoning RL 走向 agentic RL 的分水岭

From Reasoning to Agentic [1] 的核心价值在于把两个 regime 放到同一张图上：reasoning RL 的 credit 多在 token、step、segment 之间分配；agentic RL 的 credit 还要跨 turn、tool call 和环境状态。trajectory-level outcome reward 的优点是便宜、可验证、少引入 reward model 偏差；缺点也清楚：同一条失败轨迹里，正确的中间推理会被负 reward 惩罚。

几条方法线在争同一个边界。Process Reinforcement through Implicit Rewards [10] 和 PRL [14] 选择 densify process signal；AgentPRM [11] 把 PRM 放进 agent actor-critic 框架；Self-Guided PRL [12] 试图少依赖额外 PRM；RLVMR [13] 用可验证 meta-reasoning reward 限制长时序无效思考。另一条线不直接训练 PRM，而是估计哪些片段真的贡献了 outcome：SCAR [15] 用 Shapley-style 边际贡献，SPA-RL [16] 做 stepwise progress attribution，SPO [17] 用 segment-level advantage，CAPO [18] 用 generative credit assignment，Tree-structured CA [19] 利用推理树，Attribution-based CA [20] 定位 crucial steps，InT [22] 用 self-proposed interventions 做因果探针，Hindsight CA [23] 和 CARL [21] 则面向长时序 agent，把更新集中到事后可识别的关键动作。更务实的取舍是：短可验证任务先用 outcome reward；中等长度 reasoning 用 segment/step；多轮 agent 用 turn/action；超过几十步时，引入 hierarchy 或 hindsight。

方案	credit 单元	适用范围	主要风险
Outcome-only RLVR	整条 trajectory [4]	答案可验证、轨迹较短	错误 credit 平均传播
Process / PRM	推理步骤 [11] [14]	多步 reasoning	PRM 偏差会被 policy 放大
Segment / step attribution	segment 或 crucial step [17] [20]	4–64 个中间决策	归因不一定等于因果贡献
Turn / action reward	turn、tool call、环境动作 [29]	网页、搜索、设备控制 agent	环境噪声会污染 reward

奖励粒度与适用 regime 的对比

§3 Agentic RL 的难点是环境纪律，不是把 CoT 拉长

agentic RL 和 reasoning RL 共享“采样—评分—更新”的外壳，但工程约束完全不同。ArCHer [24] 用 hierarchical multi-turn RL 拆动作层级，Action Decomposition [25] 把巨大 action space 分解，Turn-Level Reward [29] 把反馈放在 turn 上，GIPO [28] 处理 group-based 方法在多轮 agent 上的扩展，RAGEN [27] 研究 self-evolution，Agentic Implicit Step Rewards [31] 选择在稀疏反馈下学习隐式 step reward。它们共同反驳一个简单外推：把数学题上的 outcome-only GRPO 直接搬到网页或工具 agent，不能自动解决长时序 credit assignment。

工具和搜索任务把这个问题放大。WebGPT [34] 早期依赖 imitation 与 human feedback；Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38] 和 ToolRL [39] 则把搜索、代码解释器或通用工具纳入 RL loop。它们的分歧不在“要不要工具”，而在 reward 是否能区分 query 质量、工具参数合法性、环境返回质量和最终答案。WebRL [26]、WebAgent-R1 [30]、Agent Lightning [32] 和 Autonomous Evaluation [33] 给出更接近产品栈的训练与评估形态，但也要求环境可 reset、状态可记录、失败可重放。ReAct [42] 和 Toolformer [43] 仍应作为非 RL 对照，因为 prompting、imitation 或 self-supervised tool traces 在低交互成本任务上可能达到相近效果。

没有可重放环境的 agentic RL，常常只是把噪声写进 policy。

§4 优化稳定性要和信用定位分开评估

很多争论被混在同一个 leaderboard 分数里：优化是否稳定、credit 是否准确、环境是否可靠、policy 是否只是更会采样。DAPO [40] 的价值在于公开 scaled RL 系统细节，说明 batch 过滤、采样策略、KL 控制和长度分布都会影响结果。GSPO [41] 把 token-level importance ratio 换成 sequence-level ratio，目标是减少长 CoT 中 ratio 波动；这不是细粒度 credit assignment 的替代，而是稳定性优先的 parameterization。两者应在同一 KL budget、同一 response length cap 和同一 verifier 下比较。

agentic setting 还需要更细的 evaluation contract。只报 final success rate 会隐藏三类失败：第一，工具调用格式合法但语义无效；第二，早期搜索把环境带入坏状态，后续推理无法恢复；第三，policy 学会利用 evaluator 漏洞。Process reward 和 attribution reward 可以降低第一、第二类错误的不可见性，但也可能引入 reward hacking。当前公开证据仍缺少直接展示 agentic RL 导致 KL drift、entropy collapse 或 unsafe tool use 的 matched experiment；这个缺口不能靠 anecdote 填补。更干净的 benchmark 应同时记录 final success、per-turn progress、tool-call validity、environment reset success、KL/entropy 曲线和人工抽检错误类型。

时间线

2021-12WebGPT 将浏览器辅助 QA 与 human feedback 接上[34]
2024-02DeepSeekMath 使用数学数据和 GRPO 推动开源数学推理[2]
2024-02ArCHer 将 LLM agent 训练转向 hierarchical multi-turn RL[24]
2024-12OpenAI o1 system card 把 large-scale RL 与 CoT reasoning 绑定[3]
2025-01DeepSeek-R1 公开展示 outcome reward 下的长推理训练路径[4]
2025-03Understanding R1-Zero-Like Training 对 RL-only 归因提出控制变量要求[5]
2025-05SPA-RL、SCAR、SPO 将信用分配下沉到 step、Shapley 和 segment[17]
2025-07GSPO 用 sequence-level ratio 处理长 CoT 稳定性[41]
2026-04From Reasoning to Agentic 将 reasoning RL 和 agentic RL 放入同一信用分配框架[1]

研究立场对比

阵营 A：Outcome-only RLVR 足够派

立场 — 可验证任务上，final answer reward 加 group-based policy optimization 可以形成简洁训练闭环；DeepSeekMath [2]、OpenAI o1 [3] 和 DeepSeek-R1 [4] 都支持这一路径。

证据：[2][3][4]

反方 — Liu et al. [5] 反驳的是宽泛外推：没有 matched base、数据、distillation 和 inference compute，不能说 RL alone 解释收益。From Reasoning to Agentic [1] 也指出 agentic RL 的 credit 跨动作和环境状态，不能只靠 final answer。

判词 — 结论层面的建议：短可验证 reasoning 任务可以从 outcome-only 开始；一旦超过约 8–12 个有状态决策，就应加入更细 credit signal。

阵营 B：过程奖励与步骤奖励派

立场 — 稀疏 reward 的主要问题不是 reward 少，而是无法区分哪一步错。Implicit Rewards [10]、AgentPRM [11]、PRL [14] 和 Self-Guided PRL [12] 都把训练信号下沉到过程层。

证据：[10][11][14][12]

反方 — PRM 会引入第二个模型的偏差，且公开实验还缺少同模型、同任务、同预算下 outcome、process、step、turn 和 attribution reward 的直接对比。

判词 — 一个更务实的定位：process reward 适合作为诊断和 densification 工具，不应替代 outcome verifier；两者冲突时，优先相信可审计 outcome。

阵营 C：归因与因果 credit 派

立场 — 当轨迹里只有少数步骤真正决定成败时，平均分配 reward 会浪费更新。SCAR [15]、SPA-RL [16]、CAPO [18]、Attribution-based CA [20]、InT [22] 和 Hindsight CA [23] 都试图把更新集中到关键片段。

证据：[15][16][18][20][22][23]

反方 — 归因分数不自动等于因果贡献。Tree-structured CA [19] 和 CARL [21] 更适合有结构或可重放轨迹；在开放网页环境里，外部状态变化会让反事实估计变脏。

判词 — 一条更稳的读法：把 attribution 当作降低方差和定位错误的工具，而不是 truth oracle；关键实验是 intervention 后 outcome 是否按预测变化。

阵营 D：Agentic RL 与非 RL agent 基线之争

立场 — Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38]、ToolRL [39]、WebRL [26] 和 WebAgent-R1 [30] 说明 RL 可以探索工具和搜索策略。

证据：[35][36][37][38][39][26][30]

反方 — ReAct [42]、Toolformer [43] 和 WebGPT [34] 表明 prompting、self-supervised tool traces、imitation 与 human feedback 仍是强对照。没有 fair budget 对比时，RL gain 可能只是更多交互采样。

判词 — 结论层面的建议：只有当环境可 reset、reward 可自动评分、非 RL baseline 已经饱和时，再投入 agentic RL；否则先做 prompting、SFT、planning 或 MCTS 对照。

实践要点

实操要点：
1. Do：先用 outcome-only RLVR 做 1–2 个训练周期的 learnability check；如果 verifier pass@k 没有随采样预算单调上升，先修数据和 verifier，不要加 PRM。[4] [40]
2. Don't：不要在没有 matched base、数据、distillation、response length cap 和 inference compute 的条件下宣称 RL 带来推理收益；这类结论应标为不可归因。[5] [6]
3. Do：轨迹少于 4 个中间决策时用 outcome reward；4–64 个决策优先试 segment/step/turn reward；超过 64 个决策时加入 hierarchy、hindsight 或 action decomposition。[17] [29] [23] [24]
4. Don't：不要把 PRM 分数当成最终真值。PRM 适合 densify 和 debug；policy 与 PRM 发生冲突时，用可验证 outcome 和人工抽检裁决。[11] [14]
5. Do：工具/搜索 RL 必须记录 tool-call validity、argument validity、per-turn progress、final success 和环境 reset success；只报 final accuracy 不够诊断。[35] [37] [30]
6. Don't：不要跳过非 RL 对照。ReAct、Toolformer、imitation、planning 或 MCTS 在低交互成本 setting 中可能给出同等收益；RL 需要在同等 token、tool-call 和 wall-clock budget 下获胜。[42] [43] [34]
7. Do：把优化稳定性和 credit 定位分开看。GSPO 这类 sequence-level ratio 适合先稳住 KL/entropy；如果错误集中在少数步骤，再加 attribution 或 intervention-based credit。[41] [20] [22]
8. Open：真实用户在线 agentic RL 证据不足。偏好漂移、部署反馈环和安全工具调用还缺少 public artifact；上线前用 shadow mode 和离线 replay 限制风险。[7] [33]

悬而未决的问题

Q1.哪些 reasoning gains 在 matched base model、数据、distillation 和 inference compute 后仍然保留？需要同一 base、同一 verifier、同一 response length cap 的 controlled experiment。[5] [4]
Q2.agentic RL 导致 reward hacking、KL drift、entropy collapse 或 unsafe tool use 的直接经验证据在哪里？当前更多是风险推理，缺少 matched public artifact。[40] [41]
Q3.outcome、process、step、turn 和 attribution reward 在同模型、同任务、同预算下谁更稳？现有论文多改变多个变量，难以分离 reward 粒度本身的贡献。[10] [17] [29] [20]
Q4.非 RL prompting、imitation、planning 或 MCTS 能否在 fair budget 下追平 RL-trained tool/search/SWE agents？这个问题需要同时限制 token、tool-call、wall-clock 和环境交互次数。[42] [43] [35] [37]
Q5.在线 agentic RL 遇到真实用户、变化偏好和部署反馈环时会怎样？当前证据主要来自离线或可控环境，interactive user RL 仍然稀疏。[7] [32]

[1]
Unknown. From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models. arXiv, 2026论文
[2]
Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
[3]
OpenAI, Aaron Jaech, Adam Kalai, Adam Lerer. OpenAI o1 System Card. OpenAI / arXiv, 2024报告
[4]
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
[5]
Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang. Understanding R1-Zero-Like Training: A Critical Perspective. arXiv, 2025论文
[6]
Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu. A Survey of Reinforcement Learning for Large Reasoning Models. arXiv, 2025论文
[7]
Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey. arXiv, 2025论文
[8]
Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer. Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. arXiv, 2024论文
[9]
Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn. From r to Q*: Your Language Model is Secretly a Q-Function. arXiv, 2024论文
[10]
Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Yuchen Zhang. Process Reinforcement through Implicit Rewards. arXiv, 2025论文
[11]
Sanjiban Choudhury. Process Reward Models for LLM Agents: Practical Framework and Directions. arXiv, 2025论文
[12]
Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang. Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning. arXiv, 2025论文
[13]
Zijing Zhang, Ziyang Chen, Mingxiao Li, Zhaopeng Tu, Xiaolong Li. RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents. arXiv, 2025论文
[14]
Jiarui Yao, Ruida Wang, Tong Zhang. PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary. arXiv, 2026论文
[15]
Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup. SCAR: Shapley Credit Assignment for More Efficient RLHF. arXiv, 2025论文
[16]
Hanlin Wang, Chak Tou Leong, Jiashuo Wang, Jian Wang, Wenjie Li. SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution. arXiv, 2025论文
[17]
Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu. Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models. arXiv, 2025论文
[18]
Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang. CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment. arXiv, 2025论文
[19]
Hieu Tran, Zonghai Yao, Hong Yu. Exploiting Tree Structure for Credit Assignment in RL Training of LLMs. arXiv, 2025论文
[20]
Junxi Yin, Haisen Luo, Zhenyu Li, Yihua Liu, Dan Liu. Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning. arXiv, 2025论文
[21]
Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua. CARL: Focusing Agentic Reinforcement Learning on Critical Actions. arXiv, 2025论文
[22]
Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur. InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning. arXiv, 2026论文
[23]
Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen. Hindsight Credit Assignment for Long-Horizon LLM Agents. arXiv, 2026论文
[24]
Yifei Zhou, Andrea Zanette, Jiayi Pan, Sergey Levine, Aviral Kumar. ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL. arXiv, 2024论文
[25]
Muning Wen, Ziyu Wan, Weinan Zhang, Jun Wang, Ying Wen. Reinforcing Language Agents via Policy Optimization with Action Decomposition. arXiv, 2024论文
[26]
Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning. arXiv, 2024论文
[27]
Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv, 2025论文
[28]
Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An. Group-in-Group Policy Optimization for LLM Agent Training. arXiv, 2025论文
[29]
Quan Wei, Siliang Zeng, Chenliang Li, William Brown, Oana Frunza. Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design. arXiv, 2025论文
[30]
Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu. WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning. arXiv, 2025论文
[31]
Xiaoqian Liu, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li. Agentic Reinforcement Learning with Implicit Step Rewards. arXiv, 2025论文
[32]
Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv, 2025论文
[33]
Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine. Autonomous Evaluation and Refinement of Digital Agents. arXiv, 2024论文
[34]
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
[35]
Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv, 2025论文
[36]
Mingyang Chen, Linzhuang Sun, Tianpeng Li, Haoze Sun, Yijie Zhou. ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning. arXiv, 2025论文
[37]
Xuefeng Li, Haoyang Zou, Pengfei Liu. ToRL: Scaling Tool-Integrated RL. arXiv, 2025论文
[38]
Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs. arXiv, 2025论文
[39]
Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen. ToolRL: Reward is All Tool Learning Needs. arXiv, 2025论文
[40]
Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv, 2025论文
[41]
Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu. Group Sequence Policy Optimization. arXiv, 2025论文
[42]
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv, 2022论文
[43]
Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文

论文列表

推理 RL 与信用分配(4)

关注单轮或准单轮推理任务中，outcome reward 如何分配到 token、步骤、segment 或关键推理动作。

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Unknown2026年4月13日

把 reasoning RL 和 agentic RL 放在同一个信用分配框架下：前者主要面对 token/step 级归因，后者还要处理动作、工具和环境反馈。这个划分适合作为全文的机制主线。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI,Daya Guo,Dejian Yang,Haowei Zhang,Junxiao Song2025年1月22日

给 outcome-reward reasoning RL 提供强案例：可验证任务、长 CoT 和 group-based 更新可以形成可训练闭环。它同时留下一个未解问题：收益中有多少来自 RL，而不是 base/data/distillation。

Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu,Changyu Chen,Wenjun Li,Penghui Qi,Tianyu Pang2025年3月26日

把“RL alone 解释推理收益”的宽读法拉回可检验范围：没有 matched base、数据、distillation 和推理预算，训练收益不能干净归因给 RL 算法。

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Yiran Guo,Lijie Xu,Jie Liu,Dan Ye,Shuang Qiu2025年5月29日

把信用粒度设在 segment，而不是整条轨迹或每个 token。这个选择减少 outcome-only 的粗糙惩罚，也避免 token 级 advantage 的高噪声和实现复杂度。

过程奖励、步骤奖励与归因奖励(4)

比较 PRM、implicit reward、Shapley、generative credit assignment 和 attribution-based credit assignment 的奖励粒度与失败模式。

Process Reinforcement through Implicit Rewards

Ganqu Cui,Lifan Yuan,Zefan Wang,Hanbin Wang,Yuchen Zhang2025年2月3日

用 implicit process reward 降低稀疏 reward 的训练方差。它的取舍是少依赖人工 step label，但 reward 可解释性弱于显式 PRM。

SCAR: Shapley Credit Assignment for More Efficient RLHF

Meng Cao,Shuyuan Zhang,Xiao-Wen Chang,Doina Precup2025年5月26日

把 Shapley value 引入 RLHF 信用分配，目标是估计各片段对最终 preference 或 outcome 的边际贡献。优点是机制清楚，代价是采样与近似质量会影响稳定性。

CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment

Guofu Xie,Yunsheng Shi,Hongtao Tian,Ting Yao,Xiao Zhang2025年8月4日

用生成式模块产生更细的 credit signal，直接反对“整条轨迹同奖同罚”的默认做法。风险是 credit generator 自身可能继承模型偏差。

Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning

Junxi Yin,Haisen Luo,Zhenyu Li,Yihua Liu,Dan Liu2025年10月10日

把 credit 集中到 crucial steps，而不是平均摊给所有中间 token。这个粒度更接近人类审题改错，但需要证明 attribution 与真实因果贡献一致。

多轮 Agentic RL(4)

关注网页、设备、对话和开放环境中的长时序交互，核心变量是 turn-level reward、环境 reset、在线 curriculum 和动作分解。

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Yifei Zhou,Andrea Zanette,Jiayi Pan,Sergey Levine,Aviral Kumar2024年2月29日

把 agent 任务拆成高层决策和低层动作，降低长时序 credit assignment 难度。它说明 agentic RL 不应直接照搬单轮数学题 recipe。

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Zihan Wang,Kangrui Wang,Qineng Wang,Pingyue Zhang,Linjie Li2025年4月24日

聚焦 agent 在多轮环境里的 self-evolution，而不是单次回答质量。它把 credit assignment 与环境反馈随机性、长时序探索和策略退化联系起来。

Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design

Quan Wei,Siliang Zeng,Chenliang Li,William Brown,Oana Frunza2025年5月17日

把 reward 单元从完整 episode 下沉到 turn，适合网页和对话 agent。相比 token reward，turn reward 更贴近环境状态变化，也更容易审计。

Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Xufang Luo,Yuge Zhang,Zhiyuan He,Zilong Wang,Siyun Zhao2025年8月5日

把 agent runtime 与 RL trainer 解耦，工程价值在于可接入已有 agent 栈。它也暴露一个风险：框架通用性不等于 credit signal 可靠。

工具/搜索 RL 与优化稳定性(4)

覆盖搜索引擎、代码解释器和外部工具使用中的 RL 训练，以及 PPO、REINFORCE、GRPO、sequence-level ratio 等优化选择。