TL;DR
结论先行:LLM RL 的下一道瓶颈是信用分配粒度,而不是再换一个 PPO 变体。outcome-only RLVR 在数学、代码这类可验证、短到中等长度任务上够用;一旦轨迹超过约 8–12 个有状态决策,或者包含搜索、点击、工具参数和环境反馈,同奖同罚会把有用步骤和错误步骤混在一起。DeepSeek-R1 [4] 和 OpenAI o1 [3] 说明大规模 RL 能诱发长推理,但 Liu et al. [5] 提醒 base、数据、distillation 和 inference compute 必须做 matched control。更稳的训练栈是:先 outcome reward 验证可学性,再按失败类型加入 segment、step、turn 或 attribution reward;没有可 reset 环境和自动 verifier 时,不要把 agentic RL 当作默认解。
核心断言
§1 推理收益不能只归因给 RL
更稳的读法是:RL 是把可验证任务上的采样、筛选和更新闭环跑起来的机制,但不是推理能力提升的单一原因。DeepSeekMath [2] 先把数学数据和 GRPO 接上,说明领域数据、base model 和 RL recipe 会同时起作用。OpenAI o1 [3] 把大规模 RL 与 chain-of-thought reasoning 绑定在一起,DeepSeek-R1 [4] 又把 outcome reward 下的长推理轨迹公开到更可讨论的范围。问题在于,这三类证据都不是“只改变 RL、其他不变”的实验。
Liu et al. [5] 反驳宽泛的 R1-Zero-like 叙事,是因为 base model 起点、prompt template、训练数据、distillation 和 inference compute 都会改变最终分数;缺少任一 matched control,RL 的边际贡献就不能干净估计。Ahmadian et al. [8] 进一步削弱了“必须复杂 PPO”的默认假设:REINFORCE-style 优化在若干 RLHF setting 中可以作为强基线。Rafailov et al. [9] 从 Q-function 角度解释 language-model reward,也提醒 reward parameterization 本身会改变我们看到的“策略提升”。两篇 survey [6] [7] 的共同结论可以压缩成一句:先把任务可验证性、采样预算和 base/data 控制做干净,再比较 RL 算法。
先控制 base、数据和推理预算,再谈 RL 算法差异。
§2 信用粒度是从 reasoning RL 走向 agentic RL 的分水岭
From Reasoning to Agentic [1] 的核心价值在于把两个 regime 放到同一张图上:reasoning RL 的 credit 多在 token、step、segment 之间分配;agentic RL 的 credit 还要跨 turn、tool call 和环境状态。trajectory-level outcome reward 的优点是便宜、可验证、少引入 reward model 偏差;缺点也清楚:同一条失败轨迹里,正确的中间推理会被负 reward 惩罚。
几条方法线在争同一个边界。Process Reinforcement through Implicit Rewards [10] 和 PRL [14] 选择 densify process signal;AgentPRM [11] 把 PRM 放进 agent actor-critic 框架;Self-Guided PRL [12] 试图少依赖额外 PRM;RLVMR [13] 用可验证 meta-reasoning reward 限制长时序无效思考。另一条线不直接训练 PRM,而是估计哪些片段真的贡献了 outcome:SCAR [15] 用 Shapley-style 边际贡献,SPA-RL [16] 做 stepwise progress attribution,SPO [17] 用 segment-level advantage,CAPO [18] 用 generative credit assignment,Tree-structured CA [19] 利用推理树,Attribution-based CA [20] 定位 crucial steps,InT [22] 用 self-proposed interventions 做因果探针,Hindsight CA [23] 和 CARL [21] 则面向长时序 agent,把更新集中到事后可识别的关键动作。更务实的取舍是:短可验证任务先用 outcome reward;中等长度 reasoning 用 segment/step;多轮 agent 用 turn/action;超过几十步时,引入 hierarchy 或 hindsight。
§3 Agentic RL 的难点是环境纪律,不是把 CoT 拉长
agentic RL 和 reasoning RL 共享“采样—评分—更新”的外壳,但工程约束完全不同。ArCHer [24] 用 hierarchical multi-turn RL 拆动作层级,Action Decomposition [25] 把巨大 action space 分解,Turn-Level Reward [29] 把反馈放在 turn 上,GIPO [28] 处理 group-based 方法在多轮 agent 上的扩展,RAGEN [27] 研究 self-evolution,Agentic Implicit Step Rewards [31] 选择在稀疏反馈下学习隐式 step reward。它们共同反驳一个简单外推:把数学题上的 outcome-only GRPO 直接搬到网页或工具 agent,不能自动解决长时序 credit assignment。
工具和搜索任务把这个问题放大。WebGPT [34] 早期依赖 imitation 与 human feedback;Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38] 和 ToolRL [39] 则把搜索、代码解释器或通用工具纳入 RL loop。它们的分歧不在“要不要工具”,而在 reward 是否能区分 query 质量、工具参数合法性、环境返回质量和最终答案。WebRL [26]、WebAgent-R1 [30]、Agent Lightning [32] 和 Autonomous Evaluation [33] 给出更接近产品栈的训练与评估形态,但也要求环境可 reset、状态可记录、失败可重放。ReAct [42] 和 Toolformer [43] 仍应作为非 RL 对照,因为 prompting、imitation 或 self-supervised tool traces 在低交互成本任务上可能达到相近效果。
没有可重放环境的 agentic RL,常常只是把噪声写进 policy。
§4 优化稳定性要和信用定位分开评估
很多争论被混在同一个 leaderboard 分数里:优化是否稳定、credit 是否准确、环境是否可靠、policy 是否只是更会采样。DAPO [40] 的价值在于公开 scaled RL 系统细节,说明 batch 过滤、采样策略、KL 控制和长度分布都会影响结果。GSPO [41] 把 token-level importance ratio 换成 sequence-level ratio,目标是减少长 CoT 中 ratio 波动;这不是细粒度 credit assignment 的替代,而是稳定性优先的 parameterization。两者应在同一 KL budget、同一 response length cap 和同一 verifier 下比较。
agentic setting 还需要更细的 evaluation contract。只报 final success rate 会隐藏三类失败:第一,工具调用格式合法但语义无效;第二,早期搜索把环境带入坏状态,后续推理无法恢复;第三,policy 学会利用 evaluator 漏洞。Process reward 和 attribution reward 可以降低第一、第二类错误的不可见性,但也可能引入 reward hacking。当前公开证据仍缺少直接展示 agentic RL 导致 KL drift、entropy collapse 或 unsafe tool use 的 matched experiment;这个缺口不能靠 anecdote 填补。更干净的 benchmark 应同时记录 final success、per-turn progress、tool-call validity、environment reset success、KL/entropy 曲线和人工抽检错误类型。
时间线
- WebGPT 将浏览器辅助 QA 与 human feedback 接上[34]
- DeepSeekMath 使用数学数据和 GRPO 推动开源数学推理[2]
- ArCHer 将 LLM agent 训练转向 hierarchical multi-turn RL[24]
- OpenAI o1 system card 把 large-scale RL 与 CoT reasoning 绑定[3]
- DeepSeek-R1 公开展示 outcome reward 下的长推理训练路径[4]
- Understanding R1-Zero-Like Training 对 RL-only 归因提出控制变量要求[5]
- SPA-RL、SCAR、SPO 将信用分配下沉到 step、Shapley 和 segment[17]
- GSPO 用 sequence-level ratio 处理长 CoT 稳定性[41]
- From Reasoning to Agentic 将 reasoning RL 和 agentic RL 放入同一信用分配框架[1]
研究立场对比
阵营 A:Outcome-only RLVR 足够派
立场 — 可验证任务上,final answer reward 加 group-based policy optimization 可以形成简洁训练闭环;DeepSeekMath [2]、OpenAI o1 [3] 和 DeepSeek-R1 [4] 都支持这一路径。
反方 — Liu et al. [5] 反驳的是宽泛外推:没有 matched base、数据、distillation 和 inference compute,不能说 RL alone 解释收益。From Reasoning to Agentic [1] 也指出 agentic RL 的 credit 跨动作和环境状态,不能只靠 final answer。
判词 — 结论层面的建议:短可验证 reasoning 任务可以从 outcome-only 开始;一旦超过约 8–12 个有状态决策,就应加入更细 credit signal。
阵营 B:过程奖励与步骤奖励派
立场 — 稀疏 reward 的主要问题不是 reward 少,而是无法区分哪一步错。Implicit Rewards [10]、AgentPRM [11]、PRL [14] 和 Self-Guided PRL [12] 都把训练信号下沉到过程层。
反方 — PRM 会引入第二个模型的偏差,且公开实验还缺少同模型、同任务、同预算下 outcome、process、step、turn 和 attribution reward 的直接对比。
判词 — 一个更务实的定位:process reward 适合作为诊断和 densification 工具,不应替代 outcome verifier;两者冲突时,优先相信可审计 outcome。
阵营 C:归因与因果 credit 派
立场 — 当轨迹里只有少数步骤真正决定成败时,平均分配 reward 会浪费更新。SCAR [15]、SPA-RL [16]、CAPO [18]、Attribution-based CA [20]、InT [22] 和 Hindsight CA [23] 都试图把更新集中到关键片段。
反方 — 归因分数不自动等于因果贡献。Tree-structured CA [19] 和 CARL [21] 更适合有结构或可重放轨迹;在开放网页环境里,外部状态变化会让反事实估计变脏。
判词 — 一条更稳的读法:把 attribution 当作降低方差和定位错误的工具,而不是 truth oracle;关键实验是 intervention 后 outcome 是否按预测变化。
阵营 D:Agentic RL 与非 RL agent 基线之争
立场 — Search-R1 [35]、ReSearch [36]、ToRL [37]、ReTool [38]、ToolRL [39]、WebRL [26] 和 WebAgent-R1 [30] 说明 RL 可以探索工具和搜索策略。
证据:[35][36][37][38][39][26][30]
反方 — ReAct [42]、Toolformer [43] 和 WebGPT [34] 表明 prompting、self-supervised tool traces、imitation 与 human feedback 仍是强对照。没有 fair budget 对比时,RL gain 可能只是更多交互采样。
判词 — 结论层面的建议:只有当环境可 reset、reward 可自动评分、非 RL baseline 已经饱和时,再投入 agentic RL;否则先做 prompting、SFT、planning 或 MCTS 对照。
实践要点
实操要点:
1. Do:先用 outcome-only RLVR 做 1–2 个训练周期的 learnability check;如果 verifier pass@k 没有随采样预算单调上升,先修数据和 verifier,不要加 PRM。[4] [40]
2. Don't:不要在没有 matched base、数据、distillation、response length cap 和 inference compute 的条件下宣称 RL 带来推理收益;这类结论应标为不可归因。[5] [6]
3. Do:轨迹少于 4 个中间决策时用 outcome reward;4–64 个决策优先试 segment/step/turn reward;超过 64 个决策时加入 hierarchy、hindsight 或 action decomposition。[17] [29] [23] [24]
4. Don't:不要把 PRM 分数当成最终真值。PRM 适合 densify 和 debug;policy 与 PRM 发生冲突时,用可验证 outcome 和人工抽检裁决。[11] [14]
5. Do:工具/搜索 RL 必须记录 tool-call validity、argument validity、per-turn progress、final success 和环境 reset success;只报 final accuracy 不够诊断。[35] [37] [30]
6. Don't:不要跳过非 RL 对照。ReAct、Toolformer、imitation、planning 或 MCTS 在低交互成本 setting 中可能给出同等收益;RL 需要在同等 token、tool-call 和 wall-clock budget 下获胜。[42] [43] [34]
7. Do:把优化稳定性和 credit 定位分开看。GSPO 这类 sequence-level ratio 适合先稳住 KL/entropy;如果错误集中在少数步骤,再加 attribution 或 intervention-based credit。[41] [20] [22]
8. Open:真实用户在线 agentic RL 证据不足。偏好漂移、部署反馈环和安全工具调用还缺少 public artifact;上线前用 shadow mode 和离线 replay 限制风险。[7] [33]
悬而未决的问题
- Q1.哪些 reasoning gains 在 matched base model、数据、distillation 和 inference compute 后仍然保留?需要同一 base、同一 verifier、同一 response length cap 的 controlled experiment。[5] [4]
- Q2.agentic RL 导致 reward hacking、KL drift、entropy collapse 或 unsafe tool use 的直接经验证据在哪里?当前更多是风险推理,缺少 matched public artifact。[40] [41]
- Q3.outcome、process、step、turn 和 attribution reward 在同模型、同任务、同预算下谁更稳?现有论文多改变多个变量,难以分离 reward 粒度本身的贡献。[10] [17] [29] [20]
- Q4.非 RL prompting、imitation、planning 或 MCTS 能否在 fair budget 下追平 RL-trained tool/search/SWE agents?这个问题需要同时限制 token、tool-call、wall-clock 和环境交互次数。[42] [43] [35] [37]
- Q5.在线 agentic RL 遇到真实用户、变化偏好和部署反馈环时会怎样?当前证据主要来自离线或可控环境,interactive user RL 仍然稀疏。[7] [32]
- [1]Unknown. From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models. arXiv, 2026论文
- [2]Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv, 2024论文
- [3]
- [4]DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv, 2025论文
- [5]Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang. Understanding R1-Zero-Like Training: A Critical Perspective. arXiv, 2025论文
- [6]Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu. A Survey of Reinforcement Learning for Large Reasoning Models. arXiv, 2025论文
- [7]Guibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey. arXiv, 2025论文
- [8]Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer. Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. arXiv, 2024论文
- [9]Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn. From r to Q*: Your Language Model is Secretly a Q-Function. arXiv, 2024论文
- [10]Ganqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Yuchen Zhang. Process Reinforcement through Implicit Rewards. arXiv, 2025论文
- [11]Sanjiban Choudhury. Process Reward Models for LLM Agents: Practical Framework and Directions. arXiv, 2025论文
- [12]Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang. Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning. arXiv, 2025论文
- [13]Zijing Zhang, Ziyang Chen, Mingxiao Li, Zhaopeng Tu, Xiaolong Li. RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents. arXiv, 2025论文
- [14]Jiarui Yao, Ruida Wang, Tong Zhang. PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary. arXiv, 2026论文
- [15]Meng Cao, Shuyuan Zhang, Xiao-Wen Chang, Doina Precup. SCAR: Shapley Credit Assignment for More Efficient RLHF. arXiv, 2025论文
- [16]Hanlin Wang, Chak Tou Leong, Jiashuo Wang, Jian Wang, Wenjie Li. SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution. arXiv, 2025论文
- [17]Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu. Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models. arXiv, 2025论文
- [18]Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang. CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment. arXiv, 2025论文
- [19]Hieu Tran, Zonghai Yao, Hong Yu. Exploiting Tree Structure for Credit Assignment in RL Training of LLMs. arXiv, 2025论文
- [20]Junxi Yin, Haisen Luo, Zhenyu Li, Yihua Liu, Dan Liu. Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning. arXiv, 2025论文
- [21]Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua. CARL: Focusing Agentic Reinforcement Learning on Critical Actions. arXiv, 2025论文
- [22]Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur. InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning. arXiv, 2026论文
- [23]Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen. Hindsight Credit Assignment for Long-Horizon LLM Agents. arXiv, 2026论文
- [24]Yifei Zhou, Andrea Zanette, Jiayi Pan, Sergey Levine, Aviral Kumar. ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL. arXiv, 2024论文
- [25]Muning Wen, Ziyu Wan, Weinan Zhang, Jun Wang, Ying Wen. Reinforcing Language Agents via Policy Optimization with Action Decomposition. arXiv, 2024论文
- [26]Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning. arXiv, 2024论文
- [27]Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv, 2025论文
- [28]Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An. Group-in-Group Policy Optimization for LLM Agent Training. arXiv, 2025论文
- [29]Quan Wei, Siliang Zeng, Chenliang Li, William Brown, Oana Frunza. Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design. arXiv, 2025论文
- [30]Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu. WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning. arXiv, 2025论文
- [31]Xiaoqian Liu, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li. Agentic Reinforcement Learning with Implicit Step Rewards. arXiv, 2025论文
- [32]Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv, 2025论文
- [33]Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine. Autonomous Evaluation and Refinement of Digital Agents. arXiv, 2024论文
- [34]Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang. WebGPT: Browser-assisted question-answering with human feedback. arXiv, 2021论文
- [35]Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv, 2025论文
- [36]Mingyang Chen, Linzhuang Sun, Tianpeng Li, Haoze Sun, Yijie Zhou. ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning. arXiv, 2025论文
- [37]
- [38]Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs. arXiv, 2025论文
- [39]Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen. ToolRL: Reward is All Tool Learning Needs. arXiv, 2025论文
- [40]Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv, 2025论文
- [41]Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu. Group Sequence Policy Optimization. arXiv, 2025论文
- [42]Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv, 2022论文
- [43]Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv, 2023论文