論文の概要: APPO: Agentic Procedural Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.12384v1
- Date: Wed, 10 Jun 2026 17:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.606383
- Title: APPO: Agentic Procedural Policy Optimization
- Title(参考訳): APPO:エージェントの手続き的ポリシー最適化
- Authors: Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu,
- Abstract要約: エージェントRLを2つの視点から研究する:textitwhere to branchと、ブランチ後のクレジットの割り当て方法
本稿では、分岐とクレジットの割り当てを粗い相互作用単位から細かな決定点にシフトするAPPOを提案する。
APPOは、強力なエージェントRLベースラインを4ポイント近く改善し、効率的なツールコールを維持し、振る舞いの解釈可能性を維持する。
- 参考スコア(独自算出の注目度): 28.730334202611257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: \textit{where to branch and how to assign credit after branching}. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose \textbf{Agentic Procedural Policy Optimization (APPO)}, which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.
- Abstract(参考訳): エージェント強化学習(RL)の最近の進歩は、大規模言語モデルエージェントの多ターンツール使用能力を大幅に改善している。
しかし、ツールコール境界や固定ワークフローのような粗大なヒューリスティック単位よりも、既存のほとんどの手法が信用を割り当てているため、どの中間決定が下流の結果に影響を与えるかを特定することは困難である。
本研究では, エージェントRLを2つの観点から研究する: \textit{where to branchと, 分岐後のクレジットの割り当て方法。
我々のパイロット分析では、影響のある決定ポイントはツールコールに集中するのではなく、生成シーケンス全体に広範に分散しているが、トークンエントロピーだけは最終的な結果に対する影響を確実に反映していない。
これらの観測により, 分岐とクレジットの割り当てを粗い相互作用単位から細かな決定点にシフトさせる, APPO(textbf{Agentic Procedural Policy Optimization)を提案する。
APPOは、トークンの不確実性とその後の継続のポリシーによる可能性ゲインを組み合わせたブランチスコアを使用して分岐位置を選択し、急激な高エントロピー位置をフィルタリングしながら、より標的となる探索を可能にする。
さらに、ブランチされたロールアウト間でクレジットの分散を改善するためのプロシージャレベルのアドバンテージスケーリングも導入されている。
13のベンチマークでの実験では、APPOは強力なエージェントRLベースラインをほぼ4ポイント改善し、効率的なツールコールを維持し、振る舞いの解釈可能性を維持する。
関連論文リスト
- TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning [52.67756371231985]
検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデルにおける推論とエージェント的行動を強化するための有望なアプローチである。
本稿では,Tree Rollout Allocation for Contrastive Exploration (TRACE)について紹介する。
技術的には、TRACEはロールアウト予算をルートと中間プレフィックスの両方に割り当てている。
論文 参考訳(メタデータ) (2026-06-09T17:16:03Z) - TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文 参考訳(メタデータ) (2026-06-04T07:15:43Z) - Reducing Credit Assignment Variance via Counterfactual Reasoning Paths [11.514388061694268]
大規模言語モデル(LLM)を用いた多段階推論のための強化学習は、しばしばスパース端末報酬に依存する。
本稿では,複数の推論軌跡を同一の入力でサンプリングする,対実的比較に基づく信用割当フレームワークを提案する。
我々は、スパース端末報酬をステップセンシティブな学習信号に変換する暗黙のプロセスレベル優位推定器を構築する。
論文 参考訳(メタデータ) (2026-04-20T13:33:54Z) - Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents [24.080021799509847]
textscEvalAct (Evaluate-as-Action) は暗黙的な検索品質評価を明示的なアクションに変換する。
textscEvalActは、マルチホップタスクにおいて最も高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T05:22:40Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling [29.182538022605627]
Branching Relative Policy Optimization (BranPO) は、高額な報酬なしで段階レベルのコントラスト管理を提供する価値のない手法である。
BranPOは尾部付近の軌跡を切断し、他の連続をサンプリングし、共有接頭辞の上に対照的な接尾辞を構成する。
さらに効率を向上し、トレーニングを安定させるために、タスク間の分岐周波数に適応する難易度分岐サンプリングと、不正な動作を抑制するために冗長なステップマスキングを導入する。
論文 参考訳(メタデータ) (2026-02-03T16:43:09Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。