論文の概要: Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.22995v1
- Date: Mon, 22 Jun 2026 08:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 02:55:38.686286
- Title: Group-Graph Policy Optimization for Long-Horizon Agentic Reinforcement Learning
- Title(参考訳): 長軸エージェント強化学習のためのグループグラフポリシー最適化
- Authors: Yunan Wang, Minghui Song, Zihan Zhang, Shaohan Huang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang,
- Abstract要約: Group-Graph Policy Optimization (G2PO) は、マルチターンエージェントタスクに適したグループベースの強化学習アルゴリズムである。
G2POは最先端のプロンプトベースとRLベースラインを大幅に上回り、GRPOよりも最大22.2%の成功率の向上を達成した。
- 参考スコア(独自算出の注目度): 85.02566758103008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group-based Reinforcement Learning (RL) has significantly enhanced Large Language Models (LLMs) in agentic scenarios. To achieve finer-grained policy updates, recent agentic RL frameworks have shifted from trajectory-level to step-level training. However, long-horizon agentic RL suffers from severe reward sparsity and delay, as feedback is often deferred for dozens of interaction steps. While existing step-level frameworks refine training granularity, their credit assignment remains coarse-grained and still treats agent exploration as isolated, linear trajectories. This oversimplified perspective ignores the inherent graph structure of state transitions, leading to high-variance state-value estimation and myopic, localized credit assignment. To overcome these critical bottlenecks, we propose Group-Graph Policy Optimization (G2PO), a novel group-based RL algorithm tailored for multi-turn agentic tasks. G2PO explicitly transforms linear interaction trajectories into a global state-transition graph. By aggregating identical observations across different trajectories, we introduce group-aggregation state-value estimation that reduces sampling variance and trajectory-dependent bias. Furthermore, we redefine agent actions as transitions between state nodes and propose an edge-centric advantage estimation strategy. By globally standardizing Temporal Difference (TD) errors across the entire graph, G2PO explicitly identifies and prioritizes critical transitions that drive absolute task progress. Extensive experiments on representative long-horizon benchmarks-WebShop, ALFWorld, and AppWorld-demonstrate that G2PO substantially outperforms state-of-the-art prompt-based and RL baselines, achieving remarkable success rate improvements of up to 22.2% over GRPO.
- Abstract(参考訳): グループベースの強化学習(RL)は、エージェントシナリオにおける大規模言語モデル(LLM)を大幅に強化した。
よりきめ細かいポリシー更新を実現するため、最近のエージェントRLフレームワークは、軌道レベルからステップレベルのトレーニングに移行した。
しかし、長い水平エージェントRLは、数十の相互作用ステップでフィードバックが遅延されるため、重度の報酬空間と遅延に悩まされる。
既存の段階的なフレームワークは訓練の粒度を洗練させるが、クレジットの割り当てはいまだに粗い粒度であり、エージェント探索を独立した線形軌跡として扱う。
この過度に単純化された観点は、状態遷移の固有のグラフ構造を無視し、高分散状態値推定とミオピック、局所的な信用代入をもたらす。
これらの重要なボトルネックを克服するために,マルチターンエージェントタスクに適したグループベースRLアルゴリズムであるグループグラフポリシー最適化(G2PO)を提案する。
G2POは、線形相互作用軌跡を大域的状態遷移グラフに変換する。
異なる軌跡をまたいだ同一観測を集約することにより,サンプリング分散と軌道依存バイアスを低減するグループ集約状態値推定を導入する。
さらに、状態ノード間の遷移としてエージェントアクションを再定義し、エッジ中心の利点推定戦略を提案する。
グラフ全体の時間差差(TD)エラーをグローバルに標準化することにより、G2POは、絶対的なタスクの進行を促す重要な遷移を明確に特定し、優先順位付けする。
WebShop、ALFWorld、AppWorld-demonstrateの代表的なロングホライゾンベンチマークに関する大規模な実験では、G2POは最先端のプロンプトベースとRLベースラインを大幅に上回り、GRPOよりも22.2%の大幅な成功率向上を達成した。
関連論文リスト
- Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning [30.228760269449072]
グループベース強化学習(RL)法は,大規模言語モデル(LLM)の性能向上に成功している。
グラフベースのグループポリシー最適化(GraphGPO)を提案し、すべてのロールアウト軌跡を統一された状態遷移グラフに集約する。
グラフにエンコードされたグローバル情報を用いて、各状態からタスク目標までの距離を推定する。
最後に、GraphGPOは、タスク目標までの距離をどの程度短縮するかに基づいて、グラフベースの利点を推定することで、各エッジにクレジットを割り当てる。
論文 参考訳(メタデータ) (2026-05-26T08:23:34Z) - GAGPO: Generalized Advantage Grouped Policy Optimization [13.085463559931156]
そこで我々は,段階的,段階的な時間的信用割当のための批判のない強化学習手法を提案する。
ALFWorldとWebShopの実験によると、GAGPOは強力な強化学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-13T09:10:03Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Group-in-Group Policy Optimization for LLM Agent Training [17.243181792126563]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は, ALFWorld や WebShop などのエージェントベンチマークに対する GiGPO の評価と,検索強化されたQA タスクに対するツール統合推論を行った。
論文 参考訳(メタデータ) (2025-05-16T08:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。