論文の概要: GraphPO: Graph-based Policy Optimization for Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.18954v1
- Date: Wed, 17 Jun 2026 11:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.135997
- Title: GraphPO: Graph-based Policy Optimization for Reasoning Models
- Title(参考訳): GraphPO: 推論モデルのためのグラフベースのポリシー最適化
- Authors: Yuliang Zhan, Xinyu Tang, Jian Li, Dandan Zheng, Weilong Chai, Jingdong Chen, Jun Zhou, Ge Wu, Wenyue Tang, Hao Sun,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模推論モデルの能力向上のための標準パラダイムとなっている。
ツリーベースの手法は、プレフィックスを共有し、同じプレフィックスから分岐を比較して、きめ細かい信号を提供することによってこの問題に対処する。
提案するグラフPOは,有向非巡回グラフとしてロールアウトを表現した新しいRLフレームワークであり,エッジとしての推論ステップとノードとしての推論パスから要約されたセマンティックステートを持つ。
- 参考スコア(独自算出の注目度): 39.010538168884786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a standard paradigm for enhancing the capability of large reasoning models. RLVR typically samples responses independently and optimizes the policy using from final answers. This paradigm has two limitations. First, independently responses often contain similar intermediate reasoning steps, causing redundant exploration and wasted computation. Second, sparse final-answer rewards make it hard to identify useful steps. Tree-based methods partly address this problem by sharing prefixes and comparing branches from the same prefix to provide fine-grained signals. However, tree branches are still expanded independently. When different branches reach similar reasoning states, they cannot share information and repeat similar exploration. Moreover, tree-based methods ignore such dispersion and only perform local comparisons within separate branches, which can lead to higher variance in advantage estimation. To address this challenge, we propose GraphPO (Graph-based Policy Optimization), a novel RL framework that represents rollouts as a directed acyclic graph, with reasoning steps as edges and semantic states summarized from the reasoning paths as nodes. GraphPO merges semantically equivalent reasoning paths into equivalence classes, allowing them to share suffixes and reallocating budget away from redundant expansions to diverse exploration. Furthermore, we assign efficiency advantages to incoming edges and correctness advantages to outgoing edges, thereby improving inference efficiency while deriving process supervision from outcome. Theory shows that GraphPO reduces advantage-estimation variance and enhances reasoning efficiency. Experiments on three LLMs across reasoning and agentic search benchmarks show that GraphPO consistently outperforms chain- and tree-based baselines with the same token budgets or response budgets.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模推論モデルの能力向上のための標準パラダイムとなっている。
RLVRは通常、応答を独立してサンプリングし、最終回答からポリシーを最適化する。
このパラダイムには2つの制限がある。
第一に、独立応答は、しばしば同様の中間的推論ステップを含み、冗長な探索と無駄な計算を引き起こす。
第二に、粗末な最終回答報酬は、有用なステップを特定するのを難しくする。
ツリーベースの手法は、プレフィックスを共有し、同じプレフィックスから分岐を比較して、きめ細かい信号を提供することによってこの問題に対処する。
しかし、木の枝はいまだに独立して拡張されている。
異なる枝が同様の推論状態に達すると、情報を共有し、同様の探索を繰り返すことはできない。
さらに、木に基づく手法はそのような分散を無視し、別々のブランチ内でのみ局所的な比較を行う。
この課題に対処するため、我々は、エッジとしての推論ステップと、ノードとしての推論パスから要約されたセマンティックステートを備えた、ロールアウトを非巡回グラフとして表現する新しいRLフレームワークであるGraphPO(Graph-based Policy Optimization)を提案する。
GraphPOは意味論的に等価な推論パスを同値クラスにマージし、接尾辞を共有し、冗長な拡張から多様な探索へと予算を割り当てることを可能にする。
さらに, プロセスの監督を成果から導出しつつ, 効率性の向上を図るとともに, 効率性の向上を図る。
理論によると、GraphPOは利点推定のばらつきを低減し、推論効率を高める。
推論とエージェント検索ベンチマークによる3つのLSMの実験では、GraphPOは、同じトークン予算やレスポンス予算でチェーンベースとツリーベースベースラインを一貫して上回っている。
関連論文リスト
- TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning [52.67756371231985]
検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデルにおける推論とエージェント的行動を強化するための有望なアプローチである。
本稿では,Tree Rollout Allocation for Contrastive Exploration (TRACE)について紹介する。
技術的には、TRACEはロールアウト予算をルートと中間プレフィックスの両方に割り当てている。
論文 参考訳(メタデータ) (2026-06-09T17:16:03Z) - Graph-GRPO: Dependency-Aware Credit Assignment for Generative E-commerce Search Relevance [7.682863634260091]
関係推論のためのグラフ構造拡張であるグラフ-GRPOを提案する。
結果レベルの報酬をグラフ上で伝達し、段階レベルの信用信号を導出する。
また,エッジワイド・クレジット・プロパゲーション係数を適応的に調整する主損失駆動型制御器を導入する。
論文 参考訳(メタデータ) (2026-05-29T08:36:08Z) - Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs [4.494151943799445]
この研究において、このような冗長性の主な原因は非効率な反射であり、しばしば2つの問題パターンに現れる。
具体的には、各線形CoTを明示的な依存エッジを持つ有向非巡回グラフ(DAG)に変換する。
実験により,提案手法は平均推論トークンを42%削減し,精度を維持・改善することを示した。
論文 参考訳(メタデータ) (2026-04-07T09:46:03Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - ThoughtProbe: Classifier-Guided LLM Thought Space Exploration via Probing Representations [22.84446651161078]
ThoughtProbeは、Large Language Models(LLM)の隠れた推論機能を活用して、推論性能を改善する新しい推論フレームワークである。
木構造応答空間探索を誘導するために,これらの隠れ表現を識別信号として利用する。
我々のフレームワークの包括的な探索は、有効な推論チェーンを網羅するだけでなく、それらを効果的に識別し、複数の算術推論ベンチマーク間で大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-10-31T10:40:19Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。