Fugu-MT 論文翻訳(概要): TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

論文の概要: TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.11119v1
Date: Tue, 09 Jun 2026 17:16:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.632537
Title: TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning
Title（参考訳）: TRACE:効率的なエージェント強化学習のための統一的なロールアウト予算配分フレームワーク
Authors: Heming Zou, Qi Wang, Yun Qu, Yuhang Jiang, Lizhou Cai, Yixiu Mao, Ru Peng, Xin Xu, Weijie Liu, Kai Yang, Saiyong Yang, Xiangyang Ji,
Abstract要約: 検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデルにおける推論とエージェント的行動を強化するための有望なアプローチである。本稿では,Tree Rollout Allocation for Contrastive Exploration (TRACE)について紹介する。技術的には、TRACEはロールアウト予算をルートと中間プレフィックスの両方に割り当てている。
参考スコア（独自算出の注目度）: 52.67756371231985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insufficient reward contrast, arising when overly simple or complex prompts generate low-variance feedback and when outcome-only rewards assign the same terminal assessment to every decision in a multi-turn rollout. Past efforts have focused on allocating available rollout resources to promising prompts, yet they only leverage sample informativeness at the prompt level and neglect variation in prefix-level informativeness across turns within the same rollout. This work targets multi-turn agentic RL by modeling each ReAct-style thought-action-observation turn as a semantically distinct node, allowing budget allocation to extend from prompt roots to turn-level prefixes with further continuations, which naturally forms tree-structured rollouts. We introduce Tree Rollout Allocation for Contrastive Exploration (TRACE), a unified rollout allocation framework that enhances reward contrast within a fixed sampling budget. Technically, TRACE allocates rollout budget to both prompt roots and intermediate prefixes that are most likely to yield mixed terminal rewards. A shared generalizable predictor estimates conditional success probability at these anchors from prefix histories to guide this allocation. The resulting adaptive tree structure enriches outcome-only feedback and amplifies the policy-update signal. Empirically, TRACE achieves competitive performance and efficiency gains on typical agentic benchmarks, e.g., improving Qwen3-14B Multi-Hop QA average accuracy by 2.8 points over competitive baselines at equal sampling cost.
Abstract（参考訳）: 検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデルにおける推論とエージェント的行動を強化するための有望なアプローチである。しかし、ロールアウト集約的なポリシー最適化は、過度に単純または複雑なプロンプトが低分散フィードバックを生成し、結果のみの報酬がマルチターンロールアウトにおけるすべての決定に対して同じ端末アセスメントを割り当てたときに生じる、十分な報酬コントラストによって制限されることが多い。これまでの取り組みでは、利用可能なロールアウトリソースを有望なプロンプトに割り当てることに重点を置いてきたが、これらはプロンプトレベルでのサンプル情報化と、同じロールアウト内でのターン間のプレフィックスレベルの情報化のばらつきを無視するのみである。この作業は、各ReActスタイルの思考-行動-観測ターンを意味的に異なるノードとしてモデル化することで、予算配分をプロンプトルートからターンレベルのプレフィックスに拡張し、木構造ロールアウトを自然に形成することで、マルチターンエージェントRLをターゲットにしている。本稿では,Tree Rollout Allocation for Contrastive Exploration (TRACE)について紹介する。技術的には、TRACEはロールアウト予算をルートと中間プレフィックスの両方に割り当てている。共有一般化可能な予測器は、これらのアンカーにおける条件付き成功確率をプレフィックス履歴から推定し、この割り当てを導く。その結果、適応ツリー構造は結果のみのフィードバックを豊かにし、ポリシー更新信号を増幅する。実証的には、TRACEは典型的なエージェントベンチマーク(例えばQwen3-14B Multi-Hop QA)の平均精度を、同じサンプリングコストで競合ベースラインよりも2.8ポイント向上させる。

関連論文リスト

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。 GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文参考訳（メタデータ） (2026-05-12T03:20:24Z)
Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards [39.489554597919145]
グループ相対ポリシー最適化(GRPO)は、完了時にすべてのトークンに対して単一のスカラーの利点を割り当てる。明確なセグメントと目的を持つ構造化世代では、このカップルはセグメント間で無関係な報酬信号を生成し、客観的な干渉と不正な信用につながる。我々は、GRPO互換メソッドのファミリーであるBlockwise Advantage Estimationを提案し、それぞれの目的をそれぞれ独自の利点を割り当て、対応するテキストブロックのトークンにのみ適用する。
論文参考訳（メタデータ） (2026-02-10T19:22:37Z)
Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。 OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2026-01-12T10:48:02Z)
TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文参考訳（メタデータ） (2026-01-11T14:07:30Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:32Z)
Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T12:59:14Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。