論文の概要: Effective Reinforcement Learning for Agentic Search by Recycling Zero-Variance Queries During Training
- arxiv url: http://arxiv.org/abs/2606.10709v1
- Date: Tue, 09 Jun 2026 11:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.461629
- Title: Effective Reinforcement Learning for Agentic Search by Recycling Zero-Variance Queries During Training
- Title(参考訳): 学習中のゼロ変数クエリのリサイクルによるエージェント探索のための効果的な強化学習
- Authors: João Coelho, João Magalhães, Bruno Martins, Chenyan Xiong,
- Abstract要約: 本研究では,将来的な再サンプリングのために,ゼロ分散グループを可変プールに返却するクエリリサイクルを提案する。
本稿では, リサイクルクエリが, 学習終了までに有効バッチの約4分の3を供給していることを示す。
- 参考スコア(独自算出の注目度): 28.12666966542811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of GRPO-style algorithms has become the standard strategy for training LLM search agents under outcome-only rewards. With these algorithms, a query contributes to parameter updates only when its rollout group mixes successes and failures; all-correct (too-easy) and all-incorrect (too-hard) groups are zero-variance and waste rollout cost. Existing approaches treat zero-variance as a static property and either discard or pre-filter such groups. We hypothesize and empirically validate that queries flip between zero-variance and signal-bearing states as the policy evolves during training. Building on this intuition, we propose query recycling, which returns zero-variance groups to a mutable pool for future resampling, so that the effective training distribution co-evolves with the policy. With the proposed technique, a 1.7B parameter model trained on synthetic data can reach 66.0 average Pass@1 accross seven multi-hop QA benchmarks, matching or surpassing systems with up to 7B parameters trained on benchmark-derived supervision. Analysis of recycling patterns shows that recycled queries supply roughly three quarters of the effective batch by the end of training, with contributions split between recovery from policy improvement and policy drift.
- Abstract(参考訳): GRPOスタイルのアルゴリズムの使用は、結果のみの報酬の下でLLM検索エージェントを訓練するための標準戦略となっている。
これらのアルゴリズムでは、ロールアウトグループが成功と失敗を混ぜた場合にのみ、クエリがパラメータ更新に寄与する。
既存のアプローチでは、ゼロ分散を静的な性質として扱い、そのような群を破棄するか、あるいはフィルター前で処理する。
我々は、トレーニング中にポリシーが進化するにつれて、クエリがゼロ分散状態と信号を含む状態の間を反転する、という仮説と実証的な検証を行う。
この直感に基づくクエリ・リサイクリングでは,将来的な再サンプリングのために,ゼロ分散群を可変プールに戻すことで,効果的なトレーニング分布がポリシーと共進化する。
提案手法により、合成データに基づいてトレーニングされた1.7Bパラメータモデルは、7つのマルチホップQAベンチマークで平均66.0のPass@1に達する。
リサイクルパターンの分析から, リサイクルクエリは, 学習終了までに有効バッチの約4分の3を供給し, 政策改善と政策ドリフトの回復に寄与することが示された。
関連論文リスト
- sGPO: Trading Inference FLOPs for Training Efficiency in RLVR [15.69155608127456]
標準強化学習(Standard Reinforcement Learning with Verifiable Rewards, RLVR)トレーニングは、クエリ毎に一定のロールアウト予算を割り当てる。
簡単なクエリは、ポリシーがすでにそれを解決しているのに対して、解決不可能なクエリは、ポリシーがそれを解決していないためにシグナルを発生しないため、ほぼゼロに近いアドバンテージを生み出す。
本稿では,小予算の推論FLOPを,無駄な学習FLOPの大幅な削減のために取引する計算効率の高い戦略であるソートされたグループポリシー最適化(sGPO)を紹介する。
論文 参考訳(メタデータ) (2026-06-07T21:47:31Z) - ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents [48.80766702702854]
LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、群内の優位性はゼロとなり、勾配は得られない。
ARBOR(Adaptive Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
論文 参考訳(メタデータ) (2026-06-02T06:58:54Z) - RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning [49.04912820721943]
Group Prioritized Off-Policy Optimization (POPO)は、ロールアウトオーバーヘッドを発生させることなく、効果的なトレーニングバッチを活用するフレームワークである。
POPOは2つの重要なコンポーネントで構成されている。
POPOはRL微細化を著しく加速し、ロールアウトを著しく少なくして強力な推論性能を達成する。
論文 参考訳(メタデータ) (2026-05-31T15:06:38Z) - BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning [9.698479933114552]
既存のアルゴリズムは、値推定とポリシー学習における計算効率とサンプル効率のトレードオフに直面している。
このトレードオフに対処するために,ポストフリーな批判アルゴリズムを導入する。
実験では、REINFORCE++と比較して、値関数推定のMSEを69%削減している。
論文 参考訳(メタデータ) (2026-05-26T17:06:41Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning [78.12979615107564]
HeaPAは精度を継続的に改善し、少ない計算で目標性能に達する。
分析の結果、これらの上昇はフロンティアに焦点を当てたサンプリングとオン政治プールの成長によるものであることが示唆された。
論文 参考訳(メタデータ) (2026-01-30T01:31:17Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。