論文の概要: RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2606.19047v1
- Date: Wed, 17 Jun 2026 13:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.176527
- Title: RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents
- Title(参考訳): RODS: マルチターンツール利用エージェントのための逆駆動型オンラインデータ合成
- Authors: Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin,
- Abstract要約: マルチターンツール利用RLは、静的データセットにおける情報的サンプルの迅速な枯渇によってボトルネックとなる。
本稿では, RODS (Reward-driven Online Data Synthesis) を提案する。
- 参考スコア(独自算出の注目度): 13.362388357375082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.
- Abstract(参考訳): マルチターンツール利用RLは、静的データセットにおける情報的サンプルの迅速な枯渇によってボトルネックとなる。
GRPOの勾配信号は,Popoviciu上界の結果として,最も高いロールアウト報酬分散を有するタスクに集中することが観察された。
その結果、エージェントの能力境界(大まかにバランスの取れた成功と失敗)の近くのサンプルは、非常に大きなポリシー勾配をもたらします。
トレーニングが進むにつれて、このバウンダリは継続的にシフトし、静的データセット内の情報サンプルのプールを徐々に枯渇させます。
本稿では, RODS (Reward-driven Online Data Synthesis) を提案する。
RODSは、RLトレーニングとデータ生成の間のループを閉じ、既存のトレーニングのために計算されたロールアウト以外に余分な推論を必要としない実用的なゼロコスト境界検出器として、進捗報酬分散を再調達する。
このような境界サンプルを継続的に識別し、スキル整合型リサンプリングパイプラインを通じて、構造上の複雑さ(例えば、APIトポロジと依存性の深さ)にマッチした新しいマルチターン変種を合成し、ポリシと共進化する動的リプレイバッファを管理する。
400個のヒト種子から始まり、800個のサンプルのアクティブトレーニングプールを維持するRODSは、17Kサンプルのオフラインパイプラインに匹敵する性能を達成し、約20倍のトラジェクトリを要し、制御された環境での固定データRLと環境拡張を改善します。
関連論文リスト
- Inference-Time Refinement Closes the Synthetic-Real Gap in Tabular Diffusion [8.745106905496282]
凍結したトレーニング済みのバックボーン上で動作可能な推論時間改善フレームワークを提案する。
推論時間の改善は、1つのコンシューマグレードのGPU上で1~80分でリアルタイムユーティリティを超えます。
論文 参考訳(メタデータ) (2026-05-07T13:37:03Z) - Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments [31.754045125599305]
特定の体制における高原は、損失のサンプルベースの推定が、訓練の過程で真の目的のために不十分なプロキシとなるために生じる。
このタイプの学習の停滞に対処する方法には,ステップサイズを縮小するか,更新間で収集されたサンプル数を増やすかの2つがある。
我々は、PPOを100万以上の並列環境に拡張することにより、複雑なオープン化された領域における事前ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-06T08:07:08Z) - When Learning Hurts: Fixed-Pole RNN for Real-Time Online Training [58.25341036646294]
本研究では,再帰性極の学習がデータに有意な利点をもたらしない理由を解析的に検討し,実時間学習シナリオを実証的に提供する。
固定極ネットワークは、トレーニングの複雑さを低減し、オンラインリアルタイムタスクにより適していることを示す。
論文 参考訳(メタデータ) (2026-02-25T00:15:13Z) - RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。
本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-12-29T06:44:06Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:50Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。