論文の概要: SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents
- arxiv url: http://arxiv.org/abs/2606.12908v1
- Date: Thu, 11 Jun 2026 05:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.593127
- Title: SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents
- Title(参考訳): SENTINEL: 言語モデルエージェントを用いた学習ツールのための障害駆動型強化学習
- Authors: Ziyi Wang, Yuxuan Lu, Yimeng Zhang, Qun Liu, Chen Luo, Jiri Gesi, Hanqing Lu, Yisi Sang, Manling Li, Jing Huang, Dakuo Wang,
- Abstract要約: 言語モデルエージェントは、マルチターンツールの使用によって現実的なタスクを解決するのにますます効果的である。
SENTINELは障害駆動型強化学習フレームワークで,障害のロールアウトを目標とするトレーニングタスクに変換する。
Tau2-Bench Retail with Qwen3-4B-Thinking-2507では、SENTINELはPass1を66.4から74.9に改善し、Passkメトリクス全体にわたる一般的な合成タスクにおいてRLを上回っている。
- 参考スコア(独自算出の注目度): 52.758563996979596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model agents are increasingly effective in solving realistic tasks through multi-turn tool use. However, training reliable tool-using agents remains challenging in practice. While reinforcement learning provides an on-policy paradigm for improving agents from their own environment interactions, its effectiveness depends heavily on the training task distribution. When tasks are fixed before training, the task distribution can become increasingly mismatched with the policy's evolving capabilities, causing many rollouts to be spent on uninformative tasks. We propose SENTINEL, a failure-driven reinforcement learning framework that turns the Solver's rollout failures into targeted training tasks. SENTINEL follows a Controller--Proposer--Solver loop: the Controller analyzes failed trajectories and summarizes recurring error patterns, the Proposer generates executable tasks that stress these weaknesses, and the Solver is trained on the targeted tasks. On Tau2-Bench Retail with Qwen3-4B-Thinking-2507, SENTINEL improves Pass\^{}1 from 66.4 to 74.9 and outperforms RL on general synthetic tasks across Pass\^{}k metrics. These results demonstrate that model failures provide an effective and scalable source of targeted training signal for improving tool-using language model agents.
- Abstract(参考訳): 言語モデルエージェントは、マルチターンツールの使用によって現実的なタスクを解決するのにますます効果的である。
しかし、信頼性の高いツール使用エージェントの訓練は、実際は難しいままである。
強化学習は、エージェントを自身の環境相互作用から改善するためのオンラインパラダイムを提供するが、その効果はトレーニングタスクの分布に大きく依存する。
トレーニング前にタスクが修正されると、タスクの配布はポリシーの進化する機能と不一致になり、多くのロールアウトが非形式的なタスクに費やされる。
SENTINELは、Solverのロールアウト障害を目標とするトレーニングタスクに変換する、障害駆動強化学習フレームワークである。
SENTINELはController--Proposer--Solverループに従う: コントローラは失敗したトラジェクトリを分析し、繰り返し発生するエラーパターンを要約し、Proposerはこれらの弱点を強調する実行可能なタスクを生成し、Solverはターゲットのタスクでトレーニングされる。
Tau2-Bench Retail with Qwen3-4B-Thinking-2507では、SENTINELはPass\^{}1を66.4から74.9に改善し、Pass\^{}kメトリクスの一般的な合成タスクにおいてRLを上回っている。
これらの結果から, モデル故障は, ツールを用いた言語モデルエージェントを改善するために, 目標とする学習信号の有効かつスケーラブルなソースを提供することが示された。
関連論文リスト
- Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills [12.442806027914097]
本稿では,エージェントの過去の解法トレースをトレーニング信号のソースとして再利用する,クローズドループ自己進化フレームワークであるSocratic-SWEを紹介する。
トレースを報酬計算の証拠としてのみ扱うのではなく、Socratic-SWEはそれらを、繰り返し発生する障害と効果的な修復パターンを要約した構造化されたエージェントスキルに蒸留する。
論文 参考訳(メタデータ) (2026-06-05T16:00:17Z) - Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals [0.0]
教師なし事前学習は、強化学習エージェントに事前知識を付与し、下流タスクでの学習を加速することができる。
本稿では,文脈内学習者と対向目標生成戦略を組み合わせた教師なしメタ学習手法ULEEを提案する。
論文 参考訳(メタデータ) (2026-01-27T17:10:29Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning [6.314485350935057]
Reinforcement Learning with Tool-use Rewardsは、トレーニングプロセスを分離して、計画モジュールの集中的で単目的的な最適化を可能にする新しいフレームワークである。
実験の結果, RLTRは, エンド・ツー・エンドのベースラインに比べて, 計画性能が8%-12%向上していることがわかった。
この拡張計画能力は、結果として、全体のエージェントシステムの最終的な応答品質が5%-6%向上したことを意味する。
論文 参考訳(メタデータ) (2025-08-27T06:19:50Z) - Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-06-02T14:23:33Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - P2DT: Mitigating Forgetting in task-incremental Learning with progressive prompt Decision Transformer [49.716834343064015]
破滅的な忘れ物は、大きなモデルによって制御される知的エージェントを管理する上で大きな課題となる。
P2DT(Progressive Prompt Decision Transformer)を提案する。
この手法は,新しいタスクトレーニング中に動的に決定トークンを付加することにより,トランスフォーマーベースのモデルを強化し,タスク固有のポリシーを育成する。
論文 参考訳(メタデータ) (2024-01-22T02:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。