論文の概要: PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems
- arxiv url: http://arxiv.org/abs/2606.22388v1
- Date: Sun, 21 Jun 2026 08:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:34:20.078026
- Title: PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems
- Title(参考訳): PlanBench-XL:大規模ツールエコシステムにおけるLLMツール利用エージェントの長期計画評価
- Authors: Jiayu Liu, Qihan Lin, Cheng Qian, Rui Wang, Emre Can Acikgoz, Xiaocheng Yang, Jiateng Liu, Zhenhailong Wang, Xiusi Chen, Heng Ji, Dilek Hakkani-Tür,
- Abstract要約: PlanBench-XLは、327の小売タスクを1,665以上のツールでインタラクティブにベンチマークする。
エージェントが使用可能なツールを反復的に検索できるかどうかをテストし、最終目標に対するその後の呼び出しの中間的証拠を明らかにするためにそれらを呼び出す。
- 参考スコア(独自算出の注目度): 59.730861364166174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents increasingly operate in large tool ecosystems, where real-world tasks require discovering relevant tools, inferring implicit sub-goals, and adapting to dynamic environments over long horizons. However, existing benchmarks rarely evaluate planning under retrieval-limited tool visibility. To address this gap, we introduce PlanBench-XL, an interactive benchmark of 327 retail tasks over 1,665 tools that tests whether agents can iteratively retrieve usable tools, invoke them to uncover intermediate evidence for subsequent calls toward the final goal. PlanBench-XL further features an optional blocking mechanism that simulates real-world unpredictability through missing, failing, or distracting tool functions, forcing agents to detect disrupted paths and adapt at runtime. Experiments on ten leading LLMs show that massive-tool planning remains challenging: while GPT-5.4 achieves 51.90% accuracy in block-free settings, it collapses to 11.36% under the most severe blocking condition. Further analysis shows that agents are especially vulnerable when failures lack explicit error signals or when recovery requires longer alternative tool-use paths. These results establish PlanBench-XL as a testbed for diagnosing agentic planning failures and highlight the need for robust adaptive planning in long-horizon tasks with large, imperfect tool environments.
- Abstract(参考訳): LLMエージェントは、現実のタスクが関連するツールを発見し、暗黙のサブゴールを推測し、長い地平線上で動的環境に適応する必要がある、大規模なツールエコシステムでますます機能する。
しかし、既存のベンチマークでは、検索に制限されたツールの可視性の下での計画を評価することはめったにない。
このギャップに対処するために、PlanBench-XLという327の小売タスクを1,665以上のツールでインタラクティブにベンチマークし、エージェントが反復的に使用可能なツールを検索できるかどうかを検証し、それらを呼び出し、最終的な目標に向けた呼び出しの中間的証拠を明らかにする。
PlanBench-XLはさらに、障害のあるパスを検出し、実行時に適応するようにエージェントを強制する、ツール関数の欠如、障害、中断を通じて現実世界の予測不可能をシミュレートする、オプションのブロッキングメカニズムを備えている。
GPT-5.4は51.90%の精度でブロックのない環境では、最も厳しいブロッキング条件下では11.36%に崩壊する。
さらなる分析によると、エラー信号が明示的でない場合や、リカバリがより長いツール使用パスを必要とする場合、エージェントは特に脆弱である。
これらの結果は,エージェント計画失敗を診断するためのテストベッドとしてPlanBench-XLを確立し,大規模で不完全なツール環境を持つ長期タスクにおいて,堅牢な適応計画の必要性を強調した。
関連論文リスト
- SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM Agents [64.59100414726556]
大規模言語モデル(LLM)エージェントは、コンテキスト、ツール、マルチターン実行を管理するハーネスに依存している。
Retrieval-augmented Tool selectionは、自然な代替手段を提供するが、既存のワンショット検索方法は、独立したツール記述とエージェントの真のタスク意図との整合に失敗する。
我々は、ユーザ意図、ツール機能、ツールコラボレーションパターンをリンクするインテントツーオールグラフを構築する、意図認識型のアクティブツール発見フレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2026-06-15T11:37:37Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - ToolGym: an Open-world Tool-using Environment for Scalable Agent Testing and Data Curation [42.479399507055454]
一般的な204のアプリにまたがって,571フォーマットの統一ツール上に構築された,オープンワールドのツール使用環境を紹介します。
これには、ロングホライゾンを合成するタスク生成エンジン、ワイルド制約付きマルチツール、ストレス-テストの堅牢性に割り込みと失敗を注入するステートコントローラが含まれる。
最先端のLLMの総合評価では、ツール計画と実行能力の相違、既存のLLMの弱点に続く制約、DeepSeek-v3.2の強靭さが明らかにされている。
論文 参考訳(メタデータ) (2026-01-09T21:59:31Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。