論文の概要: ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents
- arxiv url: http://arxiv.org/abs/2606.15508v1
- Date: Sat, 13 Jun 2026 23:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.663949
- Title: ToolMenuBench: Benchmarking Tool-Menu Filtering Strategies for Reliable and Efficient LLM Agents
- Title(参考訳): ToolMenuBench: 信頼性と効率的なLDMエージェントのためのベンチマークツール-Menuフィルタ戦略
- Authors: Rahul Suresh Babu, Laxmipriya Ganesh Iyer,
- Abstract要約: ToolMenuBenchは、多段階LLMエージェントのツールメニュー構築を評価するためのベンチマークである。
ツールメニューのサイズ、イントラクタタイプ、状態依存型タスク構造、リスク露光など、さまざまです。
可視光ツールカウント、リスクツール露出、タスク成功、間違ったツールコール、未熟なアクション、トークン使用など、フィルタレベルおよびダウンストリームエージェントのメトリクスをレポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented large language model agents increasingly operate over large tool libraries, but existing evaluations often focus on whether a model can call a tool correctly rather than how the visible tool menu shapes reliability, efficiency, and safety-relevant risk exposure. We introduce ToolMenuBench, a benchmark for evaluating tool-menu construction in multi-step LLM agents. ToolMenuBench varies tool-menu size, distractor type, state-dependent task structure, and risk exposure, and reports both filter-level and downstream agent metrics, including visible-tool count, risky-tool exposure, task success, wrong-tool calls, premature actions, and token usage. In a controlled evaluation across seven model backends, three tool-menu sizes, six filtering methods, and seven evaluation settings, CMTF improves task success from 32.1% under all-tools exposure to 85.7%, while reducing average token usage by roughly 98%. Causal minimal tool filtering achieves the strongest overall tradeoff, reducing visible tools, wrong-tool calls, premature actions, and risky-tool exposure relative to unfiltered exposure, lexical filtering, state-aware filtering, and broader causal-path baselines. ToolMenuBench provides a reusable evaluation framework for studying the agent-interface problem: which tools should be visible, when they should be visible, and under what cost or risk constraints.
- Abstract(参考訳): ツール拡張された大規模言語モデルエージェントは、ますます大きなツールライブラリ上で運用されるようになるが、既存の評価では、可視性ツールメニューが信頼性、効率性、安全性関連リスク露出をいかに形作るかではなく、モデルが正しくツールを呼び出すことができるかどうかに重点を置いている。
マルチステップLLMエージェントのツールメニュー構築を評価するベンチマークであるToolMenuBenchを紹介する。
ToolMenuBenchはツールメニューのサイズ、イントラクタタイプ、状態依存のタスク構造、リスク露光、可視ツール数、リスクツール露出、タスク成功、間違ったツール呼び出し、未熟なアクション、トークン使用など、フィルタレベルおよびダウンストリームエージェントのメトリクスをレポートする。
7つのモデルバックエンド、3つのツールメニューサイズ、6つのフィルタリング方法、7つの評価設定でCMTFはタスク成功率を32.1%から85.7%に改善し、平均トークン使用量を約98%削減した。
因果的最小限のツールフィルタリングは、最強の全体的なトレードオフを達成し、可視ツール、不正ツール呼び出し、未フィルタリング露光に対するリスクの高いツール露出、語彙フィルタリング、状態認識フィルタリング、より広範な因果パスベースラインを削減します。
ToolMenuBenchは、エージェントとインターフェースの問題を研究するための再利用可能な評価フレームワークを提供する。
関連論文リスト
- SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM Agents [64.59100414726556]
大規模言語モデル(LLM)エージェントは、コンテキスト、ツール、マルチターン実行を管理するハーネスに依存している。
Retrieval-augmented Tool selectionは、自然な代替手段を提供するが、既存のワンショット検索方法は、独立したツール記述とエージェントの真のタスク意図との整合に失敗する。
我々は、ユーザ意図、ツール機能、ツールコラボレーションパターンをリンクするインテントツーオールグラフを構築する、意図認識型のアクティブツール発見フレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2026-06-15T11:37:37Z) - ToolChoiceConfusion: Causal Minimal Tool Filtering for Reliable LLM Agents [0.0]
そこで本研究では,因果的充足力によるツールの選択を無訓練で行う手法を提案する。
CMTFと全ツール露光,キーワード検索,状態認識フィルタリング,因果パス改善を比較した。
102のタスク、100のツール、4つのLDMバックエンド、2448のタスクメソッドモデルを備えたメインベンチマークでは、CMTFは総合的な成功において最強の因果ベースラインと一致している。
論文 参考訳(メタデータ) (2026-06-04T15:24:10Z) - ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution [49.30293260493709]
大きな言語モデル(LLM)は、外部ツールを利用することで問題解決能力を高める。
静的埋め込み検索やパラメータ記憶に頼っている既存の手法は、ユーザの意図をツールのセマンティクスに合わせるのに苦労している。
提案するツールOmniは,プロアクティブ検索とグラウンドド実行により,オープンワールドツール利用のためのLLMを実現する統合エージェントフレームワークである。
論文 参考訳(メタデータ) (2026-04-15T12:26:10Z) - OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction [41.38214226411103]
ツールコールは、Large Language Model (LLM)エージェントが現実世界のタスクを完了するのに不可欠である。
既存のベンチマークでは、シンプルで完全にドキュメント化されたツールを前提としていますが、現実のツールは多くの場合不透明で、明確なベストプラクティスや障害モードが欠如しています。
ツールコールトラジェクトリから実行フィードバックを観察することで,ツールドキュメントを反復的に洗練するツールオブザーバを提案する。
論文 参考訳(メタデータ) (2026-02-16T21:26:37Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - ToolScope: Enhancing LLM Agent Tool Use through Tool Merging and Context-Aware Filtering [37.406100634766645]
大規模言語モデル(LLM)エージェントは複雑なタスクを解決するために外部ツールに依存している。
LLMはまた、入力コンテキストの厳しい制限に直面し、大きなツールセットの効率的な考慮を妨げている。
本稿では,(1)ToolScopeMergerとAuto-Correction,(2)ToolScopeRetriever,(2)ToolScopeMerger,(2)ToolScopeMerger,(3)ToolScopeMerger,(3)To olScopeMerger,(3)ToolScopeMerger,(3)ToolScopeMerger,(3)ToolScopeMerger,(2)ToolScopeMerger,(2)ToolSco peMerger,(2)ToolScopeRetriever,の2つを提案する。
論文 参考訳(メタデータ) (2025-10-22T21:29:27Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。