論文の概要: HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents
- arxiv url: http://arxiv.org/abs/2606.13663v1
- Date: Thu, 11 Jun 2026 17:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.975845
- Title: HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents
- Title(参考訳): HyperTool: ツール拡張エージェントのステップワイズツールコールを超えて
- Authors: Yaxin Du, Yifan Zhou, Yujie Ge, Jiajun Wang, Xianghe Pang, Shuo Tang, Tuney Zheng, Bryan Dai, Jian Yang, Siheng Chen,
- Abstract要約: textbfHyperToolは、実行可能なMPPスタイルのツールインターフェースで、ツール実行のモデル可視単位を変更する。
モデルはHyperToolをコードブロックで呼び出し、既存のツールを元のスキーマを通じて呼び出し、返却された値を操作し、中間結果をローカルに渡すことができる。
MCP-Universeでは、HyperToolは平均精度をQwen3-32Bで15.69%から35.29%、Qwen3-8Bで9.93%から33.33%に改善し、GPT-OSSとKimi-k2.5を平均で上回っている。
- 参考スコア(独自算出の注目度): 52.33697136670754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented LLM agents commonly rely on step-wise atomic tool calls, where each invocation, observation, and value transfer is exposed in the main reasoning trace. This creates an \emph{execution-granularity mismatch}: locally deterministic tool workflows are unfolded into repeated model-visible decisions, consuming context and forcing the model to manage low-level dataflow in the trace. We introduce \textbf{HyperTool}, a unified executable MCP-style tool interface that changes the model-visible unit of tool execution. A model invokes HyperTool with a code block that can call existing tools through their original schemas, manipulate returned values, and pass intermediate results locally, folding deterministic tool subroutines into a single outer call. To train models to use this interface, we synthesize HyperTool-format trajectories from cross-tool compositional tasks and verify them in real MCP environments. On MCP-Universe, HyperTool improves average accuracy from 15.69\% to 35.29\% on Qwen3-32B and from 9.93\% to 33.33\% on Qwen3-8B, and surpass GPT-OSS and Kimi-k2.5 on average accuracy, showing that our HyperTool can substantially improve multi-step tool use.
- Abstract(参考訳): ツール拡張LDMエージェントは、一般的にステップワイドなアトミックなツールコールに依存しており、それぞれの呼び出し、観察、値転送が主要な推論トレースに露出する。
局所的な決定論的ツールワークフローは、繰り返しモデル可視な決定に展開され、コンテキストを消費し、トレース内の低レベルのデータフローをモデルに強制する。
我々は,ツール実行のモデル可視単位を変更する,統一実行可能なMPPスタイルのツールインターフェースである \textbf{HyperTool} を紹介する。
モデルはHyperToolを呼び出すことで、既存のツールを元のスキーマを通じて呼び出し、戻り値を操作し、中間結果をローカルに渡すことができ、決定論的ツールのサブルーチンを1つの外部呼び出しに折り畳むことができる。
このインタフェースを使用するためのモデルをトレーニングするために、クロスツール構成タスクからHyperTool-formatトラジェクトリを合成し、実際のMPP環境で検証する。
MCP-Universe では、HyperTool は Qwen3-32B では 15.69\% から 35.29\% に、Qwen3-8B では 9.93\% から 33.33\% に、平均精度では GPT-OSS と Kimi-k2.5 を上回り、HyperTool はマルチステップツールの使用を大幅に改善できることを示した。
関連論文リスト
- ParaTool: Shifting Tool Representations from Context to Parameters [21.55999060277199]
ParaToolは、各ツールを専用のロード可能なパラメータセットにプロジェクションするフレームワークである。
本手法は,(1)異なるツールの知識を独立したパラメータモジュールにカプセル化するためのパラメトリックツール事前学習,(2)ソフトツールの選択では,関連するツールパラメータを動的に計測・集約するゲーティングネットワーク,(3)ツールパラメータを微調整し,トレーニングと推論プロセスの調整を行う。
論文 参考訳(メタデータ) (2026-05-28T08:14:07Z) - ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents [87.63969994744133]
Computer Use Agents (CUA) は、クリックやタイプのようなアトミックGUIアクションと、APIベースのファイル操作のようなハイレベルなツールコールの両方を通じて動作することができる。
この困難は、高品質なインターリーブGUIツール軌跡の不足、実際のツール軌跡収集のコストと脆さ、GUIツールパス選択のための軌道レベルの監督の欠如に起因する。
本稿では,GUI-Tool経路選択を段階的学習パラダイムを用いて学習するためのエンドツーエンドエージェントであるToolCUAを提案する。
論文 参考訳(メタデータ) (2026-05-12T17:57:04Z) - Semantic Tool Discovery for Large Language Models: A Vector-Based Approach to MCP Tool Selection [1.2633421050364024]
ツールコール機能を備えた大規模言語モデル(LLM)は、外部ツール統合による複雑なタスクの実行において、顕著な可能性を示している。
Model Context Protocol (MCP) は LLM を様々なツールセットに接続するための標準化されたフレームワークとして登場した。
本稿では,ベクトルベース検索によるこれらの課題に対処するセマンティックツール発見アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-19T18:10:35Z) - ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning [11.99927786717109]
ToolMATHは、数学の問題をツールセットによる制御された正当性チェック可能なベンチマークに変換する。
ToolMATHは、ツール拡張されたエージェントの障害モードの実行可能な診断証拠を提供する。
論文 参考訳(メタデータ) (2026-02-24T09:23:12Z) - OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。