論文の概要: Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents
- arxiv url: http://arxiv.org/abs/2606.07904v1
- Date: Fri, 05 Jun 2026 23:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.527219
- Title: Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents
- Title(参考訳): Contract2Tool: ツール強化LDMエージェントの学習条件と効果
- Authors: Rahul Suresh Babu, Laxmipriya Ganesh Iyer,
- Abstract要約: Contract2Toolは、メタデータ、スキーマ、ドキュメント、実行トレースからツールコントラクトを推論するフレームワークです。
我々は,ゴールドプレ条件,エフェクト,リスクラベルに対する学習契約を評価し,エージェントタスクの下流ユーティリティを測定した。
以上の結果から,ハイブリッド・ドキュメンテーション・トレース・エビデンスにより,ゴールド契約の信頼性と効率性の大半を維持するのに十分な契約が得られたことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented large language model agents increasingly rely on external APIs, but standard tool schemas describe how to call a tool, not when the tool is causally appropriate or what task state it produces. Causal tool filtering addresses this gap by using lightweight contracts that specify each tool's preconditions, effects, risk level, and cost. However, manually writing and maintaining such contracts does not scale to large or changing tool ecosystems. We introduce Contract2Tool, a framework for inferring tool contracts from metadata, schemas, documentation, and execution traces. Contract2Tool converts observable tool evidence into normalized symbolic contracts that can be evaluated intrinsically and deployed inside downstream causal tool filtering. We evaluate learned contracts against gold preconditions, effects, and risk labels, and measure their downstream utility on multi-step agent tasks. Our results show that hybrid documentation-and-trace evidence produces contracts accurate enough to preserve most of the reliability and efficiency benefits of gold contracts. Learned-contract CMTF achieves 0.980 downstream success, close to 0.990 for gold-contract CMTF, while reducing visible tools from 100 to 1 and reducing average token usage from 26,172 to 2,528 relative to all-tools exposure. These results suggest that learned contracts can provide a scalable contract layer between tool schemas and reliable agent execution.
- Abstract(参考訳): ツール拡張された大きな言語モデルエージェントは、ますます外部APIに依存しているが、標準的なツールスキーマでは、ツールが因果的に適切であるか、あるいはそれが生成するタスク状態であるかではなく、ツールの呼び出し方法を記述している。
因果的ツールフィルタリングは、各ツールの前提条件、効果、リスクレベル、コストを指定する軽量コントラクトを使用することで、このギャップに対処する。
しかし、そのような契約を手動で書き、維持することは、大きな、あるいは変化するツールエコシステムにスケールしない。
Contract2Toolは、メタデータ、スキーマ、ドキュメント、実行トレースからツールコントラクトを推論するフレームワークです。
Contract2Toolは、観測可能なツールエビデンスを、本質的に評価され、下流の因果的ツールフィルタリング内にデプロイ可能な正規化されたシンボリックコントラクトに変換する。
我々は,ゴールドプレコンディション,エフェクト,リスクラベルに対する学習契約を評価し,マルチステップエージェントタスクの下流ユーティリティを測定した。
以上の結果から,ハイブリッド・ドキュメンテーション・トレース・エビデンスは,ゴールド契約の信頼性と効率性の大部分を維持するのに十分な精度の契約を生成することが明らかとなった。
学習型契約型CMTFは、100から1までの可視ツールを減らし、全ツールの露出に対して平均トークン使用量を26,172から2,528に減らした。
これらの結果は、学習したコントラクトがツールスキーマと信頼できるエージェント実行の間にスケーラブルなコントラクト層を提供できることを示唆している。
関連論文リスト
- ToolChoiceConfusion: Causal Minimal Tool Filtering for Reliable LLM Agents [0.0]
そこで本研究では,因果的充足力によるツールの選択を無訓練で行う手法を提案する。
CMTFと全ツール露光,キーワード検索,状態認識フィルタリング,因果パス改善を比較した。
102のタスク、100のツール、4つのLDMバックエンド、2448のタスクメソッドモデルを備えたメインベンチマークでは、CMTFは総合的な成功において最強の因果ベースラインと一致している。
論文 参考訳(メタデータ) (2026-06-04T15:24:10Z) - Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains [20.11899219087138]
画像のエージェントであるThymeとDeepEyesV2を用いて、現実世界の理解、OCR、チャート理解、数学的推論の2つの代表的思考について検討する。
ツールアクセスは、一貫した集約的改善がほとんど得られず、生成したコストを確実に削減することができず、小さなツールのみの解決セットのみを残している。
論文 参考訳(メタデータ) (2026-06-01T15:04:25Z) - Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution [3.2702644625831794]
本稿では,自然言語能力の意図をサンドボックスで検証されたツールアーティファクトに変換する検証用ツールチェーンであるTool Forgeを紹介する。
また、モデルコンテキストに完全なカタログスキーマをロードする代わりに、インテントスコープツールセッションを公開するルータも導入されている。
論文 参考訳(メタデータ) (2026-05-27T05:45:58Z) - Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows [2.2228811750157482]
私たちは、"Attention Is All You Need"パラダイムを一般化するスケーラブルな層メカニズムであるTool Attentionを紹介します。
シミュレーションした120toolの6サーバベンチマークで、サーバ単位のトークン数を実際のMPPデプロイメントの公開監査に校正する。
ツールアテンションはターン当たりのツールトークンを95.0%(47.3k ->2.4k)に減らし、効果的なコンテキスト利用(トークン比の量)を24%から91%に引き上げる。
論文 参考訳(メタデータ) (2026-04-23T16:10:00Z) - ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization [51.92237664440418]
ToolRosettaは、オープンソースのコードリポジトリとAPIを自動的にMPP互換のツールに変換するフレームワークである。
ユーザタスクが与えられた場合、ToolRosettaはツールチェーンを自律的に計画し、関連するツールチェーンを特定し、実行可能なMPPサービスに変換する。
論文 参考訳(メタデータ) (2026-03-10T07:19:43Z) - Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - ToolGym: an Open-world Tool-using Environment for Scalable Agent Testing and Data Curation [42.479399507055454]
一般的な204のアプリにまたがって,571フォーマットの統一ツール上に構築された,オープンワールドのツール使用環境を紹介します。
これには、ロングホライゾンを合成するタスク生成エンジン、ワイルド制約付きマルチツール、ストレス-テストの堅牢性に割り込みと失敗を注入するステートコントローラが含まれる。
最先端のLLMの総合評価では、ツール計画と実行能力の相違、既存のLLMの弱点に続く制約、DeepSeek-v3.2の強靭さが明らかにされている。
論文 参考訳(メタデータ) (2026-01-09T21:59:31Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - ToolGrad: Efficient Tool-use Dataset Generation with Textual "Gradients" [53.7887350405379]
以前の作業では、まずユーザクエリを生成し、続いてDFSのような複雑なツール使用アノテーションを使用して、ツール使用のLLMデータセットを合成する。
ToolGradはこのパラダイムを逆転させるエージェントフレームワークであるToolGradを紹介します。
このアプローチは、より複雑なツールの使用、低コスト、100%パスレートで生成されたデータセットであるToolGrad-5kにつながった。
論文 参考訳(メタデータ) (2025-08-06T05:04:00Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。