論文の概要: When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More
- arxiv url: http://arxiv.org/abs/2606.14476v1
- Date: Fri, 12 Jun 2026 14:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.926531
- Title: When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More
- Title(参考訳): LLMエージェントがグラフニューラルネットワークツールを盲目的に定義し、バックボーンをより強固に定義する
- Authors: Zhongyuan Wang, Pratyusha Vemuri,
- Abstract要約: 大規模言語モデル(LLM)エージェントにグラフニューラルネットワーク(GNN)をコール可能なツールとして装備する作業が増えている。
凍結したGNNをReActスタイルのLLMエージェントに明示的なツールとして公開し、テキスト分散グラフ上のノード分類で測定する。
その予測は生のGNNの97.6-99.2%の時間(5種)と一致している。
性能が向上し、代替手段が出現する場所で成長するにつれて、推論のコストは低下しない。
- 参考スコア(独自算出の注目度): 10.283803346813047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing line of work equips large language model (LLM) agents with graph neural networks (GNNs) as callable tools, assuming the agent exercises judgment over when and how much to rely on such a tool. We test this directly. We expose a frozen GNN to a ReAct-style LLM agent as an explicit tool and measure, on node classification over a text-attributed graph (ogbn-arxiv, replicated on WikiCS), whether the agent uses the tool or merely obeys it. We find the agent does not exercise judgment: its predictions agree with the raw GNN's 97.6-99.2% of the time (5 seeds), collapsing into a GNN parrot that adopts the tool's output wholesale and bypasses its own reasoning. Sweeping backbone capability (Qwen2.5 0.5B-7B), the deference is not a weak-model artifact: among models able to invoke the tool, agreement rises with capability (0.60 to 0.98 from 1.5B to 7B). Crucially, the cost of deference does not shrink as capability grows and grows where alternatives emerge: a per-node oracle over the available actions beats the parrot by 0.09-0.18 at 3B and 0.12-0.22 at 7B, roughly doubling at high homophily, because the parrot is pinned to the frozen GNN while the agent's alternatives improve; at 7B a simple neighbour-label tool overtakes the GNN at high homophily (0.81 vs 0.71) yet the agent still defers. A simple selective-invocation gate recovers about half of that high-homophily gap (0.71 to 0.83) but yields no net global gain, and held-out estimates bound the best achievable gate over standard test-time features to at most a third of the oracle headroom: reliable selective invocation looks limited by available information, not merely router design. Our results are a cautionary measurement: evaluations of agent+tool systems cannot assume the agent adds judgment on top of the tool, and selective invocation must be designed in rather than expected to emerge from scale.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントにグラフニューラルネットワーク(GNN)を呼び出し可能なツールとして装備する作業が増えている。
これを直接テストします。
凍結したGNNをReActスタイルのLLMエージェントに明示的なツールとして公開し、テキスト分散グラフ上のノード分類(ogbn-arxiv、WikiCSで複製)で測定する。
その予測は生のGNNの97.6-99.2%の時間(5種の種子)と一致し、GNNオウムに崩壊し、ツールのアウトプット・パーセールを採用し、独自の推論をバイパスする。
バックボーンの能力(Qwen2.5 0.5B-7B)を考えると、この推論は弱いモデルではない:ツールを起動できるモデルの中で、合意は能力と共に上昇する(1.5Bから7Bまで0.60から0.98まで)。
重要なことに、性能が向上し、代替品が出現するにつれて推論コストは低下せず、利用可能な作用のノード当たりのオラクルが3Bで0.09-0.18と7Bで0.12-0.22と、約2倍に上昇する。
単純な選択呼び出しゲートは、その高いホモフィリーギャップのおよそ半分(0.71から0.83)を回復するが、ネットのグローバルな利得は得られず、ホールトアウト推定は標準的なテストタイム機能よりも最高の達成可能なゲートをオラクルヘッドルームの少なくとも3分の1に制限する。
エージェント+ツールシステムの評価では,エージェントがツールの上部に判断を付加すると仮定することはできない。
関連論文リスト
- ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents [9.793491545168575]
ToolGateは、軌道テキストと単純な構造的特徴から実行/スキップの決定を予測する。
2つのQwen3-VLバックボーンで、ToolGateはトークンコストを制限なしのReActベースラインの64-69%に削減する。
論文 参考訳(メタデータ) (2026-06-02T02:44:27Z) - Do Multimodal Agents Really Benefit from Tool Use? A Systematic Study of Capability Gains [20.11899219087138]
画像のエージェントであるThymeとDeepEyesV2を用いて、現実世界の理解、OCR、チャート理解、数学的推論の2つの代表的思考について検討する。
ツールアクセスは、一貫した集約的改善がほとんど得られず、生成したコストを確実に削減することができず、小さなツールのみの解決セットのみを残している。
論文 参考訳(メタデータ) (2026-06-01T15:04:25Z) - Tool Calling is Linearly Readable and Steerable in Language Models [7.851713181228514]
ツール呼び出しエージェントが間違ったツールを選択すると、実行まで失敗は見えない。
Gemma 3、Qwen 3、Qwen 2.5、Llama 3.1の12の命令調整モデルを使用します。
選択したツールの同一性は、モデル内で線形で、管理可能であることが分かりました。
論文 参考訳(メタデータ) (2026-05-08T16:47:08Z) - Beyond the Black Box: Interpretability of Agentic AI Tool Use [0.0]
本稿では,スパースオートエンコーダと線形プローブ上に構築された機械論的・解釈可能性ツールキットを提案する。
フレームワークは各アクションの前にモデル状態を読み出し、ツールが必要かどうか、そして次のツールアクションがいかに適切かの両方を推測する。
我々は、NVIDIA Nemotron関数呼び出しデータセットから多段階の軌道上のプローブをトレーニングし、GPT-OSS 20BとGemma 3 27Bモデルに同じワークフローを適用する。
論文 参考訳(メタデータ) (2026-05-07T19:47:30Z) - Scaling Test-Time Compute for Agentic Coding [126.72747643609274]
本稿では,ロールアウト軌跡のコンパクトな表現に基づくエージェントコーディングのためのテスト時間スケーリングフレームワークを提案する。
当社のフレームワークは,各ロールアウトを,その健全な仮説,進捗,障害モードを保存する構造的な要約に変換する。
提案手法は,SWE-Bench Verified および Terminal-Bench v2.0 におけるフロンティア符号化エージェントの性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-16T17:39:33Z) - In harmony with gpt-oss [0.0]
OpenAIが公開しているGPt-oss-20bのスコアをツールで独自に再現した人はいない。
私たちはモデルの配布ツールをリバースエンジニアリングしました。
そして、ネイティブハーネスのハーネスを構築しました。
論文 参考訳(メタデータ) (2026-04-01T01:16:13Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - RSAgent: Learning to Reason and Act for Text-Guided Segmentation via Multi-Turn Tool Invocations [52.752467948588816]
エージェント型マルチモーダル大規模言語モデル(MLLM)であるRSAgentを提案する。
RSAgentはセグメンテーション・ツールボックスをクエリし、視覚的フィードバックを観察し、歴史的観測を用いて空間仮説を改訂し、ターゲットを再ローカライズし、反復的にマスクを洗練させる。
RSAgentはReasonSegテストで66.5% gIoUのゼロショット性能を達成し、Seg-Zero-7Bを9%改善し、RefCOCOgで81.5% cIoUに達した。
論文 参考訳(メタデータ) (2025-12-30T06:50:11Z) - ToolTweak: An Attack on Tool Selection in LLM-based Agents [52.17181489286236]
対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。
提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
論文 参考訳(メタデータ) (2025-10-02T20:44:44Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。