論文の概要: When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.20023v1
- Date: Thu, 18 Jun 2026 09:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.78174
- Title: When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents
- Title(参考訳): 下顎前立腺が十分であった場合 : LLMエージェントの過剰手術ツール選択の検討
- Authors: Kaiyue Yang, Yuyan Bu, Jingwei Yi, Yuchi Wang, Biyu Zhou, Juntao Dai, Songlin Hu, Yaodong Yang,
- Abstract要約: LLMエージェントは、ますます自律的にツールを選択するようになり、異なる特権を持つツールの中からの選択が安全関連になる。
エージェントが選択またはエスカレートするオーバープライレジツールの選択について検討するが、十分な低プライレジ代替手段にもかかわらず、高プライレジツールを選択するかエスカレーションする。
エージェントに十分な低特権のツールを好み、必要な時にのみエスカレートするように教える。
- 参考スコア(独自算出の注目度): 24.231912493421948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM agents increasingly select tools autonomously, their choices among tools with different privileges become safety-relevant. However, prior tool-selection studies focus on safety-agnostic metadata preferences, leaving privilege-sensitive choices underexplored. To address this gap, we study over-privileged tool selection, in which an agent selects or escalates to a higher-privilege tool despite a sufficient lower-privilege alternative. We introduce ToolPrivBench to evaluate whether agents choose higher-privilege tools despite sufficient lower-privilege alternatives, measuring both initial selection and escalation after transient tool failures. Across eight domains and five recurring risk patterns, we find that over-privileged tool selection is common among mainstream LLM agents and is further amplified by transient failures. We further find that general safety alignment does not reliably transfer to least-privilege tool choice, while prompt-level controls provide only limited mitigation under transient failures. We therefore introduce a privilege-aware post-training defense that teaches agents to prefer sufficient lower-privilege tools and escalate only when necessary. Our mitigation experiments show that this defense substantially reduces unnecessary high-privilege tool use while preserving general capabilities.
- Abstract(参考訳): LLMエージェントが自律的にツールを選択するようになると、異なる特権を持つツールの選択が安全関連になる。
しかし、以前のツール選択研究では、安全に依存しないメタデータの嗜好に焦点が当てられており、特権に敏感な選択は未調査のままである。
このギャップに対処するため,エージェントが選択またはエスカレーションを行うツール選択について検討した。
本稿では,ツールPrivBenchを導入し,エージェントが十分な低特権の代替手段にもかかわらず,高特権のツールを選択するかどうかを評価するとともに,過渡的ツール障害後の初期選択とエスカレーションの両方を測定する。
8つのドメインと5つの繰り返し発生するリスクパターンにまたがって、過度に特権化されたツールの選択は、主要なLSMエージェントに共通しており、過度な障害によってさらに増幅されている。
さらに, 汎用安全アライメントが最小限のツール選択に確実に移行しないのに対して, プロンプトレベルの制御は過渡的障害下では限定的な緩和しか提供しないことがわかった。
そこで我々は,エージェントに十分な低特権ツールを優先し,必要時にのみエスカレートするように指導する特権意識のポストトレーニングディフェンスを導入する。
我々の緩和実験は、この防御が汎用性を保ちながら不要な高特権ツールの使用を著しく減少させることを示している。
関連論文リスト
- AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。
AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。
AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文 参考訳(メタデータ) (2026-01-18T15:10:18Z) - ToolTweak: An Attack on Tool Selection in LLM-based Agents [52.17181489286236]
対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。
提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
論文 参考訳(メタデータ) (2025-10-02T20:44:44Z) - BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models [55.119657444627855]
大規模言語モデル(LLM)は、複数のプロバイダが機能的に同等のオプションを提供するマーケットプレースから引き出された外部ツールに依存していることが多い。
選択が体系的に偏りがある場合、ユーザエクスペリエンスを低下させ、競争を歪ませることができます。
ツール選択バイアスを評価するために,複数の機能的に等価なツールを含む多種多様なツールカテゴリのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-30T22:02:13Z) - Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。
本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。