論文の概要: Think Twice Before You Act: Protecting LLM Agents Against Tool Description Poisoning via Isolated Planning
- arxiv url: http://arxiv.org/abs/2606.20922v1
- Date: Thu, 18 Jun 2026 20:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:52:16.380571
- Title: Think Twice Before You Act: Protecting LLM Agents Against Tool Description Poisoning via Isolated Planning
- Title(参考訳): 行為の2倍前:孤立した計画によるツール記述中毒からLLMエージェントを保護する
- Authors: Shanghao Shi, Xiao Wang, Chaoyu Zhang, Hao Li, Wenjing Lou, Thomas Hou, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang,
- Abstract要約: クロスツール記述中毒は、エージェントの軌道を操縦するためにプランナー可視のツールメタデータを操作することができる。
重要な観察は、有毒な記述がステップを越えた計画コンテキストに留まり、その後のツール選択に対する継続的な影響を可能にすることである。
我々は,孤立計画と呼ばれる新しい概念に基づく新しいシステムレベルの防衛ツールであるTool-Guardを提案する。
- 参考スコア(独自算出の注目度): 48.99783163807576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of external tools has substantially expanded the capabilities of large language model (LLM) agents, but it also introduces new attack surfaces beyond prompt injection. In particular, cross-tool description poisoning can manipulate planner-visible tool metadata to steer an agent's trajectory, even if the poisoned tool itself is never chosen. To understand the effectiveness of existing defenses against this emerging threat, we first evaluate several prompt-injection defenses and find that they transfer poorly to cross-tool description poisoning. A key observation is that poisoned descriptions persist in the planning context across steps, enabling continuous influence over subsequent tool choices. Building on this insight, we propose Tool-Guard, a novel system-level defense based on a new concept called isolated planning, in which tool invocations that are detected as misaligned or suspicious cause the corresponding tool to be placed in a quarantined list (the influenced list), breaking further influence from poisoned descriptions. With this influence isolated, the tool can continue to be used to support the task, enabling a robust defense that preserves legitimate tool utility. Experiments on the AgentDojo and ASB benchmarks show that Tool-Guard substantially reduces attack success while maintaining high task utility. Our code is available at https://github.com/shishishi123/Tool-Guard.
- Abstract(参考訳): 外部ツールの統合は、大規模言語モデル(LLM)エージェントの機能を大幅に拡張した。
特に、クロスツール記述中毒は、たとえ汚染されたツール自体が選択されていなくても、プランナー可視のツールメタデータを操作して、エージェントの軌道を操縦することができる。
この新興脅威に対する既存の防御の有効性を理解するために,我々はまず,いくつかの即時注入防御を評価し,それらをクロスツール記述中毒(cross-tool description poisoning)に導入することを発見した。
重要な観察は、有毒な記述がステップを越えた計画コンテキストに留まり、その後のツール選択に対する継続的な影響を可能にすることである。
この知見に基づいて,新たなシステムレベルの防衛手法であるTool-Guardを提案する。これは孤立計画と呼ばれる新しい概念に基づいて,ツール呼び出しが不一致あるいは不審なものとして検出され,対応するツールを隔離されたリスト(影響されたリスト)に配置し,有害な記述からさらなる影響を逸脱させる。
この影響を孤立させることで、ツールは引き続きタスクをサポートするために使用され、正当なツールユーティリティを保持する堅牢な防御を可能にします。
AgentDojoとASBベンチマークの実験によると、Tool-Guardは高いタスクユーティリティを維持しながら、攻撃の成功を大幅に減らす。
私たちのコードはhttps://github.com/shishishi123/Tool-Guard.comで利用可能です。
関連論文リスト
- TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation [16.85010496624083]
大きな言語モデル(LLM)は、時間に敏感なタスクや実世界のアクションを実行するための外部ツールに依存している。
攻撃者は、悪意のある命令(明示的なTPA)を埋め込んでツール記述を操作したり、(単純なTPA)クレームを誤解してモデル動作やツール選択に影響を与える。
実装から信頼できるツール記述を自動的に生成することにより、ツール中毒を防止するための最初のフレームワークであるTRUSTDESCを提案する。
論文 参考訳(メタデータ) (2026-04-08T19:18:11Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - MalTool: Malicious Tool Attacks on LLM Agents [52.01975462609959]
MalToolはLLMベースのフレームワークで、特定の悪意のある振る舞いを示すツールを合成する。
MalTool は LLM のコーディングが安全に対応している場合でも非常に有効であることを示す。
論文 参考訳(メタデータ) (2026-02-12T17:27:43Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - Prompt Injection Attack to Tool Selection in LLM Agents [60.95349602772112]
一般的なアプローチは、与えられたタスクに対してツールライブラリから最も適切なツールを選択するための2段階のプロセス(式と例選択)に従う。
本研究では、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択であるtextitToolHijackerを紹介する。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。