論文の概要: AutoDojo: Adaptive Black-Box Attacks Reveal the Limits of IPI Defenses and Task-Specification Effects in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.15057v2
- Date: Fri, 19 Jun 2026 04:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.735653
- Title: AutoDojo: Adaptive Black-Box Attacks Reveal the Limits of IPI Defenses and Task-Specification Effects in LLM Agents
- Title(参考訳): AutoDojo: LLMエージェントにおけるIPI防御の限界とタスク特定効果を明らかにする適応的なブラックボックス攻撃
- Authors: Xinhang Ma, Taoran Li, Chaowei Xiao, Zhiyuan Yu, Ning Zhang, Yevgeniy Vorobeychik,
- Abstract要約: 間接的プロンプトインジェクション(IPI)は、LLMを動力とするエージェントに対する主要なセキュリティ脅威である。
我々は、特定の防御に対してIPIを最適化するAgentDojoの適応的な拡張であるAutoDojoを開発した。
- 参考スコア(独自算出の注目度): 57.34566159148893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indirect prompt injection (IPI) is a major security threat to LLM-powered agents. Thus, a growing body of work have proposed a variety of defensive approaches against IPI. These can be grouped into three broad categories: 1) prompt-based (using prompting as a way to prevent agents from following malicious instructions), 2) detection-based (identifying and filtering malicious instructions), and 3) system-level (using systems insights, such as control and data isolation, for defense). However, commonly used benchmarks for evaluating defense, such as AgentDojo, are \emph{inherently static}, generating a fixed distribution of IPI attacks. Consequently, static benchmarks do not usefully evaluate defense robustness to adaptive threats. We address this issue by developing AutoDojo, an adaptive extension of AgentDojo that optimizes IPI against a given defense. Using AutoDojo against state-of-the-art IPI defenses across three task suites and five target models, we make two key observations. First, many defenses offer only limited protection: a cheap, black-box adaptive attack using a frontier LLM to iteratively optimize the injection raises attack success rate (ASR) well above the level achieved by static injections against nearly all evaluated defenses. Against a filter that reduces static ASR to 0\%, AutoDojo recovers 28\% overall and 64\% on action-open tasks. Second, for prompt-level and filter-based defenses, ASR is substantially higher on \emph{action-open} tasks -- where the user's request delegates the action itself to attacker-controlled content -- than on precisely specified tasks. This is a structural limit: on such tasks the injection can pose as ordinary data rather than an explicit instruction, bypassing defenses that rely on detecting instruction-like text. AutoDojo is publicly available at https://github.com/xhOwenMa/AutoDojo.
- Abstract(参考訳): 間接的プロンプトインジェクション(IPI)は、LLMを動力とするエージェントに対する主要なセキュリティ脅威である。
そのため、IPIに対する様々な防御的アプローチが提案されている。
これらは3つの大きなカテゴリに分類できる。
1)プロンプトベース(エージェントが悪意のある指示に従うのを防ぐためのプロンプトを利用する)
2 検出ベース(悪意のある指示の特定及びフィルタリング)及び
3)システムレベル(制御やデータアイソレーションなどのシステムインサイトを使用して、防御)。
しかし、AgentDojoのような防御を評価するためによく使われるベンチマークは \emph{inherently static} であり、IPI攻撃の固定分布を生成する。
その結果、静的なベンチマークでは、アダプティブな脅威に対する防御ロバスト性を評価できない。
我々は、与えられた防御に対してIPIを最適化するAgentDojoの適応的な拡張であるAutoDojoを開発することでこの問題に対処する。
3つのタスクスイートと5つのターゲットモデルにわたる最先端ITI防御に対してAutoDojoを使用することで、2つの重要な観察を行う。
まず、多くの防御は限定的な防御しか提供しない:フロンティアLSMを用いた安価なブラックボックス適応攻撃は、ほぼすべての評価された防御に対して静的な注入によって達成された攻撃成功率(ASR)をはるかに上回っている。
静的 ASR を 0 % に下げるフィルタに対して、AutoDojo は、アクションオープンタスクで 28 % と 64 % を回復する。
第二に、プロンプトレベルとフィルタベースのディフェンスでは、ASRは、正確に指定されたタスクよりも、ユーザの要求がアクション自体をアタッカー制御されたコンテンツに委譲する \emph{action-open} タスクの方がはるかに高い。
このようなタスクでは、インジェクションは明示的な命令ではなく通常のデータとして機能し、命令のようなテキストの検出に依存するディフェンスをバイパスする。
AutoDojoはhttps://github.com/xhOwenMa/AutoDojo.comで公開されている。
関連論文リスト
- Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment [25.752599132396437]
間接的なプロンプトインジェクションは、エージェントがタスク実行中に検索するサードパーティデータに悪意のある命令を埋め込むことによって、LLMベースのエージェントをハイジャックする。
既存のディフェンスでは、静的なベンチマークでほぼゼロの攻撃成功率を報告しているが、最近のアダプティブ評価では、攻撃者がデプロイされたディフェンスに対して最適化を許せば、これらの結果は崩壊する。
本稿では,攻撃者が制御するデータではなく,ユーザタスクに対する防衛判断を基礎としたトレーニングベースのRETAを提案する。
論文 参考訳(メタデータ) (2026-06-13T19:15:44Z) - PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses [19.85522880335499]
PISmithは,既存のプロンプト・インジェクション・ディフェンスを評価するフレームワークである。
強力な防御に標準GRPOを適用すると、準最適性能が得られることが判明した。
適応的エントロピー正則化と動的優位重み付けを導入し、探索を継続し、少ない成功から学習を増幅する。
論文 参考訳(メタデータ) (2026-03-13T14:34:54Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis [48.70474961584997]
インダイレクト・プロンプト・インジェクション・アタック(IPIA)は大きな言語モデル(LLM)に重大な脅威をもたらす
IntentGuardは、命令追従インテント分析に基づく一般的な防御フレームワークである。
論文 参考訳(メタデータ) (2025-11-30T16:29:04Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。