論文の概要: Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2606.20470v1
- Date: Thu, 18 Jun 2026 16:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.997522
- Title: Analyzing Defensive Misdirection Against Model-Guided Automated Attacks on Agentic AI Systems
- Title(参考訳): エージェントAIシステムにおけるモデル誘導自動攻撃に対する防御ミスダイレクトの分析
- Authors: Reza Soosahabi, Vivek Namsani,
- Abstract要約: エージェントAIシステムは、命令を解釈し、外部データを処理し、ツールを呼び出し、他のエージェントと調整するための言語モデルコンポーネントにますます依存している。
本研究は、標的システムの確率モデル、防御機構、および攻撃者の自動判断による攻撃防御設定を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI systems increasingly rely on language-model components to interpret instructions, process external data, invoke tools, and coordinate with other agents. These capabilities make prompt-injection and jailbreak attacks more consequential, especially as attackers adopt model-guided automation to scale probing, prompt refinement, and response evaluation. This work analyzes the resulting attack-defense setting through a probabilistic model of a target system, its defense mechanism, and the attacker's automated judge. Our analysis shows that conventional detect-and-block defenses can allow attacker success rate (ASR) to approach one as the query budget grows, since predictable refusals provide useful feedback to automated search. We then examine detect-and-misdirect, where detected malicious interactions receive controlled, non-operational responses designed to induce false-positive errors in the attacker's judge. This strategy reduces the positive predictive value of attacker-selected candidates and yields a bounded asymptotic ASR. We evaluate a proof-of-concept realization of this strategy through Contextual Misdirection via Progressive Engagement (CMPE), a lightweight conversational misdirection method designed to replace predictable refusal text with safe but strategically misleading responses in automated jailbreak settings. On jailbreak benchmarks, CMPE reduces estimated ASR upper bounds by up to two orders of magnitude and nearly eliminates verified attack success in end-to-end PAIR and GPTFuzz attack runs.
- Abstract(参考訳): エージェントAIシステムは、命令を解釈し、外部データを処理し、ツールを呼び出し、他のエージェントと調整するための言語モデルコンポーネントにますます依存している。
これらの機能は、プロンプトインジェクションとジェイルブレイク攻撃をより簡潔なものにします。特にアタッカーは、モデル誘導自動化を採用して、探索を拡大し、改善を迅速にし、応答評価します。
本研究は、標的システムの確率モデル、防御機構、および攻撃者の自動判断による攻撃防御設定を解析する。
我々の分析は,従来の検知・ブロック防御により,クエリ予算が増大するにつれて,攻撃者による攻撃成功率(ASR)にアプローチすることが可能であることが示している。
次に、検出された悪意のあるインタラクションが、攻撃者の判断における偽陽性エラーを誘発するように設計された、制御された非操作応答を受信する、検出とミスダイレクトを調べる。
この戦略は、攻撃者選択候補の正の予測値を減らし、有界漸近性ASRを得る。
自動ジェイルブレイク設定において、予測可能な拒絶文を安全かつ戦略的に誤解を招く応答に置き換えるように設計された、軽量な会話的ミスダイレクト手法である、プログレッシブ・エンゲージメント(CMPE)によるコンテキストミス指向(Contextual Misdirection)を通じて、この戦略を実証する。
ジェイルブレイクベンチマークでは、CMPEは推定されたASR上限を最大2桁まで削減し、エンドツーエンドのPAIRおよびGPTFuzz攻撃の実行において、検証された攻撃成功をほぼ排除する。
関連論文リスト
- Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment [25.752599132396437]
間接的なプロンプトインジェクションは、エージェントがタスク実行中に検索するサードパーティデータに悪意のある命令を埋め込むことによって、LLMベースのエージェントをハイジャックする。
既存のディフェンスでは、静的なベンチマークでほぼゼロの攻撃成功率を報告しているが、最近のアダプティブ評価では、攻撃者がデプロイされたディフェンスに対して最適化を許せば、これらの結果は崩壊する。
本稿では,攻撃者が制御するデータではなく,ユーザタスクに対する防衛判断を基礎としたトレーニングベースのRETAを提案する。
論文 参考訳(メタデータ) (2026-06-13T19:15:44Z) - Who Pays the Price? Stakeholder-Centric Prompt Injection Benchmarking for Real-world Web Agents [93.19140872946842]
大規模言語モデル(LLM)によって駆動されるWebエージェントは、現実の環境にますますデプロイされる。
これにより、一見良質なコンテンツがエージェントの振る舞いを操作する敵の命令を埋め込む、プロンプト・インジェクション・アタックに対して脆弱になる。
実世界のWebエージェントシステムにおいて,損害を体系的に分類し,属性付けするベンチマークである textbfsysname を導入する。
論文 参考訳(メタデータ) (2026-06-11T14:12:43Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。