論文の概要: When AUC 0.998 Is Not Enough: A Candidate Evaluation Protocol for Hidden-State Probes of Indirect Prompt Injection in Multimodal Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.22864v1
- Date: Mon, 22 Jun 2026 05:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:04:11.18427
- Title: When AUC 0.998 Is Not Enough: A Candidate Evaluation Protocol for Hidden-State Probes of Indirect Prompt Injection in Multimodal Computer-Use Agents
- Title(参考訳): AUC0.998が不十分な場合--マルチモーダルコンピュータ利用エージェントにおける間接プロンプト注入の隠れた状態プローブの候補評価プロトコル
- Authors: Yanhang Li, Zhichao Fan, Zexin Zhuang,
- Abstract要約: クリーンvs攻撃分割に関する高確率のAUCは、それ自体が悪意のあるコンテンツ検出の証拠ではないと我々は主張する。
本報告では,AUCが行なっている高いクリーンvsアタックを報告し,ライセンスを受けていないことを報告して,診断を候補制御セットとしてパッケージ化する。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hidden-state probing -- a linear classifier on a frozen vision-language model's internal activations -- has emerged as an attractive evaluation tool for flagging indirect prompt injection (IPI) in multimodal computer-use agents before the agent emits a corrupted action. We argue, on a single-backbone cautionary case study (Qwen2.5-VL-7B on Mind2Web, teacher-forced replay), that a high probing AUC on a clean-vs-attack split is not, on its own, evidence of malicious-content detection. Two post-hoc diagnostics -- a paired-construction scalar baseline on text-side injections, and same-step nuisance-matched visual controls on the overlay surface -- do not license an unqualified malicious-content interpretation of the headline while leaving room for partly-semantic readings. We package the diagnostics as a candidate control set with reporting heuristics for what a high clean-vs-attack AUC does and does not license. Labels are injection-surface-present, not attack success; generalisation beyond this backbone and benchmark is a conjecture.
- Abstract(参考訳): 凍結した視覚言語モデルの内部アクティベーションの線形分類器であるHidden-state Probingは、エージェントが腐敗したアクションを発行する前に、マルチモーダルコンピュータ使用エージェントに間接的プロンプトインジェクション(IPI)をフラグする魅力的な評価ツールとして登場した。
我々は、シングルバックの警告ケーススタディ(Qwen2.5-VL-7B on Mind2Web, teacher-forced replay)において、クリーンvs攻撃分割における高確率AUCは、それ自体は悪意のあるコンテンツ検出の証拠ではないと主張している。
2つのポストホック診断 -- テキストサイドインジェクションのペアコンストラクションスカラーベースラインと、オーバーレイサーフェス上の同じステップのニュアンスマッチングされたビジュアルコントロール -- は、部分的にセマンティックリーディングの余地を残しながら、ヘッドラインの不正なコンテンツ解釈を許可しない。
クリーンvs攻撃によるAUCの動作を報告し,ライセンスを受けない報告ヒューリスティックスを備えた候補制御セットとして,診断結果をパッケージ化する。
ラベルはインジェクションサーフェスであり、攻撃の成功ではない。
関連論文リスト
- CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization [17.941502260254673]
本稿では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに,ツール出力からAIシステムに指示された指示を外科的に除去するトークンレベルの衛生プロセスを提案する。
このアプローチは非ブロッキングであり、キャリブレーションを必要とせず、ツール出力のコンテキストに依存しない。
論文 参考訳(メタデータ) (2025-10-09T21:32:02Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [94.67980597764245]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。