論文の概要: Who Pays the Price? Stakeholder-Centric Prompt Injection Benchmarking for Real-world Web Agents
- arxiv url: http://arxiv.org/abs/2606.13385v1
- Date: Thu, 11 Jun 2026 14:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.843953
- Title: Who Pays the Price? Stakeholder-Centric Prompt Injection Benchmarking for Real-world Web Agents
- Title(参考訳): 代償は誰に支払うか : 現実世界のWebエージェントのためのステークホルダー中心のプロンプトインジェクションベンチマーク
- Authors: Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei Zhang,
- Abstract要約: 大規模言語モデル(LLM)によって駆動されるWebエージェントは、現実の環境にますますデプロイされる。
これにより、一見良質なコンテンツがエージェントの振る舞いを操作する敵の命令を埋め込む、プロンプト・インジェクション・アタックに対して脆弱になる。
実世界のWebエージェントシステムにおいて,損害を体系的に分類し,属性付けするベンチマークである textbfsysname を導入する。
- 参考スコア(独自算出の注目度): 93.19140872946842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents driven by large language models (LLMs) are increasingly deployed in real-world environments, where they operate over untrusted web content and execute actions with direct consequences. This makes them vulnerable to prompt-injection attacks, in which seemingly benign content embeds adversarial instructions that manipulate agent behaviour. Existing security benchmarks adopt an \textit{attack-centric} perspective, focusing on the technical feasibility of injections while overlooking the nuanced distribution of resulting harms. In practice, however, prompt-injection risk is victim-dependent: a single exploit can produce asymmetric consequences for different stakeholders, and the same attack pattern may exhibit substantially different effectiveness depending on whom it targets. To capture these properties, we introduce \textbf{\sysname}, a \textit{stakeholder-centric} benchmark to systematically categorize and attribute harm in real-world web agent systems. It distinguishes between affected entities (e.g., user, seller, platform), decomposes the attacks into concrete objectives, and evaluates each case with complementary outcome- and process-level metrics. Our results reveal substantial and heterogeneous vulnerabilities: not a single attack objective is reliably resisted by current agents, and failures distribute across qualitatively distinct modes ranging from \emph{stealthy parasitism} (attack succeeds without disrupting the user's delegated task) to \emph{misaligned disruption} (task disrupted without attack success) and \emph{compounded failure} (both adversarial objective and task integrity simultaneously violated). These patterns are missed by conventional evaluation, highlighting the need for stakeholder-aware assessment of LLM-based agents in real-world deployments. Benchmark is available at https://github.com/StakeBench/SBC.
- Abstract(参考訳): 大規模言語モデル(LLM)によって駆動されるWebエージェントは、信頼できないWebコンテンツを操作し、直接的な結果でアクションを実行する現実世界の環境にますますデプロイされている。
これにより、一見良質なコンテンツがエージェントの振る舞いを操作する敵の命令を埋め込む、プロンプト・インジェクション・アタックに対して脆弱になる。
既存のセキュリティベンチマークでは‘textit{ attack-centric} の観点を採用しており、結果として生じる害の微妙な分布を見下ろしながら、インジェクションの技術的実現性に注目している。
しかし、実際には、プロンプト・インジェクションのリスクは犠牲に依存しており、単一のエクスプロイトは異なる利害関係者に対して非対称な結果をもたらすことができ、同じ攻撃パターンは、その対象者によってかなり異なる効果を示す可能性がある。
これらの特性を捉えるために,実世界のWebエージェントシステムにおける害を体系的に分類し,属性付けするために,textit{stakeholder-centric} ベンチマークである \textbf{\sysname} を導入する。
影響を受けるエンティティ(ユーザ、販売者、プラットフォームなど)を区別し、攻撃を具体的な目的に分解し、補完的な結果とプロセスレベルのメトリクスで各ケースを評価する。
攻撃対象が1つではなく、現在のエージェントによって確実に抵抗されるわけではなく、(ユーザの委任されたタスクを中断することなく)攻撃が成功し、(攻撃が成功せずに中断される)、(敵の目的とタスクの整合性の両方が同時に侵害される)。
これらのパターンは従来の評価では欠落しており、現実の展開におけるLCMベースのエージェントの利害関係者意識評価の必要性を強調している。
Benchmarkはhttps://github.com/StakeBench/SBC.comで入手できる。
関連論文リスト
- ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection [28.414099578635373]
AgentLureは、コンテキスト依存タスクとコンテキスト認識インジェクション攻撃をキャプチャするベンチマークである。
この制限に対処するため,我々は,LDMエージェントの事前判定監査を実施する防衛機構であるARGUSを提案する。
論文 参考訳(メタデータ) (2026-05-05T05:37:00Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。
高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。
攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文 参考訳(メタデータ) (2025-04-22T17:51:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。