論文の概要: From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails
- arxiv url: http://arxiv.org/abs/2606.14517v2
- Date: Tue, 16 Jun 2026 09:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.711394
- Title: From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails
- Title(参考訳): シールドからターゲットへ:LDMをベースとしたエージェントガードレールに対するサービス拒否攻撃
- Authors: Yuguang Zhou, Xunguang Wang, Pingchuan Ma, Zhantong Xue, Zhaoyu Wang, Shuai Wang,
- Abstract要約: LLMベースのガードレールは、自律エージェントの即時注入と脱獄攻撃に対する非常に効果的な防御として出現している。
攻撃者は、製造されたデータを注入して、長期の推論ループでガードレールをトラップし、系統的なサービス拒否攻撃を実施できることを示す。
1つの有毒な文書が共有ガードレールのインフラを飽和させ、効果的に共同配置されたエージェントを飢えさせ、システム全体を麻痺させることが示される。
- 参考スコア(独自算出の注目度): 9.514819678986488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based guardrails have emerged as a highly effective defense against prompt injection and jailbreak attacks in autonomous agents. However, we reveal that the very reasoning and task-following capabilities enabling this protection introduce a novel vulnerability: attackers can inject crafted data to trap the guardrail in extended reasoning loops, effectuating a systematic denial-of-service (DoS) attack. To systematically expose this threat, we design a beam-search optimization framework that crafts natural-language payloads to maximize guardrail reasoning length, utilizing an LLM proposer guided by a strategy bank. Based on the observation of guardrail's schema-following nature, we also provide another attack framework driven by mechanism-aware structural mutations with less computational load. The attack efficacy is systematically evaluated in two parts. First, in standalone evaluations, the attack generalizes across diverse guardrail architectures, safety templates, and agent benchmarks. Payloads optimized on a single open-source surrogate successfully transfer to eight leading model backbones (e.g., Claude, GPT, Gemini, DeepSeek, and Qwen), achieving a 13--63$\times$ token amplification. Second, in end-to-end real-world agent deployments (web, desktop, code, and multi-agent systems), the attack reveals up to a 148$\times$ latency amplification. We show that a single poisoned document can saturate shared guardrail infrastructures, effectively starving co-located agents and paralyzing the entire system. By uncovering this availability flaw, our work underscores the urgent need to develop cost-bounded, reasoning-robust guardrails.
- Abstract(参考訳): LLMベースのガードレールは、自律エージェントの即時注入と脱獄攻撃に対する非常に効果的な防御として出現している。
しかし、この保護を可能にする、まさに推論とタスクフォローの能力は、新しい脆弱性をもたらす。攻撃者は、工芸データを注入して、拡張された推論ループでガードレールをトラップし、系統的なDoS攻撃を実施できる。
この脅威をシステマティックに露呈するために、戦略銀行が案内するLLMプロポーザルを用いて、自然言語ペイロードを用いてガードレール推論長を最大化するビーム探索最適化フレームワークを設計する。
また、ガードレールのスキーマ追従特性を観察した結果、より少ない計算負荷で構造変異を認識できる別のアタック・フレームワークも提供した。
攻撃効果は2つの部分で系統的に評価される。
まず、スタンドアロンの評価において、攻撃はさまざまなガードレールアーキテクチャ、安全テンプレート、エージェントベンチマークにまたがって一般化される。
単一のオープンソースサロゲートに最適化されたペイロードは、8つの主要なバックボーン(例えば、Claude、GPT、Gemini、DeepSeek、Qwen)への転送に成功し、13-63$\times$トークン増幅を実現した。
第二に、エンドツーエンドのエージェントデプロイメント(Web、デスクトップ、コード、マルチエージェントシステム)では、攻撃は148$\times$遅延増幅となる。
1つの有毒な文書が共有ガードレールのインフラを飽和させ、効果的に共同配置されたエージェントを飢えさせ、システム全体を麻痺させることが示される。
この可用性の欠陥を明らかにすることで、当社の作業は、コストバウンドでロバストなガードレールを開発する緊急の必要性を浮き彫りにします。
関連論文リスト
- Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions [15.535628544812326]
LLMをベースとしたエージェントシステムを対象とした,新しい多次元回避フレームワークを提案する。
これらの脅威を定量化するために,2,254個の実世界のエージェント実行軌跡からなる総合ベンチマークであるA3S-Benchを構築した。
我々の回避フレームワークは平均リスクトリガー率を28.3%から52.6%に引き上げる。
論文 参考訳(メタデータ) (2026-05-21T11:07:51Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Black-Box Guardrail Reverse-engineering Attack [12.937652779951156]
ブラックボックスLLMガードレールのリバースエンジニアリング攻撃に関する最初の研究を行った。
強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案する。
GRAは、APIコストが85ドル未満で、規則マッチングレートが0.92を超えている。
論文 参考訳(メタデータ) (2025-11-06T09:24:49Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。