論文の概要: Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents
- arxiv url: http://arxiv.org/abs/2606.24402v1
- Date: Tue, 23 Jun 2026 10:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.901526
- Title: Poisoned Playbooks: Demystifying Knowledge Poisoning Effects on AI Security Agents
- Title(参考訳): 毒殺されたプレイブック:AIのセキュリティエージェントに影響を及ぼす知識の毒殺
- Authors: Juho Park, Hyunmin Choi, Kevin Nam,
- Abstract要約: 我々は、RAGベースのAIセキュリティエージェントの振る舞いを、公開スタイルのセキュリティ知識ソースに注入された単一の有毒な書き込みがどのように変えているかを示す。
11のCTF課題,3つのフロンティアLSMファミリー,2つのモデル世代,11の現実世界のCVEにまたがって,有毒化はランダムではなく体系的であることがわかった。
また,より強い証拠が存在する場合にも有効であるが,スパース・エビデンスやゼロデイ条件下では弱くなることを示す。
- 参考スコア(独自算出の注目度): 1.7481237728524617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI security agents increasingly rely on Retrieval-Augmented Generation (RAG) to use external security knowledge for vulnerability analysis and exploit reasoning. This creates a new risk: poisoned write-ups can be operationalized into incorrect exploit behavior. Yet, prior work on RAG poisoning has mostly studied answer corruption in QA settings, much less is known about action-taking security agents. This paper aims to reveal such characteristics with crafted poisons about real-world challenges and AI agents. First, we demonstrate how a crafted single poisoned write-up injected into public-style security knowledge sources which we denote as Poisoned Playbooks, alters the behavior of RAG-based AI security agents. Across 11 CTF challenges, 3 frontier LLM families, 2 model generations, and 11 real-world CVEs, we find that poison adoption is systematic rather than random. To explain this pattern, we introduce the Verification Boundary (VB), a 3-level empirical classification based on what evidence the agent can use to refute a retrieved claim. Finally, we evaluate verification prompting and multi-source retrieval, showing that both help when stronger evidence exists, but weaken under sparse-evidence and zero-day conditions.
- Abstract(参考訳): AIセキュリティエージェントは、脆弱性分析とエクスプロイト推論に外部セキュリティ知識を使用するために、Retrieval-Augmented Generation(RAG)にますます依存している。
これは新たなリスクを生み出します。 有毒な書き込みは不正なエクスプロイト動作に操作できます。
しかし、RAG中毒に関する以前の研究は、QA設定での回答の腐敗を主に研究しており、アクションテイクセキュリティエージェントについてはあまり知られていない。
本稿では,現実世界の課題やAIエージェントに関する有毒物質を用いて,このような特徴を明らかにすることを目的とする。
まず、我々がPoisoned Playbooksと呼ぶ公開スタイルのセキュリティ知識ソースに、単一の有毒な書き込みが注入され、RAGベースのAIセキュリティエージェントの振る舞いがどう変化するかを実証する。
11のCTF課題,3つのフロンティアLSMファミリー,2つのモデル世代,11の現実世界のCVEにまたがって,有毒化はランダムではなく体系的であることがわかった。
このパターンを説明するために,検索されたクレームを反証するために,エージェントがどのようなエビデンスを利用できるかに基づく3段階の実証的分類である検証境界(VB)を導入する。
最後に, より強い証拠が存在する場合にも有効であるが, スパース・エビデンスやゼロデイ条件下では弱くなることを示す。
関連論文リスト
- SoK: The Attack Surface of Agentic AI -- Tools, and Autonomy [3.340255811686752]
最近のAIシステムは、大規模な言語モデルとツール、検索強化生成(RAG)による外部知識を組み合わせている。
このエージェントAIパラダイムは、能力を大幅に拡張すると同時に、攻撃面を大きく拡大する。
我々は、即時レベルの注射、知識ベース中毒、ツール/プラグインエクスプロイト、マルチエージェント緊急脅威にまたがる攻撃の包括的分類を開発する。
論文 参考訳(メタデータ) (2026-03-24T08:21:51Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [28.06028279729382]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Backdoor Attacks Against Incremental Learners: An Empirical Evaluation
Study [79.33449311057088]
本稿では,11人の典型的なインクリメンタル学習者の3つの学習シナリオに対する中毒ベースのバックドア攻撃に対する高い脆弱性を実証的に明らかにする。
アクティベーションクラスタリングに基づく防御機構は,潜在的なセキュリティリスクを軽減するためのトリガーパターンの検出に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-28T09:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。