Fugu-MT 論文翻訳(概要): PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections

論文の概要: PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections

arxiv url: http://arxiv.org/abs/2606.12737v1
Date: Wed, 10 Jun 2026 22:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.496103
Title: PI-Hunter: Automated Red-Teaming for Exposing and Localizing Prompt Injections
Title（参考訳）: PI-Hunter: プロンプトインジェクションの抽出とローカライズのための自動化されたレッドチーム
Authors: Pengfei He, Lesly Miculicich, Vishesh Sharma, Ash Fox, George Lee, Jiliang Tang, Tomas Pfister, Long T. Le,
Abstract要約: 大きな言語モデル(LLM)は、外部のツールや環境と相互作用するエージェントシステムへと急速に進化しています。 LLMエージェントのプロアクティブな脆弱性暴露のための自動エージェント監査フレームワークPI-Hunterを提案する。
参考スコア（独自算出の注目度）: 51.8246149916068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are rapidly evolving into agentic systems that interact with external tools and environments, introducing new security risks such as indirect prompt injection attacks through untrusted external sources. Existing defenses mainly focus on blocking malicious content at inference time, and current red-teaming methods primarily optimize attack success. As a result, developers have limited visibility into how latent prompt injections emerge and propagate through agents. We propose PI-Hunter, an automated agentic auditing framework for proactive vulnerability exposure in LLM agents. PI-Hunter constructs realistic source-aware test cases and iteratively evolves them through feedback-driven exploration to induce agents to retrieve and reveal latent malicious instructions embedded within external environments. Extensive experiments across multiple benchmarks, agent architectures, attacks, and defenses demonstrate that PI-Hunter substantially improves vulnerability exposure and attack-surface coverage over strong automated red-teaming baselines, while remaining effective under existing prompt injection defenses.
Abstract（参考訳）: 大規模言語モデル(LLM)は、外部ツールや環境と相互作用するエージェントシステムへと急速に進化し、信頼できない外部ソースへの間接的なインジェクション攻撃のような新たなセキュリティリスクを導入している。既存の防御は、主に推論時に悪意のあるコンテンツをブロックすることに焦点を当てており、現在のレッドチーム方式は主に攻撃の成功を最適化している。その結果、開発者はエージェントを介して潜伏的なプロンプトインジェクションがどのように出現し、伝播するかを限定的に見ることができる。 LLMエージェントのプロアクティブな脆弱性暴露のための自動エージェント監査フレームワークPI-Hunterを提案する。 PI-Hunterは、現実的なソース認識テストケースを構築し、フィードバック駆動による探索を通じてそれらを反復的に進化させ、エージェントに外部環境に埋め込まれた潜伏した悪意のある命令を検索し、明らかにするよう誘導する。複数のベンチマーク、エージェントアーキテクチャ、アタック、ディフェンスにわたる大規模な実験により、PI-Hunterは脆弱性の暴露と強力な自動化されたリピートベースラインに対する攻撃面カバレッジを大幅に改善する一方で、既存のプロンプトインジェクションディフェンスの下では有効であることが示された。

関連論文リスト

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents [121.77550256034]
DecodingTrust-Agent Platform (DTap)は、AIエージェントのためのコントロール可能でインタラクティブなレッドチームプラットフォームである。 DTap-Redは、多様なインジェクションベクターを探索し、効果的な攻撃戦略を自律的に発見する、最初の自律的赤チームエージェントである。 DTapを通じて、さまざまなバックボーンモデル上に構築された一般的なAIエージェントの大規模評価を行う。
論文参考訳（メタデータ） (2026-05-06T11:59:48Z)
AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization [37.5130864321051]
本稿では,セマンティックな特権分離を実現する新しい防衛フレームワークであるAgentVisorを提案する。 AgentVisorは、ターゲットエージェントを信頼できないゲストとして扱い、信頼できるセマンティックバイザを介してツールコールをインターセプトする。我々はAgentVisorが攻撃成功率を0.65%に下げ、この強力な防御を達成し、実用性は1.45%しか低下しないことを示した。
論文参考訳（メタデータ） (2026-04-27T07:12:52Z)
Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。 9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文参考訳（メタデータ） (2026-04-04T21:27:04Z)
Exploiting Web Search Tools of AI Agents for Data Exfiltration [0.46664938579243564]
大規模言語モデル(LLM)は、自然言語処理からWeb検索のような動的まで、複雑なタスクの実行に日常的に使用されている。ツールコールと検索拡張生成(RAG)の使用により、LLMは機密性の高い企業データの処理と取得が可能になり、その機能と悪用に対する脆弱性の両方を増幅する。我々は、現在のLLMが間接的にインジェクションアタックを誘導し、どのパラメーター、モデルサイズや製造元が脆弱性を形作り、どの攻撃方法が最も効果的かを分析する。
論文参考訳（メタデータ） (2025-10-10T07:39:01Z)
IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文参考訳（メタデータ） (2025-08-21T07:08:16Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。