論文の概要: Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
- arxiv url: http://arxiv.org/abs/2606.18530v1
- Date: Tue, 16 Jun 2026 22:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.925469
- Title: Evaluating Prompting-Based Defenses Against Domain-Camouflaged Injection Attacks
- Title(参考訳): ドメイン・カモフラージュ・インジェクション・アタックに対するプロンプト・ベース・ディフェンスの評価
- Authors: Aaditya Pai,
- Abstract要約: ドメイン・カモフラージュ・インジェクション(Domain-camouflaged Injection)攻撃(Domain-camouflaged Injection)は、検索されたコンテンツに、ドメインに適した語彙を使って悪意のある命令を埋め込む。
ドメイン・カモフラージ・インジェクションに対する5つのプロンプト・ベース・ディフェンスの評価を行った。
エージェント処理の前に検索したコンテンツをパラフレーズで表現することは、このベンチマークで最も一貫して効果的な防御である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-camouflaged injection attacks embed malicious instructions in retrieved content using domain-appropriate vocabulary, evading standard detectors that rely on syntactic injection markers. When detection fails, practitioners need to know which defense architectures reduce attack success. We evaluate five prompting-based defenses (spotlighting, paraphrasing, prompt sandwiching, and two combinations) against domain-camouflaged injection across three model families (Claude Haiku, Llama 3.1 8B, Gemini 2.0 Flash) and three deployment domains (financial, legal, general) using 3,510 trials. Paraphrasing retrieved content before agent processing is the most consistently effective defense in this benchmark, reducing camouflage attack success rate by 55-84\% depending on model, and achieves lower attack success rates than our Llama Guard 4 configuration on every model tested. Defense effectiveness is strongly model-dependent: spotlighting halves attack success on Claude Haiku but provides no benefit on Llama 3.1 8B. Financial domain deployments face the highest residual risk at 26-33\% baseline attack success rate, with no prompting-based defense fully eliminating the threat on weaker models. These results provide the first systematic evaluation of prompting-based defenses specifically against camouflage-class injection attacks and establish benchmark-based recommendations for practitioners. All tasks use synthetically constructed professional documents; whether these benchmark rankings generalize to real enterprise documents remains an open question.
- Abstract(参考訳): ドメイン・カモフラージュ・インジェクション(Domain-camouflaged Injection)攻撃(Domain-camouflaged Injection)は、ドメインに適した語彙を使って、検索されたコンテンツに悪意のある命令を埋め込む。
検知が失敗した場合、実践者はどの防御アーキテクチャが攻撃の成功を減少させるかを知る必要がある。
我々は,3,510トライアルを用いて,3つのモデルファミリー(Claude Haiku,Llama 3.1 8B,Gemini 2.0 Flash)と3つのデプロイドメイン(金融,法的,一般)にまたがるドメインカモフラージュ注入に対する5つのプロンプトベースの防御(スポットライト,パラフレージング,プロンプトサンドイッチ,および2つの組み合わせ)を評価した。
このベンチマークでは、エージェント処理の前に検索されたコンテンツのパラフレーズ化が最も有効であり、モデルによってはカモフラージュ攻撃の成功率を55~84パーセント削減し、テスト対象モデル毎のLlama Guard 4構成よりも低い攻撃成功率を達成する。
防御効果はモデルに依存しており、クロード・ハイクのスポットライトは成功しているが、Llama 3.1 8Bの利点は得られない。
金融ドメインの展開は、ベースライン攻撃の成功率26-33\%で最大のリスクに直面しており、弱いモデルに対する脅威を完全に排除するプロンプトベースの防御は存在しない。
これらの結果は,カモフラージュ型インジェクションアタックに対するプロンプトベースの防御を初めて体系的に評価し,実践者に対するベンチマークベースのレコメンデーションを確立した。
これらのベンチマークが実際のエンタープライズ文書に一般化するかどうかは未解決のままである。
関連論文リスト
- Automated jailbreak attack targeting multiple defense strategies [11.710908982928594]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、敵の攻撃による攻撃を受けやすいため、その安全性は依然として重要な懸念事項である。
防衛指向の観点から設計した対戦型テストフレームワークUNIATTACKを提案する。
論文 参考訳(メタデータ) (2026-06-15T14:09:37Z) - Defending against Adaptive Prompt Injection Attacks via Reasoning-enabled Task Alignment [25.752599132396437]
間接的なプロンプトインジェクションは、エージェントがタスク実行中に検索するサードパーティデータに悪意のある命令を埋め込むことによって、LLMベースのエージェントをハイジャックする。
既存のディフェンスでは、静的なベンチマークでほぼゼロの攻撃成功率を報告しているが、最近のアダプティブ評価では、攻撃者がデプロイされたディフェンスに対して最適化を許せば、これらの結果は崩壊する。
本稿では,攻撃者が制御するデータではなく,ユーザタスクに対する防衛判断を基礎としたトレーニングベースのRETAを提案する。
論文 参考訳(メタデータ) (2026-06-13T19:15:44Z) - Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models [0.0]
MLLM(Multimodal large language model)は、安全上重要なアプリケーションに実装されている。
新しい脆弱性クラスごとにモデルをリトレーニングするのは、実用には高すぎる。
3時間防衛法とその組み合わせに関する比較実験的な評価を報告する。
論文 参考訳(メタデータ) (2026-06-09T14:13:54Z) - Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw [87.97230960702274]
本稿では,OpenClawの安全性評価について紹介する。
エージェントの永続状態を3次元に統一するCIK分類法を導入する。
評価では、ライブOpenClawインスタンス上の12のアタックシナリオをカバーしています。
論文 参考訳(メタデータ) (2026-04-06T15:27:05Z) - AttackEval: A Systematic Empirical Study of Prompt Injection Attack Effectiveness Against Large Language Models [0.0]
アタックエヴァル(AttackEval)は、インジェクション攻撃の有効性の体系的研究である。
我々は3つの親集団(シンタクティック、コンテクチュアル、セマンティック/社会)に分類される10の攻撃カテゴリーの分類を構築する。
本研究は,4つのより強力な防衛層下での模擬生産犠牲者システムに対して評価を行った。
論文 参考訳(メタデータ) (2026-04-04T05:49:30Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - Enhancing Object Detection Robustness: Detecting and Restoring Confidence in the Presence of Adversarial Patch Attacks [2.963101656293054]
敵パッチに対するYOLOv5モデルの防御機構について検討した。
我々はSegment and Complete (SAC)、Inpainting、Latent Diffusion Modelsを含むいくつかの防衛実験を行った。
その結果, 対向パッチは平均検出信頼度を22.06%低下させることがわかった。
論文 参考訳(メタデータ) (2024-03-04T13:32:48Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。