論文の概要: A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots
- arxiv url: http://arxiv.org/abs/2606.19660v1
- Date: Wed, 17 Jun 2026 23:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.586032
- Title: A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots
- Title(参考訳): RAGベースのチャットボットにおけるプロンプトインジェクションに対する階層型セキュリティフレームワーク
- Authors: Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan,
- Abstract要約: 推論パイプライン全体を通して直接および間接的なインジェクションをインターセプトする3層フレームワークを提案する。
GPT-4o、Llama 3、Mistral 7Bの5,080サンプルの評価は、このフレームワークが攻撃成功率(ASR)を71.4%から11.3%に下げていることを示している。
- 参考スコア(独自算出の注目度): 1.948261185683419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection is ranked as the most critical vulnerability in large language model (LLM) deployments by the OWASP Top 10 for LLM Applications, yet existing defenses operate at isolated pipeline stages and remain incomplete. Input filters cannot inspect retrieved documents, while output monitors cannot prevent malicious payloads from reaching the model. Consequently, retrieval-augmented generation (RAG) chatbots remain vulnerable to indirect injection, where a poisoned knowledge-base document compromises every user whose query retrieves it. We present a three-layer framework that intercepts both direct and indirect prompt injection throughout the inference pipeline. Layer 1 screens user input using a rule-based pattern library and a fine-tuned semantic anomaly classifier. Layer 2 enforces a provenance-based instruction hierarchy during context assembly, preventing retrieved content from overriding operator policy. Layer 3 audits model output using a policy rule engine and semantic drift detector before delivery. A continuous audit loop aggregates structured logs and supports retraining to adapt the classifier to emerging attack patterns. The framework is model-agnostic and deploys as middleware without modifying the underlying LLM. Evaluation on 5,080 samples across GPT-4o, Llama 3, and Mistral 7B shows that the framework reduces Attack Success Rate (ASR) from 71.4\% to 11.3\%, outperforming the best single-layer baseline by 27.3 percentage points and a published guardrail system by 23.8 percentage points, while maintaining a 4.8\% false positive rate and a median latency overhead of 61.2 ms. Ablation studies confirm that all three layers provide complementary protection and that their combined effect exceeds the sum of individual contributions.
- Abstract(参考訳): OWASP Top 10 for LLM Applicationsによって、大規模な言語モデル(LLM)デプロイメントにおいて、プロンプトインジェクションは最も重大な脆弱性とされているが、既存のディフェンスは独立したパイプラインステージで動作し、不完全なままである。
入力フィルタは取得した文書を検査することはできず、出力モニタは悪意のあるペイロードがモデルに到達するのを防ぐことはできない。
その結果、検索強化世代(RAG)チャットボットは間接注入に弱いままであり、有害な知識ベースのドキュメントは、クエリがそれを検索するすべてのユーザを侵害する。
推論パイプライン全体を通して直接および間接的なインジェクションをインターセプトする3層フレームワークを提案する。
Layer 1はルールベースのパターンライブラリと微調整されたセマンティックな異常分類器を使ってユーザ入力をスクリーニングする。
レイヤ2は、コンテキストアセンブリ中にプロファイランスベースの命令階層を実行し、取得したコンテンツが演算子ポリシーをオーバーライドすることを防ぐ。
レイヤ3は、配信前にポリシールールエンジンとセマンティックドリフト検出器を使用してモデル出力を監査する。
継続的監査ループは構造化ログを集約し、新たな攻撃パターンに分類器を適応させるために再トレーニングをサポートする。
フレームワークはモデルに依存しず、基盤となるLLMを変更することなくミドルウェアとしてデプロイされる。
GPT-4o、Llama 3、Mistral 7Bの5,080サンプルの評価では、このフレームワークは攻撃成功率(ASR)を71.4\%から11.3\%に下げ、最高の単層ベースラインを27.3ポイント、ガードレールシステムを23.8ポイント、偽陽性率4.8\%、平均遅延オーバーヘッド61.2msで上回っている。
関連論文リスト
- AutoDojo: Adaptive Attacks Expose Superficial Defenses and User-Underspecification Limits in LLM Agents [57.34566159148893]
間接的プロンプトインジェクション(IPI)は、LLMを動力とするエージェントに対する主要なセキュリティ脅威である。
我々は、特定の防御に対してIPIを最適化するAgentDojoの適応的な拡張であるAutoDojoを開発した。
論文 参考訳(メタデータ) (2026-06-13T02:09:08Z) - VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation [98.38575149237442]
VLAA-GUIは3つの統合コンポーネントを中心に構築されたモジュラーGUIフレームワークである。
必須完全性検証は、UIで観測可能な成功基準と検証を、各完了ステップで実施する。
強制的なループブレーカは、繰り返し失敗した後、多層切替インタラクションモードを提供する。
論文 参考訳(メタデータ) (2026-04-23T07:42:37Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation [0.0]
本稿では,不正なユーザクエリを自己再構成プロンプトに変換する自動ジェイルブレイク攻撃を提案する。
GPT 4oに対してRoguePromptをインスタンス化し、2 448で評価すると、以前は強く拒否されていた生産モデレーションシステムであることが示唆される。
3つのセキュリティ関連の結果のバイパス、再構築、実行を分離する評価プロトコルの下で、攻撃は84.7%のバイパス、80.2%の再構築、および71.5パーセントの完全な実行を達成した。
論文 参考訳(メタデータ) (2025-11-24T05:42:54Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。