論文の概要: Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems
- arxiv url: http://arxiv.org/abs/2606.18310v1
- Date: Tue, 16 Jun 2026 09:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.815058
- Title: Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems
- Title(参考訳): LLMに基づくRAGシステムにおける知識注入攻撃のための競合認識レトリバー編集
- Authors: Xinru Liu, Xianglong Zhang, Di Cai, Zhumin Chen, Pengfei Hu, Xin Xin,
- Abstract要約: 検索強化世代(RAG)システムに悪意のある知識を注入すると、検索された証拠を操作でき、下流生成を誤解させる。
本稿では、RAGにおける悪意ある知識注入のためのモデル中心の検索攻撃フレームワークであるCAREATTACKを提案する。
- 参考スコア(独自算出の注目度): 15.82084371924438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Injecting malicious knowledge into retrieval-augmented generation (RAG) systems can manipulate retrieved evidence and mislead downstream generation, posing a serious security threat for AI applications. Existing RAG injection attacks mainly rely on manipulating external knowledge bases, such as crafting malicious corpus. However, the synthetic text crafted by such data-centric methods could be detectable, leading to the failure of attacks. Beyond corpus manipulation, open-source retrievers are increasingly exposing RAG systems to model-centric attacks. In this paper, we propose conflict-aware retriever editing, i.e., CAREATTACK, a model-centric retriever attack framework for malicious knowledge injection in RAG. Specifically, CAREATTACK consists two stages of conflict-aware retriever editing and attack-preserving anchor repair. Conflict-aware retriever editing adapts efficient closed-form parameter editing to the dense retrieval model, promoting malicious knowledge above benign competing passages and resolving potential parameter conflicts through graph-based conflict detection and parameter editing projection. Then, attack-preserving anchor repair performs lightweight calibration on the edited retriever to further eliminate the impact on non-target prompts while preserving the attack effectiveness for target prompts. We instantiate CAREATTACK on Qwen3-Embedding-0.6B and BGE-M3, and conduct evaluation on three benchmark datasets. Experimental results demonstrate our method substantially promote malicious passages into the retrieved knowledge of RAG systems and can perform attacks for batches of target prompts and passages, given the access of retrieval model parameters. Since most RAG systems are built upon open-source retrieval models, this work reveals a practical attack surface in RAG systems. Codes are public accessible at https://anonymous.4open.science/r/CareAttack-3F1C.
- Abstract(参考訳): 検索強化世代(RAG)システムに悪意のある知識を注入することで、検索された証拠を操作でき、下流生成を誤解させ、AIアプリケーションに深刻なセキュリティ上の脅威をもたらす。
既存のRAGインジェクション攻撃は、主に悪意あるコーパスを作成するなど、外部知識ベースを操作することに依存している。
しかし、このようなデータ中心の手法で作られた合成テキストは検出可能であり、攻撃の失敗に繋がる可能性がある。
コーパス操作以外にも、オープンソースレトリバーはモデル中心の攻撃に対してRAGシステムを公開する傾向にある。
本稿では、RAGにおける悪意ある知識注入のためのモデル中心のレトリバー攻撃フレームワークであるCAREATTACKを提案する。
具体的には、CAREATTACKは、コンフリクト対応レトリバーの編集とアタック保存アンカーの修復の2段階からなる。
競合認識型レトリバーの編集は、高密度検索モデルに効率的なクローズドフォームパラメータの編集を適応させ、良質な競合する通路上の悪意のある知識を促進し、グラフベースの競合検出とパラメータのプロジェクションによって潜在的なパラメータの競合を解決する。
そして、編集されたレトリバーの軽量校正を行い、ターゲットプロンプトに対する攻撃効果を保ちつつ、非ターゲットプロンプトへの影響をさらに排除する。
Qwen3-Embedding-0.6BとBGE-M3でCAREATTACKをインスタンス化し、3つのベンチマークデータセットで評価を行う。
実験により,本手法はRAGシステムの検索した知識への悪意あるパスを効果的に促進し,検索モデルパラメータへのアクセスを考慮し,ターゲットのプロンプトやパスのバッチに対する攻撃を行うことができることを示した。
ほとんどのRAGシステムはオープンソースの検索モデル上に構築されているため、本研究はRAGシステムにおける実用的な攻撃面を明らかにする。
コードはhttps://anonymous.4open.science/r/CareAttack-3F1Cで公開されている。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - RIPRAG: Hack a Black-box Retrieval-Augmented Generation Question-Answering System with Reinforcement Learning [23.957879891712306]
本稿では,ターゲットRAGシステムをブラックボックスとして扱うエンドツーエンド攻撃パイプラインを提案する。
本手法は,ほとんどの複雑なRAGシステムに対する毒性攻撃を効果的に実行できることを実証する。
論文 参考訳(メタデータ) (2025-10-11T04:23:20Z) - External Data Extraction Attacks against Retrieval-Augmented Large Language Models [70.47869786522782]
RAGは、大規模言語モデル(LLM)を拡張するための重要なパラダイムとして登場した。
RAGは外部データ抽出攻撃(EDEA)の新たなリスクを導入している。
本研究は, EDEA を検索拡張 LLM に対して形式化する最初の総合的研究である。
論文 参考訳(メタデータ) (2025-10-03T12:53:45Z) - Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning [14.419943772894754]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
論文 参考訳(メタデータ) (2025-08-27T17:49:28Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。