論文の概要: Influence Factors on RAG Poisoning
- arxiv url: http://arxiv.org/abs/2606.12469v1
- Date: Tue, 09 Jun 2026 19:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.344189
- Title: Influence Factors on RAG Poisoning
- Title(参考訳): RAG中毒の要因
- Authors: Pedro Pereira, Eva Maia, Isabel Praça, Adrien Bécue,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、外部の知識ソースから取得した文書の応答を推論時にグラウンド化することで、大きな言語モデルを強化する。
本報告では,RAGの中毒性について,432個の構成を網羅したフルファクター実験により検討する。
密度とグラフベースのレトリバーは一般的にBM25と比較して堅牢性を向上させるが、より大きな検索深度は有毒な通路を回収する可能性を高める。
- 参考スコア(独自算出の注目度): 1.423280626666929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance large language models by grounding responses in retrieved documents from external knowledge sources at inference time. However, this reliance on retrieved content introduces vulnerabilities to poisoning attacks, in which adversarial documents can manipulate both the retrieval process and the generated outputs. This paper investigates poisoning robustness in RAG through a full factorial experimental study covering 432 configurations. We analyze the impacts of dataset, retriever type, retrieval depth, database composition, chunking strategy, and generator model on retrieval-level and generation-level metrics. The results show that retriever architecture, dataset, and retrieval depth are the strongest factors affecting poisoning exposure, while generator choice and database composition have a major impact on downstream attack success. Dense and graph-based retrievers generally improve robustness relative to BM25, whereas larger retrieval depth increases the likelihood of retrieving poisoned passages. We further show that replicating poisoned content across multiple databases amplifies adversarial influence, while additional clean sources can mitigate it. These findings highlight that poisoning vulnerability in RAG is not attributable to a single component, but instead arises from the interaction of retrieval, generation, and knowledge-base configuration.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部の知識ソースから取得した文書の応答を推論時にグラウンド化することで、大きな言語モデルを強化する。
しかし、この検索されたコンテンツへの依存は、敵文書が検索プロセスと生成された出力の両方を操作できるような、毒殺攻撃の脆弱性をもたらす。
本報告では,RAGの中毒性について,432個の構成を網羅したフルファクター実験により検討する。
我々は,データセット,検索者タイプ,検索深度,データベース構成,チャンキング戦略,ジェネレータモデルが検索レベルおよび生成レベル指標に与える影響を分析する。
その結果, 検索アーキテクチャ, データセット, 検索深度が毒性曝露に最も影響する要因であり, ジェネレータの選択とデータベース構成は下流攻撃の成功に大きな影響を及ぼすことがわかった。
密度とグラフベースのレトリバーは一般的にBM25と比較して堅牢性を向上させるが、より大きな検索深度は有毒な通路を回収する可能性を高める。
さらに、複数のデータベースにまたがる有害なコンテンツの複製は、敵の影響を増幅し、さらにクリーンなソースが軽減できることを示す。
これらの結果から,RAGの毒性脆弱性は単一成分に起因するものではなく,検索,生成,知識ベース構成の相互作用から生じることが示唆された。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots [10.538640148641532]
ニューラル検索には盲点があることを示し、クエリに関連するエンティティを検索できないが、クエリの埋め込みと類似性は低いと定義している。
我々は,このような盲点物質を埋め込み空間の到達不能な部分にマッピングする訓練によって引き起こされるバイアスについて検討した。
本稿では,高リスク(低RPS)エンティティの検索を可能にするパイプラインであるARGUSを紹介する。
論文 参考訳(メタデータ) (2026-02-10T10:04:55Z) - Secure Retrieval-Augmented Generation against Poisoning Attacks [10.964269668142151]
大規模言語モデル (LLM) は自然言語処理 (NLP) を変換した。
RaGuardは、有毒テキストを特定するために設計された検出フレームワークである。
大規模データセットの実験は、毒殺攻撃を検出し緩和する効果を実証している。
論文 参考訳(メタデータ) (2025-10-28T22:54:19Z) - Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation [18.511277791848638]
Retrieval-Augmented Generation (RAG)は、外部知識を大規模言語モデルに統合し、応答品質を向上させる。
近年の研究では、RAGシステムは、悪意のあるテキストを知識データベースに挿入し、モデル出力に影響を与える有害な攻撃に対して非常に脆弱であることが示されている。
本稿では,知識データベースのどのテキストが誤読や誤用の原因であるかを識別するブラックボックス責任属性フレームワークであるRAGOriginについて述べる。
論文 参考訳(メタデータ) (2025-09-17T07:38:54Z) - Controlled Retrieval-augmented Context Evaluation for Long-form RAG [58.14561461943611]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
論文 参考訳(メタデータ) (2025-06-24T23:17:48Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。