論文の概要: Evaluating RAG Reliability under Clean, Misleading, and Mixed Retrieval
- arxiv url: http://arxiv.org/abs/2606.07783v1
- Date: Fri, 05 Jun 2026 18:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 11:21:04.30285
- Title: Evaluating RAG Reliability under Clean, Misleading, and Mixed Retrieval
- Title(参考訳): クリーン, ミスリーディング, 混合検索におけるRAG信頼性の評価
- Authors: Sevgi Yigit-Sert,
- Abstract要約: 誤情報に富んだ環境では、検索されたコンテンツは、もっともらしいが誤った情報を含むことがある。
本稿では,RAGシステムが文脈から得られたパラメトリック知識と証拠との矛盾をどう扱うかを評価するための評価プロトコルを提案する。
本研究の目的は,情報障害のシナリオにおけるRAGシステムの堅牢性に関する洞察を提供することである。
- 参考スコア(独自算出の注目度): 0.12183405753834557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) is widely used to improve the factual reliability of large language models (LLMs) by grounding answers in retrieved evidence. In misinformation-rich environments, however, retrieved content may include plausible but incorrect information, raising concerns about the reliability of RAG-based information access systems. In this work, we propose an evaluation protocol to systematically test how the RAG system handles conflicts between parametric knowledge and evidence retrieved from context with varying amounts of misleading information. We target correct answers to factoid questions that the model responds to correctly, even when there is no retrieval, and use this to test the system with clean, poisoned, and mixed evidence. The proposed analytical framework combines parametric override and confidence metrics to assess when and how misleading information affects the generation process of LLMs. This study aims to provide insights into the robustness of RAG systems in information disorder scenarios.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の実際の信頼性を向上させるために広く用いられている。
しかし、誤情報に富んだ環境では、検索されたコンテンツには、可視だが誤った情報が含まれており、RAGベースの情報アクセスシステムの信頼性への懸念が高まっている。
本研究では,RAGシステムがどのようにパラメトリック知識と様々な誤解を招く情報を用いて,文脈から得られた証拠との矛盾を対処するかを,系統的に検証する評価プロトコルを提案する。
我々は、検索がなくてもモデルが正しく反応する事実のない質問に対する正しい答えをターゲットとし、これをクリーンで毒で混ざった証拠でシステムをテストするために使用します。
提案する分析フレームワークは、パラメトリックオーバーライドと信頼度を組み合わせ、ミスリード情報がLLMの生成過程にいつ、どのように影響するかを評価する。
本研究の目的は,情報障害のシナリオにおけるRAGシステムの堅牢性に関する洞察を提供することである。
関連論文リスト
- Bounding Hallucinations: Information-Theoretic Guarantees for RAG Systems via Merlin-Arthur Protocols [40.19713302778418]
本稿では,RAGパイプライン全体をインタラクティブな証明システムとして扱うためのトレーニングフレームワークを提案する。
その結果,M/A訓練によるLLMは,基礎性,完全性,音性,拒否行動が改善された。
本研究は,自律型対話型防犯スタイルの監視が,信頼性の高いRAGシステムへの原則的かつ実践的な経路を提供することを示す。
論文 参考訳(メタデータ) (2025-12-12T14:50:38Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Resolving Conflicting Evidence in Automated Fact-Checking: A Study on Retrieval-Augmented LLMs [12.923119372847834]
本稿では,ファクトチェックのためのRAGモデルを初めて体系的に評価する。
実験では、最先端のRAG手法、特にメディアソースの信頼性の違いに起因する紛争の解決において、重大な脆弱性が明らかにされている。
以上の結果から,情報源の信頼性を効果的に取り入れることで,矛盾する証拠を解決し,事実確認性能を向上させるRAGモデルの能力が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-23T11:35:03Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation [19.543102037001134]
言語モデル(LM)は幻覚や誤報に悩まされていることが知られている。
外部知識コーパスから検証可能な情報を検索する検索拡張生成(RAG)は、これらの問題に対する具体的な解決策を提供する。
RAG生成品質は、ユーザのクエリと検索したドキュメントの関連性に大きく依存する。
論文 参考訳(メタデータ) (2024-10-10T19:14:55Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。