論文の概要: X-MADAM-RAG: Diagnosing and Handling Chinese-English Evidence Conflict in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2606.12903v1
- Date: Thu, 11 Jun 2026 04:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.588342
- Title: X-MADAM-RAG: Diagnosing and Handling Chinese-English Evidence Conflict in Retrieval-Augmented Generation
- Title(参考訳): X-MADAM-RAG:検索・拡張世代における中国語と英語のエビデンス・コンフリクトの診断と扱い
- Authors: Yongqi Kang, Yu Fu, Yong Zhao,
- Abstract要約: Retrieval-augmented Generation (RAG) システムは、単にノイズであるだけでなく、相互に矛盾する証拠を受け取ることができる。
我々は、RAGにおける証拠衝突の診断のための中国語と英語の制御ベンチマークであるX-RAMDocs-ZHENを用いて、この問題を研究する。
X-MADAM-RAGは解釈可能なパイプラインであり、文書ごとの候補抽出、可視的修復、決定論的候補グループ化、コンフリクト・アウェア・アグリゲーションに処理するエビデンスを分解する。
- 参考スコア(独自算出の注目度): 8.057966659934769
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems may receive evidence that is not merely noisy but mutually contradictory. This issue becomes particularly salient in multilingual settings, where retrieved Chinese and English evidence may support incompatible answer candidates. We study this problem through X-RAMDocs-ZHEN, a controlled Chinese-English benchmark derived from RAMDocs for diagnosing evidence conflict in RAG. The benchmark contains 300 examples across six balanced conditions, including monolingual support, bilingual agreement, reversed conflict directions, and conflict with optional noise. We further examine X-MADAM-RAG, an interpretable pipeline that decomposes evidence handling into per-document candidate extraction, visible-evidence repair, deterministic candidate grouping, and conflict-aware aggregation. On the original controlled benchmark with Qwen2.5-7B-Instruct, X-MADAM-RAG achieves 0.9667 strict accuracy and 0.9767 conflict-aware success, outperforming an evidence-normalized single-call baseline. However, a zero-call rule-only extractor reaches 1.0000 on the same benchmark, revealing strong template regularity. To probe this limitation, we construct a deterministic naturalized stress test that removes explicit answer templates while preserving candidate strings. On its 100-sample subset, rule-only extraction falls to 0.0000, but X-MADAM-RAG also drops to 0.3000 strict accuracy, below both naive and evidence-normalized baselines. A privileged oracle remains perfect, indicating that document-level extraction is the main bottleneck. These findings position X-RAMDocs-ZHEN and X-MADAM-RAG as diagnostic tools for controlled evidence conflict rather than as evidence of general hallucination detection or robustness to natural retrieval.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、単にノイズであるだけでなく、相互に矛盾する証拠を受け取ることができる。
この問題は、検索された中国語と英語の証拠が互換性のない回答候補を支持する多言語設定において特に顕著になる。
本稿では,RAGにおけるエビデンスコンフリクトの診断のために,RAMDocsから派生した中国語-英語のベンチマークであるX-RAMDocs-ZHENを用いてこの問題について検討する。
ベンチマークには、モノリンガルサポート、バイリンガル合意、競合方向の反転、オプションノイズとの競合を含む、6つのバランスのとれた条件の300の例が含まれている。
さらに、X-MADAM-RAG、文書ごとの候補抽出、可視的修復、決定論的候補グループ化、コンフリクト・アウェア・アグリゲーションに対処するエビデンスを分解する解釈可能なパイプラインについて検討する。
Qwen2.5-7B-Instructによるオリジナルの制御ベンチマークでは、X-MADAM-RAGは0.9667の正確さと0.9767の競合認識成功を達成し、エビデンス正規化された単一呼び出しベースラインを上回った。
しかし、ゼロコールルールのみの抽出器は同じベンチマークで10000に達し、強いテンプレート規則性を示す。
この制限を探索するため,候補文字列を保存しながら明確な応答テンプレートを除去する決定論的自然化ストレステストを構築した。
100サンプルのサブセットでは、ルールのみの抽出は0.0000に低下するが、X-MADAM-RAGは、単純および証拠に正規化されたベースラインよりも正確に0.3000に低下する。
特権化されたオラクルは依然として完璧であり、ドキュメントレベルの抽出が主要なボトルネックであることを示している。
これらの結果から,X-RAMDocs-ZHENとX-MADAM-RAGは,一般的な幻覚検出の証拠や自然検索に対する堅牢性の証拠としてではなく,制御されたエビデンス競合の診断ツールとして位置づけられた。
関連論文リスト
- AbstRAG: Learning to Abstract for Retrieval Problems [23.379898867224355]
AbstRAGは、クエリ-エビデンスギャップを、式、概念、インテント-エビデンス、イベントタイプコンポーネントに分解する。
21対のブートストラップのコントラストのうち18のnDCG@10よりも優れており、生成精度は1.9%、5.2%、および4.0%向上している。
論文 参考訳(メタデータ) (2026-06-08T13:14:01Z) - Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
CICLは、インスタンスエビデンスをコンテキストグラフに変換し、決定論的、オプス支援、Qwen、Codex/GPT-5.5、Qwen-QLoRAの判断をルートする。
CICLは、その限界を露出しながら、具体的なオープンベンチマークゲインを得る。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - Diagnosing Evidence Utilization in Long-Context and Retrieval-Augmented Language Models under Matched Evidence Conditions [0.0]
モデルはパラメトリックの先行情報から回答したり、存在する証拠を使わなかったり、関連するテキストを最終回答に変換することなく引用したりすることができる。
本稿では,エビデンス利用評価のための4条件診断プロトコルを提案する。
論文 参考訳(メタデータ) (2026-06-04T22:44:57Z) - What Are We Actually Decoding? Source Attribution for Non-Invasive Brain-to-Language Retrieval [42.66754319854329]
我々は,刺激同期MEG-to-audio検索を監査フレームワークとして再放送した。
構造的ショートカット、ウィンドウレベルの刺激ロックされたエビデンス、ウィンドウ間のコンテキストアグリゲーションを使用します。
これらの結果は、脳から言語へのパフォーマンスは、単に報告されるのではなく、ソース属性であるべきだことを示唆している。
論文 参考訳(メタデータ) (2026-05-23T11:23:39Z) - SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation [6.604874054866016]
本稿では,証拠満足度がセットレベル特性であることを示す,透過的なアグリゲーションプロトコルSURE-RAGを提案する。
共有ペアレベルのクレームエビデンス検証器は、SURE-RAGが集約した局所的関係分布を解釈可能な応答レベル信号に生成する。
制御されたマルチホップベンチマークであるHotpotQA-RAG v3をアーティファクト・アウェア・プロトコルで評価した。
論文 参考訳(メタデータ) (2026-05-05T09:05:40Z) - All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG [87.74635133954975]
現在のマルチ言語検索・拡張生成システム(mRAG)は,再ランク付け時に言語バイアスに悩まされていることを示す。
textittextbfLanguage-textbfAgnostic textbfUtility-driven textbfReranker textbfAlignment (LAURA)を提案する。
論文 参考訳(メタデータ) (2026-04-22T05:33:06Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。