論文の概要: A Four-Condition Diagnostic Protocol for Evidence Utilization in Long-Context and Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2606.06758v1
- Date: Thu, 04 Jun 2026 22:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.471349
- Title: A Four-Condition Diagnostic Protocol for Evidence Utilization in Long-Context and Retrieval-Augmented Language Models
- Title(参考訳): 長期・検索言語モデルにおけるエビデンス利用のための4段階診断プロトコル
- Authors: Haizhou Xia,
- Abstract要約: モデルはパラメトリックメモリから答えることができ、正しいパスを受け取っているにもかかわらず失敗するか、要求された回答に変換せずに証拠を引用することができる。
本報告では, 一致した4条件エビデンス・アベイラビリティープロトコル, 完全文脈, 検索されたエビデンス, オラクル・エビデンス参照を提案する。
OnCUは、回収されたオラクル参照証拠のプロトコルバウンド推定器として使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Final-answer accuracy, retrieval recall, and citation overlap do not by themselves identify whether a long-context or retrieval-augmented language model used the evidence it was given. A model can answer from parametric memory, fail despite receiving the right passages, or cite evidence without converting it into the requested answer. This paper proposes a matched four-condition evidence-availability protocol--no evidence, full context, retrieved evidence, and oracle-evidence reference--for diagnosing evidence utilization under fixed examples, prompts, score fields, retrieval settings, and validity checks. ONCU is used as a protocol-bound estimator of recovered oracle-reference evidence advantage and is computed only for denominator-valid groups; denominator-free answer, evidence, retrieval, and failure-audit metrics are reported separately. The empirical study evaluates five local open-weight models from the Qwen, Gemma, Llama, and Mistral families across Controlled-ONCU-safe16K, HotpotQA-ONCU, and 2WikiMultiHopQA-ONCU, with 18,000 ONCU-compatible predictions. The main finding is a task-dependent bottleneck split: controlled synthetic settings primarily expose full-context utilization failures, whereas the tested realistic multi-hop settings primarily expose retrieval-chain coverage failures in denominator-free answer and evidence metrics, with ONCU supporting the same direction on oracle-improving groups. The contribution is a diagnostic protocol for separating no-evidence answerability, oracle-evidence recoverability, full-context utilization, and retrieval-conditioned utilization, rather than a single-score leaderboard for long-context or retrieval-augmented systems.
- Abstract(参考訳): 最終回答精度、検索リコール、引用重複は、長文または検索拡張言語モデルがその証拠を使用したかどうかをそれ自体が特定しない。
モデルはパラメトリックメモリから答えることができ、正しいパスを受け取っているにもかかわらず失敗するか、要求された回答に変換せずに証拠を引用することができる。
本稿では,定例,プロンプト,スコアフィールド,検索設定,妥当性チェックの4つの条件付きエビデンス・アベイラビリティプロトコルを提案する。
ONCUは、回収されたオラクル-参照証拠のプロトコルバウンド・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス(英語版)の指標として使われ、デノミネーター-バリッド・グループのみに計算され、デノミネーターなしの回答、エビデンス、検索、障害監査のメトリクスは別々に報告される。
The empirical study evaluates five local open-weight model from the Qwen, Gemma, Llama, and Mistral family across Controlled-ONCU-safe16K, HotpotQa-ONCU, and 2WikiMultiHopQa-ONCU with 18,000 ONCU- compatible predictions。
コントロールされたシンセサイザー設定は、主にフルコンテキスト利用障害を露呈するのに対して、テスト対象のマルチホップ設定は、デノミネータなし回答とエビデンスメトリクスで検索チェーンカバレッジ障害を露呈するのに対して、ONCUは、オラクル改善グループで同じ方向をサポートする。
このコントリビューションは、長いコンテキストや検索拡張システムのためのシングルスコアのリーダーボードではなく、無証拠の回答可能性、オラクルの証拠回復性、全コンテキストの利用、検索条件の活用を分離するための診断プロトコルである。
関連論文リスト
- AuthTrace: Diagnosing Evidence Construction in Thematically Dense Single-Author Corpora [6.956097396264084]
AuthTraceは,主題的に密集した単一著者コーパスに基づいて構築された診断ベンチマークである。
AuthTraceは明示的な引用されたエビデンス、正確なファンインアノテーション、エビデンスリコール、エビデンス精度、答えの正当性を測定する統一パックレベルのプロトコルを提供する。
論文 参考訳(メタデータ) (2026-05-25T03:10:52Z) - DocScope: Benchmarking Verifiable Reasoning for Trustworthy Long-Document Understanding [29.270128057512284]
本稿では,長期文書QAを構造化推論軌道予測問題として定式化するベンチマークであるDocScopeを紹介する。
軌道の各レベルを独立に監査する4段階評価プロトコルを設計する。
6つのプロプライエタリなモデル、12のオープンウェイトモデル、いくつかのドメイン固有のシステムをベンチマークします。
論文 参考訳(メタデータ) (2026-05-09T11:12:59Z) - Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG [8.18791900871137]
Retrieval-Augmented Generationは、検索された証拠の回答を根拠にして幻覚を減らすことを目的としている。
既存の評価は回答レベルの精度や通過レベルの正確さに重点を置いており、世代間の証拠の使用方法に関する限られた洞察を与えている。
本稿では、各入力質問を原子推論ファセットに分解するQAのためのファセットレベル診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-10T09:59:43Z) - PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs [8.082352336629816]
PAVEは、根拠に基づく質問応答のための推論時検証層である。
検索されたコンテキストを質問条件のアトミックな事実に分解し、回答をドラフトし、抽出された前提によってそのドラフトがどの程度うまくサポートされているかをスコアし、ファイナライズ前に低サポート出力を更新する。
論文 参考訳(メタデータ) (2026-03-21T06:23:21Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。