論文の概要: Do LLM Attribution Metrics Transfer? Auditing Retrieval-Augmented Generation Evaluation Across Datasets and Constructs
- arxiv url: http://arxiv.org/abs/2606.23915v1
- Date: Mon, 22 Jun 2026 20:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.683059
- Title: Do LLM Attribution Metrics Transfer? Auditing Retrieval-Augmented Generation Evaluation Across Datasets and Constructs
- Title(参考訳): LLMの貢献度は伝達されるか?
- Authors: Tianyu Ding, Aditya Nannapaneni, Juan Pablo De la Cruz Weinstein,
- Abstract要約: しばしば、帰属のための自動メトリクスを交換可能なものとして扱う。
3つの評価項目にまたがって8つの自動スコアを監査する。
評価器を選択するための単純な"best-on-average"ルールは、そのままのデータセットアウトに失敗する。
- 参考スコア(独自算出の注目度): 11.997694190254974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practice often treats automatic metrics for attribution in LLM retrieval-augmented generation as interchangeable. We audit eight automatic scorers -- lexical, embedding, and BERTScore baselines alongside entailment/grounding-trained models (clean and FEVER NLI, the checker MiniCheck) -- across three evaluation constructs (provenance/topicality, generated-answer attribution, and fact-check entailment), asking whether any scorer transfers: stays within the 95% confidence interval of the best audited scorer on every dataset of a multi-dataset construct. In the construct with the most multi-dataset human-labeled coverage -- generated-answer attribution (AttributionBench's four source datasets, n = 1,610, with independent HAGRID, n = 2,150) -- none does: the per-dataset metric rankings invert (Kendall tau = -0.64, p = 0.031 on AttributedQA vs. LFQA), and an off-the-shelf NLI scorer that is best on short-claim AttributedQA (AUROC 0.90) collapses to AUROC 0.53 (chance) on long-form LFQA, where BERTScore wins (0.91); the flip is not a length or truncation artifact. This instability has a concrete decision cost: a naive "best-on-average" rule for choosing an evaluator fails leave-one-dataset-out (mean held-out regret 0.172 AUROC, worse than fixing one scorer), so metric choice must be validated on the target dataset rather than learned from others. A prompt-based LLM judge avoids the chance-level collapses the automatic scorers suffer (no LFQA collapse) but is not uniformly best, ~100x costlier, and non-deterministic -- relocating, not removing, the validation burden.
- Abstract(参考訳): LLM検索拡張生成における帰属のための自動メトリクスを交換可能なものとして扱うことが多い。
8つの自動スコアリング -- レキシカル、埋め込み、BERTScoreベースラインと、entailment/grounding-trained model (clean and FEVER NLI, the checker MiniCheck) -- を3つの評価構造(proenance/topicality, generated-anwer Attribution, fact-check Entailment)で監査します。
AttributionBench's four source data, n = 1,610, with independent HAGRID, n = 2,150) -- データベース毎のメートル法ランキング invert (Kendall tau = -0.64, p = 0.031 on AttributedQA vs. LFQA) とオフ・ザ・シェルフのNLIスコアラで、短文のAttributedQA (AUROC 0.90) は、長文のLFQAで AUROC 0.53 (chance) に崩壊する。
この不安定性には、具体的な決定コストがある: 評価器を選択するための"平均的ベスト・オン・アベレージ(best-on-average)"ルールは、アウト・ワン・データセット・アウト(つまり、あるスコアの修正よりも悪い0.172 AUROC)に失敗するので、他から学んだことよりも、ターゲットデータセットでメトリックの選択を検証する必要がある。
プロンプトベースのLCM判事は、自動スコアラーが苦しむ確率レベルの崩壊を避ける(LFQAの崩壊は起こらない)が、一様にベストではない。
関連論文リスト
- RAPT: Retrieval-Augmented Post-hoc Thresholding for Multi-Label Classification [1.2599533416395765]
本稿では、RAPTという、デプロイメント指向の検索強化スコア閾値ラッパーを提案する。
RAPTは、類似性検索のための文書表現とラベルの信頼度スコアのモデルに依存しないラッパーである。
工業環境では、RAPTはメートル法学習者による最高の予測性能を達成し、0.87マクロF1に達した。
論文 参考訳(メタデータ) (2026-05-15T18:31:04Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference [0.0]
VERDI(verification-Decomposed Inference Inference)は、構造化された裁判官から信頼を抽出する手法である。
VERDIは各評価をサブチェックに分解し、3つの構造信号を導出する。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
論文 参考訳(メタデータ) (2026-05-11T23:39:19Z) - Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores [25.638175689769934]
IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。
本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。
提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
論文 参考訳(メタデータ) (2026-01-20T11:59:13Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization [63.55408755562274]
審査用大言語モデル PandaLM は、いくつかの大きな言語モデルが与えられた優れたモデルを区別するために訓練されている。
PandaLMは、相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。
PandaLMはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成している。
論文 参考訳(メタデータ) (2023-06-08T10:41:56Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。