論文の概要: Precision Is Not Faithfulness: Coverage-Aware Evaluation of Grounded Generation with a Complete Oracle
- arxiv url: http://arxiv.org/abs/2606.09376v1
- Date: Mon, 08 Jun 2026 11:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.951423
- Title: Precision Is Not Faithfulness: Coverage-Aware Evaluation of Grounded Generation with a Complete Oracle
- Title(参考訳): 正確さは偽りではない - Oracle 完全版による接地世代の包括的評価
- Authors: Juan S. Santillana,
- Abstract要約: 基準自由忠実度測定は、モデルが基底真理に対して行う各原子的クレームを検証する。
彼らが盲点を共有していることを示す:彼らは精度だけを計測し、主張されている主張は支持されているか?
戦略的基底真理が決定論的に導出される領域であるF1テレメトリを用いて、この測定を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are increasingly used to evaluate grounded generation. We show they share a blind spot: they measure only precision -- are the stated claims supported? -- and therefore reward abstention, since a model can score near-perfect faithfulness by saying almost nothing. We make this measurable using Formula 1 telemetry, a domain where strategic ground truth is derived deterministically and, crucially, completely: for each decision we know the full set of facts that mattered. This completeness -- absent in open-domain faithfulness benchmarks -- lets us measure recall (coverage of the relevant facts) exactly, alongside precision. On a multilingual (EN/ES/PT) benchmark of 7,253 decision instances spanning 150 races, the most precise frontier model covers under half of the relevant facts and ranks last by F1, so requiring coverage reorders the systems; the same effect reappears in a second complete-oracle domain (NOAA weather forecasts). A prompt ablation shows the low coverage is not an under-prompting artifact: explicitly asking models to be thorough does not close the gap. We pair faithfulness with coverage into a single score, validate the metric (controlled perturbation; agreement across a model-free regex extractor and a cross-family LLM extractor, system-level Spearman 1.0), and give a verifier-guided generation method that improves precision and recall without references. We release the benchmark, structured annotations, metric, baselines, and an interactive demo.
- Abstract(参考訳): 基準自由忠実度測定は、モデルが基底的真理に対して行う各原子的クレームを検証し、基底的生成を評価するためにますます使用される。
モデルはほとんど何も言わずにほぼ完全な忠実度を得られるため、彼らは盲点を共有している。
戦略的根拠真理が決定論的に、そして決定的に完全に導出される領域であるフォーミュラ1テレメトリを使って、この測定を可能にする。
この完全性 -- オープンドメインの忠実度ベンチマークにはない -- は、正確さとともに、リコール(関連する事実のカバレッジ)を正確に測定することができます。
150のレースにまたがる7,253の意思決定インスタンスのマルチリンガル(EN/ES/PT)ベンチマークでは、最も正確なフロンティアモデルがF1が最後となる関連する事実とランクの半分以下をカバーしているため、カバレッジがシステムを再順序付けする必要がある。
プロンプトアブレーションは、低カバレッジが未完成のアーティファクトではないことを示している。
我々は,1つのスコアのカバレッジに忠実さを組み合わせ,基準値(制御摂動,モデルフリーのレジェクス抽出器とシステムレベルSpearman 1.0のクロスファミリーLPM抽出器間の合意)を検証し,基準のない精度とリコールを改善する検証器誘導生成法を提案する。
ベンチマーク、構造化アノテーション、メトリック、ベースライン、インタラクティブなデモをリリースしています。
関連論文リスト
- Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth [24.21103008618097]
思考の連鎖(CoT)は、大規模言語モデルの解釈と監査行動の中心となっている。
ステップレベルとCoTレベルの両方で、地道忠実度ラベルを出力する自動ラベリングパイプラインを開発した。
実験の結果,ほとんどの測定値が近い確率で動作し,予測バイアスが強く,CoTが長くなると劣化することがわかった。
論文 参考訳(メタデータ) (2026-05-24T12:57:01Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems [0.0]
「マシーン学習評価尺度」は、全てのエラーが等価な離散的なコミットメントシステムであると仮定する。
信頼不正確」な振る舞いは、モデルが曖昧なデータの中で構造を幻覚させる場所である。
推論システムのための「Good Training」は、精度ではなく、Certainty-Validity Scoreの最大化によって定義されなければならない。
論文 参考訳(メタデータ) (2026-02-10T21:53:02Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Claim Extraction for Fact-Checking: Data, Models, and Automated Metrics [0.0]
FEVERFactデータセットを公開し、4Kの文脈化されたウィキペディア文から17Kの原子的事実クレームを抽出した。
各メトリクスに対して、既に探索されたNLPタスクへの還元を用いてスケールを実装する。
我々の最も難しい指標である$F_fact$のランク付けされたモデルが変化しないことを確認するため、一般的なクレームの人間のグレーティングに対してメトリクスを検証する。
論文 参考訳(メタデータ) (2025-02-07T14:20:45Z) - Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation [16.506990103937515]
私たちは、実際に取得したものを調査するために、さまざまな自動事実度メトリクスをテストすることを強調します。
すべてのメトリクスが、後者でかなりパフォーマンスが低下しているのが分かります。
一部のメトリクスは、事実の修正よりも、良心的で、事実を保存する編集に敏感である。
論文 参考訳(メタデータ) (2024-11-25T18:15:15Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。