論文の概要: Beyond Logprobs: A Multi-Signal Confidence Engine for LLM-Based Document Field Extraction
- arxiv url: http://arxiv.org/abs/2606.24420v1
- Date: Tue, 23 Jun 2026 10:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.90609
- Title: Beyond Logprobs: A Multi-Signal Confidence Engine for LLM-Based Document Field Extraction
- Title(参考訳): Beyond Logprobs: LLMに基づく文書フィールド抽出のための多信号信頼エンジン
- Authors: Nitesh Kumar,
- Abstract要約: ExtractConfはクロスドメインでフィールドに依存しない信頼性エンジンである。
同じ文書の2つの構造的に異なる読影において、信頼度を推定する。
0.928ROC AUCを達成し、logprob-meanよりも選択的な予測リスクを70%削減する。
- 参考スコア(独自算出の注目度): 2.1997815944423516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes document processing pipelines, including financial reconciliation, compliance verification, and procurement automation, an LLM extraction that is silently wrong is more dangerous than one that is visibly absent. The central challenge is not extraction accuracy alone but reliable confidence estimation: knowing, field by field, whether an extraction can be trusted for automation or deferred to human review. Token-level log-probabilities, verbalized confidence, and multi-sample self-consistency all collapse toward all-positive behaviour at practical thresholds, offering no reliable separation between trustworthy and untrustworthy extractions. We present ExtractConf, a cross-domain, field-agnostic confidence engine that grounds confidence estimation in two structurally different readings of the same document. A field-guided Hunter call extracts each field under schema-slot completion pressure; a document-guided Mapper call scans holistically and surfaces values grounded in document content. This asymmetry yields different failure modes: Hunter hallucinates values for absent fields, while Mapper misses visually non-salient ones. Their disagreement is independently informative. ExtractConf fuses cross-call disagreement, LLM-internal uncertainty, OCR, image quality, and spatial layout into a classifier requiring no domain-specific rules or retraining. On DocILE (55-field invoices, 26% failure rate), it achieves 0.928 ROC AUC and reduces selective prediction risk by 70% over logprob-mean. At 80% coverage, accuracy reaches 99.1%, enabling a practical human-in-the-loop workflow. Zero-shot transfer to CORD receipts achieves 0.858 AUC; lightweight Lasso recalibration reduces ECE by 89% and Brier by 43%, confirming the signals generalise across document domains.
- Abstract(参考訳): 金融和解、コンプライアンス検証、調達自動化を含む高度な文書処理パイプラインでは、静かに間違ったLCM抽出は、視覚的に欠落しているものよりも危険である。
中心的な課題は、精度のみを抽出することではなく、信頼性の高い信頼推定である:知識、フィールドごとのフィールド、抽出が自動化のために信頼されるか、人間のレビューに延期されるか、である。
トークンレベルの対数確率、言語化された自信、マルチサンプルの自己整合性は、いずれも実用的なしきい値における全正の行動に対して崩壊し、信頼に値するものと信頼できないものの間の信頼できない分離を提供しない。
提案する ExtractConf は,同一文書の2つの構造的異なる読み出しにおける信頼度推定を基礎とする,クロスドメインでフィールドに依存しない信頼性エンジンである。
フィールド誘導のハンターコールは、スキーマスロット完了圧力の下で各フィールドを抽出する。
ハンターは不在フィールドの値を幻覚し、マッパーは視覚的に非塩分モードを見逃す。
彼らの意見の相違は独立した情報である。
ExtractConfは、クロスコールの不一致、LLM内部の不確実性、OCR、画像品質、空間レイアウトをドメイン固有のルールや再トレーニングを必要としない分類器に融合させる。
DocILE(55フィールドの請求書、26%の失敗率)では、0.928ROC AUCを達成し、logprob-meanよりも選択的な予測リスクを70%削減する。
80%のカバレッジで、精度は99.1%に達し、実用的なHuman-in-the-loopワークフローを可能にする。
CORDレシートへのゼロショット転送は0.858 AUCを実現し、軽量なLassoリカバリはECEを89%削減し、Brierは43%削減し、文書ドメイン全体での信号の一般化を確認する。
関連論文リスト
- Evidence-Grounded Ensemble Diagnosis of 802.11 Packet Captures: A Multi-Stage Pipeline with Deterministic Reliability Scoring [1.0170129555792935]
802.11パケットキャプチャの診断には、専門家のプロトコル知識が必要で、遅く、エンジニア間で一貫性がなく、スケールできない。
LLMベースのアプローチは、キャプチャーから欠落するが製造されたプロトコルイベントを聴取し、未校正された信頼スコアを生成し、テスト中のモデルによって黄金の基準が共同生成されると評価バイアスを被る。
PROBEは3つの障害に対処する多段階パイプラインである。
論文 参考訳(メタデータ) (2026-06-05T03:39:58Z) - What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs [52.50210189669399]
視覚言語モデル(VLM)を駆動するには,操作設計領域(ODD)が定義する様々な条件のシーンを正確に理解する必要がある
SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
SliceNavは, 従来のスライス発見法よりも, 高リスクカバレッジギャップを効果的に表面化することを示す。
論文 参考訳(メタデータ) (2026-06-01T03:18:01Z) - When the Ruler is Broken: Parsing-Induced Suppression in LLM-Based Security Log Evaluation [0.0]
完全に機能的なモデルが完全に非機能なカテゴリに現れる可能性のある,無音で体系的な評価誤差のクラスを実証する。
SOC-Bench v0は、標準化された13のカテゴリの脅威分類、最小統計パワー要件、ファジィフィールド抽出仕様、および将来のSOC研究における特定の精度の歪みを防ぐための公開スコアリングスクリプトからなるベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T06:03:11Z) - SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio [0.038379177968040606]
言語モデル推論のための単一パス不確実性フレームワークであるSELFDOUBTを提案する。
私たちのキーシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースが不確実性マーカーを含むかどうかを検出し、もしそうであれば、明示的な自己チェック行動によってオフセットされているかどうかを検出する。
SELFDOUBTは単一の観測された推論軌道で動作し、任意のプロプライエタリなAPI上でのレイテンシとコスト制約によるデプロイメントに適している。
論文 参考訳(メタデータ) (2026-04-07T19:19:29Z) - Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定システムにデプロイされている。
出力アンカートークン確率に基づく正規化信頼スコアを導入する。
これにより、最小限のオーバーヘッドでエラーや幻覚を直接検出できる。
論文 参考訳(メタデータ) (2026-02-18T07:05:12Z) - Secure and Explainable Fraud Detection in Finance via Hierarchical Multi-source Dataset Distillation [17.90471000973834]
訓練されたランダム森林は、透明で軸方向の規則領域に変換される。
合成トランザクションは、各領域内で一様にサンプリングすることによって生成される。
これにより、コンパクトで監査可能なサロゲートデータセットが生成される。
論文 参考訳(メタデータ) (2025-12-26T05:00:35Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。