論文の概要: A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.19868v1
- Date: Thu, 18 Jun 2026 07:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.698137
- Title: A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models
- Title(参考訳): 大規模言語モデルに対するブラックボックス不確かさ推定手法の体系的評価
- Authors: Jiayi Wang, Xu-Yao Zhang,
- Abstract要約: 大規模言語モデル(LLM)のためのブラックボックス不確実性推定(UE)手法の体系的レビューを行う。
統一評価フレームワークを構築し、4つのモデルと4つのデータセット設定にまたがる24の代表的なメソッドをベンチマークする。
以上の結果から,すべての設定において一貫したメソッドが支配的でないことが示唆された。
- 参考スコア(独自算出の注目度): 30.932364896479797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have shown strong capabilities across a wide range of tasks, their outputs often remain unreliable and may contain hallucinations, making uncertainty estimation (UE) essential for building trustworthy LLMs. In practice, many mainstream LLMs are only accessible through restricted APIs, where internal signals such as logits and hidden states are unavailable, making black-box UE especially important. However, existing work on black-box UE for LLMs remains fragmented in methodology and lacks a unified empirical comparison. To address this gap, we present a systematic review of black-box UE methods and organize them into five categories: verbalization-based, sampling-based, explanation-based, multi-agent, and hybrid methods. We further build a unified evaluation framework and benchmark 24 representative methods across 4 models and 4 dataset settings. Our results show that no single method consistently dominates across all settings. Nevertheless, methods that reason over and compare candidates in the answer space are generally effective, and hybrid methods that combine multiple uncertainty signals perform well under most conditions. By releasing the benchmark data and a unified evaluation framework, we aim to facilitate reproducible comparisons and support future research, while our empirical findings provide practical guidance for developing future black-box UE methods for LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクにおいて強力な能力を示してきたが、その出力は信頼できないままであり、幻覚を含む場合があるため、信頼性の高いLLMを構築する上では不確実性推定 (UE) が不可欠である。
実際には、多くの主要なLCMは制限付きAPIを通じてのみアクセス可能であり、ロジットや隠蔽状態などの内部信号は利用できないため、特にブラックボックスUEが重要である。
しかしながら、LCMのブラックボックスUEに関する既存の研究は方法論的に断片化され、統一的な経験的比較が欠如している。
このギャップに対処するため,ブラックボックスUE法を体系的に検討し,言語化ベース,サンプリングベース,説明ベース,マルチエージェント,ハイブリッドメソッドの5つのカテゴリに分類する。
さらに、4つのモデルと4つのデータセット設定で24の代表的なメソッドをベンチマークする統合評価フレームワークを構築します。
以上の結果から,すべての設定において一貫したメソッドが支配的でないことが示唆された。
それでも、解答空間の候補を推論し比較する手法は一般的に有効であり、多くの条件下で複数の不確実性信号を組み合わせたハイブリッド手法はよく機能する。
ベンチマークデータと統一評価フレームワークを公開することにより,再現可能な比較を容易にし,今後の研究を支援することを目的としている。
関連論文リスト
- MUCH: A Multilingual Claim Hallucination Benchmark [5.6001617185032595]
その多くは、将来の手法の公平かつ再現可能な評価のために設計された最初のクレームレベルのUQベンチマークである。
4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)にまたがる4,873のサンプルと、4つの命令で調整されたオープンウェイトLLMが含まれている。
論文 参考訳(メタデータ) (2025-11-21T09:37:16Z) - On the Evolution of Federated Post-Training Large Language Models: A Model Accessibility View [82.19096285469115]
Federated Learning (FL)は、クライアントデータのプライバシを保持しながら、分散データサイロをまたいだトレーニングモデルを可能にする。
近年,FL内での大規模言語モデル (LLM) の学習を効率化し,計算・通信の課題に対処する手法が研究されている。
これらの制限に対処するために、推論のみのパラダイム(ブラックボックスのFedLLM)が登場した。
論文 参考訳(メタデータ) (2025-08-22T09:52:31Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis [15.553942864736989]
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T11:47:42Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。