論文の概要: The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.22792v1
- Date: Mon, 22 Jun 2026 03:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:36:17.950596
- Title: The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models
- Title(参考訳): 確率性の起源:大規模言語モデルにおける不確実性定量化に関する包括的考察
- Authors: Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang,
- Abstract要約: 本稿では,不確かさを入力レベル,パラメータレベル,トークンレベル,復号処理源に分類する,きめ細かい不確実性分類法を提案する。
多様な世代設定とメトリクスを網羅した総合評価フレームワークを導入する。
実験の結果、(i)UQ手法の有効性はタスクタイプや生成設定に敏感であり、(ii)コンセンサスに基づく手法は、他のUQ手法よりも一貫して優れており、(iii)より大規模なモデルスケールは、低い不確実性推定と相関していることが示された。
- 参考スコア(独自算出の注目度): 12.213066436465601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have enabled sophisticated reasoning and content generation, yet their inherent stochasticity poses significant challenges for ensuring predictive credibility. While traditional uncertainty taxonomy paradigms, such as the dichotomy of aleatoric and epistemic uncertainties, provide conceptual foundations, they often fail to capture the multi-component and multi-stage nature of LLM generation and struggle to evaluate the effectiveness of various Uncertainty Quantification (UQ) methods. In this paper, we propose a granular uncertainty taxonomy that systematically attributes LLM uncertainty into input-level, parameter-level, token-level, and decoding-process sources. Correspondingly, we categorize existing UQ methods into Bayesian, ensemble, consensus-based, and single-pass approaches. Furthermore, we introduce a comprehensive evaluation framework covering diverse generation settings and metrics. We empirically evaluate 21 typical UQ methods across three prominent LLM families, including Qwen3, Llama 3.2, and DeepSeek-V3, on benchmarks such as TriviaQA, GSM8K, and HumanEval. Our experimental results demonstrate that (i) the effectiveness of UQ methods is sensitive to task types and generation settings; (ii) consensus-based methods, typed Deg and EigV, consistently outperform other UQ approaches; and (iii) larger model scales correlate with lower uncertainty estimates, suggesting an empirical scaling law for LLM uncertainty. This work bridges the gap between theoretical origins and practical deployment, providing a versatile diagnostic tool for systematically quantifying uncertainty in LLM applications.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩により、洗練された推論とコンテンツ生成が可能になったが、その固有の確率性は予測可能性を確保する上で大きな課題となっている。
従来の不確実性分類のパラダイム、例えば、失語症とてんかんの不確実性の二分法は概念的基盤を提供するが、LLM生成の多成分および多段階の性質を捉えることができず、様々な不確実性定量化(UQ)手法の有効性を評価するのに苦労する。
本稿では, LLMの不確かさを入力レベル, パラメータレベル, トークンレベル, 復号処理ソースに体系的に属性付ける, きめ細かい不確実性分類法を提案する。
それに対応して、既存のUQ手法をベイズ、アンサンブル、コンセンサスベース、シングルパスアプローチに分類する。
さらに、多様な世代設定とメトリクスを網羅した総合的な評価フレームワークを導入する。
我々は、TriviaQA、GSM8K、HumanEvalなどのベンチマークで、Qwen3、Llama 3.2、DeepSeek-V3を含む3つのLLMファミリーにまたがる21の典型的なUQ手法を実証的に評価した。
我々の実験結果は
i)UQ手法の有効性はタスクタイプや生成設定に敏感である。
(ii)コンセンサスに基づく方法,型付きDegとEigVは,他のUQアプローチよりも一貫して優れています。
(3) LLMの不確実性に対する経験的スケーリング法則を示唆し, モデルスケールは低い不確実性推定値と相関する。
この研究は理論的起源と実践的展開のギャップを埋め、LLMアプリケーションの不確実性を体系的に定量化する汎用的な診断ツールを提供する。
関連論文リスト
- ESI: Epistemic Uncertainty Quantification via Semantic-preserving Intervention for Large Language Models [23.44710972442814]
不確実性定量化(UQ)はモデルの信頼性を向上させるための有望なアプローチであるが、Large Language Models(LLM)の不確実性は自明ではない。
本稿では,意味保存介入前後のモデル出力の変動を計測する新しいグレイボックス不確実性定量化手法を提案する。
論文 参考訳(メタデータ) (2025-10-15T02:46:43Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。
不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。
計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:04:29Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。