論文の概要: Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
- arxiv url: http://arxiv.org/abs/2606.17312v1
- Date: Mon, 15 Jun 2026 21:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.152328
- Title: Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
- Title(参考訳): LLM論理推論における構造不確かさによる一貫性の定量化
- Authors: Baishali Chaudhury, Mengdie Flora Wang, Hyunji Hayley Park, Rahul Ghosh, Sungmin Hong, Jae Oh Woo,
- Abstract要約: 大規模な言語モデルは、不安定で矛盾し、一貫してランク付けするのが困難である推論パスを通じて、同じ答えに達することができる。
自己参照によるランク付けの安定性から導かれる一貫性を考慮した構造的不確実性を提案する。
- 参考スコア(独自算出の注目度): 5.839104770457067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can arrive at the same answer through reasoning paths that are unstable, contradictory, or difficult to rank consistently -- a failure mode especially prevalent in multi-step deductive reasoning. Existing methods assess reliability primarily through output dispersion -- measuring how much sampled answers differ -- but this discards a complementary signal: whether the model can consistently rank competing reasoning candidates. We propose structural uncertainty, a consistency-aware framework derived from the stability of self-preference-induced rankings over sampled reasoning solutions. Given a query, we generate multiple candidate solutions and ask the model to judge pairwise preferences among its own outputs. We aggregate self-preferences into ranking distributions via Bradley-Terry modeling with PageRank, and decompose the signal into two entropy-based components: across-trial ranking instability and within-trial candidate ambiguity. Across five LLMs and eight benchmarks, structural signals provide information complementary to answer dispersion: on logical and mathematical reasoning tasks, the combination improves identification of unreliable instances, while on factual retrieval the structural signal collapses toward uniformity, diagnosing a regime boundary where reasoning-level consistency evaluation is uninformative. The two components relate differently to accuracy: within-trial ambiguity correlates positively with correctness -- consistent with settings where multiple plausible solution paths remain competitive -- while across-trial instability correlates negatively, signaling unreliable reasoning. Structural uncertainty is best understood not as a universal confidence estimator, but as a regime-sensitive evaluator of logical reasoning consistency.
- Abstract(参考訳): 大規模な言語モデルは、不安定、矛盾、一貫性のあるランク付けが難しい推論パスを通じて、同じ答えに到達することができる。
既存の方法は、主に出力分散によって信頼性を評価する -- サンプル回答の量を測定する -- が、これは補完的なシグナルを捨てる。
サンプル推論解に対する自己参照によるランク付けの安定性から導かれる整合性を考慮した構造的不確実性を提案する。
クエリが与えられたら、複数の候補ソリューションを生成し、モデルに対して、それぞれの出力のペアワイズ選好を判断するように求めます。
我々は、Bradley-TerryモデルとPageRankによるランキング分布に自己選好を集約し、信号をエントロピーベースの2つのコンポーネントに分解する。
論理的および数学的推論タスクでは、この組み合わせは信頼できないインスタンスの識別を改善し、実際の検索では、構造信号は均一性に向かって崩壊し、推論レベルの整合性評価が非形式的である状態境界を診断する。
内的曖昧さは正に正に相関し、複数のプラウチブルソリューションパスが競合し続けるような設定と一致し、一方、間的不安定性は負に相関し、信頼性の低い推論をシグナルとする。
構造的不確実性は、普遍的信頼度推定器ではなく、論理的推論整合性の評価器として理解されるのが最適である。
関連論文リスト
- Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning [63.24624171679711]
大規模言語モデル(LLM)ベースのエージェントは、しばしば最適なツール使用の決定を行う。
本研究では、不確実性分離を維持するための推進力として、不確実性定量化を報酬設計に組み込んだTRUSTを提案する。
論文 参考訳(メタデータ) (2026-06-05T07:08:34Z) - Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - Sensitivity Uncertainty Alignment in Large Language Models [0.0]
逆入力およびあいまい入力下での大規模言語モデルの故障を解析するためのフレームワークを提案する。
我々はスカラースコア SUA_theta(x) を定義し、分布感度と予測エントロピーの差を捉える。
我々は,一貫性の正則化とエントロピーアライメントを組み合わせたトレーニング手法SUA-TRと,より安全な推論のための禁制ルールを導入する。
論文 参考訳(メタデータ) (2026-04-21T17:53:12Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - ERA: Evidence-based Reliability Alignment for Honest Retrieval-Augmented Generation [19.616905640490252]
本稿ではERA(Evidence-based Reliability Alignment)と呼ばれる新しいフレームワークを提案する。
提案手法は, 解答カバレッジと棄却のトレードオフを最適化し, 校正精度を向上し, ベースラインを著しく向上させる。
論文 参考訳(メタデータ) (2026-02-24T01:45:51Z) - GHS-TDA: A Synergistic Reasoning Framework Integrating Global Hypothesis Space with Topological Data Analysis [27.271992201673083]
CoT (Chain-of-Thought) は,大規模言語モデル (LLM) の推論精度を大幅に向上することが示されている。
既存のCoTメソッドには2つの基本的な制限がある。
論文 参考訳(メタデータ) (2026-02-10T14:00:30Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。