論文の概要: Calibration Drift Under Reasoning: How Chain-of-Thought Budgets Induce Overconfidence in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.11211v1
- Date: Fri, 24 Apr 2026 04:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.838402
- Title: Calibration Drift Under Reasoning: How Chain-of-Thought Budgets Induce Overconfidence in Large Language Models
- Title(参考訳): 推論によるキャリブレーション・ドリフト:大規模言語モデルにおける待ち行列が過信をいかに引き起こすか
- Authors: Prakul Sunil Hiremath, Harshit R. Hiremath,
- Abstract要約: CoT推論は精度と信頼性を向上させるために広く用いられている。
タスク固有のしきい値を超えた推論予算の増加は、モデルが体系的に過信される可能性があることを示す。
この振る舞いを説明するために,自己回帰生成に基づく仮説ロックインモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of large language models (LLMs) to express calibrated uncertainty is important for safe deployment. Chain-of-thought (CoT) reasoning is widely used to improve accuracy and reliability, but its effect on calibration is not fully understood. We show that this picture is incomplete: in some settings, increasing the reasoning budget beyond a task-specific threshold can cause models to become systematically overconfident, assigning high confidence to incorrect answers. We call this phenomenon Calibration Drift Under Reasoning (CDUR) and study it both theoretically and empirically. We define reasoning budget B and analyze conditions under which Expected Calibration Error ECE(B) follows a non-monotonic pattern: it first decreases as reasoning corrects errors, then increases as longer reasoning produces internally consistent but incorrect explanations. We propose a Hypothesis Lock-In model based on autoregressive generation to explain this behavior. We evaluate Llama-3.1-8B and Llama-3.3-70B on 47 reasoning-trap questions across four reasoning budgets and three seeds (1,368 API calls; 574 valid responses). The 8B model shows non-monotonic calibration behavior, while results for the 70B model are limited to baseline evaluation and are inconclusive for budget-dependent effects. We introduce CABStop, a calibration-aware stopping rule that halts reasoning when confidence diverges from an auxiliary accuracy estimate. These results suggest that increasing reasoning depth does not always improve reliability and should be monitored carefully.
- Abstract(参考訳): 大規模言語モデル(LLM)のキャリブレーションの不確実性を表現する能力は、安全なデプロイメントにとって重要である。
CoT推論は精度と信頼性を向上させるために広く用いられているが、キャリブレーションに対する効果は十分に理解されていない。
いくつかの設定では、タスク固有のしきい値を超えた推論予算を増やすことで、モデルが体系的に過信され、誤った回答に高い信頼を割り当てる可能性がある。
我々はこの現象をCDUR(Calibration Drift Under Reasoning)と呼び、理論的にも経験的にも研究している。
我々は、推論予算Bを定義し、予測校正誤差ECE(B)が非単調なパターンに従う条件を分析する。
この振る舞いを説明するために,自己回帰生成に基づく仮説ロックインモデルを提案する。
Llama-3.1-8BとLlama-3.3-70Bを4つの推論予算と3つのシード(1,368のAPI呼び出し、574の有効な応答)にわたる47の推論トラップ質問に対して評価した。
8Bモデルは非単調キャリブレーション挙動を示すが,70Bモデルはベースライン評価に限られ,予算依存効果には決定的でない。
CABStopは,信頼度が補助的精度推定から分岐した場合の推論を停止するキャリブレーション対応の停止規則である。
これらの結果から, 推理深度の増加は信頼性を常に向上させるものではなく, 慎重に監視すべきであることが示唆された。
関連論文リスト
- Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models [55.788110316999166]
教師付き微調整, RL を用いた後訓練, および命令調整ベースラインに対する蒸留による推論モデルの比較を行った。
推論モデルはしばしば推論ベンチマークを改善するが、アライメント回帰を示す。
これらの回帰は、KL発散によって測定された命令調整ベースラインからの挙動ドリフトと一致している。
論文 参考訳(メタデータ) (2026-06-09T16:14:27Z) - Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文 参考訳(メタデータ) (2026-01-11T06:21:13Z) - Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文 参考訳(メタデータ) (2025-06-22T21:46:42Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。