論文の概要: Calibrating Overconfidence Without Sacrificing Confidence: Probe-Conditioned Head Intervention for LLMs
- arxiv url: http://arxiv.org/abs/2606.09876v1
- Date: Tue, 02 Jun 2026 21:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.987642
- Title: Calibrating Overconfidence Without Sacrificing Confidence: Probe-Conditioned Head Intervention for LLMs
- Title(参考訳): 自信を犠牲にすることなく過信を保つこと--LCMの頭部介入の証明-
- Authors: Ke Li, Chongzhe Zhang, Zifan Zeng, Feng Liu, Qunli Zhang, Zheng Hu,
- Abstract要約: 本稿では,凍結探触子を用いた推定時間法であるProbe-Conditioned Head Intervention (PCHI)を紹介する。
Qwen3-4B-Instruct solve OpenMath Instruct problem with a structured binary confidence fieldでは、PCHIは元来の不正な信頼性の82.2%を$texttno$に変換する。
上流の信頼性テンプレートトークン間の共同介入により、ECEは21.9%から9.2%に減少し、元々の正解の読み出しの5.1%しか損傷しない。
- 参考スコア(独自算出の注目度): 10.96381225628941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often express high confidence in answers that are wrong. Standard calibration remedies typically act globally or at the score level, reducing unwarranted confidence but also risking erosion of warranted confidence on correct answers. We introduce Probe-Conditioned Head Intervention (PCHI), an inference-time method that uses a frozen probe to detect likely wrong-but-confident responses and conditionally rescales downstream attention-head outputs during confidence generation. On Qwen3-4B-Instruct solving OpenMathInstruct problems with a structured binary confidence field, readout-token PCHI converts 82.2% of originally wrong-yes confidence readouts to $\texttt{no}$, while a joint intervention across upstream confidence-template tokens reduces ECE from 21.9% to 9.2% and damages only 5.1% of originally correct-yes readouts. The readout-token effect also appears on Gemma3-4B, though upstream interventions are weaker and more mask-dependent. These results show that verbalized overconfidence can be selectively reduced through conditionally applied internal intervention, partially decoupling the suppression of unwarranted confidence from the loss of warranted confidence.
- Abstract(参考訳): 大規模な言語モデルは、しばしば間違った答えに対する高い信頼を表現します。
標準的なキャリブレーションの治療法は、通常、世界的にもスコアレベルでも機能し、不当な信頼を減らし、正しい回答に対する保証された信頼を損なうリスクも負う。
提案手法では, 凍結プローブを用いて, 誤信の可能性のある応答を検出し, 信頼発生時に下流の注目ヘッド出力を条件付きで再スケールする。
Qwen3-4B-Instruct solve OpenMath Instruct problems with a structured binary confidence field, readout-token PCHI converts 82.2% of original wrong-yes confidence readouts to $\texttt{no}$, while a joint intervention across upstream confidence-template tokens は ECE を 21.9% から 9.2% に減らし、ダメージは元々の正しい-yes readout の5.1% に留まる。
Gemma3-4Bにもリードアウト・トケン効果が現れるが、上流への介入は弱くマスク依存的である。
以上の結果から, 条件付き内部介入により言語過信を選択的に低減し, 保証された信頼の喪失から不当な信頼の抑制を部分的に分離できることが示唆された。
関連論文リスト
- ORCE: Order-Aware Alignment of Verbalized Confidence in Large Language Models [17.761630515662947]
本稿では,言語的信頼度校正のための疎結合・秩序対応フレームワークを提案する。
提案手法は,まず回答を生成し,固定された質問対に条件付き信頼度を推定する。
実験により,本手法は解答精度を大きく保ちながらキャリブレーションと故障予測性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-05-12T17:39:43Z) - Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Confident in a Confidence Score: Investigating the Sensitivity of Confidence Scores to Supervised Fine-Tuning [13.193737353434152]
教師付き微調整に対する感度を理解するために,信頼度スコアの基盤となる挙動について検討する。
その結果, 出力品質以外の要因による信頼度の変化に起因する様々な信頼度スコアの相関が低下していることが判明した。
この結果から,信頼性指標がテストなしでは使用できないこと,微調整がより堅牢なメトリクスの開発の必要性が示唆された。
論文 参考訳(メタデータ) (2026-04-10T05:27:35Z) - Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定システムにデプロイされている。
出力アンカートークン確率に基づく正規化信頼スコアを導入する。
これにより、最小限のオーバーヘッドでエラーや幻覚を直接検出できる。
論文 参考訳(メタデータ) (2026-02-18T07:05:12Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Calibrating Verbalized Confidence with Self-Generated Distractors [24.56911906044891]
DINCO(Distractor-Normalized Coherence)を紹介する。
DINCOは、LLMの予測可能性バイアスを推定し、いくつかの自己生成障害に対してモデルに独立して信頼性を持たせることによって説明している。
我々は、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することとして、言語化された信頼を正規化したものである。
論文 参考訳(メタデータ) (2025-09-29T21:41:22Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。