論文の概要: The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust
- arxiv url: http://arxiv.org/abs/2606.07822v1
- Date: Fri, 05 Jun 2026 20:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.467387
- Title: The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust
- Title(参考訳): ACUTEプロトコル:より良いキャリブレーション、ユーティリティ、信頼のための言語モデルアクティベーションの運用
- Authors: Nishant Subramani, Palash Goyal, Yiwen Song, Mani Malek, Yuan Xue, Tomas Pfister, Hamid Palangi,
- Abstract要約: キャリブレーションと情報伝達のバランスをとるために, オーラクル (EURO) によって再正規化される新しい計量式を開発した。
また,不確実性を適切に判断するための汎用信頼度,実用性,信頼度推定プロトコル(ACUTE)を提案する。
- 参考スコア(独自算出の注目度): 39.08747366439304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models improve and become increasingly deployed to solve a variety of tasks, trustworthiness becomes essential. Calibration is a good proxy for trust: well-calibrated confidence estimates help inform the risk versus reward tradeoff when trusting a specific model output. Unfortunately, even as models improve, they remain poorly calibrated, often biasing towards overconfidence. Additionally, calibration can be gamed: a policy that always predicts the base rate is perfectly calibrated, but completely uninformative. To resolve this, we develop a new metric, expected utility renormalized by the oracle (EURO), that balances calibration and informativeness. We also propose a general-purpose activation-based confidence, utility, and trust estimation protocol (ACUTE) to appropriately adjudicate uncertainty. The ACUTE protocol provides flexible, sample-efficient, and compute-efficient confidence estimators for 3 tasks including multiple choice question answering, tool-calling, and scientific document summarization across 6 models from 4 model families. ACUTE outperforms strong baselines on EURO, while maintaining low calibration error. Taken together, our work shows that equipping LLMs with the ACUTE protocol can improve calibration, utility, and trustworthiness in numerous settings.
- Abstract(参考訳): 言語モデルが改善され、さまざまなタスクを解決するためにデプロイされるようになるにつれて、信頼性が不可欠になります。
キャリブレーション(キャリブレーション)は、信頼のためのよいプロキシである。 十分なキャリブレーションされた信頼推定は、特定のモデルのアウトプットを信頼するときに、リスクと報酬のトレードオフを知らせるのに役立つ。
残念なことに、モデルが改善しても、キャリブレーションが不十分で、しばしば過剰な自信に偏っている。
基準レートを常に予測するポリシーは、完全にキャリブレーションされているが、完全に非形式的である。
これを解決するために、校正と情報性のバランスをとるための新しい計量である期待効用(EURO)を開発した。
また,不確実性を適切に判断するための,汎用的なアクティベーションベースの信頼度,実用性,信頼度推定プロトコル(ACUTE)を提案する。
ACUTEプロトコルは、複数の選択質問応答、ツールコール、および4つのモデルファミリーから6つのモデルにまたがる科学的文書要約を含む3つのタスクに対して、フレキシブル、サンプル効率、および計算効率の高い信頼度推定器を提供する。
ACUTEは、低い校正誤差を維持しながら、EUROの強いベースラインを上回っている。
ACUTEプロトコルにLLMを組み込むことで,キャリブレーションや実用性,信頼性の向上が期待できる。
関連論文リスト
- Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Fine-grained Approaches for Confidence Calibration of LLMs in Automated Code Revision [16.289117637700446]
正準緩和法は、インスタンスレベルでの正当性を忠実に反映した正当性スコアを提供することである。
本研究は, 局所プラッツスケーリングを3種類の微粒な信頼度スコアに別々に適用することを提案する。
より広い範囲の確率区間にわたるキャリブレーション誤差を, 微粒な信頼度スコアが常に低いキャリブレーション誤差を達成できることが判明した。
論文 参考訳(メタデータ) (2026-04-08T06:41:09Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Balancing Classification and Calibration Performance in Decision-Making LLMs via Calibration Aware Reinforcement Learning [10.123352394689134]
よく校正された信頼性により、下流のシステムは、いつモデルを信頼するか、いつフォールバックメカニズムを延期するかを決定できる。
RLVRはタスク性能を向上するが、極めて自信過剰なモデルを生成する。
本稿では,意思決定確率を直接調整するキャリブレーション対応強化学習の定式化を提案する。
論文 参考訳(メタデータ) (2026-01-19T18:31:31Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。