論文の概要: From Drift to Coherence: Stabilizing Beliefs in LLMs
- arxiv url: http://arxiv.org/abs/2606.17832v2
- Date: Thu, 18 Jun 2026 15:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.708432
- Title: From Drift to Coherence: Stabilizing Beliefs in LLMs
- Title(参考訳): ドリフトからコヒーレンスへ:LLMにおける信念の安定化
- Authors: SongEun Kim, Seungyoo Lee, Edwin Fong, Hyungi Lee, Juho Lee,
- Abstract要約: 大型言語モデル (LLM) はしばしば暗黙のベイズ推論を行うと仮定される。
予測的信念のマーチンゲール特性であるキーコヒーレンス条件は、制御された文脈内学習設定で失敗することが示されている。
自己回帰的回答再サンプリングによって引き起こされる信念のダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 23.20001878593831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are often hypothesized to perform implicit Bayesian inference, yet a key coherence condition, the martingale property of predictive beliefs, has been shown to fail in controlled synthetic in-context learning settings. We revisit this question in a more typical usage regime: generic multiple-choice question answering. Exploiting the discrete answer space, we compute exact predictive distributions and study belief dynamics induced by autoregressive answer resampling. We introduce prompted predictive resampling (PPR), where an LLM generates a sequence of answers to the same question. Empirically, PPR reveals early-stage belief drift, indicating martingale violations. However, after sufficient resampling steps, the belief process self-stabilizes and converges to a coherent predictive distribution. Based on this observation, we further propose (i) a seed-answer prompting strategy to accelerate stabilization, and (ii) a self-consistency loss that amortizes early-stage drift into the model via fine-tuning. Experiments on multiple-choice QA benchmarks show that our methods substantially reduce belief drift and improve predictive coherence without sacrificing accuracy.
- Abstract(参考訳): 大規模言語モデル (LLM) は暗黙のベイズ推論を行うと仮定されることが多いが、予測的信念のマーチンゲール特性である重要なコヒーレンス条件は、制御された文脈内学習環境では失敗することが示されている。
我々は、この質問を、より典型的な使用法で再考する: 汎用的な多重選択質問応答。
個別の回答空間を探索し、自己回帰的回答再サンプリングによって引き起こされる正確な予測分布を計算し、信念のダイナミクスを研究する。
我々は,LLMが同じ質問に対して一連の回答を生成するPPR(Produceive Resampling)を導入した。
実証的にPPRは、マーチンゲール違反を示す初期段階の信念の漂流を明らかにしている。
しかし、十分な再サンプリングのステップの後、信念プロセスは自己安定化し、一貫性のある予測分布に収束する。
この観察に基づいて、我々はさらに提案する。
一 安定を早めるための出芽促進戦略、及び
(II)微調整により初期段階のドリフトを補正する自己整合性損失。
マルチ選択QAベンチマーク実験により, 精度を犠牲にすることなく, 信念の漂流を著しく低減し, 予測コヒーレンスを向上させることができた。
関連論文リスト
- Asymptotically Log-Optimal Bayes-Assisted Confidence Sequences for Bounded Means [0.0]
ベイズ型動作予測モデルを用いて信頼性シーケンスを適応的に構築するベイズ支援フレームワークを提案する。
LLM評価のための合成データ、シーケンシャルベストアーム識別、および予測駆動推論の実験により、情報的事前は信頼性シーケンス幅とサンプリングの労力を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2026-05-08T16:27:50Z) - Finite-Sample Analysis of Elimination in Active Hypothesis Testing [3.128335362695965]
アクティブ仮説テストの固定信頼有限サンプル問題は、多くの安全クリティカルな応用に現れる。
逐次仮説テストの文脈において,仮説の除去が停止時間に与える影響について検討する。
論文 参考訳(メタデータ) (2026-05-01T19:08:12Z) - CREDO: Epistemic-Aware Conformalized Credal Envelopes for Regression [3.6457570471698095]
両強みを組み合わせたシンプルな「クレーダル・テンコンフォーマル化」レシピであるCREDOを紹介する。
CREDOはまず、地元の証拠が弱いときに拡大する解釈可能なクレダルエンベロープを構築し、次にこのエンベロープの上にスプリット・コンフォメーション・キャリブレーションを適用して、限界範囲のカバレッジを保証する。
この役割の分離は解釈可能な予測間隔をもたらす。
論文 参考訳(メタデータ) (2026-03-06T19:37:21Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。