論文の概要: Pre-Generation Hallucination Detection in Large Language Models via Soft-Target Attention Probing
- arxiv url: http://arxiv.org/abs/2606.21917v1
- Date: Sat, 20 Jun 2026 07:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:52:21.578641
- Title: Pre-Generation Hallucination Detection in Large Language Models via Soft-Target Attention Probing
- Title(参考訳): ソフト・ターゲット・アテンション・プロービングによる大規模言語モデルの予生成幻覚検出
- Authors: Amina Miftakhova, Alexey Zaytsev,
- Abstract要約: 実験的な回答誤り率を過度にサンプリングした結果に基づいて,ソフトターゲットの監視を導入する。
我々は、前世代の設定に注意を向けることで、検知器が幻覚関連プロンプト表現を選択的に集約することを可能にする。
- 参考スコア(独自算出の注目度): 0.9870126088784975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting hallucination risk before generation enables abstention, retrieval augmentation, and routing decisions without incurring the cost of decoding. While prior work has shown that such risk can be estimated from a model's internal representations, existing approaches treat this as binary classification over a single decoded output. We instead formulate it as a risk-estimation problem. Under this formulation, we introduce soft-target supervision based on the empirical answer error rate over stochastically sampled outputs - an estimator we prove to be the unique unbiased minimum-variance estimator of the model's per-prompt error probability under its sampling distribution. We further adapt attention probing to the pre-generation setting, enabling the detector to selectively aggregate hallucination-relevant prompt representations. Across three question-answering benchmarks and five models, attention probing outperforms linear probing on short-answer tasks. Replacing binary labels with soft-target supervision further and consistently improves detection quality.
- Abstract(参考訳): 生成前の幻覚リスクの検出は、復号コストを発生させることなく、棄却、検索強化、ルーティング決定を可能にする。
以前の研究では、モデルの内部表現からそのようなリスクを推定できることが示されているが、既存のアプローチでは、これを単一のデコードされた出力上のバイナリ分類として扱う。
その代わり、リスク推定問題として定式化します。
本定式化では,確率的にサンプリングされた出力に対する経験的回答誤差率に基づくソフトターゲット監視を導入する。
我々はさらに、前世代の設定に注意を向けることで、検知器が幻覚関連プロンプト表現を選択的に集約することを可能にする。
3つの問合せベンチマークと5つのモデルで、注意探索は短問合せタスクにおいて線形探索よりも優れる。
ソフトターゲット監視によるバイナリラベルのリプレースにより,検出品質が継続的に向上する。
関連論文リスト
- Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Entropy Alone is Insufficient for Safe Selective Prediction in LLMs [20.664633053172327]
選択予測システムは、高リスクケースでの回答を控えることで、言語モデル幻覚による害を軽減することができる。
不確実性定量化技術はしばしばそのようなケースを特定するために用いられるが、より広い選択的予測ポリシーの文脈で評価されることはほとんどない。
エントロピーに基づく不確実性手法のモデル依存的故障モードを同定し、エントロピースコアと正当性プローブ信号を組み合わせることで、信頼できない禁忌行動に対処する。
論文 参考訳(メタデータ) (2026-03-22T11:27:13Z) - From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification [40.73759251488672]
既存のノイズロスのある人物Re-ID法は、ソフトマックス出力を用いた損失補正やサンプル選択方式に依存している。
本稿では,キャリブレーションからリファインメントへ伝播する確率的証拠を通じて確実性を求める2段階フレームワークであるCARE法を提案する。
精製段階では, クリーン試料とノイズ試料をより正確に識別できるエビデンス伝搬精製法(EPR)を設計する。
論文 参考訳(メタデータ) (2026-02-26T15:50:15Z) - Catching Contamination Before Generation: Spectral Kill Switches for Agents [0.0]
本稿では,フォワードパスのみを使用してエージェント実行中にバイナリ受信や拒否信号を出力する診断手法を提案する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計量を計算する。
ベイズ感覚では, 高頻度エネルギー比の1つの閾値が, 文脈の不整合を検出するのに最適であることを示す。
論文 参考訳(メタデータ) (2025-11-08T02:24:05Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Self-Paced Uncertainty Estimation for One-shot Person Re-Identification [9.17071384578203]
本稿では,単発人物の自己ペース不確実性推定ネットワーク(spue-net)を提案する。
自己ペースサンプリング戦略を導入することで,ラベルなしサンプルの擬似ラベルを反復的に推定し,ラベル付きサンプルを拡張できる。
さらに,局所不確実性推定と決定性推定を併用した協調学習手法を適用し,より優れた隠れ空間特徴抽出を実現する。
論文 参考訳(メタデータ) (2021-04-19T09:20:30Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文 参考訳(メタデータ) (2020-01-20T09:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。