論文の概要: A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2606.12160v1
- Date: Wed, 10 Jun 2026 14:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.511875
- Title: A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs
- Title(参考訳): インストラクション調整LDMにおける復号時間真理性手法の制御に関する研究
- Authors: Ao Sun,
- Abstract要約: トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
- 参考スコア(独自算出の注目度): 3.4007995136788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce CHAIR (Classifier of Hallucination As ImproveR), a supervised framework for detecting hallucinations by analyzing internal logits from each layer of every token. Our method extracts a compact set of features such as maximum, minimum, mean, standard deviation, and slope-from the token logits across all layers, enabling effective hallucination detection without overfitting. Experiments on TruthfulQA and MMLU datasets demonstrate that CHAIR significantly improves detection accuracy, particularly in zero-shot scenarios, showcasing its robustness and generalizability. Beyond hallucination detection, CHAIR highlights the potential of using internal representations for designing advanced decoding strategies. By leveraging patterns in logits, we suggest that more sophisticated models and adaptive decoding methods could further reduce hallucinations and enhance text completion quality. CHAIR not only offers a practical solution for detecting hallucinations but also lays the groundwork for exploring richer representations in LLMs to improve their factuality and coherence.
- Abstract(参考訳): 本稿では,各トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
TruthfulQAとMMLUデータセットの実験では、CHAIRは検出精度を大幅に向上し、特にゼロショットシナリオでは、その堅牢性と一般化性を示している。
幻覚検出以外にも、CHAIRは高度な復号戦略を設計するために内部表現を使用することの可能性を強調している。
ロジットのパターンを活用することにより、より洗練されたモデルと適応的な復号法が幻覚をさらに減らし、文章の完成性を高めることが示唆された。
CHAIRは幻覚を検出するための実用的なソリューションを提供するだけでなく、LLMにおけるより豊かな表現を探求し、それらの事実と一貫性を改善するための基礎となる。
関連論文リスト
- Scalable Token-Level Hallucination Detection in Large Language Models [63.3426544914783]
内部幻覚は推論集約的なタスクでは検出が難しい。
TokenHDはトークンレベルの幻覚検出器を訓練するための全体論的パイプラインである。
論文 参考訳(メタデータ) (2026-05-12T16:47:40Z) - Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation [68.41785694664011]
機能ステアリングのためのLate-Then-Sparsify(LTS-FS)と呼ばれるプラグアンドプレイフレームワークを提案する。
各層の幻覚関係に応じて操舵強度を制御する。
我々の枠組みは、強い性能を維持しながら幻覚を効果的に緩和する。
論文 参考訳(メタデータ) (2026-03-17T09:16:50Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [35.06045656558144]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。