論文の概要: A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2606.12160v2
- Date: Thu, 11 Jun 2026 13:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.688164
- Title: A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs
- Title(参考訳): インストラクション調整LDMにおける復号時間真理性手法の制御に関する研究
- Authors: Ao Sun,
- Abstract要約: レイヤコントラスト復号、推論時間介入、学習ロジットアダプタは、TrathfulQAで10~30ポイントのゲインを示した。
現代の命令調整型LLMは、既にかなり高いベースラインを実現している。
熟考的推進法は、評価体制においてより堅牢であるように見える。
- 参考スコア(独自算出の注目度): 3.4007995136788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding-time truthfulness methods -- layer-contrast decoding, inference-time intervention, and learned logit adapters -- have demonstrated 10-30 point gains on TruthfulQA when applied to base language models. However, modern instruction-tuned LLMs already achieve substantially higher baselines (61-76%), raising the question of whether these methods remain effective in practice. We design a six-control evaluation framework -- out-of-distribution training, multi-judge validation, simple decoding baselines, confound controls, bootstrap confidence intervals, and seed variance -- and apply it across 5 models (1B-70B), 3 benchmarks, and 15 methods. We find that previously reported gains shrink substantially under strict controls: on the full TruthfulQA benchmark (N=817), no token-level method achieves statistically significant improvement, and the best learned adapter scores -2.0 points below greedy (p=.23). We identify five evaluation sensitivities -- contamination, judge choice, missing baselines, confounds, and statistical noise -- that individually or jointly account for these discrepancies. Cross-benchmark validation on HaluEval QA and TriviaQA confirms that these patterns extend beyond TruthfulQA. Deliberative prompting methods (chain-of-thought, self-critique) appear more robust in the evaluated regime, with CoT achieving +5.6-19pp across benchmarks as a training-free, single-pass method. We release a seven-point evaluation checklist and discuss implications for future truthfulness research.
- Abstract(参考訳): Decoding-time truthfulnessメソッド -- レイヤコントラストデコーディング、推論時インタプリタ、学習ロジットアダプタ -- は、ベース言語モデルに適用した場合、TruthfulQAで10~30ポイントのゲインを示した。
しかし、現代の命令チューニング LLM は、既にかなり高いベースライン(61-76%)を達成しており、これらの手法が実際に有効であるかどうかという疑問が提起されている。
アウト・オブ・ディストリビューショントレーニング、マルチジャッジ検証、シンプルなデコードベースライン、コンファウンドコントロール、ブートストラップの信頼性間隔、シード分散といった6つの評価フレームワークを設計し、それを5つのモデル(1B-70B)、3つのベンチマーク、15のメソッドに適用します。
また,TruthfulQAベンチマーク(N=817)では,トークンレベルの手法では統計的に有意な改善が得られず,最も学習度の高いアダプタスコアはgreedyより2.0ポイント低い(p=.23)。
汚染、判断の選択、ベースラインの欠如、欠点、統計的ノイズの5つの評価感度が、これらの相違点を個人的または共同的に考慮している。
HaluEval QA と TriviaQA のクロスベンチマーク検証では、これらのパターンが TruthfulQA を超えて拡張されていることが確認されている。
リベラルなプロンプト法(チェーン・オブ・シンク、自己批判)は評価体制においてより堅牢に見え、CoTはトレーニングフリーのシングルパス法としてベンチマークで+5.6-19ppを達成している。
本研究では,7点評価チェックリストを公開し,今後の真理性研究の意義について論じる。
関連論文リスト
- Scalable Token-Level Hallucination Detection in Large Language Models [63.3426544914783]
内部幻覚は推論集約的なタスクでは検出が難しい。
TokenHDはトークンレベルの幻覚検出器を訓練するための全体論的パイプラインである。
論文 参考訳(メタデータ) (2026-05-12T16:47:40Z) - Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation [68.41785694664011]
機能ステアリングのためのLate-Then-Sparsify(LTS-FS)と呼ばれるプラグアンドプレイフレームワークを提案する。
各層の幻覚関係に応じて操舵強度を制御する。
我々の枠組みは、強い性能を維持しながら幻覚を効果的に緩和する。
論文 参考訳(メタデータ) (2026-03-17T09:16:50Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [35.06045656558144]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。