論文の概要: Zero-source LLM Hallucination Detection with Human-like Criteria Probing
- arxiv url: http://arxiv.org/abs/2606.12900v1
- Date: Thu, 11 Jun 2026 04:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.586411
- Title: Zero-source LLM Hallucination Detection with Human-like Criteria Probing
- Title(参考訳): ヒューマンライクな基準探索によるゼロソースLCM幻覚検出
- Authors: Jiahao Yang, Shuhai Zhang, Hailong Kang, Feng Liu, Qi Chen, Mingkui Tan,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば事実的に誤りまたは偽りのコンテンツを生成することによって幻覚を引き起こす。
幻覚検出のためのヒト様基準探索法(HCPD)を提案する。
HCPDは、人間の評価者の多面的推論をエミュレートするパラダイムである。
- 参考スコア(独自算出の注目度): 43.90784659213977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often hallucinate by generating factually incorrect or unfaithful content, posing significant risks to their safe use. Detecting such hallucinations is particularly challenging under the zero-source constraint, where no model internals or external references are available, and detection must rely solely on the textual query-answer pair. In this paper, we propose Human-like Criteria Probing for Hallucination Detection (HCPD), a paradigm that emulates the multi-faceted reasoning of human evaluators. Its core is a Human-like Criteria Probing (HCP) mechanism, in which a LLM agent adaptively decomposes its judgment into a weighted set of interpretable criteria and aggregates criterion-specific scores into a final truthfulness measure. To achieve this adaptive capability, we introduce a reward-based alignment scheme using only weak supervision from semantic consistency. At inference, we employ a multi-sampling aggregation strategy to ensure robust decisions while preserving full interpretability. We further provide theoretical analysis supporting the reliability of our approach. Extensive experiments show that HCPD consistently outperforms state-of-the-art baselines, offering an effective and explainable solution for zero-source hallucination detection. Code is available at https://github.com/TRISKEL10N/HCPD.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、事実的に誤りまたは偽りのコンテンツを生成して幻覚を生じさせ、それらの安全な使用に重大なリスクを生じさせる。
このような幻覚を検出することは、モデル内部や外部参照が利用できないゼロソース制約の下では特に難しい。
本稿では,ヒト評価者の多面的推論をエミュレートするパラダイムであるHuman-like Criteria Probing for Hallucination Detection (HCPD)を提案する。
その中核はHuman-like Criteria Probing (HCP) 機構であり、LLMエージェントはその判断を重み付けされた解釈可能な基準に適応的に分解し、基準固有のスコアを最終的な真正度尺度に集約する。
この適応性を実現するために,意味的整合性からの弱監督のみを用いた報酬に基づくアライメント方式を導入する。
推測では、完全な解釈可能性を維持しながら堅牢な決定を保証するために、マルチサンプリングアグリゲーション戦略を採用している。
さらに、我々のアプローチの信頼性を支える理論的分析を提供する。
HCPDは最先端のベースラインを一貫して上回り、ゼロソース幻覚検出に効果的で説明可能なソリューションを提供する。
コードはhttps://github.com/TRISKEL10N/HCPDで入手できる。
関連論文リスト
- Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Lowest Span Confidence: A Zero-Shot Metric for Efficient and Black-Box Hallucination Detection in LLMs [24.471653720056803]
LLM(Large Language Models)の幻覚は、もっともらしいが非現実的な内容を生成する。
本稿では,最小資源仮定下での幻覚検出のために,LSC(Lowest Span Confidence)と呼ばれる新しいゼロショット法を提案する。
LSCは既存のゼロショットベースラインを一貫して上回り、リソース制約条件下であっても強力な検出性能を提供する。
論文 参考訳(メタデータ) (2026-01-07T12:48:33Z) - SeSE: A Structural Information-Guided Uncertainty Quantification Framework for Hallucination Detection in LLMs [43.76748192880071]
本稿では,大規模言語モデル固有の意味的不確かさを定量化する,原則的UQフレームワークを提案する。
我々は,指向性セマンティック依存をキャプチャする適応的にスペーシングされた有向グラフ構築アルゴリズムを開発した。
そして階層的抽象化を通じて潜在意味構造情報を利用する。
論文 参考訳(メタデータ) (2025-11-20T11:54:12Z) - Revisiting Hallucination Detection with Effective Rank-based Uncertainty [10.775061161282053]
隠れ状態の有効ランクを測定することによって不確実性を定量化する,単純かつ強力な手法を提案する。
表現のスペクトル解析に基づいて,本手法はモデルの内部推論過程の解釈可能な洞察を与える。
本手法は,幻覚を効果的に検出し,様々なシナリオで頑健に一般化する。
論文 参考訳(メタデータ) (2025-10-09T16:12:12Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection [39.52923659121416]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。