論文の概要: BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07528v1
- Date: Mon, 20 Apr 2026 10:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.678893
- Title: BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models
- Title(参考訳): BEACON:大規模言語モデルにおけるクロスモデル幻覚検出のための行動エントロピー集約
- Authors: Naveen Bera, Pulijala Sai Nikhila, Kondaguduru Abhiram, Shaik Gayaz Ali, Shoaib Sadiq Salehmohamed, Shaik Mohammed Omar, Jinal Prashant Thakkar, Hansika Aredla, Shalmali Ayachit,
- Abstract要約: モデル出力で純粋に動作するブラックボックス幻覚検出フレームワークBEACONを提案する。
7つのベンチマークでラベル付き7,617の例でトレーニングされた勾配ブースト分類器は0.8123 +/- 0.0102 AUROCを達成する。
効率的な 5-call バリアントは 0.7795 AUROC を達成し、ブラックボックスの LLM API をまたいで実用的なデプロイを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination in large language models (LLMs), defined as the generation of factually incorrect or unsupported content, remains a critical barrier to reliable deployment. We present BEACON (Behavioral Entropy Aggregation for Cross-model hallucination detectiON), a black-box hallucination detection framework that operates purely on model outputs without requiring access to internal representations or external knowledge bases. BEACON extracts a 31-dimensional feature vector from structured multi-pass generation, integrating NLI-based semantic entropy, embedding geometry, chain-of-thought consistency, and paraphrase stability signals. A gradient-boosted classifier trained on 7,617 labeled examples across seven benchmarks achieves 0.8123 +/- 0.0102 AUROC (95% CI: 0.7632-0.8251), outperforming standalone semantic entropy (+0.2298) and SelfCheckGPT-style consistency baselines (+0.2457). Feature importance analysis shows that hallucination is inherently multi-dimensional, requiring combined uncertainty signals. An efficient 5-call variant achieves 0.7795 AUROC, enabling practical deployment across black-box LLM APIs.
- Abstract(参考訳): 大規模言語モデル(LLMs)における幻覚は、事実的に正しくない、あるいはサポートされていないコンテンツの生成として定義され、信頼性の高いデプロイメントにとって重要な障壁である。
本稿では、内部表現や外部知識ベースへのアクセスを必要とせず、モデル出力に対して純粋に動作するブラックボックス幻覚検出フレームワークBEACONについて述べる。
BEACONは、構造化多重パス生成から31次元特徴ベクトルを抽出し、NLIに基づく意味エントロピー、埋め込み幾何学、チェーン・オブ・シント整合、パラフレーズ安定性信号を統合する。
7つのベンチマークでラベル付き7,617の例でトレーニングされた勾配ブースト分類器は、0.8123 +/- 0.0102 AUROC (95% CI: 0.7632-0.8251)、スタンドアロンセマンティックエントロピー(+0.2298)、SelfCheckGPTスタイルの一貫性ベースライン(+0.2457)を実現している。
特徴的重要性分析は、幻覚は本質的に多次元であり、組み合わせた不確実性信号を必要とすることを示している。
効率的な 5-call バリアントは 0.7795 AUROC を達成し、ブラックボックスの LLM API をまたいで実用的なデプロイを可能にする。
関連論文リスト
- ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both [55.182037225013836]
ATLASは、単一の独立した「ワード」を機能トークンと呼び、エージェント操作と潜在視覚推論ユニットの両方として機能するフレームワークである。
ATLASは、明確な解釈可能性を維持しながら、挑戦的なベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T17:59:55Z) - Scalable Token-Level Hallucination Detection in Large Language Models [63.3426544914783]
内部幻覚は推論集約的なタスクでは検出が難しい。
TokenHDはトークンレベルの幻覚検出器を訓練するための全体論的パイプラインである。
論文 参考訳(メタデータ) (2026-05-12T16:47:40Z) - PHANTOM: Polymorphic Honeytoken Adaptation with Narrative-Tailored Organisational Mimicry [0.2538209532048867]
ハネトケンは、不正な属性アクセスを検出するために植えられたデコイデジタル資産である。
PHANTOMは,組織固有の知識を符号化することで,文脈的に説得力のあるハネトケンを生成するフレームワークである。
結果は外部のAPIコールなしで再現されるため、パイプラインは空調された環境で完全にデプロイできる。
論文 参考訳(メタデータ) (2026-05-04T17:14:13Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - FUTransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation [0.0]
糖尿病性足潰瘍 (DFUs) の自動分節は, 臨床診断, 治療計画, 縦断的創傷モニタリングにおいて重要な役割を担っている。
従来の畳み込みニューラルネットワーク(CNN)は、強力なローカライゼーション機能を提供するが、長距離空間依存のモデル化に苦慮している。
視覚変換器(ViT)のグローバルアテンション機構をU-Netフレームワークに統合するハイブリッドアーキテクチャであるFUTransUNetを提案する。
論文 参考訳(メタデータ) (2025-08-04T11:05:14Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。