論文の概要: Disentangling Hallucinations: Orthogonal Semantic Projection for Robust Interpretability
- arxiv url: http://arxiv.org/abs/2606.14758v1
- Date: Mon, 08 Jun 2026 09:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.049549
- Title: Disentangling Hallucinations: Orthogonal Semantic Projection for Robust Interpretability
- Title(参考訳): 遠心性幻覚:ロバスト解釈性のための直交意味射影
- Authors: Emirhan Bilgiç, Baptiste Caramiaux, Zhi Yan, Gianni Franchi,
- Abstract要約: 視覚言語モデルのための説明可能なAI手法は、しばしば意味幻覚に悩まされることを示す。
この現象は単一のアーキテクチャに固有のものではなく、線形セマンティックリークによる根本的な結果である。
我々は,OMPの残差特性を利用して,共有概念から独自の意味信号を切り離す幾何学的介入であるOrthogonal-Semantic-Projection(OSP)を紹介する。
- 参考スコア(独自算出の注目度): 13.913790302632018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision-Language Models are increasingly deployed in safety-critical applications, the trustworthiness of their explanations becomes crucial. Explainable AI (XAI) methods for Vision-Language Models often suffer from semantic hallucination, where attribution maps highlight prominent image regions even when prompted with incorrect text descriptions (e.g., highlighting a dog when prompted ``cat''). Although this problem is widespread, a formal mathematical analysis of XAI methods and CLIP embeddings is largely missing in the literature. We demonstrate that this phenomenon is not specific to a single architecture but is a fundamental consequence of Linear Semantic Leakage in high-dimensional embedding spaces. We propose a unified theoretical framework, Linear Semantic Attribution (LSA), which generalizes across discriminative methods. We introduce OSP, a geometric intervention that utilizes the residual property of OMP to disentangle unique semantic signals from shared concepts. We prove theoretically and demonstrate empirically that OSP minimizes hallucination by orthogonalizing the query vector against distractor concepts, rendering the attribution model blind to shared features while preserving fidelity for correct prompts. Our code is available at: https://github.com/emirhanbilgic/Orthogonal-Semantic-Projection
- Abstract(参考訳): Vision-Language Modelsは、安全クリティカルなアプリケーションにますますデプロイされているので、それらの説明の信頼性が重要になる。
視覚言語モデルのための説明可能なAI(XAI)メソッドは、しばしば意味幻覚に悩まされる。
この問題は広く知られているが、XAI法とCLIPの埋め込みに関する公式な数学的解析は文献にはほとんど欠落している。
この現象は1つのアーキテクチャに特有ではなく、高次元埋め込み空間における線形意味漏洩の基本的な結果であることを示す。
本稿では,識別的手法にまたがって一般化する一貫した理論的枠組みである線形意味属性(LSA)を提案する。
我々は,OMPの残差特性を利用して,共有概念からユニークな意味信号を切り離す幾何学的介入であるOSPを紹介する。
理論的に証明し、OSPは、クエリベクトルをイントラクタ概念に対して直交させ、帰属モデルを共有特徴に盲くし、正しいプロンプトの忠実さを保ちながら、幻覚を最小化することにより、実証的に実証する。
私たちのコードは、https://github.com/emirhanbilgic/Orthogonal-Semantic-Projectionで利用可能です。
関連論文リスト
- Unveiling the Visual Counting Bottleneck in Vision-Language Models [49.591496870141846]
この研究は視覚的数え上げを3つの認知段階(視覚的識別、大きさ認識、象徴的マッピング)に分解する。
合成Go基板と線形プローブを用いて、視覚的バックボーンは、外挿系にしっかりと、線形に分離可能な量表現を保っていることを示す。
我々は、崩壊をシンボルマッピングステージに向ける。そこでは、モデルがシンボルトークンに有効な視覚的大きさを投影することに失敗する。
論文 参考訳(メタデータ) (2026-05-28T16:20:29Z) - When Language Overwrites Vision: Over-Alignment and Geometric Debiasing in Vision-Language Models [4.309108879640932]
VLM(Vision-Language Models)は、より強力な高感度アプリケーションである。
定期的に幻覚を呈し、入力に存在しない内容について自信を持って記述する。
これらの障害モードを幾何学的オーバーアライメントにトレースする。
本稿では,トレーニングフリー推論戦略とバイアス対応微調整パラダイムの2つの補完策を提案する。
論文 参考訳(メタデータ) (2026-05-07T10:09:18Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit [23.806945495163774]
我々は,MP-SAEがエンコーダを一連の残差誘導ステップにアンロールすることで,階層的かつ非線形にアクセス可能な特徴を捉えることができることを示す。
また、MP-SAEのシーケンシャルエンコーダ原理は、推論時に適応空間の利点を付加することを示した。
論文 参考訳(メタデータ) (2025-06-03T17:24:55Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文 参考訳(メタデータ) (2024-05-25T12:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。