論文の概要: Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding
- arxiv url: http://arxiv.org/abs/2606.09859v1
- Date: Sun, 31 May 2026 13:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.957623
- Title: Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding
- Title(参考訳): マニフォールド分割の軽減:信頼に値するMLLM復号のための不確かさを意識した部分空間整形
- Authors: Yingxuan Zhuang, Jingxiao Yang, Miao Pan, Cheng Tan, Yuxiang Cai, Siwei Tan, Chen Zhi, Xuhong Zhang, Jianwei Yin, Jintao Chen,
- Abstract要約: 本稿では,表現構造を保ちながら幻覚を緩和する幾何学的無訓練復号法を提案する。
POPEとCHAIRの実験では、MGAPは事前のデコードベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 38.148606143968806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs frequently hallucinate objects inconsistent with visual inputs. This issue is typically attributed to the over-reliance on language priors, which can override the visual context. Recent training-free decoding strategies address this by penalizing language priors. However, these methods overlook the dual nature of language priors, where they can be both helpful and harmful depending on the alignment with visual evidence. In particular, blindly suppressing language priors often disrupts the model's semantic manifold, leading to performance degradation, a phenomenon we term Manifold Departure. To address this, we propose Manifold-Guided Adaptive Projection (MGAP), a geometry-aware, training-free decoding method that mitigates hallucinations while preserving representation structure. MGAP first constructs a language-prior subspace from blind hidden states via SVD. During decoding, MGAP projects each multimodal hidden state onto this subspace and applies a consistency-aware gate to adaptively attenuate only the projected prior component, yielding a subspace-selective update that largely preserves the orthogonal semantic components. Extensive experiments on POPE and CHAIR show that MGAP outperforms prior decoding baselines, achieving stronger hallucination suppression without sacrificing coherence.
- Abstract(参考訳): MLLMは視覚入力と矛盾しない物体を幻覚させる。
この問題は典型的には、視覚的コンテキストをオーバーライドできる言語事前への過度な依存によるものである。
最近のトレーニング不要なデコード戦略は、言語事前のペナルティ化によってこの問題に対処している。
しかし、これらの手法は言語先行の二重性を見落としており、視覚的証拠との整合性に応じて有用かつ有害である可能性がある。
特に、盲目的に抑圧される言語先行は、しばしばモデルのセマンティック多様体を乱し、性能劣化をもたらす現象であるマニフォールド分割(Manifold Departure)と呼ばれる現象である。
そこで我々は,表現構造を保存しながら幻覚を緩和する幾何学的学習自由復号法である Manifold-Guided Adaptive Projection (MGAP) を提案する。
MGAPはまず、SVDを介して隠れた状態から言語優先のサブスペースを構築する。
デコード中、MGAPは各マルチモーダルな隠された状態をこのサブスペースに投影し、整合性を意識したゲートを適用して、投影された前のコンポーネントのみを適応的に減衰させ、直交的なセマンティックコンポーネントをほとんど保存するサブスペース選択的な更新を生成する。
POPEおよびCHAIRの広範囲な実験により、MGAPは、コヒーレンスを犠牲にすることなく、より強い幻覚抑制を達成し、事前のデコードベースラインより優れていることが示された。
関連論文リスト
- When Language Overwrites Vision: Over-Alignment and Geometric Debiasing in Vision-Language Models [4.309108879640932]
VLM(Vision-Language Models)は、より強力な高感度アプリケーションである。
定期的に幻覚を呈し、入力に存在しない内容について自信を持って記述する。
これらの障害モードを幾何学的オーバーアライメントにトレースする。
本稿では,トレーニングフリー推論戦略とバイアス対応微調整パラダイムの2つの補完策を提案する。
論文 参考訳(メタデータ) (2026-05-07T10:09:18Z) - Robust Grounding with MLLMs Against Occlusion and Small Objects via Language-Guided Semantic Cues [58.21371989991432]
群衆化されたシーンには視覚的な課題が伴い、オブジェクトの意味論が損なわれ、グラウンドのパフォーマンスが低下する。
言語誘導セマンティックキュー(LGSC)を利用して,そのような制約を克服する新しい手法を提案する。
論文 参考訳(メタデータ) (2026-04-27T04:42:03Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Cross-Image Contrastive Decoding: Precise, Lossless Suppression of Language Priors in Large Vision-Language Models [13.17978215666921]
言語先行性への過度依存は、LVLM(Large Vision-Language Models)における幻覚の主要な原因である
最近の研究では、訓練なしの解として対照的な復号化が検討されている。
我々は、非関連画像をコントラスト視覚入力として利用する、シンプルで効果的なトレーニング不要なクロスイメージコントラストデコーディング(CICD)を提案する。
論文 参考訳(メタデータ) (2025-05-15T18:16:56Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。