論文の概要: Mirage Probes: How Vision Models Fake Visual Understanding
- arxiv url: http://arxiv.org/abs/2606.13870v1
- Date: Thu, 11 Jun 2026 19:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.622491
- Title: Mirage Probes: How Vision Models Fake Visual Understanding
- Title(参考訳): Mirage Probes:視覚モデルが視覚的理解を引き起こす方法
- Authors: Daniel Ben-Levi, Judah Goldfeder, Weiliang Zhao, Raz Lapid, Amit LeVi, Allen G. Roush, Ravid Shwartz-Ziv, Hod Lipson,
- Abstract要約: 視覚言語モデル(VLM)は、画像が提供されていない場合でも、画像ベースの疑問に自信を持って、しばしば正しく答えることができる。
本研究は, 残差流, 注意点, 注意点の内的活性化から, ミラージュ行動が線形に除去可能であることを示す。
- 参考スコア(独自算出の注目度): 13.299409525312491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) can answer image-based questions confidently, and often correctly, even when no image is provided. This mirage behavior inflates benchmark scores without reflecting visual grounding. Prior work treats this as a single failure mode. We argue it is two. Using Mirage Probes, a contrastive probing framework that pairs paraphrased question variants with matched mirage and non-mirage labels on the same image, we show that mirage behavior is linearly decodable from internal activations across residual stream, MLP, post-attention, and attention-head sites in two open-source VLMs. We demonstrate that a Naive Bayes text baseline cannot recover this signal, ruling out surface lexical confounds. Cross-benchmark separability patterns, together with a novel Prior Harnessing Index (PHI) measuring how much a model can answer from text alone, expose two distinct regimes: textual biases, where the model answers from language priors without engaging visual representations, and spurious images, where it constructs false visual content in latent space and answers as if grounded. The distinction has direct mitigation consequences: text-distribution cleaning can address the first regime but cannot reach the second, since spurious-image mirages live in the model's visual representations rather than its text. Faithful visual grounding will require interventions at the representational level.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像が提供されていない場合でも、画像ベースの疑問に自信を持って、しばしば正しく答えることができる。
このミラージュ動作は、視覚的なグラウンドを反映することなく、ベンチマークスコアを膨らませます。
以前の作業では、これを単一障害モードとして扱う。
私たちはそれが2つだと論じている。
同画像上では,パラメータ付き質問変数と一致するミラージュラベルと非ミラージュラベルとをペアリングする対照的な探索フレームワークであるMirage Probesを用いて,2つのオープンソースVLMにおいて,残ストリーム,MLP,ポストアテンション,アテンションヘッドサイト間の内部アクティベーションからミラージュ動作が線形に除去可能であることを示す。
本研究では,Naive Bayes テキストベースラインではこの信号の復元が不可能であり,表面の語彙的矛盾を排除できないことを示す。
クロスベンチマークの分離パターンは、新しいPresideor Harnessing Index(PHI)とともに、モデルがテキストのみからどれだけ回答できるかを測定するとともに、テキストバイアス(textual biases)と、モデルが視覚的な表現を伴わずに言語先行から回答する、刺激的なイメージ(pusious image)という、2つの異なるルールを公開している。
テキスト配布クリーニングは第1の体制に対処できるが、第2の体制には到達できない。
忠実な視覚的接地には、表現レベルでの介入が必要である。
関連論文リスト
- VisualFLIP: Do Predictions Depend on Task-Critical Visual Evidence in Multimodal Reasoning? [79.44137632338062]
マルチモーダルな大規模言語モデルが視覚的推論問題に正しく答える場合、その予測はタスククリティカルな視覚的証拠によって実際に支持されているか?
VisualFLIPは1,374枚の画像が基数,属性,空間,論理的タスクにまたがって同一の問合せペアとして配置されたベンチマークである。
ペアの両面を解く必要がある24個のMLLMと、少なくとも一方の面を解くモデルが両方の画像に対して同じ空でない答えを繰り返す頻度を測定するCR(Collapse Rate)を評価した。
論文 参考訳(メタデータ) (2026-06-05T22:06:07Z) - Diagnosing Visual Ignorance in Vision-Language Models [29.2851901986069]
VLM(Vision-Language Models)は、しばしば言語先行に頼り、視覚的証拠に弱く根ざした自信ある答えを生み出す。
本研究では,機械的視点と行動的視点の両方から言語優先性について検討する。
言語優先の信頼性は、モデル内部とベンチマークの妥当性の両方に影響を及ぼす体系的なルーティング障害であることがわかった。
論文 参考訳(メタデータ) (2026-06-05T04:16:01Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。