論文の概要: Listening makes Vision Clear for VLMs
- arxiv url: http://arxiv.org/abs/2606.23763v1
- Date: Mon, 22 Jun 2026 14:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.600379
- Title: Listening makes Vision Clear for VLMs
- Title(参考訳): リスニングによってVLMの視覚が明確になる
- Authors: Yiyang Chen, Yixin Tan, Binrui Shen,
- Abstract要約: 我々は、プロンプト側セマンティクスを採用し、Prompt-Vision Token Activation Map (PV-TAM)を提案する。
PV-TAMは、モダリティ境界マーカーによって誘導される系統的バイアスを取り除くフィルタを組み込んでいる。
さまざまなデータセットの回答側ベースラインよりも、アテンションベースとIoUスタイルのローカライゼーションメトリクスを一貫して改善する。
- 参考スコア(独自算出の注目度): 10.154962172624954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work typically assesses vision--language consistency using attention distributions of answer-side tokens. However, we observe that highest attention regions are not always consistent with the intended semantic token. This probably stems from decoding drift, where language priors from previously generated answer tokens accumulate and mismatch with visual attention. Besides the priors from previous answer tokens, we find that structural tokens, e.g., modality boundary markers, may encompass the entire context and generate high attention to areas unrelated to the target. To avoid these distortions and provide consistency evaluation for large VLMs, we adopt prompt-side semantics and propose Prompt-Vision Token Activation Map (PV-TAM). PV-TAM further incorporates a filter to remove systematic bias induced by modality boundary markers. Unlike traditional methods that evaluate overlap solely through masks while ignoring activation intensity, our metrics leverage the peak distribution of attention to measure the alignment between prompts and visual regions. In experiments, PV-TAM consistently improves both attention-based and IoU-style localization metrics over answer-side baselines on various datasets.
- Abstract(参考訳): 最近の研究は一般的に、応答側トークンの注意分布を用いて視覚言語整合性を評価する。
しかし,最も注目される領域は意図した意味トークンと必ずしも一致しない。
これはおそらく、以前生成された応答トークンから言語が先行して蓄積され、視覚的注意とミスマッチする、デコードドリフトに由来する。
従来の回答トークンの先行情報に加えて、構造トークン(例えば、モダリティ境界マーカー)がコンテキスト全体を包含し、ターゲットとは無関係な領域に高い注意を喚起する可能性がある。
これらの歪みを回避し,大規模なVLMの整合性評価を行うために,プロンプト側セマンティクスを採用し,Prompt-Vision Token Activation Map (PV-TAM)を提案する。
PV-TAMはさらに、モダリティ境界マーカーによって誘導される系統的バイアスを取り除くフィルタを組み込んでいる。
マスクのみによるオーバーラップ評価とアクティベーション強度を無視する従来の手法とは異なり、我々のメトリクスは注意のピーク分布を利用して、プロンプトと視覚領域のアライメントを測定する。
実験では、PV-TAMは、さまざまなデータセットの回答側ベースラインよりも、アテンションベースとIoUスタイルのローカライゼーションメトリクスを一貫して改善する。
関連論文リスト
- Learning to See What You Need: Gaze Attention for Multimodal Large Language Models [96.20985292033465]
本稿では,世代別タスク関連視覚領域へのMLLMの選択的参加を可能にする新しいメカニズムであるGaze Attentionを紹介する。
注意計算では、視線KVエントリが最大90%少ないのに対して、視線アテンションは高密度アテンションベースラインと一致または超過していることが示される。
論文 参考訳(メタデータ) (2026-05-13T06:54:09Z) - Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow [32.21470980856891]
VLM(Vision-Language Models)は、視覚認識、文書解析、視覚的グラウンドニングなど、幅広いタスクにおいて強力な能力を示している。
最近の研究は、VLMが問題に対応する正しい画像領域をキャプチャすることが多いが、必ずしも正しい答えを生成するとは限らないことを示している。
テキストトークンが無関係な視覚トークンに過度に注意を散らしすぎる場合、この誤認識はVLM内の最適情報フローに起因する可能性があることを示す。
論文 参考訳(メタデータ) (2026-04-17T08:07:22Z) - From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - ITSELF: Attention Guided Fine-Grained Alignment for Vision-Language Retrieval [7.809330758164896]
我々は,暗黙的局所アライメントのための注意誘導フレームワークITSELFを紹介する。
GRAB(Guarded Representation with Attentive Bank)はその中核として、モデル自身の注意を高可用性トークンの注意力銀行に変換する。
また,ロバスト選択のための多層アテンション(MARS)を導入し,各層に注意を集中させ,多様性を意識したトップk選択を行う。
論文 参考訳(メタデータ) (2026-01-03T01:19:36Z) - Capturing Gaze Shifts for Guidance: Cross-Modal Fusion Enhancement for VLM Hallucination Mitigation [8.805397340243557]
視覚言語モデル (VLM) はしばしば幻覚、すなわち視覚入力では実証できない内容を生成する。
本稿では, Gaze Shift-Guided Cross-Modal Fusion Enhancement (GIFT) という手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T23:04:26Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。