論文の概要: Look Less, Reason More: Block-wise Attention Skipping for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2606.08511v1
- Date: Sun, 07 Jun 2026 08:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.176917
- Title: Look Less, Reason More: Block-wise Attention Skipping for Efficient Multimodal LLMs
- Title(参考訳): マルチモーダルLLMのブロックワイド・アテンション・スキッピング
- Authors: Jie Ma, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 意味進化から空間的相互作用を分離する学習自由推論パラダイムであるVisual-Skipを提案する。
V-Skipは、ブロックワイドの空間性を達成するために、冗長な視覚的注意を効果的に回避し、様々なMLLM間で94.16%から100.31%のパフォーマンス維持を維持している。
- 参考スコア(独自算出の注目度): 89.7106332677868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) face a significant inference bottleneck due to the quadratic computational cost of self-attention over long visual token sequences. However, we identify a critical inefficiency in current architectures: Visual Attention Saturation. Our analysis reveals that visual tokens rapidly establish their spatial structure and intra-modal relationships in early layers, rendering visual-to-visual self-attention in deeper layers computationally redundant. Conversely, Feed-Forward Networks (FFNs) in these layers remain essential for projecting visual features into the evolving textual semantic space. Leveraging this insight, we present Visual-Skip (V-Skip), a training-free inference paradigm that decouples spatial interaction from semantic evolution. Rather than discarding tokens, V-Skip imposes block-wise structured sparsity by selectively bypassing saturated visual self-attention modules. Furthermore, recognizing that varying downstream tasks demand distinct reasoning depths, V-Skip employs a lightweight, few-shot calibration to dynamically route the task-optimal sparsity path. Extensive experiments demonstrate that V-Skip effectively bypasses redundant vision attention to achieve block-wise sparsity, maintaining a 94.16% to 100.31% performance retention across diverse MLLMs. Ultimately, we prove that to reason more effectively, models do not need to discard what they see -- they simply need to "look less" at the right depth.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、長い視覚的トークン列に対する自己注意の2次計算コストのために、重要な推論ボトルネックに直面している。
しかし、現在のアーキテクチャにおける重要な非効率性は、ビジュアルアテンション飽和(Visual Attention Saturation)である。
解析の結果,視覚トークンは初期層における空間的構造やモーダル内関係を急速に確立し,より深い層における視覚的・視覚的自己意識を計算的に冗長にすることがわかった。
逆に、これらのレイヤ内のFeed-Forward Networks (FFN) は、進化するテキストセマンティック空間に視覚的特徴を投影するためには、依然として不可欠である。
この知見を活かして、意味進化から空間的相互作用を分離する訓練自由推論パラダイムであるVisual-Skip(V-Skip)を提案する。
トークンを捨てるのではなく、V-Skipは飽和した視覚自己保持モジュールを選択的にバイパスすることでブロックワイドな間隔を課す。
さらに,V-Skipでは,タスク-最適間隔経路を動的にルーティングするために,軽量で数発のキャリブレーションを採用している。
大規模な実験では、V-Skipは冗長な視覚的注意を効果的に回避し、ブロックワイドの空間性を達成し、様々なMLLMで94.16%から100.31%のパフォーマンス維持を維持している。
最終的に、より効果的に推論するために、モデルが見ているものを破棄する必要はないことを証明します。
関連論文リスト
- Do Vision Language Models Need to Process Image Tokens? [37.581930147059445]
視覚言語モデル(VLM)は、視覚エンコーダと大きな言語モデル(LLM)を統合することで大きな成功を収めた。
画像の持続処理がパフォーマンスに必要か、初期の層から後期層まで有意義に進化するかは、基本的に不明である。
論文 参考訳(メタデータ) (2026-04-10T15:38:00Z) - VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions [51.41587958253802]
視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T17:58:17Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。