論文の概要: One Layer's Trash is Another Layer's Treasure: Adaptive Layer-wise Visual Token Selection in LVLMs
- arxiv url: http://arxiv.org/abs/2606.14277v1
- Date: Fri, 12 Jun 2026 08:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.845538
- Title: One Layer's Trash is Another Layer's Treasure: Adaptive Layer-wise Visual Token Selection in LVLMs
- Title(参考訳): 一つのレイヤのトラッシュは別のレイヤの宝物:LVLMにおける適応的なレイヤワイド視覚トークン選択
- Authors: Yongru Chen, Kai Zhang, Zeliang Zong, Yuchen Lu, Wenming Tan, Ye Ren, Jilin Hu,
- Abstract要約: LVLM(Large Vision-Language Models)は様々なマルチモーダルタスクにまたがって大きな成功を収めているが、その実際の展開は長い視覚トークンから生じる計算負担によって制約されている。
本稿では,従来の静的トークンプルーニングパラダイムから切り離された新しいフレームワークであるAdaptive Layer-wise Visual Token Selection (ALVTS)を提案する。
89%のトークン圧縮比で、ALVTSはオリジナルのモデルの96.7%の精度を維持しており、LVLM推論の効率と精度のトレードオフが優れている。
- 参考スコア(独自算出の注目度): 18.48496973561215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable success across diverse multimodal tasks, yet their practical deployment remains constrained by the computational burden arising from lengthy visual tokens. While visual token pruning has emerged as a promising solution, existing methods suffer from a fundamental limitation: once tokens are pruned at a specific layer, they become inaccessible to all subsequent layers, leading to premature information loss that can compromise model performance. Through empirical studies, we observe that different layers exhibit distinct visual region focus, indicating a varying optimal token subset across layers. Motivated by this insight, we propose Adaptive Layer-wise Visual Token Selection (ALVTS), a novel framework that breaks away from the conventional static token pruning paradigm. ALVTS incorporates a lightweight token selector to identify and route important tokens for further processing, while allowing less important tokens to skip the layer, thus minimizing computational redundancy. These two streams of tokens are seamlessly reintegrated before being fed into subsequent layers, facilitating adaptive compression across the entire model. Grounded in our importance consistency constrained low-rank approximation, the proposed token selection module closely emulates the full attention mechanism, effectively capturing its essential patterns without requiring model retraining. Extensive experiments on LLaVA-1.5, LLaVA-NeXT, and Qwen2.5-VL validate the effectiveness of our method. With an 89% token compression ratio, ALVTS retains 96.7% of the original model's accuracy, achieving a superior efficiency-accuracy trade-off for LVLM inference.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は様々なマルチモーダルタスクにまたがって大きな成功を収めているが、その実際の展開は長い視覚トークンから生じる計算負担によって制約されている。
ビジュアルトークンのプルーニングは有望なソリューションとして現れているが、既存のメソッドは基本的な制限に悩まされている。トークンが特定の層でプルーニングされると、後続のすべてのレイヤにアクセスできなくなり、モデルのパフォーマンスを損なう早すぎる情報損失につながる。
実験により,異なる層が異なる視覚領域の焦点を示し,各層に異なる最適なトークンサブセットを示すことが確認された。
この知見に触発されて,従来の静的トークンプルーニングパラダイムから切り離された新しいフレームワークであるAdaptive Layer-wise Visual Token Selection (ALVTS)を提案する。
ALVTSには軽量なトークンセレクタが組み込まれており、重要なトークンを識別・ルーティングしてさらなる処理を行うと同時に、重要でないトークンがレイヤをスキップすることを可能にし、計算冗長性を最小化することができる。
これら2つのトークンストリームは、後続のレイヤにフィードする前にシームレスに再統合され、モデル全体の適応圧縮が容易になる。
重要度制約付き低ランク近似を基礎として,提案したトークン選択モジュールは,その全注意機構を密にエミュレートし,モデル再トレーニングを必要とせずに本質的なパターンを効果的に捕捉する。
LLaVA-1.5, LLaVA-NeXT, Qwen2.5-VLの大規模実験により, 本法の有効性が検証された。
89%のトークン圧縮比で、ALVTSはオリジナルのモデルの96.7%の精度を維持しており、LVLM推論の効率と精度のトレードオフが優れている。
関連論文リスト
- Look Less, Reason More: Block-wise Attention Skipping for Efficient Multimodal LLMs [89.7106332677868]
意味進化から空間的相互作用を分離する学習自由推論パラダイムであるVisual-Skipを提案する。
V-Skipは、ブロックワイドの空間性を達成するために、冗長な視覚的注意を効果的に回避し、様々なMLLM間で94.16%から100.31%のパフォーマンス維持を維持している。
論文 参考訳(メタデータ) (2026-06-07T08:32:13Z) - ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference [26.71949723961501]
本稿では,新しいトレーニングフリーなKVキャッシュ対応プルーニングレシピであるASAPを提案する。
ダイナミックな双方向ソフトアテンションマスクを利用することで、アテンションシフトを緩和する。
また、トークンセット内の高い意味的冗長性は性能を低下させると仮定する。
論文 参考訳(メタデータ) (2026-03-15T18:51:31Z) - Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models [34.12135666939555]
MLLM(Multimodal Large Language Models)は、複数の視覚トークンを全てのレイヤで処理することで、計算コストを大幅に削減する。
LLMの注意機構のみを用いて、視覚トークンを段階的に削減する、シンプルで広く適用可能な方法である、注意駆動型自己圧縮(ADSC)を導入する。
ADSCはFLOPを53.7%、KVキャッシュメモリを56.7%削減し、オリジナルモデルの98.2%を保存した。
論文 参考訳(メタデータ) (2026-02-13T04:49:27Z) - SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass [20.7003663809766]
視覚トークンプルーニングは、視覚言語モデルの計算コストを削減するための有望なアプローチである。
我々は、選択されていない視覚トークンを保存し、その後のプルーニングステージに転送する、バイパスと呼ばれる新しいプルーニングパラダイムを導入する。
このパラダイムに基づいて,強力な視覚トークン選択機能を備えたモデル固有の層でプルーニングを行う,単純かつトレーニング不要なSwiftVLMを提案する。
論文 参考訳(メタデータ) (2026-02-03T05:42:51Z) - Efficient Token Pruning for LLaDA-V [5.790228283932133]
LLaDA-Vのような拡散に基づく大規模マルチモーダルモデルは、視覚言語理解と生成において印象的な能力を示した。
我々は,自己回帰デコーダと異なり,LLaDA-Vは主に中間層から後期層に横断的な情報を集約する。
この観測により,我々はFastVに触発された構造化トークンプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-01-28T02:03:03Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。