論文の概要: Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs
- arxiv url: http://arxiv.org/abs/2606.18681v1
- Date: Wed, 17 Jun 2026 04:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.006541
- Title: Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs
- Title(参考訳): 多様性を超えて動く: 効率的なVLMのためのサブスペース再構築としての視覚的トーケンプルーニング
- Authors: Jaeyeon Lee, Shunjie Wen, Dong-Wan Choi,
- Abstract要約: 本稿では,カラムサブセット選択問題としてトークンプルーニングを再構成する部分空間再構成手法であるSPAREを紹介する。
SPAREはタスクに強い利得を伴い、常に最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 7.371189496638082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their remarkable performance, Vision Language Models (VLMs) incur substantial computational overhead due to the large number of visual tokens. While diversity maximization has become a dominant strategy for token reduction, existing methods rely on cosine-based normalized similarity that discards magnitude information, failing to faithfully approximate the original feature representation and leading to suboptimal performance, particularly on compositional multi-skill reasoning tasks. In this paper, we introduce SPARE, a subspace reconstruction method that reformulates token pruning as a column subset selection problem and explicitly minimizes reconstruction error. By iteratively selecting tokens with large projection residuals, SPARE performs reconstruction-driven pruning beyond angular diversity. Moreover, we reveal a counterintuitive anti-relevance phenomenon: tokens with lower image-text relevance score can better preserve contextual information. Based on this finding, we incorporate anti-relevance into SPARE as an additional selection criterion to promote context-aware token selection. Extensive experiments across multiple VLMs and benchmarks demonstrate that SPARE consistently achieves state-of-the-art performance, with strong gains on compositional tasks. When applied to LLaVA, SPARE removes up to 94% of visual tokens while retaining 95% of the baseline performance, all in a fully training-free manner.
- Abstract(参考訳): その顕著な性能にもかかわらず、視覚言語モデル(VLM)は多数の視覚トークンのためにかなりの計算オーバーヘッドを発生させる。
多様性の最大化はトークン還元の主要な戦略となっているが、既存の手法はコサインに基づく正規化類似性に依存しており、大まかな情報を捨て、元の特徴表現を忠実に近似せず、特に構成的マルチスキル推論タスクにおいて準最適性能をもたらす。
本稿では,トークンプルーニングを列サブセット選択問題として再構成し,再構成誤差を明示的に最小化する部分空間再構成手法であるSPAREを紹介する。
投射残差が大きいトークンを反復的に選択することにより、SPAREは角の多様性を超えた復元駆動プルーニングを行う。
さらに, 画像テキスト関連度スコアが低いトークンは, 文脈情報をより保存しやすくする。
この発見に基づいて、文脈認識トークン選択を促進するための追加選択基準として、SPAREにアンチ関連性を導入する。
複数のVLMおよびベンチマークにわたる大規模な実験により、SPAREは一貫して最先端のパフォーマンスを達成し、構成タスクに強い利益をもたらすことが示された。
LLaVAに適用すると、SPAREは最大94%の視覚トークンを除去し、95%のベースライン性能を維持し、すべて完全にトレーニング不要な方法で保持する。
関連論文リスト
- Improving Visual Token Reduction via Rectifying Distortions for Efficient Multimodal LLM Inference [25.01546252088153]
本稿では,効率を保ちながら位置や注意の歪みを補正する新しい視覚トークン低減(VTR)フレームワークを提案する。
具体的には、相対距離に基づいて注意重みを増大させることにより、視覚的注意を回復する簡易かつ効果的な校正法を提案する。
論文 参考訳(メタデータ) (2026-06-01T05:25:46Z) - ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models [59.94664910790462]
ResPruneは、大規模な視覚言語モデルのためのトレーニング不要のビジュアルトークンプルーニングフレームワークである。
視覚トークンのコンパクトだが情報に富むサブセットを選択する。
これは、計算、メモリ消費、推論遅延を効果的に削減する。
論文 参考訳(メタデータ) (2026-03-22T07:44:45Z) - VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm [18.604455802016233]
視覚言語モデル(VLM)は画像理解タスクに優れるが、多数の視覚トークンは計算コストを大幅に上回る。
VLM-Prunerは、冗長性と空間空間幅のバランスをとる訓練不要なトークンプルーニングアルゴリズムである。
VLM-Prunerは5つのVLMにおいて88.9%のプルーニングレートで強いベースラインを一貫して上回り、エンドツーエンドの推論スピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-02T12:30:05Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。
GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-06-16T07:21:11Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。