論文の概要: Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.12412v1
- Date: Wed, 10 Jun 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.620653
- Title: Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models
- Title(参考訳): Reroute, Don't remove: Recoverable Visual Token Routing for Vision-Language Models
- Authors: Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu,
- Abstract要約: 視覚言語モデル(VLM)はイメージを数百から数千の視覚トークンに投影し、推論を高価にする。
我々は,デコーダの深さによって視覚的に重要度が変化することを示し,トークンが1段階の低い位置にあることが後続の層で重要となることを示した。
Rerouteは、リカバリ可能なルーティングで除去を置き換える、トレーニング不要なプラグインである。
- 参考スコア(独自算出の注目度): 14.969803007773018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) project images into hundreds to thousands of visual tokens, making decoder inference expensive in both attention computation and KV-cache memory. Existing visual-token reduction methods largely follow a rank-and-remove paradigm: they score visual tokens, keep a compact subset, and permanently discard the rest. We show that this irreversible action is fragile because visual-token importance changes across decoder depth; tokens ranked low at one stage may become relevant in later layers, especially for grounding-sensitive queries. We propose Reroute, a training-free plug-in that replaces removal with recoverable routing. At each routing stage, selected vision tokens pass through decoder blocks, while deferred tokens bypass the stage and re-enter the candidate pool at the next routing decision. Reroute reuses existing attention-score ranking rules and stage-wise schedules, preserving the theoretical TFLOPs and KV-cache budget class of the pruning method it augments. Across FastV, PDrop, and Nüwa variants on LLaVA-1.5 and Qwen backbones, reroute improves grounding under aggressive token reduction while maintaining general VQA performance. These results suggest that VLM token reduction should not be viewed only as irreversible pruning, but also as recoverable routing. The code can be found here: https://github.com/elmma/mllm-reroute/
- Abstract(参考訳): 視覚言語モデル(VLM)は、イメージを数百から数千の視覚トークンに投影し、注意計算とKVキャッシュメモリの両方においてデコーダ推論を高価にする。
既存のビジュアルトークン削減手法は、視覚トークンをスコアし、コンパクトなサブセットを保持し、残りを永久に破棄するという、ランク・アンド・削除のパラダイムに従っている。
この非可逆的な動作はデコーダの深さによって視覚的重要度が変化するため脆弱であることを示す。
Rerouteは、リカバリ可能なルーティングで除去を置き換える、トレーニング不要なプラグインである。
各ルーティング段階では、選択された視覚トークンがデコーダブロックを通過し、遅延トークンがステージをバイパスし、次のルーティング決定で候補プールに再入力される。
Rerouteは既存のアテンションスコアランキングルールとステージワイズスケジュールを再利用し、拡張したプルーニングメソッドの理論的TFLOPとKVキャッシュの予算クラスを保存する。
LLaVA-1.5とQwenのバックボーン上のFastV、PDrop、Nüwaは、一般的なVQA性能を維持しながら、アグレッシブトークンの低減の下でグラウンド化を改善する。
これらの結果から, VLMトークンの低減は, 可逆プルーニングだけでなく, 回復可能なルーティングと見なすべきであることがわかった。
https://github.com/elmma/mllm-reroute/
関連論文リスト
- Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文 参考訳(メタデータ) (2026-05-10T09:07:04Z) - RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating [2.503823246244002]
視覚トークンは視覚言語モデル(VLM)の推論コストを支配している
容量制約通信として視覚トークンプルーニングを再構成する。
本稿では,軽量なScorerとDenoiserを凍結したVLMにアタッチし,次のトークン予測損失のみをトレーニングするAutoSelectを提案する。
論文 参考訳(メタデータ) (2026-03-07T09:57:35Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning [27.75049214892312]
LVLM(Large Vision-Language Models)は、複数のタスクにまたがる優れたパフォーマンスを実現する。
しかし、重要な課題は、高解像度の視覚入力を処理する際に、その禁止的な推論コストである。
IVCトークンと意味論的に関連するフォアグラウンドトークンの両方を保持するトレーニングフリーで、プロンプト対応のプルーニング戦略である textbfIVC-Prune を提案する。
論文 参考訳(メタデータ) (2026-02-03T03:39:31Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。