論文の概要: Spectral Evolution-Guided Token Pruning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2606.24165v1
- Date: Tue, 23 Jun 2026 05:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.793764
- Title: Spectral Evolution-Guided Token Pruning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるスペクトル進化誘導トケンプルーニング
- Authors: Bin Chen, Yuxiang Cai, Yadan Luo, Yi Zhang, Jianwei Yin, Zhi Chen,
- Abstract要約: CLSE(Cross-Layer Spectral Evolution)に基づく無トレーニングトークン解析フレームワークを提案する。
CLSEは単一層の特徴量からトークンの重要性を測定する代わりに、周波数領域のTransformer層間でトークン表現がどのように進化するかを定量化する。
CLSEはアグレッシブトークン還元の下で効率と精度のトレードオフが優れている。
- 参考スコア(独自算出の注目度): 46.61944018676346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reducing visual token redundancy is critical for accelerating Multimodal Large Language Models (MLLMs) without degrading cross-modal reasoning performance. Existing token pruning methods typically rely on single-layer signals, such as attention scores or token similarities, which overlook the cross-layer transformation of visual representations and may exhibit positional bias in multimodal token sequences. To address this limitation, we propose a training-free token pruning framework based on Cross-Layer Spectral Evolution (CLSE). Instead of measuring token importance from single-layer feature magnitudes, CLSE quantifies how token representations evolve across Transformer layers in the frequency domain. This evolution reflects the transition from high-frequency structural details to low-frequency semantic abstractions. We observe that tokens with stronger spectral redistribution across layers are more likely to be semantically active and should therefore be preserved. By modeling cross-layer token dynamics, CLSE provides a stable importance criterion that mitigates positional bias. Extensive experiments on both image and video benchmarks demonstrate that CLSE achieves a superior trade-off between efficiency and accuracy under aggressive token reduction. Across multiple MLLMs, CLSE reduces FLOPs, KV cache memory, and latency while maintaining competitive or improved performance.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の高速化には,多モーダルな推論性能を低下させることなく,視覚的トークンの冗長性を低下させることが重要である。
既存のトークンプルーニング法は通常、注目スコアやトークン類似性のような単一層信号に依存しており、視覚的表現の層間変換を見落とし、マルチモーダルなトークンシーケンスにおける位置バイアスを示す。
この制限に対処するために、CLSE(Cross-Layer Spectral Evolution)に基づく、トレーニング不要なトークン刈取フレームワークを提案する。
CLSEは単一層の特徴量からトークンの重要性を測定する代わりに、周波数領域のTransformer層間でトークン表現がどのように進化するかを定量化する。
この進化は、高周波構造の詳細から低周波セマンティック抽象化への移行を反映している。
層間におけるスペクトル再分配の強いトークンは意味論的に有効であり、したがって保存されるべきである。
層間トークンのダイナミクスをモデル化することにより、CLSEは位置バイアスを緩和する安定な重要性の基準を提供する。
画像とビデオのベンチマークによる大規模な実験により、CLSEはアグレッシブトークン還元下での効率と精度のトレードオフが優れていることが示された。
複数のMLLMにまたがって、CLSEはFLOP、KVキャッシュメモリ、レイテンシを削減し、競争力や性能の向上を維持している。
関連論文リスト
- Attention-Spectrum Regularization for Replay-Free Continual Multimodal LLMs [33.66167879532472]
マルチモーダルな大言語モデル(MLLM)は、視覚領域、質問タイプ、ユーザ命令の非定常ストリームに適応するためにますます必要とされる。
既存の視覚言語手法は主に出力を保存する、データ再生、擬似データ再生、埋め込み幾何学の正規化、タスク固有のパラメータの割り当てなどである。
本稿では, クロスモーダルアテンションのスキル条件付き構造を保存するリプレイフリー連続学習フレームワークであるアテンション・スペクトル正規化(ASR)を提案する。
論文 参考訳(メタデータ) (2026-06-22T09:13:53Z) - One Layer's Trash is Another Layer's Treasure: Adaptive Layer-wise Visual Token Selection in LVLMs [18.48496973561215]
LVLM(Large Vision-Language Models)は様々なマルチモーダルタスクにまたがって大きな成功を収めているが、その実際の展開は長い視覚トークンから生じる計算負担によって制約されている。
本稿では,従来の静的トークンプルーニングパラダイムから切り離された新しいフレームワークであるAdaptive Layer-wise Visual Token Selection (ALVTS)を提案する。
89%のトークン圧縮比で、ALVTSはオリジナルのモデルの96.7%の精度を維持しており、LVLM推論の効率と精度のトレードオフが優れている。
論文 参考訳(メタデータ) (2026-06-12T08:58:58Z) - Look Less, Reason More: Block-wise Attention Skipping for Efficient Multimodal LLMs [89.7106332677868]
意味進化から空間的相互作用を分離する学習自由推論パラダイムであるVisual-Skipを提案する。
V-Skipは、ブロックワイドの空間性を達成するために、冗長な視覚的注意を効果的に回避し、様々なMLLM間で94.16%から100.31%のパフォーマンス維持を維持している。
論文 参考訳(メタデータ) (2026-06-07T08:32:13Z) - RAPID: Layer-Wise Redundancy-Aware Pruning and Importance-Driven Token Merging for Efficient ViT [0.014257559724536567]
視覚変換器(ViT)は高い性能を実現するが、二次的な自己注意の複雑さにより高い計算コストを被る。
本稿では,トークン表現の層的特性に還元戦略を適用した深度対応型トークン還元フレームワークを提案する。
我々のフレームワークは、階層的特徴進化と縮小戦略を整合させることにより、視覚モデルを最適化するためのトレーニング不要のテンプレートを提供する。
論文 参考訳(メタデータ) (2026-06-06T13:13:02Z) - BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers [2.5680214354539803]
半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。
BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。
1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
論文 参考訳(メタデータ) (2025-09-16T07:33:21Z) - Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2025-08-05T05:30:42Z) - TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation [80.90309237362526]
TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-05-08T17:12:19Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。