論文の概要: Accelerating Multimodal Large Language Models with Prior-Corrected Token Reduction
- arxiv url: http://arxiv.org/abs/2606.24156v1
- Date: Tue, 23 Jun 2026 05:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.789512
- Title: Accelerating Multimodal Large Language Models with Prior-Corrected Token Reduction
- Title(参考訳): 事前補正トークン削減によるマルチモーダル大言語モデルの高速化
- Authors: Zengjie Chen, Yuxiang Cai, Jingcai Guo, Taotao Cai, Jianwei Yin, Zhi Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)において、しばしば注意がモデルによって引き起こされる。
我々は,タスク条件付き注意をモデル誘発前と区別するために,事前補正トークン削減(PriorTR)を提案する。
PriorTRは、強いトレーニングのないベースラインよりも精度と効率のトレードオフを一貫して改善する。
- 参考スコア(独自算出の注目度): 42.23525789989544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual token reduction has emerged as an effective strategy for accelerating Multimodal Large Language Models (MLLMs). Many existing methods prune tokens by ranking text-visual attention scores. However, we show that attention is often dominated by a model-induced prior: even without textual instruction, MLLMs tend to focus on certain task-agnostic regions. Consequently, the attention scores of instruction-conditioned tokens are suppressed, increasing the risk that these tokens are discarded during pruning. To address this issue, we propose Prior-Corrected Token Reduction (PriorTR), a training-free token reduction method that explicitly separates task-conditioned attention from the model-induced prior. PriorTR estimates the attention map of the prior, and contrasts it with the task-conditioned attention distribution to measure the additional usable information contributed by each visual token. Importantly, PriorTR computes both the model-induced prior and the task-conditioned posterior within a single forward pass by introducing a null token that serves as an instruction-agnostic probe in the attention block. This design avoids duplicated propagation. Extensive experiments across multiple multimodal benchmarks and MLLMs demonstrate that PriorTR consistently improves the trade-off between accuracy and efficiency over strong training-free baselines, particularly under aggressive token budgets.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を加速するための効果的な戦略として、視覚トークンの削減が登場した。
既存の多くの手法は、テキスト・ビジュアル・アテンションスコアをランク付けすることでトークンをプルーする。
しかし,テキストによる指導がなくても,MLLMは特定のタスクに依存しない領域に注目する傾向にある。
これにより、命令条件付きトークンの注意スコアが抑制され、プルーニング中にこれらのトークンが破棄されるリスクが増大する。
そこで本研究では,タスク条件付き注意をモデル誘発前と明確に分離する,トレーニング不要なトークン削減手法であるPriorTRを提案する。
PriorTRは、前者のアテンションマップを推定し、タスク条件のアテンション分布と対比して、各視覚トークンから提供された付加的な使用可能な情報を測定する。
重要なことに、PreferTRは、アテンションブロックに命令非依存のプローブとして機能するnullトークンを導入することにより、単一のフォワードパス内でモデル誘起前処理とタスク条件後処理の両方を演算する。
この設計は重複伝播を避ける。
複数のマルチモーダルベンチマークとMLLMの広範な実験により、特に積極的なトークン予算の下で、PreferTRは、強いトレーニングのないベースラインよりも精度と効率のトレードオフを一貫して改善することを示した。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [15.783265191574392]
我々はZeroTuningを紹介した。ZeroTuningは、初期トークンに頭部特異的な注意調整を適用することで、LCMの性能を向上させる訓練自由な方法である。
このトークンの注意ログに軽量バイアスを加えることで、下流の注意分布のエントロピーを単調に制御できることが理論的に示されている。
検証例を校正する教師ありモードと、モデルの出力エントロピーを直接最小化する教師なしモードの2つのバリエーションを示す。
論文 参考訳(メタデータ) (2025-05-16T22:52:24Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。