論文の概要: DCP-Prune: Ultra-Low Token Pruning with Distribution Consistency Preservation
- arxiv url: http://arxiv.org/abs/2606.16633v1
- Date: Mon, 15 Jun 2026 12:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.539994
- Title: DCP-Prune: Ultra-Low Token Pruning with Distribution Consistency Preservation
- Title(参考訳): DCP-Prune:分布整合性保存による超低融点プルーニング
- Authors: Xifeng Xue, Xiaokang Wang, Zirui Li, Ming-Ming Cheng, Guolei Sun,
- Abstract要約: 最近のビジョントークンプルーニング法は、中程度のトークン予算ではモデル性能を効果的に維持するが、超低トークン予算では不安定になる。
Anchor-Context Graph Recovery (ACGR) と Text-Aware Token Cluster Selection (TATCS) からなる2段階のプルーニングフレームワークを提案する。
超低トークン予算下で,本手法がより優れた,より安定した性能を実現することを示す実験を行った。
- 参考スコア(独自算出の注目度): 55.38884985761757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision token pruning methods effectively preserve model performance under moderate token budgets but become unstable under ultra-low token budget. Our analysis shows that as the pruning budget decreases, accuracy degradation is often accompanied by larger feature distribution shifts. Critically, the degree of this distribution shift strongly correlates with performance degradation. To better characterize this phenomenon, we introduce a lightweight distribution consistency metric to estimate the distribution shift between retained and full tokens. Motivated by these observations, we propose a two-stage pruning framework consisting of Anchor-Context Graph Recovery (ACGR) and Text-Aware Token Cluster Selection (TATCS). Specifically, ACGR transfers contextual information before token removal, while TATCS dynamically re-selects representative tokens when severe distribution shift is detected. Extensive experiments demonstrate that our method achieves superior and more stable performance under ultra-low token budget. Notably, it retains 92.1% of the upper-bound average performance on LLaVA-1.5-7B with only 16 visual tokens.
- Abstract(参考訳): 最近のビジョントークンプルーニング法は、中程度のトークン予算ではモデル性能を効果的に維持するが、超低トークン予算では不安定になる。
解析の結果, 刈り込み予算が減少するにつれて, 精度の低下がしばしば大きな特徴分布シフトを伴うことが明らかとなった。
この分布の度合いは性能劣化と強く相関する。
この現象のキャラクタリゼーションを改善するために,留置トークンと全トークンの分布シフトを推定する軽量分布整合度指標を導入する。
そこで本研究では,Anchor-Context Graph Recovery (ACGR) と Text-Aware Token Cluster Selection (TATCS) からなる2段階のプルーニングフレームワークを提案する。
特に、ACGRはトークン除去前にコンテキスト情報を転送し、TATCSは重度分布シフトが検出されたときに代表トークンを動的に再選択する。
超低トークン予算下で,本手法がより優れた,より安定した性能を実現することを実証した。
特に、LLaVA-1.5-7B上の上行平均性能の92.1%を保持し、16の視覚トークンしか持たない。
関連論文リスト
- Where to Refine, When to Stop: Rethinking Redundancy via Latent Discrepancy for Efficient Visual Autoregressive Generation [50.139984798361375]
遅延不一致による冗長性を除去する学習自由フレームワークを提案する。
LD-Pruningは、Infinity-8Bの最大2.35倍のスピードアップを実現し、高い生成品質を維持しながら推論を大幅に削減する。
論文 参考訳(メタデータ) (2026-05-29T19:34:39Z) - Towards Joint Quantization and Token Pruning of Vision-Language Models [53.978753457744055]
トークンプルーニングと低ビット量子化は、推論コストの削減を補完する。
我々は、低ビット推論と決定論的視覚トーケンプルーニングを統一する協調量子化&プルーニングフレームワークを提案する。
標準VLMベンチマークの実験では、同じ低ビット状態下でのステージワイドベースラインよりもロバスト性が改善された。
論文 参考訳(メタデータ) (2026-04-19T08:18:29Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study [44.170933007736984]
VLM(Vision-Language Models)は、実用的展開において強力だが計算集約的な手法である。
現在のアクセラレーション評価は主に、重要な問題を見越して、パフォーマンスの最小限のパフォーマンス劣化を目標としています。
これは、AIベースの疾患診断のように、特定の既知の状況に対して常に正しい回答が最重要である、安定性中心の産業アプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2025-03-09T22:16:48Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。