論文の概要: AVIS: Adaptive Test-Time Scaling for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.11576v1
- Date: Wed, 10 Jun 2026 02:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.250144
- Title: AVIS: Adaptive Test-Time Scaling for Vision-Language Models
- Title(参考訳): AVIS:ビジョンランゲージモデルのための適応的なテスト時間スケーリング
- Authors: Ahmadreza Jeddi, Minh Ngoc Le, Amirhossein Kazerouni, Hakki Can Karaimer, Hue Nguyen, Iqbal Mohomed, Michael Brudno, Alex Levinshtein, Konstantinos G. Derpanis, Babak Taati, Radek Grzeszczuk,
- Abstract要約: 本稿では、クエリ毎にVisual Context Scaling(VCS)とVisual Reasoning Scaling(VRS)の両方を適用する軽量ポリシであるAdaptive Visual Inference Scaling(AVIS)を紹介する。
AVISはデプロイフレンドリで、共有プリフィル推論と互換性があり、すべてのロールアウトは単一のプリフィルパスとKVキャッシュを再利用する。
- 参考スコア(独自算出の注目度): 12.089070045031976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision-Language Models (VLMs) benefit from chain-of-thought prompting and test-time scaling, but these gains often come with prohibitive inference cost due to large visual contexts and long decoding chains. We view this cost through two coupled axes: Visual Context Scaling (VCS), which controls how much visual evidence is passed to the language model, and Visual Reasoning Scaling (VRS), which controls how much inference-time reasoning search is performed. Existing methods typically optimize one axis at a time, leaving the joint allocation of compute across these axes underexplored. We introduce Adaptive Visual Inference Scaling (AVIS), a lightweight policy that adapts both VCS and VRS per query. AVIS realizes VCS through Key Diversity Visual (KDV) pruning, a training-free $O(N)$ key-based rule for removing redundant visual tokens before prefilling, and realizes VRS through adaptive self-consistency, using a learned difficulty predictor to select the number of reasoning rollouts. AVIS is deployment-friendly and compatible with shared-prefill inference, where all rollouts reuse a single prefilling pass and KV cache. Across diverse image and video reasoning benchmarks, AVIS improves the accuracy--compute trade-off relative to VCS-only and VRS-only baselines, and remains effective on top of RL post-trained VLMs while keeping compute and latency low.
- Abstract(参考訳): 現代のビジョンランゲージモデル(VLM)は、チェーン・オブ・シークレットのプロンプトとテストタイムのスケーリングの恩恵を受けるが、大きな視覚的コンテキストと長いデコードチェーンのために、しばしばこのような利得は、禁止的な推論コストを伴う。
言語モデルにどの程度の視覚的エビデンスを渡すかを制御するVisual Context Scaling (VCS) と、推論時間推論検索の実行量を制御するVisual Reasoning Scaling (VRS) である。
既存の手法は通常、1つの軸を1度に最適化し、これらの軸をまたいだ計算の同時割り当てを過小評価する。
本稿では,クエリ毎にVCSとVRSの両方に対応する軽量ポリシであるAdaptive Visual Inference Scaling(AVIS)を紹介する。
AVISは、事前充填前に冗長な視覚トークンを削除するためのトレーニングフリーな$O(N)$キーベースのルールであるKey Diversity Visual(KDV)プルーニングを通じてVCSを実現し、学習困難予測器を用いて適応的な自己一貫性を通じてVRSを実現し、推論ロールアウト数を選択する。
AVISはデプロイフレンドリで、共有プリフィル推論と互換性があり、すべてのロールアウトは単一のプリフィルパスとKVキャッシュを再利用する。
さまざまな画像とビデオの推論ベンチマークを通じて、AVISはVCSのみのベースラインとVRSのみのベースラインとの精度-計算トレードオフを改善し、計算とレイテンシを低く保ちながら、RL後トレーニングされたVLM上でも有効である。
関連論文リスト
- VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies [58.65913948991329]
正確な低レイテンシVLAポリシーのためのビジュアル中間推論フレームワークであるVISUALTHINK-VLAを提案する。
私たちのブートストラップ哲学は、効果的な視覚的思考でアクションを導くことです。
これは、デコードオーバーヘッドを回避しながら空間的精度を保った、コンパクトなビジュアル・エビデンスインターフェースを通じてアクション予測をブートストラップする。
論文 参考訳(メタデータ) (2026-05-28T14:36:53Z) - ETA-VLA: Efficient Token Adaptation via Temporal Fusion and Intra-LLM Sparsification for Vision-Language-Action Models [14.841746872486333]
本稿では,VLAモデルの効率的なToken AdaptationフレームワークであるETA-VLAを提案する。
ETA-VLAは最先端のベースラインに匹敵する運転性能が得られることを示す。
提案手法は, 85%の視覚トークンを抽出し, FLOPを61%削減するが, NAVSIM v2ベンチマークでは元の精度の94%を維持している。
論文 参考訳(メタデータ) (2026-03-26T06:53:42Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。
本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-03T13:43:30Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。