論文の概要: An Effective Router for Vision-Language Model Selection
- arxiv url: http://arxiv.org/abs/2606.08970v1
- Date: Mon, 08 Jun 2026 03:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.671905
- Title: An Effective Router for Vision-Language Model Selection
- Title(参考訳): 視覚言語モデル選択のための効果的なルータ
- Authors: Can Wang, Shengwei Wang, Bolin Zhang, Zhiying Tu, Dianhui Chu,
- Abstract要約: ARMSは視覚言語モデル(VLM)選択のためのルータである。
VLMプロファイルで入力信号を強化し、クエリの表現とVLM機能を改善するため、シンプルだが効果的なアーキテクチャを採用している。
ARMはより広いVLM空間に適応し、スケールの数百倍のGPT-4oのような商用モデルを打ち負かすことができることを示す。
- 参考スコア(独自算出の注目度): 13.691326653187636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making it difficult for users to select the most appropriate one among numerous VLM candidates. Existing work reveals the performance paradox phenomenon in language models and focuses on routing methods to solve it. However, developing a router for VLM selection is still a critical yet challenging problem, which primarily faces: 1) lack of specialized data, 2) ineffective feature representation, and 3) rigid model space and costly adaptation. In this paper, we construct a multimodal dataset for VLM selection, containing the outputs of seven mainstream VLMs on 32,626 unique image-text queries. We then propose ARMS, a router for VLM selection. ARMS enhances input signals with VLM profiles, employs a simple but effective architecture to improve representations of queries and VLM capabilities. To improve ARMS' adaptation to new VLMs, we propose two extension training strategies: incremental training and independent training. Experimental results on both in-distribution and out-of-distribution test sets demonstrate the effectiveness of ARMS. In particular, using our training strategy, ARMs (only 800M in size) can adapt to a broader VLM space and defeat commercial models like GPT-4o that are hundreds of times larger in scale. Our code, models, and datasets are available in the anonymous repository.
- Abstract(参考訳): 様々な性能とリソース要件を持つ視覚言語モデル(VLM)が広くデプロイされており、ユーザが多くのVLM候補の中から最も適切なものを選択することは困難である。
既存の研究は、言語モデルにおける性能パラドックス現象を明らかにし、それを解決するためのルーティング方法に焦点を当てている。
しかし、VLM選択のためのルータの開発は依然として重要な問題であり、主に直面している。
1)専門データの欠如
2【有効でない特徴表現】
3)厳密なモデル空間と費用のかかる適応。
本稿では,32,626のユニークな画像テキストクエリ上での7つの主流VLMの出力を含む,VLM選択のためのマルチモーダルデータセットを構築する。
次に,VLM選択のためのルータARMSを提案する。
ARMSはVLMプロファイルで入力信号を強化し、クエリの表現とVLM機能を改善するためにシンプルだが効果的なアーキテクチャを採用している。
新しいVLMへのARMSの適応性を改善するために,インクリメンタルトレーニングと独立トレーニングの2つの拡張トレーニング戦略を提案する。
分布内および分布外の両方の実験結果からARMSの有効性が示された。
特に、我々のトレーニング戦略を用いて、ARMは(わずか8億の)より広いVLM空間に適応し、スケールが数百倍のGPT-4oのような商用モデルを打ち負かすことができる。
私たちのコード、モデル、データセットは匿名リポジトリで利用可能です。
関連論文リスト
- LaViDa: A Large Diffusion Language Model for Multimodal Understanding [70.99233885354028]
LaViDaは離散拡散モデルに基づいて構築されたビジョンランゲージモデルのファミリーである。
DMは、高速な推論と制御可能な生成のための双方向コンテキストのための並列デコーディングを提供する。
LaViDaはマルチモーダルベンチマークでAR VLMと競合または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-22T16:07:12Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - Vision-Language Model Selection and Reuse for Downstream Adaptation [48.6730325059219]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。
モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文 参考訳(メタデータ) (2025-01-30T11:10:46Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning [12.628697648945298]
強化学習(Reinforcement Learning, RL)は、報酬関数を手動で指定するか、あるいは大量のフィードバックから報酬モデルを学ぶことを必要とする。
本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。
論文 参考訳(メタデータ) (2023-10-19T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。