論文の概要: One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling
- arxiv url: http://arxiv.org/abs/2606.08126v1
- Date: Sat, 06 Jun 2026 12:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.858614
- Title: One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling
- Title(参考訳): 1羽, 3羽の鳥:多VLM選択, 適応, 組み立てのための自己適応的最適輸送
- Authors: Qiyu Xu, Zhanxuan Hu, Yu Duan, Yonghang Tai, Huafeng Li, Quanxue Gao, Xiangyong Cao,
- Abstract要約: 視覚言語モデル(VLM)はセマンティッククラス記述からの視覚的認識を可能にする。
ほとんどのデプロイメントパイプラインは単一のVLMを選択し、そのモデルをラベル付けされていないターゲットセットに適合させる。
このシングルバックボーンのパラダイムは、選択されたVLMが既にターゲットドメインと互換性があるという重要な仮定を隠している。
自己適応型最適輸送に基づくトレーニングフリーフレームワークであるOne Stone, Three Birdsを提案する。
- 参考スコア(独自算出の注目度): 42.03768283063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) enable visual recognition from semantic class descriptions, which makes them attractive when target annotations are scarce or unavailable. Most deployment pipelines, however, first choose a single VLM and then adapt that model to the unlabeled target set. This single-backbone paradigm hides a critical assumption: the selected VLM is already compatible with the target domain. In realistic cross-domain deployment, several general-purpose and domain-specialized VLMs may be plausible, yet no instance-level target labels are available to identify the reliable ones. Deployment therefore requires a coupled solution for model selection, target adaptation, and prediction integration. We revisit this problem from a system-level multi-VLM perspective. Our central observation is that the three decisions above depend on the same latent object: a trustworthy sample-class structure in the target set. Different VLMs may encode different transfer biases and produce conflicting predictions, but their outputs can still provide complementary evidence for estimating this structure. We propose One Stone, Three Birds, a training-free framework based on self-adaptive optimal transport. Given a pool of frozen candidate VLMs, OSTB estimates a consensus sample-to-class transport plan without updating VLM parameters. The learned transport structure is then reused for all deployment objectives: model selection is performed by ranking the combined semantic and visual reliability induced by the consensus plan; target adaptation is obtained by fitting transport-conditioned visual classifiers; and ensembling is implemented through reliability-aware probabilistic integration. Extensive experiments on natural-image, remote-sensing, and medical-pathology benchmarks show that OSTB improves model ranking, adaptation stability, and ensemble robustness under heterogeneous candidate pools.
- Abstract(参考訳): 視覚言語モデル(VLM)はセマンティッククラス記述からの視覚的認識を可能にする。
しかしながら、ほとんどのデプロイメントパイプラインは、まず1つのVLMを選択し、そのモデルをラベル付けされていないターゲットセットに適応させる。
このシングルバックボーンのパラダイムは、選択されたVLMが既にターゲットドメインと互換性があるという重要な仮定を隠している。
現実的なクロスドメインデプロイメントでは、いくつかの汎用VLMとドメイン特化VLMが妥当であるが、信頼性の高いVLMを識別するためのインスタンスレベルのターゲットラベルは存在しない。
したがって、配置にはモデル選択、ターゲット適応、予測統合のための結合したソリューションが必要である。
この問題をシステムレベルのマルチVLMの観点から再考する。
私たちの中心的な観察では、上記の3つの決定は、同じ潜在オブジェクト、すなわち、ターゲットセットの信頼できるサンプルクラス構造に依存している。
異なるVLMは異なる転送バイアスを符号化し、矛盾する予測を生成するが、その出力はこの構造を推定するための補完的な証拠を与えることができる。
自己適応型最適輸送に基づくトレーニングフリーフレームワークであるOne Stone, Three Birdsを提案する。
凍結候補VLMのプールが与えられた場合、OSTBはVLMパラメータを更新することなく、コンセンサスサンプルからクラスへのトランスポートプランを推定する。
モデル選択は、コンセンサス計画によって誘導されるセマンティックと視覚的信頼性の組み合わせをランク付けすることで行われ、目標適応は、輸送条件付き視覚分類器を適合させて行われ、信頼性に配慮した確率的統合によって実装される。
自然画像、リモートセンシング、医療病理のベンチマークに関する大規模な実験は、OSTBが不均一な候補プール下でのモデルランキング、適応安定性、アンサンブルロバスト性を改善することを示している。
関連論文リスト
- Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
VLM(Vision-Language Models)は、医療や金融といったプライバシに敏感な分野において大きな可能性を秘めている。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを組み合わせた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化とクロスクライアント適応性において、フェデレートされたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-05T07:02:50Z) - Controlling Distributional Bias in Multi-Round LLM Generation via KL-Optimized Fine-Tuning [37.39836347901149]
我々は,Large Language Models (LLM) が所望の目標分布に従属する出力を生成できるかどうかを評価する。
職業文脈における性別・人種・感情の属性を用いて分布アライメントを定式化する。
本稿では,ステアリングトークンとセマンティックアライメントを結合したファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T11:58:16Z) - Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation [69.7036779439312]
ブラックボックスドメイン適応は、非常に実用的で非常に困難な設定である。
ブラックボックスソースモデルに埋め込まれた特定の知識を活用するサブネットワーク整合モデル(DDSR)を用いた二重蒸留法を提案する。
我々の手法は、ソースデータやモデルの使用を含む、最先端の手法に対する一貫した改善を実証する。
論文 参考訳(メタデータ) (2026-03-24T07:54:19Z) - Adapt, But Don't Forget: Fine-Tuning and Contrastive Routing for Lane Detection under Distribution Shift [3.394257279821418]
データセット間の分散シフトは、微調整中に破滅的な忘れ物を引き起こす可能性がある。
本フレームワークは,分布毎に異なるモデルをトレーニングするよりも,パラメータをはるかに少なくしながら,ほぼ最適F1スコアを実現する。
論文 参考訳(メタデータ) (2025-07-22T18:39:15Z) - Exploring Semantic Clustering and Similarity Search for Heterogeneous Traffic Scenario Graph [41.2584175136191]
まず,交通シナリオを表現するための表現的かつ柔軟な異種時間グラフモデルを提案する。
次に,シナリオグラフに対する普遍的な埋め込み空間を学習するための自己教師付き手法を提案する。
特に、ブートストラップに基づくアプローチとともに、対照的な学習を実装し、シナリオ空間に対するそれらの適合性を評価する。
論文 参考訳(メタデータ) (2025-07-07T15:10:03Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。