論文の概要: Robust Zero-Shot Generalization for Open-Vocabulary Action Recognition via Task Arithmetic
- arxiv url: http://arxiv.org/abs/2606.20734v1
- Date: Wed, 17 Jun 2026 14:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:26:50.790931
- Title: Robust Zero-Shot Generalization for Open-Vocabulary Action Recognition via Task Arithmetic
- Title(参考訳): タスク算術によるオープンボキャブラリ動作認識のためのロバストゼロショット一般化
- Authors: Francesca Morandi, Omayma Moussadek, Federico Venturini, Mauro Suardi, Alessandro Banzatti, Francesco Cannarile, Angelo Porrello, Simone Calderara,
- Abstract要約: Open Vocabulary Action Recognition (OVAR)は、視覚言語表現を活用することで、新しい行動の認識を可能にする。
ターゲットドメインのトレーニングを回避し、既存のデータセットやモデルから知識を再結合する代替パラダイムを提案する。
本研究では,事前学習したベースモデルよりも優れたゼロショット一般化を達成できることを,アウト・オブ・ディストリビューション設定で示す。
- 参考スコア(独自算出の注目度): 45.298314099319775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open Vocabulary Action Recognition (OVAR) enables the recognition of novel actions by leveraging vision-language representations, overcoming the limitations of traditional closed-set approaches. However, achieving robust performance in real-world scenarios typically requires domain-specific fine-tuning, which is often costly and raises privacy and regulatory concerns. In this work, we propose an alternative paradigm that bypasses target-domain training and recombines knowledge from existing datasets and models. Leveraging model merging and task arithmetic, we extract and combine task vectors from models fine-tuned on diverse public OVAR datasets. We show that, in out-of-distribution settings, the resulting merged model achieves superior zero-shot generalization to the pre-trained base model. Code is available at https://github.com/omaymaMoussadek/robust-ovar
- Abstract(参考訳): Open Vocabulary Action Recognition (OVAR)は、視覚言語表現を活用することで、従来のクローズドセットアプローチの限界を克服することで、新しい行動の認識を可能にする。
しかし、現実のシナリオで堅牢なパフォーマンスを達成するには、一般的にドメイン固有の微調整が必要です。
本研究では、ターゲットドメインのトレーニングを回避し、既存のデータセットやモデルから知識を再結合する代替パラダイムを提案する。
モデルマージとタスク算術を利用して、様々な公開OVARデータセットに基づいて微調整されたモデルからタスクベクトルを抽出し、組み合わせる。
本研究では,事前学習したベースモデルよりも優れたゼロショット一般化を達成できることを,アウト・オブ・ディストリビューション設定で示す。
コードはhttps://github.com/omaymaMoussadek/robust-ovarで入手できる。
関連論文リスト
- Enhancing Linguistic Generalization of VLA: Fine-Tuning OpenVLA via Synthetic Instruction Augmentation [0.0]
ロボットは多様な環境に適応しなければならないため、一般化はAIの具体化における中核的な課題である。
本稿では,OpenVLAの言語一般化を促進するためのパラメータ効率の良い微調整戦略を提案する。
論文 参考訳(メタデータ) (2026-03-17T01:04:15Z) - Implicit Federated In-context Learning For Task-Specific LLM Fine-Tuning [10.042856500868805]
Inlicit Federated In-Context Learning (IFed-ICL) フレームワークを提案する。
IFED-ICLは、新しい分散協調パラダイムを確立するために、フェデレートラーニングからインスピレーションを得ている。
従来の手法と比較して、IFed-ICLは従来の微調整法で必要とされる広範囲なパラメータ更新を避ける。
論文 参考訳(メタデータ) (2025-11-10T06:34:29Z) - RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging [33.22889542330089]
大規模言語モデル(LLM)の内部表現は、学習知識の信頼できるプロキシとして機能する。
本稿では,過去データにアクセスせずに連続的な学習を行うための表現認識モデル統合フレームワークRECALLを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:17:37Z) - Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。
VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。
本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:48:13Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。