論文の概要: Beyond Model Size: Probing the Gaps in Visual in-Context Learning by Training a Tiny Model
- arxiv url: http://arxiv.org/abs/2606.10905v1
- Date: Tue, 09 Jun 2026 14:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.541806
- Title: Beyond Model Size: Probing the Gaps in Visual in-Context Learning by Training a Tiny Model
- Title(参考訳): モデルサイズを超えて: 微妙なモデルのトレーニングによる視覚的インテクスト学習におけるギャップの探索
- Authors: Sunil Khatri, Steven Landgraf, Markus Ulrich, Simon Reiß,
- Abstract要約: 我々は、テスト時に新しいタスクに適応できる適応型ビジョンモデルに向けて前進することを目指している。
私たちは、たった1億ドルのパラメータと70,000ドルの画像を持つ小さなビジュアル・イン・コンテキスト・モデルをトレーニングします。
我々は、この重大容量キャップ付き小型モデルの結果を、適応的な異なる設定で、より大きなVICLモデルに対して7,000ドル(約7万7000円)と比較した。
- 参考スコア(独自算出の注目度): 11.54554255426278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual in-Context Learning (VICL) aims at making progress towards adaptive vision models, that can -- based on a few examples -- adapt to a new task at test-time. With the history of in-context learning in natural language processing research, where large, parameter-heavy models are in use, one pathway that current VICL methods take is model- and data-scaling as key ingredients. Yet, it is not clear, whether these ingredients are the key for in-context learning to take shape in vision models. To stress-test such large models, we challenge them with an extreme counterexample: we train a tiny visual in-context model with merely $1$ million parameters and a modest amount of $70,000$ images. We compare the results of this severely capacity capped tiny model to $7,000\times$ larger VICL models in different adaptive settings, (1) on image data with small distribution shifts, (2) on unseen task encodings and (3) on a completely new task, i.e., the setting VICL envisions. With the chasm of training resources between the tiny- and large models, our experiments showcase a lack in how adaptive capabilities are measured, with respect to how tasks are encoded, which tasks were used in pre-training and the choice of metrics. These gaps in current VICL benchmarking underscore a need for innovation in evaluation of adaptive capabilities.
- Abstract(参考訳): Visual In-Context Learning (VICL)は、いくつかの例に基づいて、テスト時に新しいタスクに適応できる適応型ビジョンモデルに向けて前進することを目的としている。
自然言語処理研究における文脈内学習の歴史では、パラメータ重大なモデルが使われているが、現在のVICL法が持つ1つの経路は、モデルとデータスケーリングが鍵となる要素である。
しかし、これらの成分が、視覚モデルにおいて形を取るための文脈内学習の鍵であるかどうかは不明である。
このような大きなモデルをストレステストするために、私たちは極端な反例で、わずか1億ドルのパラメータと70,000ドルの画像で小さなビジュアル・イン・コンテキスト・モデルをトレーニングします。
我々は,この重大容量カプセル化小モデルの結果を,(1)小さな分散シフトのイメージデータ,(2)見えないタスクエンコーディング,(3)全く新しいタスク,すなわちVICLの想定する設定において,異なる適応条件で7,000\times$大きなVICLモデルと比較する。
小型モデルと大規模モデル間のトレーニングリソースのカオスにより、我々の実験では、タスクのエンコード方法、事前トレーニングに使われたタスク、メトリクスの選択に関して、適応能力の測定方法の欠如が示されている。
現在のVICLベンチマークにおけるこれらのギャップは、適応能力の評価における革新の必要性を浮き彫りにしている。
関連論文リスト
- Virchow2: Scaling Self-Supervised Mixed Magnification Models in Pathology [2.6761982943661438]
我々は6億2200万のパラメータ・ビジョン・トランスフォーマーであるVirchow2Gと、19億のパラメータ・ビジョン・トランスフォーマーであるVirchow2Gと、2200万のパラメータ・蒸留であるVirchow2G Miniの3つの新しいモデルを紹介した。
上位の競合モデルと比較して,12のタイルレベルタスクにおけるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2024-08-01T17:35:58Z) - An exactly solvable model for emergence and scaling laws in the multitask sparse parity problem [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。