論文の概要: Quo Vadis, Visual In-Context Learning? A Unified Benchmark Across Domains and Tasks
- arxiv url: http://arxiv.org/abs/2606.10967v1
- Date: Tue, 09 Jun 2026 15:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.572319
- Title: Quo Vadis, Visual In-Context Learning? A Unified Benchmark Across Domains and Tasks
- Title(参考訳): Quo Vadis, Visual In-Context Learning? ドメインとタスクのベンチマークを統一したベンチマーク
- Authors: Pradnya Halady, Jiale Wei, Zdravko Marinov, Alexander Jaus, Simon Reiß,
- Abstract要約: 多様な画像領域と幅広いタスクに焦点を当てた、広範囲なVisual In-Context BEnchmark (VIBE)を構築します。
私たちは、14ドルのデータセットと12ドルのタスクで6つのモデルをテストし、それらを統一された再現可能な評価プロトコルで比較します。
我々の評価では、制約、系統的な障害モード、有望な方向を含む、視覚的インコンテキスト学習の状況に関する重要な洞察を明らかにする。
- 参考スコア(独自算出の注目度): 47.20669655453283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual in-context learning has been proposed as a pathway towards dynamic models that can generate predictions based on a provided context and thereby can adapt to new vision tasks at test-time. Yet, the evaluation of the adaptation capabilities of these models has been limited to narrow setups that mainly mirror tasks or image domains from pre-training for which real adaptation is not required. We address this gap by constructing a broad Visual In-Context BEnchmark (VIBE) with a focus on diverse imaging domains and a wide range of tasks. With this, we are able to get a much clearer picture of the adaptive capabilities of visual in-context models when faced with new image- and task distributions. We stress test six models on $14$ datasets and $12$ tasks (in total, we explore $106$ dataset-task combinations) and compare them under a unified, reproducible evaluation protocol, in an one-shot setting. Our evaluation uncovers key insights on the state of visual in-context learning, including limitations, systematic failure modes and promising directions. To foster broader evaluation, we will openly release our VIBE toolkit.
- Abstract(参考訳): 視覚的インコンテキスト学習は、与えられたコンテキストに基づいて予測を生成し、テスト時に新しいビジョンタスクに適応できる動的なモデルへの経路として提案されている。
しかし、これらのモデルの適応能力の評価は、実際の適応が不要な事前訓練から主にタスクや画像ドメインをミラーする狭い設定に限られている。
このギャップに対処するために、多様な画像領域と幅広いタスクに焦点をあてて、広義のVisual In-Context BEnchmark (VIBE)を構築する。
これにより、新しい画像およびタスク分布に直面した場合に、視覚的インコンテキストモデルの適応能力をより明確にすることができる。
私たちは、14ドルのデータセットと12ドルのタスクで6つのモデルをテストし(合計で106ドルのデータセットとタスクの組み合わせを調べます)、それらを統一された再現可能な評価プロトコルの下で、1ショット設定で比較します。
我々の評価では、制約、系統的な障害モード、有望な方向を含む、視覚的インコンテキスト学習の状況に関する重要な洞察を明らかにする。
より広範な評価を促進するため、VIBEツールキットをオープンにリリースします。
関連論文リスト
- Beyond Model Size: Probing the Gaps in Visual in-Context Learning by Training a Tiny Model [11.54554255426278]
我々は、テスト時に新しいタスクに適応できる適応型ビジョンモデルに向けて前進することを目指している。
私たちは、たった1億ドルのパラメータと70,000ドルの画像を持つ小さなビジュアル・イン・コンテキスト・モデルをトレーニングします。
我々は、この重大容量キャップ付き小型モデルの結果を、適応的な異なる設定で、より大きなVICLモデルに対して7,000ドル(約7万7000円)と比較した。
論文 参考訳(メタデータ) (2026-06-09T14:13:58Z) - Test-Time Visual In-Context Tuning [85.62916644835902]
ビジュアル・イン・コンテキスト・ラーニング(VICL)は、いくつかのプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。
VICT(Test-time Visual In-Context Tuning)は、1つのテストサンプルでVICLモデルをオンザフライで適用できる手法である。
論文 参考訳(メタデータ) (2025-03-27T17:59:52Z) - Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。