論文の概要: SA-VIS: Sparse frame Annotations for training Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2606.20140v1
- Date: Thu, 18 Jun 2026 12:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.838087
- Title: SA-VIS: Sparse frame Annotations for training Video Instance Segmentation
- Title(参考訳): SA-VIS:ビデオインスタンスセグメンテーションのトレーニング用スパースフレームアノテーション
- Authors: Edoardo Mello Rella, Ajad Chhatkuli, Shipra Jain, Ender Konukoglu, Luc Van Gool,
- Abstract要約: 最近のオンラインビデオインスタンスセグメンテーション(VIS)手法は印象的な成果を上げており、ビデオ内のセグメントインスタンスに対して好まれるアプローチとなっている。
しかし、VISのトレーニング設定は、計算だけでなく、高密度なアノテーションも必要である。
ビデオにおけるインスタンスの効果的なモデリングとそれらの進化は、高密度に注釈付けされたフレームを必要としない、と我々は主張する。
このシンプルで低スループットなモジュールは、端から端までのトレーニングにスパースビデオフレームラベルを使用することで、膨大な学習能力を提供します。
- 参考スコア(独自算出の注目度): 58.2561806729996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent online video instance segmentation (VIS) methods have achieved impressive results, thus becoming the preferred approach to segment instances in videos. Despite the resurgence of impressive single image models, the online (or semi-online) VIS approaches outperform single-image models (e.g., based on SAM) by using long sequences of densely annotated frames during training. However,such a training setup of VIS is expensive in the sense of compute as well as dense annotations required. In order to solve these major flaws, we argue that the effective modeling of the instances and their evolution in videos do not require densely annotated frames. To that end, we propose a simple and effective module, called Past-frames Feature Propagation (PFP) which aggregates low-dimensional features from the image encoder of multiple frames. This simple low-compute module provides tremendous learning capability in using sparse video frame labels for end-to-end training. Combined with a light-weight frame-specific Instance Queries, our Sparse frame Annotation VIS (SA-VIS) significantly improves performance over its baseline. Most interestingly, our simple design that avoids complexities effectively bridges the gap in accuracy between training on sparsely and densely annotated video sequences. This translates to a mere 0.4% drop in performance of SA-VIS when using annotations for only 1/5 of the images in the dataset. Empirically, SA-VIS shows strong improvements over the baseline on YouTube-VIS 2019/2021/2022 and Occluded VIS (OVIS) and an over 1% improvement in AP on the state-of-the-art in a limited annotations scenario.
- Abstract(参考訳): 最近のオンラインビデオインスタンスセグメンテーション(VIS)手法は印象的な成果を上げており、ビデオ内のセグメントインスタンスに対して好まれるアプローチとなっている。
印象的なシングルイメージモデルの復活にもかかわらず、オンライン(または半オンライン)のVISは、トレーニング中に高密度の注釈付きフレームの長いシーケンスを使用することで、シングルイメージモデル(例えばSAM)よりも優れたパフォーマンスを実現している。
しかし、このようなVISのトレーニングセットアップは、計算だけでなく、高密度なアノテーションを必要とするという意味でも高価である。
これらの大きな欠陥を解決するために、ビデオにおけるインスタンスの効果的なモデリングとそれらの進化は、高密度に注釈付けされたフレームを必要としないと論じる。
そこで我々は,複数フレームの画像エンコーダから低次元特徴を集約する,Paste-frames Feature Propagation (PFP) と呼ばれるシンプルで効果的なモジュールを提案する。
このシンプルで低スループットなモジュールは、端から端までのトレーニングにスパースビデオフレームラベルを使用することで、膨大な学習能力を提供します。
Sparse frame Annotation VIS(SA-VIS)は、軽量フレーム固有のインスタンスクエリと組み合わせることで、ベースラインのパフォーマンスを大幅に改善します。
最も興味深いのは、複雑さを避けるシンプルな設計は、疎密なビデオシーケンスのトレーニングと密接な注釈付きビデオシーケンスの精度のギャップを効果的に埋めるということです。
これは、データセット内の画像の1/5にのみアノテーションを使用する場合、SA-VISのパフォーマンスがわずか0.4%低下したことを意味する。
経験的に、SA-VISは、YouTube-VIS 2019/2021/2022とOccluded VIS(OVIS)のベースラインに対する強力な改善と、制限されたアノテーションシナリオにおける最先端のAPに対する1%以上の改善を示している。
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - BoxVIS: Video Instance Segmentation with Box Annotations [15.082477136581153]
我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-26T04:04:58Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。