論文の概要: Open-World Video Segmentation
- arxiv url: http://arxiv.org/abs/2606.15632v2
- Date: Wed, 17 Jun 2026 08:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.188168
- Title: Open-World Video Segmentation
- Title(参考訳): オープンワールドビデオセグメンテーション
- Authors: Qing Su, Kaiyang Li, Yuan Zhuang, Fei Miao, Shihao Ji,
- Abstract要約: 本稿では,オープンワールドビデオセグメンテーションのための実用的で強力なシステムであるSavvyを紹介する。
Savvyは、永続的なオブジェクト発見、安全なトラックプロモーション、安定した長距離アイデンティティメンテナンスをサポートする。
また,オープンワールドビデオセグメンテーションのための粒度認識評価スイートであるOGAを提案する。
- 参考スコア(独自算出の注目度): 21.65294890698273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While video segmentation has advanced rapidly on short clips and closed-set benchmarks, open-world video segmentation remains largely unexplored. The challenge is twofold: (1) existing methods are not designed to support object discovery and identity maintenance in long videos of dynamic ego-motion, and (2) existing evaluation protocols rely on a rigid 1:1 matching that unfairly penalizes semantically valid predictions with mismatched granularity. To address both gaps, we introduce Savvy, a practical and strong system for zero-shot open-world long-horizon video segmentation. Savvy combines hierarchical mask discovery, deferred admission, and track consolidation to support persistent object discovery, safe track promotion, and stable long-range identity maintenance. We further propose OGA, a granularity-aware evaluation suite for open-world video segmentation. Built on a Granularity-Agnostic (GA) matching protocol, OGA relaxes conventional 1:1 matching to an n:1 mapping, but still enforces temporal rigor by detecting support discontinuities through sever points and scoring each reference object through its dominant coherent fragment. This prevents fragmented or flickering support from being over-rewarded while enabling GA-adapted metrics and structural diagnostics: identity persistence (IP), and identity concentration (IC). On VIPSeg, we show that standard 1:1 evaluation substantially underestimates open-world methods, whereas GA evaluation recovers much of their suppressed performance. On the more realistic long-horizon benchmarks: ScanNet and HM3D, Savvy consistently outperforms strong baselines across both classical and proposed metrics, including STQ, VPQ$_\infty$, IP and IC. Together, these results establish a practical benchmark and a strong baseline for open-world long-horizon video segmentation.
- Abstract(参考訳): ビデオセグメンテーションはショートクリップやクローズドセットのベンチマークで急速に進歩しているが、オープンワールドビデオセグメンテーションはいまだに未調査である。
課題は2つある: (1) 既存の手法は、動的なエゴモーションの長いビデオにおいて、オブジェクトの発見とアイデンティティの維持をサポートするように設計されていない; (2) 既存の評価プロトコルは、不当に不一致の粒度で意味論的に有効な予測を罰する厳密な1:1マッチングに依存している。
両ギャップに対処するために,ゼロショット・オープンワールド・ロングホライゾン・ビデオセグメンテーションのための実用的で強力なシステムであるSavvyを紹介する。
Savvyは、階層的なマスク発見、遅延入場、トラック統合を組み合わせ、永続的なオブジェクト発見、安全なトラックプロモーション、安定した長距離アイデンティティ維持をサポートする。
さらに,オープンワールドビデオセグメンテーションのための粒度認識評価スイートであるOGAを提案する。
グラニュラリティ・アグノスティック(GA)マッチングプロトコル上に構築されたOGAは、従来の1:1マッチングをn:1マッピングに緩和するが、サポートの不連続性を厳密な点から検出し、各参照オブジェクトを支配的なコヒーレントな断片を通じてスコアリングすることで、時間的厳密さを継続する。
これにより、断片化やフリッカリングのサポートがオーバーリワードされるのを防ぎ、GA対応のメトリクスと構造診断、すなわちアイデンティティ永続化(IP)とアイデンティティ集中(IC)を可能にする。
VIPSegでは,標準1:1評価がオープンワールド手法をかなり過小評価しているのに対し,GA評価は抑制された性能の多くを回復している。
ScanNetとHM3Dのより現実的なロングホライゾンベンチマークでは、Savvyは、STQ、VPQ$_\infty$、IP、ICなど、古典的および提案された指標の両方において、一貫して強力なベースラインを上回っている。
これらの結果は,オープンワールドの長距離ビデオセグメンテーションにおいて,実用的なベンチマークと強力なベースラインを確立した。
関連論文リスト
- Mind the Gap: Disentangling Performance Bottlenecks in Video Instance Segmentation [0.34410212782758043]
ビデオインスタンス(VIS)分類、セグメンテーション、追跡目的を共同で評価する。
アルゴリズム線形プログラム(ILP)としてのアイデンティティとクラス割り当てを定式化する診断フレームワークを導入する。
TrackLensも導入しています。これはスケールを観測可能なクエリレベルの障害モードに変換するビジュアルツールです。
論文 参考訳(メタデータ) (2026-06-05T15:32:48Z) - Explainable Forensics of Manipulated Segments in Untrimmed Long Videos [50.190474724159465]
時間的AI生成セグメンテーションの局所化と説明のタスクを定式化する。
多様な操作パターンと豊富なアノテーション信号を備えた12,472の未トリミングビデオからなる大規模ベンチマークであるTASLEを紹介する。
そこで本稿では,MLLMに基づく精密な境界ローカライゼーションと解釈可能な推論のためのリファインメントモジュールと,効率的な長ビデオスキャンのためのバウンダリ感性提案生成モジュールを組み合わせた,粗大な法医学ベースラインであるMSLocを提案する。
論文 参考訳(メタデータ) (2026-06-01T15:48:38Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。