論文の概要: Rethinking Object-Centric Representations for Video Dynamics Modeling
- arxiv url: http://arxiv.org/abs/2606.23436v1
- Date: Mon, 22 Jun 2026 14:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 19:06:07.449058
- Title: Rethinking Object-Centric Representations for Video Dynamics Modeling
- Title(参考訳): ビデオダイナミクスモデリングのためのオブジェクト中心表現の再考
- Authors: Amaury Wei, Ismail Nejjar, Olga Fink,
- Abstract要約: 教師なしのビデオオブジェクト追跡は、動的なシーンを手動のアノテーションなしで永続的なオブジェクト中心のエンティティに分解することを目的としている。
最近の多くのアプローチはスロットベースの表現に依存しており、固定された潜在変数のセット(スロット)はフレーム全体の個々のオブジェクトを表す。
STAITUSは,各スロットを外見と幾何学的ポーズ(ポジション/スケール)に明示的に切り離す統一的なフレームワークである。
- 参考スコア(独自算出の注目度): 17.157587526107598
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unsupervised video object tracking aims to decompose dynamic scenes into persistent, object-centric entities without manual annotations. Many recent approaches rely on slot-based representations, where a fixed set of latent variables ("slots") represent individual objects across frames. To preserve object identity, these models enforce temporal consistency on slot embeddings. However, when appearance and pose are entangled, this consistency objective conflicts with object motion and viewpoint changes. As a result, slots tend to lock onto static regions (e.g., background) to satisfy the consistency objective, while foreground objects become fragmented across multiple slots or frequently swap identities. To address these limitations, we propose STAITUS, a unified framework that explicitly disentangles each slot into appearance and geometric pose (position/scale). Leveraging this disentanglement, STAITUS enforces within-frame spatial separation and applies temporal alignment only in appearance space, yielding sharper masks and more persistent identities under motion, occlusion, and object entry/exit. Furthermore, to mitigate over-segmentation, we introduce an adaptive gating mechanism that dynamically adjusts the number of active slots to match scene complexity. Extensive experiments on synthetic and real-world benchmarks demonstrate that STAITUS substantially outperforms state-of-the-art baselines in segmentation quality and tracking stability.
- Abstract(参考訳): 教師なしのビデオオブジェクト追跡は、動的なシーンを手動のアノテーションなしで永続的なオブジェクト中心のエンティティに分解することを目的としている。
最近の多くのアプローチはスロットベースの表現に依存しており、固定された潜在変数のセット(スロット)はフレーム全体の個々のオブジェクトを表す。
オブジェクトのアイデンティティを保持するために、これらのモデルはスロットの埋め込みに時間的一貫性を強制する。
しかし、外見やポーズが絡まった場合、この一貫性の目的は物体の動きや視点の変化と矛盾する。
その結果、スロットは一貫性の目標を満たすために静的な領域(例えば、バックグラウンド)にロックされる傾向があり、フォアグラウンドオブジェクトは複数のスロットにまたがって断片化され、しばしばIDをスワップする。
これらの制約に対処するため,各スロットを外見と幾何学的ポーズ(ポジション/スケール)に明示的に切り離す統合フレームワークであるSTAITUSを提案する。
STAITUSはフレーム内の空間分離を強制し、時間的アライメントを外観空間にのみ適用し、よりシャープなマスクとより永続的なアイデンティティを動作、閉塞、およびオブジェクトエントリ/出力で得る。
さらに,過分割を緩和するために,シーンの複雑さに合わせたアクティブスロット数を動的に調整する適応ゲーティング機構を導入する。
合成および実世界のベンチマークに関する大規模な実験により、STAITUSはセグメンテーションの品質と追跡安定性において、最先端のベースラインを大幅に上回っていることが示された。
関連論文リスト
- Dual-State Slot Attention: Decoupling Appearance and Identity for Video Object-Centric Learning [17.16289725621027]
教師なしのビデオオブジェクト中心学習は、動的シーンを監督なしで永続的なオブジェクトレベル表現に分解することを目的としている。
既存のスロットベースの手法は、高速動作や部分閉塞といった挑戦的な設定において、安定したオブジェクトのアイデンティティを維持するのに苦労する。
本稿では,自己管理型フレームワークであるDual-State Slot Attention (DSSA)を提案する。
論文 参考訳(メタデータ) (2026-06-10T19:00:47Z) - Controllable Video Object Insertion via Multiview Priors [30.363004603304418]
ビデオオブジェクト挿入は、既存の環境に新しいオブジェクトを動的に挿入するための重要なタスクである。
マルチビュー・オブジェクト・プリエントを統合したビデオ・オブジェクト・インサーションの新しいソリューションを提案する。
提案手法は,映像オブジェクト挿入の品質を大幅に改善し,安定かつ現実的な統合を実現する。
論文 参考訳(メタデータ) (2026-04-16T02:39:15Z) - AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection [54.879037588415656]
GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。
参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。
GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
論文 参考訳(メタデータ) (2026-03-06T09:01:09Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。