論文の概要: Dual-State Slot Attention: Decoupling Appearance and Identity for Video Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2606.12601v1
- Date: Wed, 10 Jun 2026 19:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.415259
- Title: Dual-State Slot Attention: Decoupling Appearance and Identity for Video Object-Centric Learning
- Title(参考訳): Dual-State Slot Attention:ビデオオブジェクト中心学習における外観とアイデンティティの分離
- Authors: Sieu Tran, Duc Nguyen, Hao Vo, Khoa Vo, Ngan Le,
- Abstract要約: 教師なしのビデオオブジェクト中心学習は、動的シーンを監督なしで永続的なオブジェクトレベル表現に分解することを目的としている。
既存のスロットベースの手法は、高速動作や部分閉塞といった挑戦的な設定において、安定したオブジェクトのアイデンティティを維持するのに苦労する。
本稿では,自己管理型フレームワークであるDual-State Slot Attention (DSSA)を提案する。
- 参考スコア(独自算出の注目度): 17.16289725621027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object-centric learning aims to decompose dynamic scenes into persistent, object-level representations without supervision. However, existing slot-based methods struggle to maintain stable object identity in challenging settings such as rapid motion and partial occlusion. First, they typically encode both the per-frame appearance of an object and its identity across frames in a single slot vector, creating an objective conflict that leads to slot swapping: reconstruction requires sensitivity to transient visual changes, whereas temporal consistency requires invariance to them. Second, the token renormalization used in Slot Attention can amplify weakly attending slots, allowing them to absorb tokens from other objects and destabilize slot-to-object correspondence. We propose Dual-State Slot Attention (DSSA), a fully self-supervised framework that addresses these limitations by separating appearance from identity and by reducing spurious updates from weakly matching slots. DSSA decomposes each slot into a local state for per-frame appearance and an identity state for temporally stable object information, thereby aligning reconstruction and temporal consistency with separate representations. The identity state is updated through a learned recurrent transition that acts as a temporal filter on the local state, while competition-modulated aggregation (CMA) down-weights updates from weakly matching slots and prevents them from absorbing tokens from other objects. Experiments on MOVi-C, MOVi-D, and YouTube-VIS demonstrate that DSSA consistently improves segmentation quality and temporal consistency over prior methods, while also yielding stronger downstream object recognition and video dynamics prediction. Code and models will be made publicly available upon acceptance.
- Abstract(参考訳): 教師なしのビデオオブジェクト中心学習は、動的シーンを監督なしで永続的なオブジェクトレベル表現に分解することを目的としている。
しかし、既存のスロットベースの手法は、高速動作や部分閉塞といった困難な設定において、安定したオブジェクト識別を維持するのに苦労している。
まず、オブジェクトのフレームごとの外観と、フレーム間の同一性の両方を単一のスロットベクトルにエンコードし、スロットスワッピングにつながる客観的なコンフリクトを生成する。
第二に、スロットアテンションで使用されるトークン再正規化は、スロットへの弱い参加を増幅し、他のオブジェクトからのトークンを吸収し、スロットからオブジェクトへの対応を不安定にすることができる。
本稿では,自己管理型フレームワークであるDual-State Slot Attention (DSSA)を提案する。
DSSAは各スロットを局所状態に分解してフレーム単位の外観と時間的に安定なオブジェクト情報のアイデンティティ状態に分解し、再構成と時間的一貫性を別々の表現と整合させる。
アイデンティティ状態は、ローカル状態の時間フィルタとして機能する学習されたリカレント遷移によって更新されるが、競合変調アグリゲーション(CMA)は、弱いマッチングスロットからの更新を減らし、他のオブジェクトからのトークンの吸収を防ぐ。
MOVi-C、MOVi-D、YouTube-VISの実験では、DSSAは従来手法よりもセグメンテーション品質と時間的一貫性を一貫して改善し、下流オブジェクト認識とビデオダイナミックス予測がより強くなることを示した。
コードとモデルは受け入れ次第公開されます。
関連論文リスト
- Spatial-Temporal Decoupled Reference Conditioning for Identity-Preserving Text-to-Video Generation [79.94088803584262]
アイデンティティ保存ビデオ生成(IPVG)は、参照IDを保持しながらテキストプロンプトに従う高忠実度ビデオの合成を目的としている。
そこで我々は,ST-DRCを提案する。ST-DRCは,個人認証を保存したテキスト・ビデオ生成のための効果的な空間的疎結合参照条件作成フレームワークである。
LTX-2.3 上に構築した軽量な設計により,ST-DRC は強いアイデンティティ保存,迅速なアライメント,時間的整合性,映像品質を実現する。
論文 参考訳(メタデータ) (2026-06-01T16:12:18Z) - Internalizing Temporal Consistency in Video Object-Centric Learning without Explicit Regularization [34.98521123729049]
SSC(Slot-Slot Contrastive)の損失は、最先端(SOTA)ビデオOCL(Object-Centric Learning)手法の基盤となっている。
時間的一貫性は、明示的な損失ではなく、暗黙的なモデル設計として強制されるのがよい。
論文 参考訳(メタデータ) (2026-05-29T16:28:21Z) - AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - ObjectAlign: Neuro-Symbolic Object Consistency Verification and Correction [25.651102245332766]
我々は,知覚的メトリクスと記号的推論をブレンドして,編集されたビデオシーケンスの不整合を検出し,検証し,修正するフレームワークであるObjectAlignを紹介する。
私たちは、DAVISとPexelsのビデオデータセットのSOTAベースラインと比較して、CLIPスコアの1.4ポイント改善、ワープエラーの6.1ポイント改善を示す。
論文 参考訳(メタデータ) (2025-11-24T02:50:01Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually Separated Slots [65.302728042116]
意味的アノテーションがない場合の視覚知覚における物体の出現について検討する。
得られたモデルは、監督を受けておらず、事前訓練された特徴を一切使用していないが、画像の領域を複数の移動領域に分割することができる。
結果として得られる動き分節法は、未知のさまざまなオブジェクトをリアルタイムで処理することができる。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。