論文の概要: Momentum-Guided Semantic Forecasting (MoFore) for Self-Supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2606.14765v1
- Date: Mon, 08 Jun 2026 17:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.912786
- Title: Momentum-Guided Semantic Forecasting (MoFore) for Self-Supervised Video Representation Learning
- Title(参考訳): Momentum-Guided Semantic Forecasting (MoFore) for Self-Supervised Video Representation Learning (英語)
- Authors: Qinwu Xu,
- Abstract要約: 自己教師型ビデオ表現学習のためのMomentum-Guided Semantic Forecastingフレームワークを提案する。
このフレームワークは、トレーニング中にアクションラベルを使わずに、時間的に一貫性があり、意味的に意味のあるビデオ表現を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised video representation learning has recently advanced through contrastive learning, masked reconstruction, and predictive representation learning. Reconstruction-based approaches such as MAE and VideoMAE learn representations by recovering masked visual content \cite{he2022mae,tong2022videomae}, while contrastive methods such as CLIP learn semantically meaningful embedding spaces through representation alignment \cite{radford2021clip}. In this work, we introduce a Momentum-Guided Semantic Forecasting framework (MoFore) for self-supervised video representation learning. Instead of optimizing for pixel-level reconstruction or task-specific semantic alignment, the proposed method learns temporally predictive video representations by forecasting future latent embeddings from temporally distant context clips. To improve robustness across temporal scales, we further introduce randomized temporal-gap forecasting during training. The framework combines predictive latent forecasting with contrastive regularization to encourage temporal consistency while preventing representation collapse. Experiments on the UCF101 dataset demonstrate that the proposed framework learns temporally consistent and semantically meaningful video representations without using action labels during training. Quantitative analysis shows strong temporal stability and emergent category-level structure in the learned embedding space, while qualitative retrieval experiments reveal motion-aware organization across related activities. Overall, the results suggest that long-range latent forecasting provides an effective and computationally efficient approach for self-supervised video representation learning without relying on reconstruction-based objectives.
- Abstract(参考訳): 自己教師付きビデオ表現学習は、最近、コントラスト学習、マスク付き再構成、予測表現学習を通じて進歩している。
MAEやVideoMAEのような再構成ベースのアプローチは、マスク付きビジュアルコンテンツ \cite{he2022mae,tong2022 videomae} を復元することで表現を学ぶ一方で、CLIPのような対照的な手法は、表現アライメント \cite{radford2021clip} を通じて意味的に意味のある埋め込み空間を学習する。
本研究では,自己教師付きビデオ表現学習のためのMomentum-Guided Semantic Forecasting framework (MoFore)を提案する。
提案手法は,画素レベルの再構成やタスク固有のセマンティックアライメントを最適化する代わりに,時間的に離れたコンテキストクリップから将来の潜伏埋め込みを予測することによって,時間的に予測された映像表現を学習する。
時間スケールにおけるロバスト性を改善するために、トレーニング中にランダム化された時間ギャップ予測を導入する。
このフレームワークは予測潜在予測と対照的な正規化を組み合わせることで、表現の崩壊を防ぎながら時間的一貫性を促進する。
UCF101データセットの実験は、トレーニング中にアクションラベルを使わずに、提案フレームワークが時間的に一貫性があり、意味的に意味のあるビデオ表現を学ぶことを示した。
定量的分析では,学習した埋め込み空間における時間的安定性と創発的カテゴリーレベルの構造が示され,質的検索実験では関連する活動にまたがる動き認識機構が明らかとなった。
以上の結果から,長期潜伏予測は自己教師付き映像表現学習において,再構成に基づく目的に頼らずに効果的かつ効率的な手法を提供する可能性が示唆された。
関連論文リスト
- What Makes Video World Model Latents Action-Relevant: Prediction over Reconstruction [9.020077150911526]
動作関連構造は、主に画素再構成の忠実度ではなく、時間的ビデオ事前学習によって駆動される。
本研究は,行動関連ビデオ表現の主成分として時間的予測構造(再構成忠実性ではなく,時間的予測構造)を同定した。
論文 参考訳(メタデータ) (2026-06-05T04:43:02Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Point Contrastive Prediction with Semantic Clustering for
Self-Supervised Learning on Point Cloud Videos [71.20376514273367]
本稿では,オブジェクト中心およびシーン中心のデータを対象とした一元的クラウドビデオ自己教師型学習フレームワークを提案する。
本手法は、広範囲の下流タスクにおいて教師付きタスクよりも優れる。
論文 参考訳(メタデータ) (2023-08-18T02:17:47Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。