論文の概要: What Makes Video World Model Latents Action-Relevant: Prediction over Reconstruction
- arxiv url: http://arxiv.org/abs/2606.07687v1
- Date: Fri, 05 Jun 2026 04:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.277063
- Title: What Makes Video World Model Latents Action-Relevant: Prediction over Reconstruction
- Title(参考訳): ビデオ・ワールド・モデルのアクション関連性:再現性に関する予測
- Authors: Jewon Yeom, Hanseul Kim, Jeongjae Park, Sungmok Jung, Jaejin Lee, Taesup Kim,
- Abstract要約: 動作関連構造は、主に画素再構成の忠実度ではなく、時間的ビデオ事前学習によって駆動される。
本研究は,行動関連ビデオ表現の主成分として時間的予測構造(再構成忠実性ではなく,時間的予測構造)を同定した。
- 参考スコア(独自算出の注目度): 9.020077150911526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video world models are increasingly used to provide predictive visual representations, yet it remains unclear which pretraining signals induce action-relevant structure in their latent spaces. We study this question through a unified probe-based evaluation across diverse encoder families, including image-only self-supervision, video pretraining with and without latent prediction, reconstruction-based autoencoders, diffusion models, and shortcut-forcing dynamics models. Using a common inverse-dynamics probing objective, we find that action-relevant structure is driven primarily by temporal video pretraining rather than pixel reconstruction fidelity: models with strong pixel decoding quality can exhibit near-zero action recoverability, while video-pretrained self-supervised encoders consistently achieve the best Pareto trade-off between visual fidelity and action prediction. Comparing V-JEPA and VideoMAE further shows that most gains arise from natural-video temporal context, with feature-level latent prediction providing a smaller additional benefit. These trends transfer across robotic benchmarks, though CALVIN reveals that static-environment tasks can partially mask the importance of temporal structure by allowing strong image priors to suffice. Finally, inverse-dynamics supervision substantially improves robustness to visual corruption, suggesting that action-aware objectives regularize latent geometry beyond clean-setting performance. Our results identify temporal predictive structure -- not reconstruction fidelity -- as the primary ingredient underlying action-relevant video representations.
- Abstract(参考訳): ビデオワールドモデルは、予測的な視覚表現を提供するためにますます使われているが、どの事前学習信号が、その潜在空間における行動関連構造を誘導するかは定かではない。
本研究では,画像のみの自己スーパービジョン,映像事前学習,遅延予測,再構成に基づくオートエンコーダ,拡散モデル,ショートカット強制力学モデルなど,多種多様なエンコーダ群を対象とした統一的なプローブベース評価を行った。
画素復号精度の強いモデルでは、ほぼゼロに近い動作回復性を示すことができる一方、ビデオ事前制御型自己教師型エンコーダは、視覚的忠実度と行動予測との最高のパレートトレードオフを一貫して達成することができる。
V-JEPA と VideoMAE を比較すると、ほとんどの利得は自然ビデオの時間的文脈から生じており、特徴レベルの潜在予測はより小さな付加的な利点をもたらす。
これらの傾向は、ロボットベンチマーク間で伝達されるが、CALVINは、静的環境タスクは、強い画像が十分であるようにすることで、時間構造の重要性を部分的に隠蔽できることを示した。
最後に、逆力学の監督は、視覚的腐敗に対する堅牢性を大幅に改善し、アクション認識の目的が、クリーンな設定性能以上の潜時幾何学を規則化することを示唆している。
本研究は,行動関連ビデオ表現の主成分として時間的予測構造(再構成忠実性ではなく,時間的予測構造)を同定した。
関連論文リスト
- Video Generation with Predictive Latents [50.3100375593545]
ビデオオートエンコーダ(Eational)は、視覚世界をコンパクトな潜在空間にマッピングすることで、潜在映像生成モデリングを可能にする。
ビデオラテントの拡散性を高める方法はまだ重要で未解決の課題である。
本稿では,映像再構成による予測学習を統一する,シンプルで効果的な予測的再構築手法を提案する。
論文 参考訳(メタデータ) (2026-05-04T01:30:04Z) - Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction [12.661995278049764]
本稿では,階層型ビデオ予測フレームワークRe2Pixを紹介する。
予測は意味表現予測と表現誘導視覚合成の2つの段階に分けられる。
重要な課題は、トレーニング中に利用できる地道表現と推論で使用される予測表現との間の列車テストのミスマッチから生じる。
論文 参考訳(メタデータ) (2026-04-13T16:42:46Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - A new way of video compression via forward-referencing using deep
learning [0.0]
本稿では,すでに符号化されたフレームから人間のポーズをモデル化し,新しい映像符号化手法を提案する。
提案手法は,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dBのPSNRゲインと25.93%の残留保存をハイモーションビデオシーケンスに適用できることがわかった。
論文 参考訳(メタデータ) (2022-08-13T16:19:11Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。