論文の概要: CausalMotion: Structured Physical Reasoning as Keyframe and Trajectory Guidance for Training-Free Video Generation
- arxiv url: http://arxiv.org/abs/2606.14317v1
- Date: Fri, 12 Jun 2026 09:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.862486
- Title: CausalMotion: Structured Physical Reasoning as Keyframe and Trajectory Guidance for Training-Free Video Generation
- Title(参考訳): CausalMotion:キーフレームとしての構造化物理推論と学習自由ビデオ生成のための軌道誘導
- Authors: Sihan Zhuang, Xinyuan Chen, Tianfan Xue, Yaohui Wang,
- Abstract要約: textbfCausalMotionは、構造化中間表現を通じてビデオ生成に明示的な物理的推論を注入する。
我々の手法は、特に動的に集中したシナリオにおいて、物理的妥当性と時間的コヒーレンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 31.482087672315895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion-based video generation have significantly improved visual quality and short-term temporal coherence. However, existing methods still struggle to produce videos with physically consistent and causally plausible dynamics, especially in scenarios involving long-horizon interactions. This limitation arises from the fact that video diffusion models primarily learn physical consistency implicitly, while vision-language models can directly model physical laws. Based on this idea, in this work, we propose \textbf{CausalMotion}, a training-free framework that injects explicit physical reasoning into video generation through structured intermediate representations. Our key idea is to decouple reasoning from generation by leveraging a vision-language model to decompose a text prompt into a sequence of causally consistent keyframes and object-centric motion trajectories. These representations are then aligned and integrated as soft constraints to guide a pretrained video diffusion model during inference. This design enables explicit modeling of object dynamics and causal transitions without requiring additional training or supervision. Extensive experiments show that our method consistently improves physical plausibility and temporal coherence, particularly in dynamics-intensive scenarios, while maintaining high perceptual video quality.
- Abstract(参考訳): 拡散型ビデオ生成の最近の進歩は、視覚的品質と短期的時間的コヒーレンスを大幅に改善した。
しかし、既存の手法は、特に長い水平相互作用を含むシナリオにおいて、物理的に一貫性があり因果的確証可能なダイナミックスを持つビデオを作成するのに依然として苦労している。
この制限は、ビデオ拡散モデルが主に物理的な一貫性を暗黙的に学習するのに対して、視覚言語モデルは直接物理法則をモデル化できるという事実から生じる。
この考え方に基づき、本研究では、構造化中間表現を通してビデオ生成に明示的な物理的推論を注入するトレーニング不要のフレームワークである「textbf{CausalMotion}」を提案する。
私たちのキーとなるアイデアは、視覚言語モデルを利用して、テキストプロンプトを因果一貫性のあるキーフレームとオブジェクト中心のモーショントラジェクトリのシーケンスに分解することで、推論を生成から切り離すことです。
これらの表現は、推論中に予め訓練されたビデオ拡散モデルを導くために、ソフト制約として整列され、統合される。
この設計により、追加のトレーニングや監督を必要とせずに、オブジェクトのダイナミクスと因果遷移の明示的なモデリングが可能になる。
広汎な実験により,高知覚的映像品質を維持しつつ,特にダイナミックス集約シナリオにおいて,身体的可視性と時間的コヒーレンスを常に改善することが示された。
関連論文リスト
- Tempered Self-Similarity Alignment for Physically Plausible Video Generation [83.40337664171939]
自己相似性損失は確率的対応に変化し、映像生成モデルを動的に変化する領域の視覚基盤モデルと対応付けるよう訓練する。
本手法は,映像生成における関係知識の伝達の有効性を検証し,多種多様な相互作用シナリオにおける物理的妥当性の大幅な向上を示す。
論文 参考訳(メタデータ) (2026-05-24T09:28:05Z) - Demystifing Video Reasoning [71.53763299316041]
ビデオモデルにおける推論は、主に拡散認知のステップに沿って現れることを示す。
モデル性能に重要ないくつかの創発的推論行動を特定する。
これらの知見に触発され、私たちは概念実証としてトレーニングフリー戦略を提示した。
論文 参考訳(メタデータ) (2026-03-17T17:59:55Z) - Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。