論文の概要: Do Video Foundation Models Understand Intuitive Physics? A Layerwise Probing Analysis
- arxiv url: http://arxiv.org/abs/2606.09646v1
- Date: Mon, 08 Jun 2026 15:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.470778
- Title: Do Video Foundation Models Understand Intuitive Physics? A Layerwise Probing Analysis
- Title(参考訳): ビデオファンデーションモデルは直観的な物理を理解するか? : レイヤーワイズによる解析
- Authors: Samuele Punzo, Niccolò Caselli, Ippokratis Pantelidis, Francesco Massafra, Salvatore Lo Sardo, Mohammadreza Salehi,
- Abstract要約: 凍結表現に直感的な物理情報をエンコードするビデオ基礎モデルについて検討した。
予測結合埋め込みモデル(V-JEPA)、マスク再構成モデル(VideoMAE)、拡散型ビデオジェネレータ(LTX-Video)を比較した。
V-JEPAは、特に時間的ダイナミクスをモデル化するプローブを用いて、ベンチマーク全体で最も強力な総合的な結果を達成する。
- 参考スコア(独自算出の注目度): 8.399506999829219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether pretrained video foundation models encode intuitive-physics information in their frozen representations, and how this information varies across model families, layers, and probe types. Using frozen-feature probing on IntPhys2 and Minimal Video Pairs (MVP), we compare predictive joint-embedding models (V-JEPA), masked reconstruction models (VideoMAE), and a diffusion-based video generator (LTX-Video). V-JEPA achieves the strongest overall results across benchmarks, especially with probes that model temporal dynamics, while VideoMAE remains competitive and LTX-Video recovers weaker but non-trivial signal. Layerwise analyses show that physics-relevant information is weakest in early layers and becomes most accessible at intermediate-to-late depth, and temporal controls show that disrupting frame order substantially reduces performance, especially on MVP. Together, these results suggest that intuitive-physics knowledge emerges reliably in pretrained video representations, but its accessibility depends strongly on pretraining paradigm, representational depth, and readout mechanism.
- Abstract(参考訳): 本研究は,映像基礎モデルの凍結表現における直観的物理情報をエンコードするか否か,モデルファミリ,層,プローブの種類によってどのように異なるかを検討する。
IntPhys2 と Minimal Video Pairs (MVP) の凍結機能プロービングを用いて,予測共同埋め込みモデル (V-JEPA) ,マスク再構成モデル (VideoMAE) ,拡散型ビデオジェネレータ (LTX-Video) を比較した。
V-JEPAは、特に時間的ダイナミクスをモデル化するプローブを用いて、ベンチマーク全体で最も強力な総合的な結果を達成する一方、VideoMAEは競争力を維持し、LTX-Videoはより弱いが非自明な信号を回復する。
階層解析により、物理関連情報は初期層で最も弱く、中間層から後期層までで最もアクセスしやすいことが示され、時間的制御により、フレームの破壊が特にMVPにおいて性能を著しく低下させることが示された。
これらの結果は、直感的な物理知識が事前訓練された映像表現に確実に現れることを示唆するが、そのアクセシビリティは事前学習のパラダイム、表現深度、読み出し機構に強く依存する。
関連論文リスト
- PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [55.72785604682579]
MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-03T07:32:24Z) - Interpreting Physics in Video World Models [28.27323417999283]
物理推論における長年の疑問は、ビデオベースのモデルが物理変数の分解表現に依存する必要があるかどうかである。
本稿では,大規模ビデオエンコーダ内の物理表現を調べるための最初の解釈可能性研究について述べる。
現代のビデオモデルは、古典的な物理エンジンのような物理変数の分解表現を使用しない。
論文 参考訳(メタデータ) (2026-02-04T15:19:19Z) - PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance [2.2606796828967823]
現在のビデオ生成モデルは高品質な美的ビデオを生成するが、現実の物理力学の表現を学ぶのに苦労することが多い。
本稿では、ビデオ生成プロセスに先立って学習可能な物理を組み込む概念実証フレームワークであるPhysVideoGeneratorを提案する。
本稿では,事前学習したビデオジョイント埋め込み予測アーキテクチャから抽出した高レベルな物理特徴を抑圧する軽量な予測器ネットワークPredictorPを紹介する。
論文 参考訳(メタデータ) (2026-01-07T07:38:58Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - Inferring Dynamic Physical Properties from Video Foundation Models [94.35979242947873]
ビデオから動的物理特性を予測するタスクについて検討する。
時間的情報を必要とする物理的特性として,バウンディング物体の弾性,流動液体の粘度,表面を滑り落ちる物体の動的摩擦について考察する。
論文 参考訳(メタデータ) (2025-10-02T17:59:50Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。