論文の概要: Feed-forward Motion In-betweening for Any 4D
- arxiv url: http://arxiv.org/abs/2606.22131v1
- Date: Sat, 20 Jun 2026 16:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:37:07.757933
- Title: Feed-forward Motion In-betweening for Any 4D
- Title(参考訳): 任意の4次元のフィードフォワード・モーション・イン・ザ・フィッシング
- Authors: Hiroki Nishizawa, Hubert P. H. Shum, Yoshihiro Fukuhara, Hirokatsu Kataoka, Shigeo Morishima,
- Abstract要約: コンディショニングを伴う任意の4次元メッシュを実現するためのフレームワークを提案する。
我々はDyMesh16とDyMesh32ベンチマークで高い性能と制御性を示した。
- 参考スコア(独自算出の注目度): 34.801496888575166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 4D dynamics (3D geometry evolving over time) is a fundamental representation of the physical world and plays a crucial role in world modeling (e.g., animation and games). Owing to the scarcity of large-scale, long-horizon 4D mesh data with arbitrary shapes, early text-to-4D methods rely on distillation or test-time optimization from video diffusion priors, making inference prohibitively slow. Recent feed-forward generators greatly reduce inference cost but offer limited spatiotemporal controllability, and short-horizon generation often leads to error accumulation in long-horizon sequences. We propose a novel feed-forward in-betweening framework for arbitrary 4D meshes with keyframe conditioning. Building on universal mesh-animation latents, we introduce a frame-wise mesh VAE that encodes each frame into topology-agnostic latent tokens anchored by a reference mesh for keyframe conditioning. We further introduce a keyframe-conditioned rectified flow model with an MMDiT backbone that synthesizes non-keyframe frames conditioned on sparse keyframes. Experiments show strong performance and improved controllability on both DyMesh16 and DyMesh32 benchmarks.
- Abstract(参考訳): 4Dダイナミックス(時間とともに進化する3D幾何学)は物理世界の基本的な表現であり、世界モデリング(例えばアニメーションやゲーム)において重要な役割を果たす。
任意の形状の大規模長水平4Dメッシュデータの不足のため、初期のテキスト・トゥ・4D法はビデオ拡散前の蒸留やテスト時間最適化に依存しており、推論が著しく遅くなっている。
最近のフィードフォワードジェネレータは、推論コストを大幅に削減するが、時空間制御性は限られており、短いホライゾン生成は、長いホライゾンシーケンスでエラーの蓄積につながることが多い。
キーフレーム条件付き任意の4Dメッシュのためのフィードフォワード間通信フレームワークを提案する。
共通メッシュアニメーションラジェントに基づいて、各フレームをトポロジに依存しないラジェントトークンにエンコードするフレームワイドメッシュVAEを導入し、キーフレーム条件付けのための参照メッシュで固定する。
さらに、疎鍵フレーム上で条件付き非キーフレームを合成するMMDiTバックボーンを備えたキーフレーム条件整流モデルを導入する。
実験では、DyMesh16ベンチマークとDyMesh32ベンチマークの両方で、強力なパフォーマンスと制御性が改善されている。
関連論文リスト
- Helix4D: Complex 4D Mesh Generation [81.2132565366057]
現在のビデオから4Dの手法は、複雑なトポロジーの変化、透明な材料、細い構造、内面に悩まされている。
本稿では,Trellis2の表現表現を継承した動的メッシュ生成フレームワークHelix4Dを提案する。
論文 参考訳(メタデータ) (2026-05-25T17:59:22Z) - Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。