論文の概要: Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
- arxiv url: http://arxiv.org/abs/2606.13655v2
- Date: Sat, 13 Jun 2026 07:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.216342
- Title: Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
- Title(参考訳): Flex4DHuman:4次元再構成のためのフレキシブル多視点ビデオ拡散
- Authors: Jen-Hao Cheng, Yipeng Wang, Hao Zhang, Gengshan Yang, Jenq-Neng Hwang,
- Abstract要約: 動的対象の単眼的あるいはスパースな多視点映像を高密度な多視点映像に変換する多視点拡散モデルFlex4DHumanを提案する。
骨格、深度マップ、ノーマル、レンダリングされたターゲットビュー幾何に依存する従来の人間中心の手法とは異なり、Flex4DHumanは明示的な幾何学的先行を必要としない。
- 参考スコア(独自算出の注目度): 32.69813032650073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Flex4DHuman, a multi-view video diffusion model that transforms a monocular or sparse multi-view video of a dynamic subject into synchronized dense multi-view videos using only relative camera-pose conditioning. Unlike prior human-centric methods that rely on skeletons, depth maps, normals, or rendered target-view geometry, Flex4DHuman requires no explicit geometry priors and instead conditions generation through relative camera-pose positional encoding. The generated videos can be directly ingested by downstream reconstruction pipelines to create dynamic 4D Gaussian splats. Built on the Wan 2.1 1.3B text-to-video model, Flex4DHuman preserves the backbone architecture and encodes camera and view information through a five-axis positional encoding that extends spatio-temporal RoPE with view indices and continuous SE(3) relative camera geometry. A three-stage curriculum progressively trains the model for pose following, flexible reference-to-target view generation, and temporal rollout. To support temporal rollout, we train with clean historical target-view tokens. We also add multi-view captions to enable test-time text control. Combined with an off-the-shelf 4D Gaussian Splatting stage, our framework lifts monocular static-camera videos into dynamic 4D Gaussian splats. Experiments on DNA-Rendering and ActorsHQ show that Flex4DHuman surpasses prior state-of-the-art methods, while the same formulation generalizes to animal categories after mixed human-animal training. These capabilities make Flex4DHuman a practical step toward scalable 4D content creation from casual monocular videos for simulation, gaming, AR/VR, and video re-shooting.
- Abstract(参考訳): 本稿では,映像拡散モデルであるFlex4DHumanについて述べる。
骨格、深度マップ、ノーマル、レンダリングされたターゲットビュー幾何に依存する従来の人間中心の手法とは異なり、Flex4DHumanは明示的な幾何学的先行を必要とせず、代わりに相対的なカメラ目的の位置エンコーディングを通じて条件を生成する。
生成されたビデオは、下流の再構築パイプラインに直接取り込み、ダイナミックな4Dガウススプラットを作成することができる。
Wan 2.1 1.3Bのテキスト・ツー・ビデオモデルに基づいて構築されたFlex4DHumanは、バックボーンアーキテクチャを保存し、ビューインデックスと連続SE(3)相対カメラ幾何で時空間RoPEを拡張する5軸位置符号化を通じて、カメラとビュー情報をエンコードする。
3段階のカリキュラムは、後続のポーズ、フレキシブルなリファレンス・ツー・ターゲットビュー生成、一時的なロールアウトのためのモデルを段階的にトレーニングする。
時間的ロールアウトをサポートするために、私たちは、クリーンな歴史的なターゲットビュートークンでトレーニングします。
テストタイムのテキストコントロールを可能にするために、複数ビューのキャプションも追加します。
我々のフレームワークは、市販の4Dガウシアン・スプラッティング・ステージと組み合わせて、モノクロの静止カメラ映像を動的4Dガウシアン・スプラッティングに持ち上げる。
DNA-RenderingとActorsHQの実験では、Flex4DHumanは最先端の手法を超越しているが、同じ定式化は人間と動物を混在させた訓練の後に動物カテゴリーに一般化している。
これらの機能によりFlex4DHumanは、シミュレーション、ゲーム、AR/VR、ビデオの再撮影のためのカジュアルなモノクロビデオからスケーラブルな4Dコンテンツを作成するための実用的なステップとなる。
関連論文リスト
- Full-4D: Generating Full-Scope 4D Scenes from a Single-View Video [63.61099683012546]
本稿では,同期マルチビュービデオのデータセットであるRealMV-4Dを紹介する。
次に、新しい融合時間(T)-ビュー(V)アテンション機構によって駆動される多視点ビデオ拡散モデルを訓練する。
実験により,本手法は視覚的忠実度と一貫性の両方において既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-05-25T06:59:26Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。
SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。
我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文 参考訳(メタデータ) (2025-12-03T23:05:01Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。