論文の概要: TopoCap: Learning Topology-Agnostic Motion Priors for Monocular Video-to-Animation
- arxiv url: http://arxiv.org/abs/2606.12153v1
- Date: Wed, 10 Jun 2026 14:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.510439
- Title: TopoCap: Learning Topology-Agnostic Motion Priors for Monocular Video-to-Animation
- Title(参考訳): TopoCap: モノクロ映像アニメーションのためのトポロジ非依存動作の事前学習
- Authors: Cheng-Feng Pu, Jia-Peng Zhang, Meng-Hao Guo, Yan-Pei Cao, Shi-Min Hu,
- Abstract要約: TopoCapはモノクロビデオから動きを抽出し、任意の骨格トポロジで文字に書き込むことができる最初の統合フレームワークである。
我々の重要な洞察は、骨格構造は離散的であるが、運動の基盤となる物理学は連続的で低次元の多様体を占有しているということである。
この洞察を、2段階の生成パイプラインを通じて実現します。
- 参考スコア(独自算出の注目度): 44.79819257609757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosion of generative 3D assets has created a massive demand for animation, yet current motion capture methods remain brittle, restricted to species-specific templates (e.g., SMPL) or requiring labor-intensive manual rigging. We introduce TopoCap, the first unified framework capable of extracting motion from monocular video and retargeting it onto characters with arbitrary, unseen skeletal topologies, i.e., from bipeds to hexapods and inanimate objects, without test-time optimization. Our key insight is that while skeletal structures are combinatorial and discrete, the underlying physics of motion occupy a continuous, low-dimensional manifold. We materialize this insight via a two-stage generative pipeline. First, we learn a Universal Motion Manifold using a Graph CVAE that compresses heterogeneous kinematic chains into a shared, fixed-length latent code. By explicitly conditioning the decoder on a structural embedding of the target rig, we disentangle motion dynamics from skeletal topology. Second, we treat video-to-animation as a conditional flow matching problem, predicting these topology-agnostic codes from visual features. To learn this generalized prior, we introduce Mobjaverse, a massive-scale dataset curated from Objaverse-XL. Comprising over 5,000 unique skeletal topologies and 2 million frames, it exceeds the structural diversity of existing datasets by two orders of magnitude. Extensive experiments demonstrate that \MethodMotion outperforms specialist models on human and quadruped benchmarks while enabling zero-shot retargeting for the long tail of 3D creatures. Dataset is publicly available at https://huggingface.co/datasets/duckduckplz/Mobjaverse.
- Abstract(参考訳): 生成3Dアセットの爆発はアニメーションの膨大な需要を生み出しているが、現在のモーションキャプチャー手法は不安定であり、種固有のテンプレート(SMPLなど)に制限されている。
TopoCapはモノクロビデオから動きを抽出し、任意の骨格トポロジで文字に再ターゲティングできる最初の統合フレームワークである。
我々の重要な洞察は、骨格構造は組合せ的かつ離散的であるが、運動の基盤となる物理学は連続した低次元多様体を占有しているということである。
この洞察を、2段階の生成パイプラインを通じて実現します。
まず、不均一なキネマティックチェインを共有の固定長潜在コードに圧縮するグラフCVAEを用いてユニバーサルモーションマニフォールドを学習する。
ターゲットリグの構造的な埋め込みにデコーダを明示的に条件付けすることにより、骨格トポロジーから運動力学を分離する。
第2に,映像とアニメーションを条件付きフローマッチング問題として扱い,これらのトポロジに依存しない符号を視覚的特徴から予測する。
この一般化された事前学習のために,Objaverse-XLから算出した大規模データセットであるMobjaverseを紹介した。
5000以上のユニークな骨格トポロジと200万フレームで構成されており、既存のデータセットの構造的多様性を2桁以上上回っている。
大規模な実験では、<MethodMotionは人間と4倍のベンチマークでスペシャリストモデルより優れており、3D生物の長い尾に対してゼロショットのリターゲティングを可能にしている。
Datasetはhttps://huggingface.co/datasets/duckduckplz/Mobjaverse.comで公開されている。
関連論文リスト
- MotionDreamer: Universal Skeletal Motion Generation for 3D Rigged Shapes [52.45449797329548]
MotionDreamerは、2Dビデオガイダンスからカテゴリに依存しない骨格アニメーションを生成するための拡散ベースのフレームワークである。
本研究では,2次元視覚運動キューとヘテロジニアスな3次元骨格構造とのギャップを埋める構造的意味注入機構を提案する。
提案手法は既存の手法を著しく上回り、堅牢で効率的な4Dアセット生成のための最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2026-06-01T00:42:31Z) - ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes [55.32681167870698]
Video-informed Pose Spaces (ViPS)は、自動リップメッシュのための有効な調律の潜時分布を検出するフィードフォワードフレームワークである。
ViPSは生成ビデオの先行値を所定のリグパラメータ化上の普遍分布に転送する。
評価の結果,VPSは,合成アーティストが作成した4Dデータに基づいて訓練した最先端の手法の性能と,妥当性と多様性の両面で一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-19T21:21:11Z) - Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades [32.12940211414945]
両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
論文 参考訳(メタデータ) (2026-03-09T07:04:29Z) - Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation [32.57062686780495]
Supermanは、視覚知覚を時間的、骨格に基づくモーション生成にブリッジする統合フレームワークである。
このモジュールは、多種多様な時間的入力を柔軟に処理し、ビデオ(知覚)からスケルトンに基づく動き予測とin-betweening(世代)による3Dスケルトンポーズを推定する。
論文 参考訳(メタデータ) (2026-02-02T17:59:01Z) - MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos [31.168481928653748]
MoCapAnythingは、3Dモーションキャプチャーのための基準誘導、因子化フレームワークである。
特定の資産を直接駆動する回転ベースのアニメーションを再構成する。
高品質な骨格アニメーションと有意義なクロスタイプアニメーションを提供する。
論文 参考訳(メタデータ) (2025-12-11T18:09:48Z) - SMF: Template-free and Rig-free Animation Transfer using Kinetic Codes [32.324844649352166]
アニメーション再ターゲッティングはキャラクタメッシュにスパース動作記述を適用し、意味論的に妥当で時間的に整合したフルボディシーケンスを生成する。
本稿では,スパース動作表現のみを訓練した自己教師型運動場(SMF)を提案する。
我々のアーキテクチャは、エンドツーエンドで共同で訓練された専用空間勾配予測器と時間勾配予測器から構成される。
論文 参考訳(メタデータ) (2025-04-07T08:42:52Z) - AnyTop: Character Animation Diffusion with Any Topology [54.07731933876742]
我々は,異なる動きダイナミクスを持つ多種多様な文字に対する動きを生成する拡散モデルであるAnyTopを紹介する。
我々の研究は、任意の骨格学習に適したトランスフォーマーベースの認知ネットワークを特徴としている。
我々の評価では、AnyTopsはトポロジー当たりのトレーニング例が3つも少なく、見えない骨格の運動も生成できる。
論文 参考訳(メタデータ) (2025-02-24T17:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。