論文の概要: Beyond Skeletons: Learning Animation Directly from Driving Videos with Same2X Training Strategy
- arxiv url: http://arxiv.org/abs/2606.06903v1
- Date: Fri, 05 Jun 2026 04:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.56907
- Title: Beyond Skeletons: Learning Animation Directly from Driving Videos with Same2X Training Strategy
- Title(参考訳): Beyond Skeletons: Same2Xトレーニング戦略による運転ビデオから直接アニメーションを学習する
- Authors: Yuan Zeng, Yujia Shi, Yuhao Yang, Dongxia Liu, Zongqing Lu, Wenming Yang, Qingmin Liao,
- Abstract要約: 我々は、ポーズ抽出を回避し、生の運転ビデオから直接学習するDirectAnimatorを提案する。
動作,表現,アライメントをセマンティックにリッチだが安定な形式でキャプチャする,ポーズ,顔,位置のキューからなるドライビングキュートリプレットを導入する。
クロスID機能と同一IDデータから学んだ機能,最適化の正規化,収束の促進を両立するSame2Xトレーニング戦略を考案する。
- 参考スコア(独自算出の注目度): 67.1159444608631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human image animation aims to generate a video from a static reference image, guided by pose information extracted from a driving video. Existing approaches often rely on pose estimators to extract intermediate representations, but such signals are prone to errors under occlusion or complex poses. Building on these observations, we present DirectAnimator, a framework that bypasses pose extraction and directly learns from raw driving videos. We introduce a Driving Cue Triplet consisting of pose, face, and location cues that captures motion, expression, and alignment in a semantically rich yet stable form, and we fuse them through a CueFusion DiT block for reliable control during denoising. To make learning dependable when the driving and reference identities differ, we devise a Same2X training strategy that aligns cross-ID features with those learned from same-ID data, regularizing optimization and accelerating convergence. Extensive experiments demonstrate that DirectAnimator attains state-of-the-art visual quality and identity preservation while remaining robust to occlusions and complex articulation, and it does so with fewer computational resources. Our project page is at https://directanimator.github.io/.
- Abstract(参考訳): 人間の画像アニメーションは、運転映像から抽出されたポーズ情報によってガイドされる静的参照画像からビデオを生成することを目的としている。
既存のアプローチでは、中間表現を抽出するためにポーズ推定器に頼っていることが多いが、そのような信号はオクルージョンや複雑なポーズの下でエラーを起こしやすい。
これらの観察に基づいて、ポーズ抽出を回避し、生の運転ビデオから直接学習するDirectAnimatorを提案する。
動作,表情,アライメントをセマンティックにリッチで安定な形でキャプチャする,ポーズ,顔,位置のキューからなるドライビングキュートリプレットを導入する。
運転と参照の同一性が異なる場合の学習を確実にするため,同IDデータから学習したデータとクロスIDの特徴を一致させ,最適化を調整し,収束を加速するSame2Xトレーニング戦略を考案した。
広範囲にわたる実験により、DirectAnimatorはオクルージョンや複雑な調音に頑健でありながら、最先端の視覚的品質とアイデンティティの保存が可能であり、少ない計算資源で実現可能であることが示された。
私たちのプロジェクトページはhttps://directanimator.github.io/です。
関連論文リスト
- STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits [44.82339975771063]
STARCasterは、音声駆動のポートレートアニメーションとフリーポイントのトーキングポートレートの両方に対処する、アイデンティティを意識したビデオ拡散モデルである。
モデルは推論時に生成されたものよりも長い時間的文脈から学習し、既存の自己回帰的アプローチに共通する過度に静的なアニメーションを緩和する。
論文 参考訳(メタデータ) (2025-12-15T11:59:01Z) - FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint [49.80464592726769]
本研究では,映像拡散方式であるFacterPortraitを紹介する。
本手法は,運転映像から顔の表情や頭部の動きを移動させることにより,像を識別する。
提案手法は, 現実主義, 表現性, 制御精度, 視点整合性において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-12T15:22:52Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation [98.10527466949338]
人間の画像アニメーションの現在の拡散モデルは、アイデンティティの整合性を維持するのに苦労することが多い。
学習可能なポーズアライメントを備えた最初のID保存ビデオ拡散フレームワークであるStableAnimator++を紹介する。
本稿では,StableAnimator++が参照画像とポーズシーケンスに条件付き高品質な動画を後処理なしで生成する方法を示す。
論文 参考訳(メタデータ) (2025-07-20T17:59:26Z) - MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - MegActor: Harness the Power of Raw Video for Vivid Portrait Animation [16.013989935948114]
MegActorは生のビデオの力を利用して、鮮やかな肖像画のアニメーションを作る。
本稿では,一貫した動きと表情を持つビデオを生成するための合成データ生成フレームワークを提案する。
さらに,運転映像への参照画像の外観の移動を図り,運転映像における顔の詳細の影響を排除した。
論文 参考訳(メタデータ) (2024-05-31T14:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。