論文の概要: SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning
- arxiv url: http://arxiv.org/abs/2606.10804v2
- Date: Wed, 10 Jun 2026 02:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.396406
- Title: SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning
- Title(参考訳): SCAIL-2: エンドツーエンドのIn-Contextコンディショニングによる制御された文字アニメーションの統合
- Authors: Wenhao Yan, Fengjia Guo, Zhuoyi Yang, Jie Tang,
- Abstract要約: 制御されたキャラクタアニメーションは、駆動シーケンスから参照キャラクタへの動作の転送を必要とする。
SCAIL-2は、これらの中間体をバイパスし、textbfend-to-endキャラクタアニメーションを実現するフレームワークである。
- 参考スコア(独自算出の注目度): 12.196865711049561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlled character animation requires transferring motion from a driving sequence to a reference character. Prior works heavily rely on intermediate representations, including pose skeletons to represent motion or masked background to represent environment, which inevitably leads to information loss. To address this, we present SCAIL-2, a framework that bypasses those intermediates and achieves \textbf{end-to-end} character animation. By directly concatenating driving videos to the sequence, the model can obtain all the required visual information from the input video. To address the lack of end-to-end data, we unify sub-tasks of character animation with decoupled conditions and then curate a pipeline to synthesize MotionPair-60K, an end-to-end motion transfer dataset containing heterogeneous tasks of character animation. To achieve the unification, we utilize in-context mask conditioning and mode-specific RoPE as soft guidance beyond textual instructions and raw visual information. To address synthetic discrepancy in detailed regions, we propose Bias-Aware DPO to construct preference items to mitigate the errors. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches in various character animation tasks. A large subset of synthetic data as well as model weights will be released at our project page: https://teal024.github.io/SCAIL-2/.
- Abstract(参考訳): 制御されたキャラクタアニメーションは、駆動シーケンスから参照キャラクタへの動作の転送を必要とする。
以前の作品では、動きを表すポーズスケルトンや環境を表すマスクされた背景など、中間表現に大きく依存しており、必然的に情報損失につながる。
そこで本研究では,これらの中間体をバイパスし,textbf{end-to-end}文字アニメーションを実現するSCAIL-2を提案する。
ドライブビデオとシーケンスを直接結合することにより、モデルが入力ビデオから必要な視覚情報をすべて得ることができる。
エンド・ツー・エンドデータの欠如に対処するため、キャラクタアニメーションのサブタスクを分離した条件で統一し、パイプラインをキュレートしてMotionPair-60Kを合成する。
この統合を実現するために,テキスト命令や生の視覚情報を超えたソフトガイダンスとして,テキスト内マスク条件とモード固有のRoPEを利用する。
詳細な領域における合成不一致に対処するため,Bias-Aware DPOを提案する。
広範囲な実験により,本手法は様々なキャラクターアニメーションタスクにおいて,既存の最先端手法よりも大幅に優れていることが示された。
合成データの大規模なサブセットとモデルウェイトは、プロジェクトページでリリースされます。
関連論文リスト
- Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades [32.12940211414945]
両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
論文 参考訳(メタデータ) (2026-03-09T07:04:29Z) - IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。