論文の概要: Customizing Video Portraits via Identity-ActionDecoupling
- arxiv url: http://arxiv.org/abs/2606.22347v1
- Date: Sun, 21 Jun 2026 05:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:50:34.903385
- Title: Customizing Video Portraits via Identity-ActionDecoupling
- Title(参考訳): アイデンティティ・アクション・デカップリングによる動画ポートフォリオのカスタマイズ
- Authors: Junxiong Lin, Haoran Wang, Xinji Mai, Zeng Tao, Xuan Tong, Ivy Pan, Wenqiang Zhang,
- Abstract要約: IPT2V(Identity-Preserving Text-to-Video Generation)は、参照画像とテキスト記述から時間的コヒーレントな映像を合成する。
この問題を解決するために、ID-Action Decouplingフレームワークと2つの損失関数Identity Decoupling LossとText Alignment Lossを導入します。
- 参考スコア(独自算出の注目度): 32.57069491938664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identity-Preserving Text-to-Video Generation (IPT2V) seeks to synthesize a temporally coherent video from a reference image and a textual description, while simultaneously preserving the subject's identity and allowing fine-grained control over facial dynamics. Although recent methods such as ID-Animator and ConsisID inject identity features only at inference time, they ignored the ID-irrelevant information contained in Facial embedding, leading to monotonous or inaccurate facial movements that poorly follow the prompt. We introduce Identity-Action Decoupling (IaD) framework as well as two loss function Identity Decoupling Loss and Text Alignment Loss to solve this problem. Without any subject-specific fine-tuning, IaD yields videos that (1) maintain cross-temporal identity consistency and (2) exhibit rich, controllable expressions and scene variations that closely match the input text.
- Abstract(参考訳): IPT2V(Identity-Preserving Text-to-Video Generation)は、参照画像とテキスト記述から時間的コヒーレントな映像を合成し、同時に被験者のアイデンティティを保存し、顔のダイナミクスをきめ細かな制御を可能にする。
ID-Animator や ConsisID のような近年の手法では、推論時にのみIDを注入するが、顔の埋め込みに含まれるID非関連情報を無視し、単調または不正確な顔の動きが生じ、プロンプトに追随しない。
この問題を解決するために、IaD(Identity-Action Decoupling)フレームワークと2つの損失関数であるIdentity Decoupling LossとText Alignment Lossを導入します。
IaDは,(1)時間的アイデンティティの整合性を維持し,(2)入力テキストと密に一致したリッチで制御可能な表現とシーンのバリエーションを示すビデオを生成する。
関連論文リスト
- AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - BeyondFacial: Identity-Preserving Personalized Generation Beyond Facial Close-ups [22.017690133402912]
アイデンティティ保存型パーソナライズドジェネレーション(I)は、高度な映画制作と芸術的創造力を持っているが、既存のアプローチは顔領域を過度に強調している。
これらの手法は、複雑なテキストプロンプトの下での視覚的ナラティビティの弱さと意味的一貫性の弱さに悩まされる。
本稿では,顔のクローズアップの制約を断ち切るI手法を提案する。
論文 参考訳(メタデータ) (2025-11-15T01:56:14Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。
ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。
パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文 参考訳(メタデータ) (2025-07-16T07:42:02Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。