論文の概要: HarmoView: Harmonizing Multi-View Constraints for Identity-Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2606.10839v1
- Date: Tue, 09 Jun 2026 13:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.519212
- Title: HarmoView: Harmonizing Multi-View Constraints for Identity-Consistent Video Generation
- Title(参考訳): HarmoView: アイデンティティ一貫性のあるビデオ生成のためのマルチビュー制約の調和
- Authors: Cong Wang, Zhentao Yu, Hongmei Wang, Weicong Liang, Zixiang Zhou, Zilin Yang, Jiarong Ou, Rui Chen, Yuan Zhou, Qinglin Lu,
- Abstract要約: HarmoViewは、アイデンティティ一貫性のあるビデオ生成のための堅牢なフレームワークである。
3つのアーキテクチャの洗練と、段階的なトレーニングカリキュラムを通じて、マルチビューのキューを統合している。
HarmoViewは、オープンソースベースラインを著しく上回り、主要なクローズドソースエンジンとマッチする。
- 参考スコア(独自算出の注目度): 21.0568663910476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current identity-consistent video generation methods struggle to preserve appearance fidelity under large viewpoint changes. While introducing multi-view reference input offers a natural solution, progress remains constrained by the lack of effective frameworks for multi-view inputs and the scarcity of multi-view data. We address these challenges by proposing HarmoView, a robust framework for identity-consistent video generation that effectively integrates multi-view cues through three architectural refinements complemented by a staged training curriculum. Specifically, we first introduce Multi-level Feature Injection to anchor identity fidelity; by injecting raw ViT features from frontal references alongside text tokens via cross-attention, MFI provides persistent low-level appearance anchors that complement the high-level identity features within DiT blocks, leading to enhanced identity preservation. Then, we employ learnable proxy tokens to unify heterogeneous reference layouts across single-/multi-view settings while simultaneously resolving the reference-view mismatch problem. Jump-RoPE is further developed for identity-wise feature isolation to reduce identity crosstalk. To activate these structural capabilities while preserving the original generative priors, we propose the Progressive View Curriculum. This four-stage training strategy employs view dropout to facilitate a stable transition from vanilla T2V generation to high-fidelity, identity-persistent spatial reasoning. Furthermore, we construct a large-scale multi-view dataset to address the issue of data scarcity. Extensive evaluation on our multi-view benchmark, comprising 100 manually-curated cases spanning 52 unique identities, demonstrates that HarmoView significantly outperforms open-source baselines and matches leading closed-source engines, achieving state-of-the-art performance in identity-consistent video generation.
- Abstract(参考訳): 現在のアイデンティティに一貫性のあるビデオ生成手法は、大きな視点の変化の下で外観の忠実さを維持するのに苦労している。
マルチビュー参照インプットの導入は自然な解決策であるが、マルチビューインプットの効果的なフレームワークの欠如と、マルチビューデータの不足により、進歩は依然として制限されている。
この課題に対処するために,HalmoViewを提案する。HalmoViewは,段階的なトレーニングカリキュラムによって補完される3つのアーキテクチャ改善を通じて,マルチビューキューを効果的に統合する,アイデンティティ一貫性のあるビデオ生成のための堅牢なフレームワークである。
具体的には、まず、マルチレベル特徴注入(multi-level Feature Injection)を導入してアイデンティティをアンカーする; テキストトークンとクロスアテンションを介してフロント参照から生のViT機能をインジェクトすることにより、MFIは、DiTブロック内の高レベル特徴を補完する永続的な低レベル外観アンカーを提供し、ID保存の強化につながる。
そして、学習可能なプロキシトークンを用いて、参照-ビューミスマッチ問題を同時に解決しながら、単一/複数ビュー設定で異種参照レイアウトを統一する。
Jump-RoPEは、アイデンティティのクロストークを減らすために、アイデンティティワイドな特徴分離のためにさらに開発されている。
そこで本研究では,これらの構造的機能を初期生成前の状態を維持しつつ活性化させるため,プログレッシブ・ビュー・カリキュラムを提案する。
この4段階のトレーニング戦略では、ビュードロップアウトを使用して、バニラT2V生成から高忠実でアイデンティティを持続する空間推論への安定した遷移を促進する。
さらに,データ不足問題に対処するため,大規模マルチビューデータセットを構築した。
52のユニークなアイデンティティにまたがる手作業による100のケースからなるマルチビューベンチマークの大規模な評価は、HarmoViewがオープンソースベースラインを著しく上回り、主要なクローズドソースエンジンに匹敵し、アイデンティティ一貫性のあるビデオ生成における最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Gloria: Consistent Character Video Generation via Content Anchors [63.7455328319917]
本稿では,アンカーフレームのコンパクトな集合を通して,文字の視覚特性を表現することを提案する。
この設計は、一貫性のための安定した参照を提供するが、参照ベースのビデオ生成はコピーパッティングとマルチ参照競合の課題に直面している。
実験により,提案手法は10分を超える高品質なキャラクタビデオを生成し,既存の手法を超越して,ビュー間の表現的アイデンティティと外観整合性を実現する。
論文 参考訳(メタデータ) (2026-03-31T16:06:16Z) - AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References [52.81991915377852]
我々は,超忠実なアイデンティティ保存ビデオ生成フレームワークであるAnyIDを提案する。
まず,不均一な同一性入力を結合表現に効果的に統一する,スケーラブルなオムニ参照アーキテクチャを提案する。
第2に、1つの参照を標準アンカーとして指定し、新しい微分プロンプトを用いて正確な属性レベルの制御を可能にする一次参照生成パラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:54:48Z) - Identity-Consistent Video Generation under Large Facial-Angle Variations [43.89758583859639]
シングルビュー参照ビデオ手法は、大きな顔-角のバリエーションの下でアイデンティティの一貫性を維持するのにしばしば苦労する。
我々は,マルチビュー条件付きフレームワークである$mathrmMv2mathrmID$を提案する。
動作の自然性を維持しながらアイデンティティの整合性を大幅に向上し,クロスペアデータを用いた既存手法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-22T15:54:16Z) - AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer [21.788582116033684]
Video Face Swapping (VFS)は、ターゲットのビデオにソースIDをシームレスに注入する必要がある。
既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。
本稿では,画像顔スワッピングの優位性をビデオ領域にシームレスに転送するための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-04T08:07:11Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。