論文の概要: TrioPose: Native Triple-Stream Diffusion Transformers for Pose-Guided Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2606.07053v1
- Date: Fri, 05 Jun 2026 08:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.649853
- Title: TrioPose: Native Triple-Stream Diffusion Transformers for Pose-Guided Text-to-Image Generation
- Title(参考訳): TrioPose: Pose-Guided Text-to-Image 生成のためのネイティブトリプルストリーム拡散変換器
- Authors: Dian Gu, Zhengyi Yang,
- Abstract要約: TrioはSD3.5Mアーキテクチャ上に構築されたポーズ駆動フレームワークである。
Human-Art、CrowdPose、OCHumanなど、挑戦的なベンチマークで最先端のパフォーマンスを実現している。
人文芸術のAPは6,4.33ドルに達し、それまでの芸術よりも30%値上がりしている。
- 参考スコア(独自算出の注目度): 1.709500663078044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-guided text-to-image generation often suffers from limb distortions and feature crosstalk in complex multi-person scenarios. While existing UNet-based adapters struggle with long-range spatial dependencies, emerging Multimodal Diffusion Transformers (MM-DiTs) offer superior global modeling. However, naive signal concatenation in MM-DiTs severely disrupts pre-trained latent distributions. To address this, we propose TrioPose, a native pose-driven framework built upon the SD3.5M architecture. Specifically, we introduce a Triple-Stream Pose-Aware DiT (TSPA-DiT) that treats pose as an independent modality. It employs layer-wise activation and zero-initialized dual-residual injection to smoothly enforce geometric constraints while preserving pre-trained latent stability. To resolve severe multi-instance occlusions, we design a Learnable Relational Bias Mask that categorizes topological connectivity into fine-grained physical states, mapping them into continuous attention soft constraints to effectively decouple inter-instance interference. Furthermore, a Pose-Guided Spatial Loss Weighting strategy modulates the native diffusion objective using heatmap-derived error maps, focusing anatomical supervision strictly on distortion-prone regions. Extensive experiments demonstrate that TrioPose achieves state-of-the-art performance across challenging benchmarks, including Human-Art, CrowdPose, and OCHuman. Notably, it attains an AP of $64.33$ on Human-Art, representing a $30\%$ improvement over prior arts, while setting new standards for visual fidelity and text-image semantic alignment in complex multi-human generation.
- Abstract(参考訳): pose-guided text-to-image generationは、複雑なマルチパーソンシナリオにおいて、手足の歪みや特徴的クロストークに悩まされることが多い。
既存のUNetベースのアダプタは長距離空間依存に苦しむが、新しいマルチモーダル拡散変換器(MM-DiT)は優れたグローバルモデリングを提供する。
しかし、MM-DiTsにおけるナイーブシグナルの結合は、事前訓練された潜伏分布を著しく破壊する。
これを解決するために,SD3.5Mアーキテクチャ上に構築されたネイティブなポーズ駆動フレームワークであるTrioPoseを提案する。
具体的には、ポーズを独立したモダリティとして扱うトリプルストリーム・ポーズ・アウェア・DiT(TSPA-DiT)を導入する。
層単位での活性化とゼロ初期化二重残差注入を用いて、事前訓練された潜時安定性を維持しながら、幾何学的制約を円滑に強制する。
重度のマルチインスタンス・オクルージョンを解決するために,トポロジカル・コネクティビティを微粒な物理状態に分類する学習可能なリレーショナル・バイアスマスクを設計し,それらを連続的な注意軟制約にマッピングし,インスタンス間干渉を効果的に分離する。
さらに,Pose-Guided Spatial Loss Weighting 戦略は,熱マップに基づく誤差マップを用いて自然拡散目標を変調し,歪みのある領域に厳密な解剖学的監督を集中させる。
TrioPoseはHuman-Art、CrowdPose、OCHumanといった挑戦的なベンチマークで最先端のパフォーマンスを実現している。
特に、Human-Art上でのAPは6,4.33ドルに達し、先行技術よりも30 %$改善され、複雑なマルチヒューマン世代における視覚的忠実さとテキストイメージのセマンティックアライメントのための新しい標準が設定されている。
関連論文リスト
- DisPOSE: Projected Polystochastic Diffusion for Self-Supervised Multi-View 3D Human Pose Estimation [62.92906479014098]
DisPOSEは、本質的に離散的な多視点人物割り当て問題を近似する自己教師型フレームワークである。
特定可能なシンクホーン射影を用いることにより、本モデルは有効かつ実現可能な課題への解の導出を学ぶ。
提案手法は、標準データセット上での最先端の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2026-06-05T16:14:39Z) - SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness [62.38746300197673]
本稿では、3次元幾何学的認識を統合画像生成モデルに内包する新しいフレームワークを提案する。
具体的には、まずMixture-of-Transformers (MoT)アーキテクチャを用いて、MLLMを並列空間変換器で拡張する。
自己注意をMLLMと共有することにより、空間変換器は、リッチなセマンティックコンテキストからターゲット画像の計量深度マップを導出することを学ぶ。
これらの明示的な幾何学的足場は、特殊深度アダプターを介して拡散バックボーンに注入される。
論文 参考訳(メタデータ) (2026-04-29T06:46:59Z) - Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery [12.116457701406047]
実世界のインタラクション分析において,多人数の3D再構成が重要である。
現在のアプローチは、本質的に幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
コントラスト型マルチモーダルハイパーグラフ推論により, 群集再建のための意味的, 幾何学的, ポーズ的手がかりの相乗化を行う。
論文 参考訳(メタデータ) (2026-04-01T09:39:01Z) - InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting [64.42884719282323]
InpaintHumanは、モノクロビデオから高忠実で完全でアニマタブルなアバターを生成する新しい方法である。
我々のアプローチは、アイデンティティの忠実性を保証するために、直接ピクセルレベルの監視を採用する。
論文 参考訳(メタデータ) (2026-01-05T13:26:02Z) - HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning [36.35364256178837]
Pose-RFTはMLLMの3次元ポーズ生成に適した強化微調整フレームワークである。
本稿では,HyGRPOを提案する。HyGRPOは,サンプル応答に対してグループワイド報酬正規化を行うハイブリッド強化学習アルゴリズムである。
複数のポーズ生成ベンチマークの実験により、Pose-RFTは既存のポーズ固有のMLLMよりも性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-11T09:44:58Z) - GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators [24.67369444661137]
GCA-3Dはデータ生成の複雑なパイプラインを使わずに汎用的で一貫した3Dドメイン適応法である。
我々は,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。
実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-20T02:13:11Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Unsupervised Geodesic-preserved Generative Adversarial Networks for
Unconstrained 3D Pose Transfer [84.04540436494011]
任意の任意の任意の3次元メッシュ間のポーズ転送を行うための教師なしアプローチを提案する。
具体的には、内因性(形状)と外因性(ポーズ)の情報保存について、新規な内因性-外因性保存生成ネットワーク(IEP-GAN)を提示する。
提案手法は,最近の最先端手法と比較して,より優れた結果が得られ,より効率的である。
論文 参考訳(メタデータ) (2021-08-17T09:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。