論文の概要: Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization
- arxiv url: http://arxiv.org/abs/2606.10902v1
- Date: Tue, 09 Jun 2026 14:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.540779
- Title: Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization
- Title(参考訳): Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization
- Authors: Xuan Han, Yihao Zhao, Mingyu You,
- Abstract要約: Pose-ICLは、複数のペア画像-目的参照を通じて新しい主題に適応するチューニング不要のフレームワークである。
その中核となるメカニズムであるSAPE(Surface-Anchored Position Embedding)は、画像トークンをボリューム境界ボックスの表面座標に固定することで、明示的な3D認識をモデルに装備する。
3Dアセットと実世界の被験者の広範囲な評価は、Pose-ICLが精度とアイデンティティの整合性の両方において、現在の手法を著しく上回っていることを示している。
- 参考スコア(独自算出の注目度): 9.596779036612409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject Customization is a foundational task in modern image generation. By providing a few reference images and a text prompt, users can generate images of a specific object in any desired scene. However, existing methods still struggle to achieve effective pose control for customized subjects. In practice, they often exhibit inaccurate poses or inconsistent cross-pose appearances. These limitations suggest that understanding objects in a volumetric manner remains a significant challenge for 2D-native backbones. To address this challenge, we propose Pose-ICL, a tuning-free framework that leverages 3D-aware In-Context Learning (ICL) to directly adapt to new subjects through multiple paired image-pose references. Its core mechanism,Surface-Anchored Position Embedding (SAPE), equips the model with explicit 3D awareness by anchoring image tokens to the surface coordinates of a volumetric bounding box. Dedicated refinements ensure its seamless compatibility with existing DiT models. Extensive evaluations on both 3D assets and real-world subjects demonstrate that Pose-ICL significantly outperforms current methods in both pose accuracy and identity consistency.
- Abstract(参考訳): 主題のカスタマイズは、現代の画像生成における基礎的なタスクである。
いくつかの参照画像とテキストプロンプトを提供することで、ユーザーは任意の所望のシーンで特定のオブジェクトの画像を生成することができる。
しかし、既存の手法は、カスタマイズされた被験者に対して効果的なポーズ制御を実現するのに依然として苦労している。
実際には、しばしば不正確なポーズや不整合な横断的な外観を示す。
これらの制限は、オブジェクトをボリューム的に理解することが、2Dネイティブのバックボーンにとって重要な課題であることを示している。
この課題に対処するため,Pose-ICLを提案する。Pose-ICLは3D-Aware In-Context Learning(ICL)を利用して,複数対の画像-目的参照を通じて,新しい主題に適応する。
その中核となるメカニズムであるSAPE(Surface-Anchored Position Embedding)は、画像トークンをボリューム境界ボックスの表面座標に固定することで、明示的な3D認識をモデルに装備する。
詳細な改良により、既存のDiTモデルとのシームレスな互換性が保証される。
3Dアセットと実世界の被験者の広範囲な評価は、Pose-ICLが、精度とアイデンティティの整合性の両方において、現在の手法を著しく上回っていることを示している。
関連論文リスト
- Direct 3D-Aware Object Insertion via Decomposed Visual Proxies [101.76006356727015]
DIRECT(Decomposed Injection for Reference Composition and Target-integration)は、対話型ポーズ操作と高忠実度2D画像合成を統合する新しいフレームワークである。
提案手法は挿入条件を,参照オブジェクトから視覚的詳細をキャプチャする外観ガイダンス,ユーザ調整3Dプロキシから派生した幾何学的ガイダンス,ターゲット背景からのコンテキストガイダンスの3つの補完成分に分解する。
実験により、DIRECTは幾何学的制御性と視覚的品質の両方において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-06-04T18:00:34Z) - Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation [74.6792422278706]
本稿では,遅延空間変換問題として文字ポーズを再構成する新しいフィードフォワードフレームワークであるMake-It-Poseableを紹介する。
提案手法は,その潜在表現を直接操作することで,新しいポーズのキャラクタを再構成する。
また、部品交換や改良などの3D編集アプリケーションにも自然に拡張される。
論文 参考訳(メタデータ) (2025-12-18T17:01:44Z) - Articulate3D: Zero-Shot Text-Driven 3D Object Posing [38.75075284385844]
本稿では,言語制御による3Dアセットの提示を目的とした,トレーニング不要なArticulate3Dを提案する。
我々は、入力画像に条件付けされたターゲット画像とテキスト命令を作成するために、強力な画像生成装置を変更する。
次に、マルチビューポーズ最適化ステップを通じて、メッシュをターゲットイメージに合わせる。
論文 参考訳(メタデータ) (2025-08-26T17:59:17Z) - PoseMaster: Generating 3D Characters in Arbitrary Poses from a Single Image [37.332231168919705]
エンドツーエンドで制御可能な3Dキャラクタ生成フレームワークであるPoseMasterを提案する。
具体的には、ポーズ変換と3Dキャラクタ生成をフローベースの3Dネイティブ生成フレームワークに統合する。
多条件制御の特異性を考慮すると、訓練中のポーズ条件と画像条件をランダムに空にして、ポーズ制御の有効性と一般化性を向上させる。
論文 参考訳(メタデータ) (2025-06-26T08:03:14Z) - ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-05-30T00:13:36Z) - Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。
本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。
ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文 参考訳(メタデータ) (2025-04-23T06:21:11Z) - 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - ObPose: Leveraging Pose for Object-Centric Scene Inference and
Generation in 3D [21.700203922407496]
ObPoseは教師なしのオブジェクト中心の推論と生成モデルである。
RGB-Dシーンから3D構造化された潜在表現を学習する。
ObPoseは、YCB、MultiShapeNet、CLEVRデータセットで定量的に評価される。
論文 参考訳(メタデータ) (2022-06-07T21:15:18Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。