論文の概要: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies
- arxiv url: http://arxiv.org/abs/2606.06601v1
- Date: Thu, 04 Jun 2026 18:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.394091
- Title: Direct 3D-Aware Object Insertion via Decomposed Visual Proxies
- Title(参考訳): 分解された視覚プロキシによる3次元物体の直接挿入
- Authors: Jingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy,
- Abstract要約: DIRECT(Decomposed Injection for Reference Composition and Target-integration)は、対話型ポーズ操作と高忠実度2D画像合成を統合する新しいフレームワークである。
提案手法は挿入条件を,参照オブジェクトから視覚的詳細をキャプチャする外観ガイダンス,ユーザ調整3Dプロキシから派生した幾何学的ガイダンス,ターゲット背景からのコンテキストガイダンスの3つの補完成分に分解する。
実験により、DIRECTは幾何学的制御性と視覚的品質の両方において従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 101.76006356727015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.
- Abstract(参考訳): オブジェクト挿入は、背景画像の特定の領域に参照オブジェクトをシームレスに合成することを目的としている。
近年の拡散法では, 視覚的品質が高いが, 簡単な2次元塗布作業として公式挿入が可能であり, 物体の3次元ポーズを明示的に制御することができず, 実用性も制限されている。
DIRECT(Decomposed Injection for Reference Composition and Target-integration)は、対話型ポーズ操作と高忠実度2D画像合成を統合して、ポーズ制御可能なオブジェクト挿入を可能にする新しいフレームワークである。
提案手法は挿入条件を,参照オブジェクトから視覚的詳細をキャプチャする外観ガイダンス,ユーザ調整3Dプロキシから派生した幾何学的ガイダンス,ターゲット背景からのコンテキストガイダンスの3つの補完成分に分解する。
別々の経路で注入することで、DIRECTは特徴の絡み合いを回避し、参照の外観を同時に保存し、ユーザが指定したポーズに従い、対象のシーンにオブジェクトを適応させる。
また、トレーニングデータの多様性と品質を改善するために、自動データ構築パイプラインを導入します。
実験により、DIRECTは幾何学的制御性と視覚的品質の両方において従来の手法よりも優れていた。
関連論文リスト
- Interact3D: Compositional 3D Generation of Interactive Objects [31.12099147294145]
本稿では,3次元合成オブジェクト間の相互作用を物理的に妥当に生成する新しいフレームワークを提案する。
当社のアプローチは、まず先進的な先進的な先進的手法を活用して、高品質な個人資産をキュレートする。
これらの資産を物理的に構成するために、ロバストな2段階合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-17T03:21:06Z) - POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion [46.97254555348757]
本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
連続的かつインタラクティブな位置決めのためのフレームワーク(POCI-Diff)を導入する。
本手法は,個々のテキスト記述を特定の3次元境界ボックスに結合することで,オブジェクトごとのセマンティック制御を可能にする。
論文 参考訳(メタデータ) (2026-01-20T15:13:43Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。