論文の概要: SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration
- arxiv url: http://arxiv.org/abs/2606.08402v3
- Date: Tue, 16 Jun 2026 06:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.017184
- Title: SceneConductor: 3D Scene Generation from a Single Image with Multi-Agent Orchestration
- Title(参考訳): SceneConductor:マルチエージェントオーケストレーションによる単一画像からの3次元シーン生成
- Authors: Jeonghwan Kim, Yushi Lan, Yongwei Chen, Hieu Trung Nguyen, Chuanyu Pan, Xingang Pan,
- Abstract要約: 単一画像の3Dシーン生成を3つの構造化ステージに分解するマルチエージェントオーケストレーションフレームワークを提案する。
ポイントマップから導出される疎幾何学的事前情報によって教師される幾何学的レイアウト予測器を提案する。
本手法は,幾何学的精度,空間的整合性,知覚的リアリズムにおいて,従来手法よりも常に優れていた。
- 参考スコア(独自算出の注目度): 32.39337008619354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object relationships, and environmental context from inherently ambiguous visual evidence. Despite recent progress in joint layout-and-mesh generation, existing methods often rely on holistic or weakly decomposed pipelines that entangle many factors at once and demand extensive scene-level supervision, limiting their generalization to complex real-world environments. We propose a multi-agent orchestration framework that decomposes single-image 3D scene generation into three structured stages: scene initialization, environment construction, and multi-agent refinement. The initialization stage extracts image-derived object masks, builds object-level 3D representations, and predicts an initial spatial layout to form a coarse 3D scene. The environment-construction stage then leverages this initialization together with point-map geometry to build an environmental scaffold of supporting surfaces, room boundaries, materials, and illumination. Finally, in the refinement stage, a planner agent identifies structural and visual inconsistencies, applies simple corrections directly, and dispatches specialist agents for complex localized revisions that are reintegrated into the global scene. To provide reliable structural initialization while reducing reliance on scene-level annotations, we further introduce a geometry-aware layout predictor supervised by sparse geometric priors derived from point maps. Unlike fully supervised layout generators, the predictor can be trained from segmentation-level data and generalizes robustly to diverse real-world scenes. Extensive experiments on benchmark datasets show that our method consistently outperforms prior approaches in geometric accuracy, spatial consistency, and perceptual realism.
- Abstract(参考訳): 単一の画像から完全な3Dシーンを生成するには、本質的に曖昧な視覚的証拠から、グローバルに一貫した幾何学、オブジェクトの関係、環境コンテキストを推測する必要がある。
最近の共同レイアウトとメッシュ生成の進歩にもかかわらず、既存の手法は多くの場合、多くの要因を一度に絡み合わせるような全体的あるいは弱い分解パイプラインに依存しており、複雑な現実世界環境への一般化を制限している。
本稿では,シーン初期化,環境構築,マルチエージェント改良の3段階に分割したマルチエージェントオーケストレーションフレームワークを提案する。
初期化段階は、画像由来のオブジェクトマスクを抽出し、オブジェクトレベル3D表現を構築し、初期空間レイアウトを予測して粗い3Dシーンを形成する。
環境構築段階は、この初期化とポイントマップ幾何を利用して、支持面、部屋の境界、材料、照明の環境足場を構築する。
最後に、改良段階において、プランナーエージェントは、構造的および視覚的不整合を識別し、簡単な修正を直接適用し、グローバルなシーンに再統合される複雑な局所化修正のためのスペシャリストエージェントを派遣する。
シーンレベルのアノテーションへの依存を低減しつつ、信頼性の高い構造的初期化を実現するために、ポイントマップから派生した疎幾何学的先行情報によって教師される幾何学的レイアウト予測器を導入する。
完全に教師付きレイアウトジェネレータとは異なり、予測子はセグメンテーションレベルのデータからトレーニングすることができ、様々な現実世界のシーンに堅牢に一般化することができる。
ベンチマークデータセットの大規模な実験により,我々の手法は幾何的精度,空間整合性,知覚的リアリズムにおいて,従来手法よりも一貫して優れていたことがわかった。
関連論文リスト
- SceneExpander: Expanding 3D Scenes with Free-Form Inserted Views [69.08965991211704]
ユーザ中心のワークフローにおける3Dシーンの拡大について検討する。
固定シーンにおける単純なオブジェクト編集やスタイル転送とは異なり、挿入されたビューは元の再構築と3Dミスアライメントされることが多い。
パラメトリックフィードフォワード3D再構成モデルにテスト時間適応を適用したSceneExpanderを提案する。
論文 参考訳(メタデータ) (2026-03-28T02:04:48Z) - Interact3D: Compositional 3D Generation of Interactive Objects [31.12099147294145]
本稿では,3次元合成オブジェクト間の相互作用を物理的に妥当に生成する新しいフレームワークを提案する。
当社のアプローチは、まず先進的な先進的な先進的手法を活用して、高品質な個人資産をキュレートする。
これらの資産を物理的に構成するために、ロバストな2段階合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-17T03:21:06Z) - Scene Generation at Absolute Scale: Utilizing Semantic and Geometric Guidance From Text for Accurate and Interpretable 3D Indoor Scene Generation [5.189354278537469]
GuidedSceneGenは、メートル法的に正確で、一貫した、意味的に解釈可能な屋内シーンを生成する。
我々のアプローチは、生成プロセス全体を通して絶対的な世界座標フレームを維持します。
論文 参考訳(メタデータ) (2026-03-14T11:46:27Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。