論文の概要: JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space
- arxiv url: http://arxiv.org/abs/2606.13345v1
- Date: Thu, 11 Jun 2026 13:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.820433
- Title: JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space
- Title(参考訳): JointEdit3D: 未成年空間におけるフィードフォワード3Dシーン編集
- Authors: Xinnan Zhu, Ruijie Xu, Jiayu Ying, Daoguo Dong, Jiachen Xu, Yuan Xie, Xin Tan,
- Abstract要約: 既存の3Dシーン編集方法は、明示的な3D表現や編集・再構成パイプラインよりもシーンごとの最適化に頼っている。
統合されたRGB-ジオメトリ・ジェネレーション・潜在空間上に構築し,フィードフォワード3Dシーン編集に適応する。
JointEdit3Dは、単一の編集されたRGB参照潜伏剤のみを観察することで非対称潜伏塗布を行う。
- 参考スコア(独自算出の注目度): 14.944378716099422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D scene editing methods typically rely on per-scene optimization over explicit 3D representations or cascaded edit-and-reconstruct pipelines, resulting in high test-time cost, limited 3D awareness, and structural inconsistencies. To couple appearance synthesis and geometry prediction during editing, we build on a unified RGB-geometry reconstruction-generation latent space and adapt it to feed-forward 3D scene editing. The resulting framework, \textbf{JointEdit3D}, performs asymmetric latent inpainting by observing only a single edited RGB reference latent and generating the remaining RGB views and edited geometry latent under source-scene anchoring. JointEdit3D introduces a dedicated SceneAnchor Branch to inject source-scene structure without forcing direct copying, and adopts edit/background-aware losses to balance edited-region fidelity with unedited-content preservation. To address the lack of paired resources for standardized 3D scene editing evaluation, we introduce SceneEdit3D-15K, a dataset with 15K paired editing samples and renderer-provided 3D annotations, together with SceneEdit3D-Bench, a curated 100-sample benchmark. Experiments show that JointEdit3D improves edited-region quality and 3D structural completeness over prior baselines while maintaining competitive background preservation.
- Abstract(参考訳): 既存の3Dシーン編集手法は、通常、明示的な3D表現やカスケードされたエディット・アンド・リコンストラクションパイプラインよりもシーンごとの最適化に依存しており、テスト時間コストが高く、3D認識の制限、構造的不整合が生じる。
編集中の外観合成と幾何予測を両立させるため,統合されたRGBジオメトリ再構成潜在空間上に構築し,フィードフォワード3Dシーン編集に適応する。
結果として生成されるフレームワークである \textbf{JointEdit3D は、単一の編集されたRGB参照ラテントのみを観察し、残りのRGBビューを生成し、ソースシーンアンカーの下で編集された幾何学ラテントを生成することで、非対称のラテント塗装を行う。
JointEdit3Dは、直接コピーを強制せずにソースシーン構造を注入する専用のSceneAnchor Branchを導入し、編集/背景認識損失を採用して編集領域の忠実度と未編集コンテンツ保存のバランスを取る。
標準化された3Dシーン編集評価のための2つのリソースの欠如を解決するため、15Kペア編集サンプルとレンダラーによる3Dアノテーションを備えたデータセットであるSceneEdit3D-15Kと、100サンプルベンチマークのSceneEdit3D-Benchを紹介する。
実験により、JointEdit3Dは、競合する背景保存を維持しながら、以前のベースラインよりも編集領域の品質と3D構造的完全性を向上することが示された。
関連論文リスト
- Feedforward 3D Editing Learns from Semantic-Part Transformation [13.61340944347895]
フィードフォワード3D編集における中心的な課題は、高品質なペア管理の欠如にある。
スケーラブルなフィードフォワード3D編集はセマンティック部分変換から学習されるべきである。
PartFlowはフィードフォワード3D編集ネットワークで、ソース認識の潜伏制御を事前訓練された3D生成先行に注入する。
論文 参考訳(メタデータ) (2026-05-26T17:51:59Z) - 3DGS-Drag: Dragging Gaussians for Intuitive Point-Based 3D Editing [58.54083747494426]
3DGS-Dragはポイントベースの3D編集フレームワークで、リアルな3Dシーンを効率よく直感的にドラッグ操作できる。
本手法は,変形に基づく3次元編集と2次元編集による3次元編集のギャップを埋めるものである。
論文 参考訳(メタデータ) (2026-01-12T19:57:31Z) - Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T07:02:01Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。