論文の概要: 3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning
- arxiv url: http://arxiv.org/abs/2606.19451v1
- Date: Wed, 17 Jun 2026 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.463639
- Title: 3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning
- Title(参考訳): 3D-DLP:自己監督型オブジェクト中心のシーン表現学習
- Authors: Ellina Zhang, Madhaven Iyengar, Amir Zadeh, Chuan Li, Deepak Pathak, David Held, Tal Daniel,
- Abstract要約: シーンレベルのRGB-Dまたはボクセル観測を3次元潜在粒子群に分解する自己教師型オブジェクト中心表現学習モデルである3D-DLPを導入する。
このモデルは、エンド・ツー・エンドの自己監督的再構成目的を通して、粒子ごとの分割マップを解釈できる。
これらのコンパクトな3次元潜伏粒子を下流ロボット操作に利用することにより,ベースラインよりも性能が向上することを示す。
- 参考スコア(独自算出の注目度): 37.932415885988924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce 3D-DLP, a self-supervised object-centric representation learning model that decomposes scene-level RGB-D or voxel observations into a set of 3D latent particles. Building on the Deep Latent Particles (DLP) framework, each particle encodes disentangled attributes, including 3D keypoint position, bounding box dimensions, and appearance features, and represents a distinct entity in the scene. The model learns interpretable per-particle segmentation maps through an end-to-end self-supervised reconstruction objective. We demonstrate on both simulated and real-world datasets that the learned latent space is interpretable and controllable: by manipulating particle positions and decoding, we can generate novel scene configurations. Furthermore, we show that leveraging these compact 3D latent particles for downstream robotic manipulation improves performance over baselines that either lack explicit 3D information or rely on memory-intensive dense 3D inputs without object-centric structure. Code and videos are available at https://eubooks3003.github.io/3d-dlp.
- Abstract(参考訳): シーンレベルのRGB-Dまたはボクセル観測を3次元潜在粒子群に分解する自己教師型オブジェクト中心表現学習モデルである3D-DLPを導入する。
Deep Latent Particles (DLP) フレームワーク上に構築されている各パーティクルは、3Dキーポイント位置、境界ボックス次元、外観特徴など、絡み合った属性を符号化し、シーン内の異なる実体を表現する。
このモデルは、エンド・ツー・エンドの自己監督的再構成目的を通して、粒子ごとのセグメンテーションマップの解釈を学習する。
我々は、学習した潜伏空間が解釈可能で制御可能であることをシミュレーションおよび実世界のデータセットで示し、粒子の位置と復号を操作することにより、新しいシーン構成を生成することができる。
さらに、これらのコンパクトな3D潜伏粒子を下流ロボット操作に利用することにより、明示的な3D情報がないベースラインや、オブジェクト中心構造を持たない高密度な3D入力に依存するベースラインよりも性能が向上することを示す。
コードとビデオはhttps://eubooks3003.github.io/3d-dlp.comで入手できる。
関連論文リスト
- N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models [45.008146973701855]
N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。
RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
論文 参考訳(メタデータ) (2025-12-18T14:03:44Z) - Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-09-26T05:23:45Z) - Chirpy3D: Creative Fine-grained 3D Object Fabrication via Part Sampling [128.23917788822948]
Chirpy3Dは、ゼロショット設定で微細な3Dオブジェクトを生成するための新しいアプローチである。
モデルは、可塑性な3D構造を推測し、きめ細かい細部を捉え、新しい物体に一般化する必要がある。
我々の実験では、Cirpy3Dは、高品質できめ細かな細部を持つ創造的な3Dオブジェクトを生成する既存の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-01-07T21:14:11Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。