論文の概要: From Pixels to Concepts: Growing Rich 3D Semantic Scene Graph Forests utilizing Foundation Models
- arxiv url: http://arxiv.org/abs/2606.23312v1
- Date: Mon, 22 Jun 2026 13:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:40:36.735575
- Title: From Pixels to Concepts: Growing Rich 3D Semantic Scene Graph Forests utilizing Foundation Models
- Title(参考訳): レンズから概念へ:基礎モデルを用いたリッチな3Dセマンティックグラフフォレストを育成
- Authors: David Oberacker, Meike Deitersen, Niklas Spielbauer, Tristan Schnell, Georg Heppner, Arne Roennau,
- Abstract要約: 階層的な3Dシーングラフは、幾何学的、意味的、関係的なデータを統一された空間的枠組みに統合する。
現在の3Dシーングラフのアプローチは、事前に決定された関係クラスの厳密な構造に制限されることが多い。
本稿では,オープンな意味関係を持つ3次元シーングラフの森林構築のための基礎モデルの可能性について考察する。
- 参考スコア(独自算出の注目度): 4.137761255401348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Operating in complex real-world environments requires robots to understand their surroundings on a functional semantic level. This demands a detailed multi-layer world model capturing the complex relations of its surroundings. Hierarchical 3D scene graphs address this challenge by integrating geometric, semantic, and relational data within a unified spatial framework. However, current 3D scene graph approaches often restrict themselves to rigid structures of pre-determined relationship classes, mostly neglecting important semantic connections, like causal connections or environmental contexts. This paper explores the potential of foundation models to build forests of 3D scene graphs with open semantic relationships to improve scene understanding and robotic task execution. We propose a method where instance-specific concept-nodes and relationships are first identified by a VLM and extended upon by a LLM, inferring broader, more abstract concept-nodes and relationships through reasoning. These object-nodes, concept-nodes, and relationships are then assembled into a forest of hierarchical 3D scene graphs, enhanced with concept-nodes to represent abstract concepts. Evaluations were conducted on the uHumans2 and ScanNet indoor dataset, validating the accuracy and relevance of the generated relationships. Downstream suitability of scene-graph forests for robotics applications is demonstrated in an open-vocabulary object-retrieval task utilizing both ScanNet data and a real-world indoor deployment using a Boston Dynamics Spot. This paper leverages foundation models to create more expressive, semantically deep 3D hierarchical scene graphs and demonstrates their potential to advance semantic and environmental understanding in robotics.
- Abstract(参考訳): 複雑な現実世界環境での運用では、ロボットは機能的な意味レベルで周囲を理解する必要がある。
これは、周囲の複雑な関係を捉える、詳細な多層世界モデルを必要とする。
階層的な3Dシーングラフは、幾何学的、意味的、関係的なデータを統一された空間的枠組みに統合することで、この問題に対処する。
しかし、現在の3Dシーングラフのアプローチは、因果関係や環境コンテキストのような重要なセマンティックな関係を無視して、事前に決定された関係クラスの固い構造に制限されることが多い。
本稿では,シーン理解とロボットタスクの実行を改善するために,オープンなセマンティックな関係を持つ3次元シーングラフの森を構築する基盤モデルの可能性について検討する。
本稿では,VLMによってまずインスタンス固有の概念ノードと関係を識別し,LLMによって拡張し,より広く抽象的な概念ノードと関係を推論する手法を提案する。
これらのオブジェクトノード、コンセプトノード、そして関係性は、抽象概念を表現するために概念ノードで拡張された階層的な3Dシーングラフの森に組み立てられる。
uHumans2とScanNetの屋内データセットを用いて評価を行い、生成した関係の正確性と妥当性を検証した。
ScanNetデータとBoston Dynamics Spotを用いた実世界の屋内配置の両方を利用したオープン語彙オブジェクト検索タスクにおいて、ロボット工学応用のためのシーングラフ林の下流適合性を実証した。
本稿では, 基礎モデルを用いて, より表現力が高く, セマンティックに深い3次元階層的なシーングラフを作成し, ロボット工学におけるセマンティックおよび環境理解の進展の可能性を示す。
関連論文リスト
- 3D Scene Graphs: Open Challenges and Future Directions [56.932031090019855]
3次元シーングラフ(3DSG)は、幾何学的接地と環境のセマンティックおよびリレーショナル抽象化を組み合わせることで、空間AIの強力な表現として登場した。
この調査は3DSGの統一的で批判的なレビューを提供し、オープンな課題と今後の方向性に特に重点を置いている。
論文 参考訳(メタデータ) (2026-06-15T08:14:08Z) - Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces [116.57196064763924]
我々は、高密度テーブルトップオブジェクトと明示的なマルチレベル機能関係を導入することで、ベンチマークカバレッジを拡大する。
この研究は、小規模、高密度、および類似のインスタンスにかかわる重要な課題を提起する。
2次元視覚的グラウンドリングと3次元グラフ最適化に基づくオープン語彙パイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-15T09:14:50Z) - OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding [30.730672505996967]
OGScene3Dは,正確な3次元セマンティックマッピングとシーングラフ構築を段階的に行う,オープン語彙のシーン理解システムである。
本システムは,セマンティック予測と信頼性を協調的にモデル化する自信に基づくガウス意味表現を用いている。
2D-3Dセマンティック一貫性とガウスレンダリングのコントリビューションを統合することで、この手法はシーン全体のセマンティック理解を継続的に洗練する。
論文 参考訳(メタデータ) (2026-03-17T09:38:01Z) - Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning [10.364779390403337]
本稿では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。
本稿では,Large Language Models(LLM)とVLM(Vision Language Model)を組み合わせて,シーングラフのセマンティックおよびリレーショナル情報を解釈するタスク推論モジュールを提案する。
我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
論文 参考訳(メタデータ) (2026-02-02T18:47:02Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。
一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文 参考訳(メタデータ) (2020-02-22T23:27:22Z) - 3D Dynamic Scene Graphs: Actionable Spatial Perception with Places,
Objects, and Humans [27.747241700017728]
動作可能な空間知覚のための統一表現として,3次元ダイナミックシーングラフを提案する。
3D Dynamic Scene Graphsは、計画と意思決定、人間とロボットのインタラクション、長期的な自律性、シーン予測に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-02-15T00:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。