論文の概要: PhysGraph: A Physics-aware 3D Scene Graph for Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2606.08655v1
- Date: Sun, 07 Jun 2026 14:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.318773
- Title: PhysGraph: A Physics-aware 3D Scene Graph for Perception and Reasoning
- Title(参考訳): PhysGraph:知覚と推論のための物理対応の3Dシーングラフ
- Authors: Haoyu Li, Aaron Thomas, Shuyan Zhou, Xianyi Cheng,
- Abstract要約: 本稿では,3次元構造を持つ図形推論を統一したフレームワークであるPhysGraphについて述べる。
PhysGraphは、セマンティックセグメンテーション、多目的質量推定、調音予測における最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 24.361346589238035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To perform a wide range of daily tasks, robots need to construct a 3D representation that is semantically rich, physically grounded, and structured enough to support task planning and affordance prediction. However, existing approaches primarily focus on semantic retrieval, often overlooking physical and kinematic factors. Methods that attempt to model physical properties typically rely on narrow training sets or single-object modeling, limiting scalability and generalization across diverse object types. To address these challenges, we present PhysGraph, a framework that unifies symbolic reasoning with structured 3D geometry to model kinematic and physical properties in cluttered scenes. Given RGB-D observations, PhysGraph reconstructs object-centric 3D geometry and associates object instances across views. It then decomposes objects into functional parts and infers materials and articulations through visual reasoning. Evaluated on both synthetic and real-world datasets, PhysGraph achieves state-of-the-art results in semantic segmentation, multi-object mass estimation, and articulation prediction. With its simple yet effective design, PhysGraph produces physically consistent and semantically structured scene graphs, serving as a structured 3D representation for downstream tasks such as constraint-aware 3D affordance prediction and real-to-sim transfer, both of which are demonstrated in our experiments.
- Abstract(参考訳): 幅広い日常的なタスクをこなすためには、ロボットはセマンティックにリッチで、物理的に基礎があり、タスク計画と余裕予測をサポートするのに十分な構造を持つ3D表現を構築する必要がある。
しかし、既存のアプローチは主に意味検索に重点を置いており、しばしば物理的要因や運動学的要因を見下ろしている。
物理的特性をモデル化しようとする手法は、典型的には狭いトレーニングセットや単一オブジェクトモデリングに依存し、様々なオブジェクトタイプにまたがるスケーラビリティと一般化を制限する。
これらの課題に対処するために,3次元構造を持つ記号的推論を統一したフレームワークであるPhysGraphを紹介し,散らばったシーンの運動特性と物理的特性をモデル化する。
RGB-Dの観測から、PhysGraphはオブジェクト中心の3D幾何学を再構築し、ビュー全体でオブジェクトインスタンスを関連付ける。
その後、物体を機能部品に分解し、視覚的推論を通じて材料や調音を推測する。
PhysGraphは、合成データセットと実世界のデータセットの両方で評価され、セマンティックセグメンテーション、マルチオブジェクト質量推定、調音予測における最先端の結果を達成する。
PhysGraphは、シンプルで効果的な設計で、物理的に一貫性があり、セマンティックに構造化されたシーングラフを生成し、制約を意識した3Dアベイランス予測やリアル・ツー・シミュレートといった下流タスクのための構造化された3D表現として機能する。
関連論文リスト
- Learning Equivariant Neural-Augmented Object Dynamics From Few Interactions [9.357701422375824]
一般的なアプローチは、物体を3D粒子の集合としてモデル化し、グラフニューラルネットワークを用いて物体の動きを学ぶことである。
解析物理とデータ駆動モデルを組み合わせた新しい手法であるPIEGraphを紹介する。
提案手法は, 正確な動的予測と, 下流ロボット操作計画の信頼性を実現する。
論文 参考訳(メタデータ) (2026-05-04T15:11:22Z) - PhysX-3D: Physical-Grounded 3D Asset Generation [48.78065667043986]
既存の3D生成は、物理グラウンドモデリングを無視しながら、ジオメトリーとテクスチャに重点を置いている。
PhysXNet - 5つの基本次元に体系的にアノテートされた最初の物理地上3Dデータセット。
また,物理基底画像から3次元のアセット生成のためのフィードフォワードフレームワークである textbfPhysXGen も提案する。
論文 参考訳(メタデータ) (2025-07-16T17:59:35Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。