論文の概要: GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors
- arxiv url: http://arxiv.org/abs/2606.08440v1
- Date: Sun, 07 Jun 2026 03:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.106199
- Title: GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors
- Title(参考訳): GraspFoM: 3Dファウンデーションによる再構成駆動型ロボットグラスピングを目指して
- Authors: Dongli Wu, Xiaobao Wei, Hao Wang, Qiaochu Dong, Ying Li, Qingpo Wuwu, Ming Lu, Wufan Zhao,
- Abstract要約: GraspFoMは3Dオブジェクトを共有化して再構築し,ポーズ予測を把握できるフレームワークである。
また,GraspFoMは再建と把握の両面で最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 23.311035802788854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic grasping is a fundamental capability in robotic manipulation. Yet grasping remains challenging under partial observations. Reliable grasping depends on both local contact cues and object-level 3D structure. Existing geometry-aware grasping methods recognize the value of reconstruction, but they typically treat geometry as an intermediate prediction rather than a reusable object prior for grasping. In this paper, we present GraspFoM, a unified framework that leverages 3D foundation priors (SAM3D) to build a shared 3D object latent for both reconstruction and grasp pose prediction. Built on this shared object latent, we introduce an anchor-initialized truncated pose-reasoning diffuser that predicts continuous and multimodal grasp poses without directly relying on discrete grasp candidates. We further investigate the interaction between reconstruction and grasping through a reconstruction-aware scorer and a residual latent updater. Reconstruction provides grounded geometric cues, while grasp supervision refines the shared object latent toward grasp-relevant affordances. GraspFoM jointly predicts grasp poses and reconstructs high-fidelity 3D assets in mesh and 3DGS forms. Comprehensive experiments demonstrate that GraspFoM achieves state-of-the-art results on both reconstruction and grasping. Notably, these improvements require only a small number of additional trainable parameters. Component-wise ablation studies also demonstrate the contribution of each component.
- Abstract(参考訳): ロボットの握りは、ロボット操作の基本的な能力である。
しかし、部分的な観察では把握は困難である。
信頼性の高い把握は、局所的な接触キューとオブジェクトレベルの3D構造の両方に依存する。
既存の幾何認識の把握法は、再構築の価値を認識するが、通常は、把握する前の再利用可能なオブジェクトではなく、中間的な予測として幾何学を扱います。
本稿では, 3次元ファウンデーション先行(SAM3D)を利用した統合フレームワークGraspFoMを提案する。
この共有オブジェクト潜伏器上に構築されたアンカー初期化されたポーズ推論ディフューザは,個別の把握候補に直接依存することなく,連続的かつ多モーダルなグリップポーズを予測する。
さらに、再構成対応スコアラと残留潜時更新器を介し、再構成と把握の相互作用について検討する。
レコンストラクションは、接地された幾何学的手がかりを提供する一方で、把握監督は、把握関連価格に遅れて共有対象を洗練させる。
GraspFoMは握りポーズを共同で予測し、メッシュおよび3DGS形式で高忠実度3Dアセットを再構築する。
総合的な実験により、GraspFoMは再構築と把握の両面で最先端の結果が得られることが示された。
注目すべきは、これらの改善は、少数のトレーニング可能なパラメータのみを必要とすることだ。
コンポーネントワイドアブレーション研究は、各コンポーネントの寄与も示している。
関連論文リスト
- GARDEN: Gravity-Aligned Reconstruction of Disentangled ENvironments from RGB images [61.2170105836525]
本稿では,RGBのみのフレームワークを提案する。このフレームワークは,再構成を物理的に地上に配置したシーンファクタ化として再構成し,構造化されたハイブリッドシーン表現を出力する。
結果として得られる表現は、明示的な剛体と分離された背景を組み合わせることで、視覚的リアリズムを維持しながら直接物理シミュレーションを可能にする。
論文 参考訳(メタデータ) (2026-06-02T17:13:01Z) - Physically Grounded 3D Generative Reconstruction under Hand Occlusion using Proprioception and Multi-Contact Touch [3.926587614210279]
そこで本研究では, メカニカル・アモーダル・オブジェクト再構成とポーズ推定のためのマルチモーダル・物理的手法を提案する。
我々は物理的相互作用信号を利用する: プロリオセプションは、ポーズされたハンドジオメトリと、対象表面が横たわらなければならないマルチコンタクトタッチ制約を提供する。
論文 参考訳(メタデータ) (2026-04-10T08:32:51Z) - Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations [98.66466590444553]
コスト制約のない多視点幾何アノテーションを使わずにFFRMをスクラッチからトレーニングするための弱教師付きパラダイムであるReliev3Rを提案する。
Reliev3Rのコアでは、多視点幾何整合性の監視を容易にするために、曖昧さを意識した相対深度損失と三角法に基づく再射損失を設計する。
論文 参考訳(メタデータ) (2026-04-01T06:46:54Z) - Interact3D: Compositional 3D Generation of Interactive Objects [31.12099147294145]
本稿では,3次元合成オブジェクト間の相互作用を物理的に妥当に生成する新しいフレームワークを提案する。
当社のアプローチは、まず先進的な先進的な先進的手法を活用して、高品質な個人資産をキュレートする。
これらの資産を物理的に構成するために、ロバストな2段階合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-17T03:21:06Z) - Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。
私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。
推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文 参考訳(メタデータ) (2025-12-12T18:59:51Z) - AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance [36.125573065910594]
アクティブな3D再構成により、エージェントは視点を自律的に選択し、正確で完全なシーン形状を得ることができる。
本研究では,フィードフォワード3次元再構成モデルと視覚言語指導を利用したアクティブリコンストラクションエージェントAREA3Dを提案する。
本フレームワークは、フィードフォワード再構成器からビュー不確実性モデリングを分離し、高価なオンライン最適化を伴わずに正確な不確実性推定を可能にする。
論文 参考訳(メタデータ) (2025-11-28T06:17:02Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z) - Reconstruct, Rasterize and Backprop: Dense shape and pose estimation
from a single image [14.9851111159799]
本稿では,1枚の画像から6-DoFポーズとともに高密度物体再構成を行うシステムを提案する。
我々は、カメラフレームの3D再構成でループを閉じるために、差別化可能なレンダリング(特にロボティクス)の最近の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T20:53:43Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。