論文の概要: Artic-O: End-to-End Articulated Object Reconstruction via Latent Geometry Learning
- arxiv url: http://arxiv.org/abs/2606.21938v1
- Date: Sat, 20 Jun 2026 08:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:45:01.934676
- Title: Artic-O: End-to-End Articulated Object Reconstruction via Latent Geometry Learning
- Title(参考訳): Artic-O:潜時幾何学学習による終端人工物体再構成
- Authors: Xuyang Wang, Zhenyu Li, Jian Ding, Habib Slim, Peter Wonka, Hongdong Li, Mohamed Elhoseiny,
- Abstract要約: Artic-Oは、音声によるオブジェクト再構成のためのエンドツーエンドのフィードフォワードフレームワークである。
スパース多状態観測を事前訓練された潜在幾何学空間にマッピングする。
凍結したフローマッチングデコーダは、可視構造と隠蔽構造の回復に先立って完全な形状を提供する。
- 参考スコア(独自算出の注目度): 105.35529379360186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing articulated objects from sparse images requires recovering complete geometry, movable parts, and motion parameters. Recent methods typically separate geometry reconstruction, part reasoning, and articulation estimation into different stages. This separation can weaken consistency between shape, active parts, and motion, while also incurring substantial inference cost. We introduce Artic-O, an end-to-end, feed-forward framework for articulated object reconstruction via latent geometry learning. Instead of fitting geometry in image or view space, Artic-O maps sparse multi-state observations into a pretrained latent geometry space, where a frozen flow-matching decoder provides a complete-shape prior for recovering visible and occluded structures. To connect geometry with articulation, Artic-O fuses visual tokens, geometry latents, and point-wise decoder features in an image-grounded part-reasoning module for active-part segmentation and articulation prediction. We further train the model with a geometry-to-articulation curriculum and a decoupled two-pass strategy to balance reconstruction and part-level supervision. On PartNet-Mobility, Artic-O achieves strong reconstruction quality while being substantially more efficient than LARM, a strong prior method. It reduces Chamfer Distance, improves F-score, and achieves comparable or better articulation accuracy across most joint metrics, while reducing inference time from 9 minutes to about 0.3 seconds per object.
- Abstract(参考訳): スパース画像から調音された物体を再構成するには、完全な幾何学、可動部、運動パラメータの復元が必要である。
最近の手法では、通常、幾何再構成、部分推論、調音推定を異なる段階に分けている。
この分離は、形状、活性部分、動きの整合性を弱めるだけでなく、かなりの推論コストをもたらす。
本稿では,終端から終端へのフィードフォワードフレームワークであるArtic-Oを紹介した。
画像やビュー空間に幾何学を適合させる代わりに、Artic-O は多状態観測を未学習の潜在幾何学空間にマッピングする。
Artic-Oは、形状を調音に結びつけるために、能動部分分割と調音予測のための画像接地部分推論モジュールにおいて、視覚トークン、幾何学ラテント、ポイントワイドデコーダ特徴を融合する。
さらに、再構成と部分レベルの監督のバランスをとるために、幾何学と調停のカリキュラムと分離した2パス戦略でモデルを訓練する。
PartNet-Mobilityでは、Artic-Oは強力な復元品質を達成し、強力な先行手法であるLARMよりもかなり効率的である。
Chamfer Distanceを低減し、Fスコアを改善し、ほとんどのジョイントメトリクスで同等またはより良い調音精度を実現し、推論時間をオブジェクト毎の9分から0.3秒に短縮する。
関連論文リスト
- GraspFoM: Towards Reconstruction-Driven Robotic Grasping with 3D Foundation Priors [23.311035802788854]
GraspFoMは3Dオブジェクトを共有化して再構築し,ポーズ予測を把握できるフレームワークである。
また,GraspFoMは再建と把握の両面で最先端の結果が得られた。
論文 参考訳(メタデータ) (2026-06-07T03:37:55Z) - Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations [98.66466590444553]
コスト制約のない多視点幾何アノテーションを使わずにFFRMをスクラッチからトレーニングするための弱教師付きパラダイムであるReliev3Rを提案する。
Reliev3Rのコアでは、多視点幾何整合性の監視を容易にするために、曖昧さを意識した相対深度損失と三角法に基づく再射損失を設計する。
論文 参考訳(メタデータ) (2026-04-01T06:46:54Z) - ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - Rethinking Multimodal Point Cloud Completion: A Completion-by-Correction Perspective [8.276620253870338]
ポイント雲の完成は、部分的な観測から完全な3次元形状を再構築することを目的としている。
ほとんどのメソッドは、いまだにCompletion-by-Inpaintingパラダイムに従っている。
完全形状から始まるコンプリーション・バイ・コレクション(Completion-by-Correction)を提案する。
論文 参考訳(メタデータ) (2025-11-15T11:51:13Z) - LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-04T05:08:04Z) - Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects [67.96148051569993]
本稿では, 近接相互作用中の2つの物体の形状と外観を再構成し, 両者を3次元で解離させるニューロ・インシシシット法を提案する。
フレームワークはエンドツーエンドのトレーニングが可能で、新しいアルファブレンディング正規化を使用して管理されている。
我々は,人間と物体の密接な相互作用からなる新しいデータセットを導入するとともに,武道を行う人間の2つの場面について評価する。
論文 参考訳(メタデータ) (2025-02-19T18:59:56Z) - Learning to Complete Object Shapes for Object-level Mapping in Dynamic
Scenes [30.500198859451434]
本研究では,動的シーンにおけるオブジェクトの分割,追跡,再構築を同時に行うオブジェクトレベルのマッピングシステムを提案する。
さらに、深度入力とカテゴリレベルの前の形状からの再構成を条件にすることで、完全なジオメトリを予測し、完成させることができる。
実世界の合成シーケンスと実世界のシーケンスの両方で定量的に定性的にテストすることで,その有効性を評価する。
論文 参考訳(メタデータ) (2022-08-09T22:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。