論文の概要: Can Single-View Mesh Reconstruction Generalize to Robot Camera Rotation?
- arxiv url: http://arxiv.org/abs/2606.22987v1
- Date: Mon, 22 Jun 2026 08:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 02:59:43.55404
- Title: Can Single-View Mesh Reconstruction Generalize to Robot Camera Rotation?
- Title(参考訳): シングルビューメッシュ再構成はロボットカメラ回転に一般化できるか?
- Authors: Yu Zhan, Guangcheng Chen, Hanjing Ye, Zhiqin Cheng, Zanjia Tong, Wenjun Xu, Hong Zhang,
- Abstract要約: 単一ビューメッシュ再構成は、単一の観測からオブジェクトメッシュと空間レイアウトを予測する。
現在の単視点メッシュ再構成法は、ロボットカメラの回転に悪影響を及ぼす。
2段階のSAM3D+FoundationPoseパイプラインは、1段階のフィードフォワードレイアウト予測よりも堅牢である。
- 参考スコア(独自算出の注目度): 5.6483741813289745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view mesh reconstruction predicts object meshes and spatial layouts from a single observation, making it attractive for fast robot spatial reasoning and real-to-sim digital twins. However, robot-mounted cameras naturally rotate during manipulation and navigation, while learned single-view reconstruction models often rely on view-dependent priors and may generalize poorly to out-of-distribution camera rotations. Such rotations can introduce 3D inconsistencies, incorrect layouts, and violations of physical constraints, but this failure mode remains under-evaluated. We introduce an evaluation protocol with controlled axis-wise roll, pitch, and yaw sweeps to trace errors in monocular depth estimation (MDE), canonical object meshes, camera-space layout, and physical plausibility within a representative SAM3D-style pipeline. On the Aria Digital Twin dataset and a real Franka wrist-camera sequence, camera rotations induce MDE distortion, layout drift, and collision penetration, while canonical mesh predictions remain relatively stable. A two-stage SAM3D+FoundationPose pipeline is more robust than one-stage feed-forward layout prediction, and our Gravity-Aware Refinement reduces one-stage pairwise ICP-based layout-orientation error by 47.1$\%$. Our evaluation reveals that current single-view mesh reconstruction methods generalize poorly to robot camera rotation, and suggests that explicit gravity cues are important for reliable robotic single-view mesh reconstruction.
- Abstract(参考訳): 単一ビューメッシュ再構成は、単一観測からオブジェクトメッシュと空間レイアウトを予測し、高速なロボット空間推論とリアルタイムデジタルツインにとって魅力的なものとなる。
しかし、ロボット搭載カメラは操作やナビゲーションの間、自然に回転するが、学習された単一ビュー再構成モデルは、しばしばビューに依存した先行モデルに依存し、配布外カメラの回転に悪影響を及ぼす可能性がある。
このような回転は、3Dの不整合、不正確なレイアウト、物理的制約の違反をもたらすが、この障害モードは未評価のままである。
本研究では,単眼深度推定(MDE),標準物体メッシュ,カメラ空間レイアウト,および代表的なSAM3D型パイプラインにおける物理的可視性などの誤差の追跡を行うために,軸方向のロール,ピッチ,ヤウスイープを制御した評価プロトコルを提案する。
Aria Digital Twinデータセットと実際のフランカ手首カメラシーケンスでは、カメラ回転がMDE歪み、レイアウトドリフト、衝突透過を誘導する一方、標準メッシュ予測は比較的安定している。
2段階のSAM3D+FoundationPoseパイプラインは1段階のフィードフォワードレイアウト予測よりも堅牢であり、Gravity-Aware Refinementは1段階のICPベースのレイアウト指向エラーを47.1$\%$に削減します。
評価の結果,従来の単一視点メッシュ再構築手法はロボットカメラの回転に適さないことが判明し,信頼性の高い単一視点メッシュ再構築には明確な重力手段が重要であることが示唆された。
関連論文リスト
- Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - Fiducial Exoskeletons: Image-Centric Robot State Estimation [21.491677821308688]
画像に基づく3次元ロボット状態推定の再構成であるFiducial Exoskeletonsを紹介する。
まず,1枚のRGB画像から各リンクの6次元ポーズ推定として,ロボットの状態推定を行った。
第2に、学習することなく、リンクごとの6Dポーズ推定を堅牢でシンプルなものにします。
論文 参考訳(メタデータ) (2026-01-12T22:04:25Z) - From Camera to World: A Plug-and-Play Module for Human Mesh Transformation [1.5453237467077674]
我々は,人間のメッシュをカメラ座標から世界座標に変換するプラグイン・アンド・プレイモジュールであるMesh-Plugを提案する。
重要なイノベーションは、カメラの回転パラメータを推定するために初期メッシュからレンダリングされたRGBイメージと深度マップの両方を活用する、人間中心のアプローチにある。
本フレームワークは,SPEC-SYNとSPEC-MTPのベンチマークデータセット上で,最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-12-17T09:05:46Z) - Is Single-View Mesh Reconstruction Ready for Robotics? [78.14584238127338]
本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Reconstruction of 3D flight trajectories from ad-hoc camera networks [19.96488566402593]
本研究では,空飛ぶロボットシステムの3次元軌道を,同期しないカメラで撮影した映像から再構成する手法を提案する。
我々のアプローチは、安価で容易に配備できる装置を用いて、動的に飛来する目標の堅牢かつ正確な外部からの追跡を可能にする。
論文 参考訳(メタデータ) (2020-03-10T14:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。