論文の概要: MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances
- arxiv url: http://arxiv.org/abs/2606.14389v1
- Date: Fri, 12 Jun 2026 12:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.892162
- Title: MooMIns -- Monocular 3D Reconstruction and Object Pose Estimation from Multiple Instances
- Title(参考訳): MooMIns -- 複数のインスタンスからのモノクロ3次元再構成とオブジェクトポス推定
- Authors: Robert Langendörfer, Markus Hillemann, Markus Ulrich,
- Abstract要約: 単一単分子画像からの同時3次元再構成と6次元オブジェクトポーズ推定は本質的に不適切な問題である。
工業的な設定では、オブジェクトの複数のインスタンスは、しばしばビンにランダムに配置され、単一のイメージ内で同じオブジェクトのいくつかのビューを暗黙的に提供します。
この暗黙的多視点幾何を利用して、オブジェクトを3Dで同時に再構成し、各可視オブジェクトインスタンスの6Dポーズを推定できることが示される。
- 参考スコア(独自算出の注目度): 3.8233569758620054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simultaneous 3D reconstruction and 6D object pose estimation from a single monocular image is an inherently ill-posed problem. In industrial settings, however, multiple instances of an object are often randomly arranged in bins, implicitly providing several views of the same object within a single image. We show that this implicit multi-view geometry can be exploited to simultaneously reconstruct the object in 3D and estimate the 6D pose of each visible object instance. We present MooMIns, a new Gaussian-splatting-based approach that inverts the original Gaussian splatting formulation: instead of rendering a single scene from multiple cameras, we render multiple object instances from a single camera. Our method is initialized with SAM3 instance segmentation masks and a modified Structure from Motion (SfM) pipeline. In contrast to learned monocular depth estimation, we perform true geometry-based reconstruction from image evidence, avoiding hallucinations caused by training data priors. We evaluate MooMIns on synthetic and real bin-picking scenarios, and demonstrate accurate reconstruction of previously unseen objects as well as reliable pose estimation of individual instance
- Abstract(参考訳): 単一単分子画像からの同時3次元再構成と6次元オブジェクトポーズ推定は本質的に不適切な問題である。
しかし、産業環境では、オブジェクトの複数のインスタンスは、しばしばビンにランダムに配置され、単一のイメージ内で同じオブジェクトのいくつかのビューを暗黙的に提供します。
この暗黙的多視点幾何を利用して、オブジェクトを3Dで同時に再構成し、各可視オブジェクトインスタンスの6Dポーズを推定できることが示される。
複数のカメラから1つのシーンをレンダリングする代わりに、1台のカメラから複数のオブジェクトインスタンスを描画する。
提案手法はSAM3インスタンスセグメンテーションマスクと修正されたStructure from Motion (SfM)パイプラインで初期化される。
学習した単眼深度推定とは対照的に,トレーニングデータによる幻覚を回避し,画像証拠から真の幾何学的再構成を行う。
我々はMooMInsを合成および実ビンピッキングのシナリオで評価し、未確認のオブジェクトの正確な再構成と個々のインスタンスの信頼性の高いポーズ推定を実証した。
関連論文リスト
- OCH3R: Object-Centric Holistic 3D Reconstruction [36.45885767128656]
我々は1枚のRGB画像からオブジェクト中心のホロスティック3次元再構成のための統合フレームワークであるOCH3Rを紹介する。
OCH3Rは1つのフォワードパスを実行し、すべてのオブジェクトインスタンスを同時に6Dポーズと詳細な3D再構成で予測する。
標準的な屋内ベンチマークでは、OCH3Rは単分子深度推定、開語彙セマンティックセマンティックセグメンテーション、RGBのみのカテゴリレベルの6Dポーズ推定にまたがって最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-05-13T05:17:51Z) - One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - Structure from Duplicates: Neural Inverse Graphics from a Pile of
Objects [47.14442155536931]
本稿では,新しい逆グラフィックスフレームワークであるStructure from Duplicatesを紹介する。
複数の同一物体を含む単一の画像から幾何学、材料、照明を再構成する。
SfDは、単一の画像から複数ビューキューを活用することで、より現実的で詳細な3D再構成を生成する。
論文 参考訳(メタデータ) (2024-01-10T16:07:40Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。