論文の概要: MVM-IOD: An Industrial Object-Centric Benchmark Dataset for the Evaluation of 3D Reconstruction Methods
- arxiv url: http://arxiv.org/abs/2606.16638v1
- Date: Mon, 15 Jun 2026 12:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.54206
- Title: MVM-IOD: An Industrial Object-Centric Benchmark Dataset for the Evaluation of 3D Reconstruction Methods
- Title(参考訳): MVM-IOD:3次元再構成手法の評価のための産業用オブジェクト中心ベンチマークデータセット
- Authors: Robert Langendörfer, Markus Hillemann, Markus Ulrich,
- Abstract要約: 我々はMVM-IOD(Machine Vision Metrology Industrial Object dataset)を紹介する。
MVM-IODには、参照カメラのポーズと3Dポイントのクラウド、取得した9つのオブジェクトのRGBイメージ、そして18のシーンの背景選択が含まれている。
MVM-IODに基づいて、現在のSOTA 3D再構成とカメラポーズ推定手法を広範囲に評価する。
- 参考スコア(独自算出の注目度): 3.8233569758620054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D object reconstruction, and camera pose estimation in industrial applications are challenging tasks, as errors are costly while the computation time is often limited. The complexity of typical industrial objects further complicates these tasks. Most of the existing datasets in this context do not depict realistic industrial scenarios. Therefore, we introduce the Machine Vision Metrology Industrial Object Dataset (MVM-IOD). Images of typical industrial objects are captured systematically, by moving a camera, mounted at the end effector of an industrial robot arm, on a hemisphere around the objects. MVM-IOD contains reference camera poses and reference 3D point clouds, the acquired RGB images of 9 objects and 2 background choices resulting in 18 scenes, which allows evaluation of all image based methods that compute a 3D reconstruction, camera poses, or novel views of a scene. Based on MVM-IOD, we extensively evaluate current SOTA 3D reconstruction and camera pose estimation methods, such as Structure from Motion, Multi-View Stereo, recent feed forward methods (Visual Geometry Grounded Transformer, π3), and 2D Gaussian Splatting and report our findings as a baseline for future research. The experiments show that capture setups like ours generate out-of distribution images for feed forward methods, leading to suboptimal point clouds and camera poses. However, these out-of-distribution images can be shifted closer to the training distribution by applying simple preprocessing steps. Consequently, in certain industrial applications, feed forward methods should be used with caution.
- Abstract(参考訳): 産業アプリケーションにおける3次元オブジェクト再構成とカメラポーズ推定は,計算時間に制限がある場合,コストがかかるため,困難な作業である。
典型的な工業オブジェクトの複雑さは、これらのタスクをさらに複雑にする。
この文脈における既存のデータセットのほとんどは、現実的な産業シナリオを描写していない。
そこで我々は,MVM-IOD(Machine Vision Metrology Industrial Object Dataset)を提案する。
典型的な産業用物体の画像は、産業用ロボットアームの端エフェクターに取り付けられたカメラを、物体の周囲の半球に移動させることで、体系的に撮影される。
MVM-IODには、参照カメラのポーズと3Dポイントのクラウド、取得した9つのオブジェクトのRGBイメージと2つの背景選択があり、18のシーンで、3D再構成、カメラのポーズ、またはシーンの新たなビューを計算したすべての画像ベースの方法を評価することができる。
MVM-IODに基づいて,現在のSOTA 3D再構成とカメラポーズ推定手法,例えばStructure from Motion, Multi-View Stereo, 最近のフィードフォワード法 (Visual Geometry Grounded Transformer, π3), 2D Gaussian Splatting を広く評価し,今後の研究のベースラインとして報告する。
実験により、我々のような撮影装置は、フィードフォワード方式のための分布外の画像を生成し、最適点の雲とカメラのポーズをもたらすことがわかった。
しかし、これらのアウト・オブ・ディストリビューション画像は、簡単な前処理ステップを適用することで、トレーニング分布に近づくことができる。
したがって、特定の産業応用においては、フィードフォワード方式を慎重に使用すべきである。
関連論文リスト
- RePose-NeRF: Robust Radiance Fields for Mesh Reconstruction under Noisy Camera Poses [0.5328562411561214]
マルチビュー画像から直接高品質で編集可能な3Dメッシュを再構築する堅牢なフレームワークを提案する。
我々のアプローチは、細かな幾何学的ディテールと外観をキャプチャする暗黙のシーン表現を学習しながら、カメラのポーズを共同で洗練する。
論文 参考訳(メタデータ) (2025-11-11T18:25:58Z) - IMD: A 6-DoF Pose Estimation Benchmark for Industrial Metallic Objects [4.959150853096882]
産業用途に適した新しいデータセットとベンチマークである textitIndustrial Metallic dataset (IMD) を提案する。
このデータセットは45の産業用部品からなり、自然の屋内照明の下でRGB-Dカメラで撮影する。
このベンチマークは、ビデオオブジェクトセグメンテーション、6Dポーズトラッキング、ワンショット6Dポーズ推定を含む3つのタスクをサポートする。
論文 参考訳(メタデータ) (2025-09-15T08:28:15Z) - Multi-Modal 3D Mesh Reconstruction from Images and Text [7.9471205712560264]
少ない入力画像から3Dメッシュを再構成する言語誘導型少数ショット3D再構成法を提案する。
テクスチャとテクスチャの精度と品質の観点から,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-10T11:18:17Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [100.9586977875698]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。
本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (2022-10-27T17:59:53Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。