論文の概要: Empowering Feed-Forward Reconstruction Models with Metric Scale via Satellite Images
- arxiv url: http://arxiv.org/abs/2606.08205v1
- Date: Sat, 06 Jun 2026 14:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.970944
- Title: Empowering Feed-Forward Reconstruction Models with Metric Scale via Satellite Images
- Title(参考訳): 衛星画像を用いた大規模フィードフォワード再構成モデルの構築
- Authors: Xianghui Ze, Yongjian Luo, Mengjun Chao, Zhenbo Song, Jianfeng Lu, Yujiao Shi,
- Abstract要約: フィードフォワード3D再構成における規模のあいまいさを解消するための衛星誘導フレームワークを提案する。
再構成されたシーンと衛星基準との一貫性を強制することにより、モデルは絶対スケールを推定し、シーンの幾何学を洗練し、メートル法座標フレームにおけるカメラのポーズを推定する。
- 参考スコア(独自算出の注目度): 17.10424609165589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward 3D reconstruction models have recently shown strong generalization across diverse scenes, yet most of them recover geometry only up to an unknown global scale. This scale ambiguity limits their use in applications that require metric understanding of the environment. Existing metric reconstruction methods commonly rely on large-scale metric annotations or accurate camera calibration, both of which are costly or unreliable in many real-world settings. We propose a satellite-guided framework for resolving scale ambiguity in feed-forward 3D reconstruction. The key idea is to use readily available satellite imagery as a global metric reference. Given a coarse camera pose, our method retrieves a local satellite patch and integrates it with a feed-forward reconstruction backbone through bidirectional cross-view interaction. By enforcing consistency between the reconstructed scene and the satellite reference, the model infers absolute scale, refines scene geometry, and estimates camera pose in a metric coordinate frame. Experiments on KITTI, nuScenes, and Oxford RobotCar show consistent improvements in metric depth estimation, multi-view point-cloud reconstruction, and cross-view camera localization, while preserving strong generalization across datasets and geographic regions.
- Abstract(参考訳): フィードフォワード3次元再構成モデルは近年,様々な場面で強力な一般化が見られたが,そのほとんどは未知の世界規模までしか復元できない。
このスケールの曖昧さは、環境の計量的理解を必要とするアプリケーションでの使用を制限する。
既存のメートル法再建手法は、大規模なメートル法アノテーションや正確なカメラキャリブレーションに依存しており、どちらも多くの現実の環境ではコストがかかるか信頼性が低い。
フィードフォワード3D再構成における規模のあいまいさを解消するための衛星誘導フレームワークを提案する。
鍵となる考え方は、簡単に利用可能な衛星画像をグローバルなメートル法基準として使うことである。
粗いカメラのポーズが与えられた場合、我々はローカルな衛星パッチを検索し、双方向のクロスビューインタラクションを通じてフィードフォワードのバックボーンと統合する。
再構成されたシーンと衛星基準との一貫性を強制することにより、モデルは絶対スケールを推定し、シーンの幾何学を洗練し、メートル法座標フレームにおけるカメラのポーズを推定する。
KITTI、nuScenes、Oxford RobotCarの実験では、データセットと地理的領域をまたいだ強力な一般化を保ちながら、メートル法深度推定、マルチビューポイントクラウド再構成、およびクロスビューカメラのローカライゼーションにおいて一貫した改善が見られた。
関連論文リスト
- Honey, I Shrunk the Arc de Triomphe! [28.188906774039364]
大規模データアグリゲーションにより,メートルスケール単分子形状推定が大幅に進展した。
現在の基礎モデルは「スケール崩壊」現象に悩まされており、遠くのランドマークや広大な風景は計量的に過小評価されている。
我々は、MetricScenesと呼ばれる、新しい計測基準付きインザワイルドデータセットをキュレートする。
我々のデータセット上の微調整MoGe-2はスケール崩壊を著しく軽減し、制約のないオープンドメインシーンにおいて優れた計量精度を実現する。
論文 参考訳(メタデータ) (2026-06-01T15:28:13Z) - Scene Grounding In the Wild [27.597534811067348]
大規模な現実世界のシーンの正確な3Dモデルを、非構造的で、その中の画像から再構築することは、コンピュータビジョンにおける重要な課題である。
シーンの完全な参照モデルに各部分再構成を基礎とするフレームワークを提案する。
従来のパイプラインや学習ベースのパイプラインでは,我々のアプローチが一貫してグローバルアライメントを改善することを示す。
論文 参考訳(メタデータ) (2026-03-27T16:41:20Z) - HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images [81.42866295265443]
高忠実度3Dハンドジオメトリはコンピュータビジョンにおいて重要な課題である。
スケーラブルなアプリケーションは、正確性とデプロイメントの柔軟性の両方を必要とします。
本研究では、3Dハンドメッシュとカメラのポーズを非校正視点から推定するフィードフォワードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-25T06:54:34Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - GRS-SLAM3R: Real-Time Dense SLAM with Gated Recurrent State [29.91962530945268]
本稿では,高密度シーン再構築のためのエンドツーエンドSLAMフレームワークであるGRS-SLAM3Rを紹介する。
本手法は,グローバル座標における逐次的入力と計量スケールの点群を漸進的に推定する。
各種データセットを用いた実験により, リアルタイム性能を維持しつつ, より優れた復元精度を実現することができた。
論文 参考訳(メタデータ) (2025-09-28T08:33:34Z) - MapAnything: Universal Feed-Forward Metric 3D Reconstruction [63.79151976126576]
MapAnythingは1つ以上の画像を取り込み、カメラの内在性、ポーズ、深さ、部分的な再構築など、任意の幾何学的入力を行う。
そして、メーター3Dシーンの幾何学とカメラを直接補強する。
MapAnythingは、単一のフィードフォワードパスで幅広い3Dビジョンタスクに対処する。
論文 参考訳(メタデータ) (2025-09-16T18:00:14Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。