論文の概要: MB-Loc: Multi-planar Bird's-eye-view Localization in outdoor LiDAR scenes
- arxiv url: http://arxiv.org/abs/2606.08744v2
- Date: Wed, 10 Jun 2026 05:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.357109
- Title: MB-Loc: Multi-planar Bird's-eye-view Localization in outdoor LiDAR scenes
- Title(参考訳): MB-Loc:屋外LiDARシーンにおける多平面鳥眼視像の局在化
- Authors: Ayaan Choudhury, Preet Savalia, Anirudh Pydah, Avinash Sharma,
- Abstract要約: 我々は,グローバルLiDARローカライゼーションのための軽量かつ視点ロバストなSCRフレームワークMB-Locを提案する。
Z軸に沿って点雲をスライスし、符号付き深度を離散2次元平面にマッピングすることにより、MB-Locは標準2次元CNNの計算的トラクタビリティを活用しながら必須な3次元幾何学構造を保持する。
我々は、公開可能なNCLTデータセットに関する広範な実験を行い、提案手法が現在の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.3666547827177733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global LiDAR localization is a fundamental task for autonomous navigation systems. Recent methods perform Scene Coordinate Regression (SCR) and achieve superior accuracy over Absolute Pose Regression (APR) solutions by predicting dense 3D world coordinates. However, SCR approaches introduce two major bottlenecks: severe computational inefficiency from processing raw 3D geometries and significant performance degradation under varying sensor viewpoints. To address these limitations, we present MB-Loc, a lightweight and viewpoint-robust SCR framework. Instead of relying on heavy 3D convolutions, we project the input LiDAR scan into a 2.5D Multi-planar Bird's-Eye View (BEV) representation. By slicing the point-cloud along the Z-axis and mapping signed depths into discrete 2D planes, MB-Loc retains essential 3D geometric structures while exploiting the computational tractability of standard 2D CNNs. To handle the inherent sparsity of outdoor LiDAR, we introduce a KL-regularized latent bottleneck that explicitly models spatial uncertainty without injecting stochastic noise. Finally, to ensure rotation robustness, we apply 3D spatial augmentations prior to planar projection, forcing the network to implicitly learn viewpoint-invariant features. We perform extensive experiments on the publicly available NCLT dataset and demonstrate that our proposed method outperforms the current state-of-the-art. Operating at real-time inference speeds, MB-Loc significantly outperforms traditional 3D-SCR architectures in computational efficiency.
- Abstract(参考訳): グローバルLiDARのローカライゼーションは自律ナビゲーションシステムの基本課題である。
近年のSCR(Scene Coordinate Regression)法は,高密度な3次元世界座標を推定することにより,絶対ポス回帰(APR)法よりも優れた精度を実現している。
しかし、SCRアプローチでは、生の3次元ジオメトリーの処理による計算不効率と、センサーの視点の違いによる大幅な性能劣化という2つの大きなボトルネックが生じる。
これらの制約に対処するため,軽量かつ視点を損なうSCRフレームワークMB-Locを提案する。
重度の3D畳み込みに頼る代わりに、入力されたLiDARスキャンを2.5次元多平面バード-アイビュー(BEV)表現に投影する。
Z軸に沿って点雲をスライスし、符号付き深度を離散2次元平面にマッピングすることにより、MB-Locは標準2次元CNNの計算的トラクタビリティを活用しながら必須な3次元幾何学構造を保持する。
屋外LiDARの空間的疎結合性に対処するために,確率雑音を注入することなく空間的不確かさを明示的にモデル化するKL規則化潜時ボトルネックを導入する。
最後に, 平面投影に先立って3次元空間拡張を適用し, ネットワークに視点不変の特徴を暗黙的に学習させる。
我々は、公開可能なNCLTデータセットに関する広範な実験を行い、提案手法が現在の最先端技術よりも優れていることを示す。
MB-Locはリアルタイムの推論速度で動作し、従来の3D-SCRアーキテクチャよりも計算効率が優れている。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion [9.443354889048614]
視覚ベースのマッピングは、粗い点雲のために高品質な3D再構成に苦しむことが多い。
低高度カメラと単線LiDARを用いた高品質な3D再構成システムES-Gaussianを提案する。
論文 参考訳(メタデータ) (2024-10-09T07:09:29Z) - Improving Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の両方を最大限に必要としながら、これらの誤り貢献ゾーンを特定することができる。
LPMは特定されたゾーンに点密度を適用し、これらの領域の前にある点の不透明度をリセットし、不適切な点を修正する新しい機会を生み出す。
特に、LPMは静的3DGSとダイナミックなSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。