論文の概要: Geometry-Aware Fisheye-LiDAR Fusion for Robust 3D Object Detection in Low-Overlap Setups
- arxiv url: http://arxiv.org/abs/2606.08844v1
- Date: Sun, 07 Jun 2026 21:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.480777
- Title: Geometry-Aware Fisheye-LiDAR Fusion for Robust 3D Object Detection in Low-Overlap Setups
- Title(参考訳): 低オーバーラップセットアップにおけるロバスト3次元物体検出のための幾何認識型魚眼-LiDAR融合
- Authors: Xiangzhong Liu, Xihao Wang, Hao Shen,
- Abstract要約: 魚眼形状とBEV特徴歪みを考慮したGeometry-Aware Hybrid Fusion (GA-HF) フレームワークを提案する。
GA-HFは、KITTI-360、Dur360BEV、およびFisheye3DODデータセットの3つのベンチマークで評価される。
- 参考スコア(独自算出の注目度): 8.422269543220251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous systems expand from capital-intensive robotaxis to cost-sensitive logistics, sensor configurations are increasingly optimized for coverage-per-cost. A prevalent sparse-view setup utilizes dual-fisheye cameras with a roof-mounted LiDAR, introducing severe geometric challenges: extreme radial distortion, minimal overlap, and misalignment between spherical projections and rectilinear grids. BEV fusion algorithms typically force image and point cloud modalities into unified Cartesian grids early in the pipeline, causing significant feature distortion and information loss for wide-view fisheye cameras. To address this, we propose a Geometry-Aware Hybrid Fusion (GA-HF) framework that explicitly accounts for fisheye geometry and BEV feature distortion, where fisheye features are lifted into a polar BEV grid via a Distortion-Aware Lift-Splat-Shoot (LSS) module to preserve native angular density, while LiDAR features are processed in native Cartesian space for metric fidelity of bounding box regression. To bridge these heterogeneous streams, we introduce a Dual-Attention Warping Correction module that applies spatial and channel attention to the warped camera features before fusion, explicitly suppressing artifacts in low-quality peripheral regions while enhancing high-quality semantic cues. GA-HF is evaluated on three benchmarks: KITTI-360, Dur360BEV, and Fisheye3DOD datasets. To the best of our knowledge, it is the first approach to explore LiDAR-fisheye camera fusion. On KITTI-360, GA-HF improves NDS by 4.2% over Cartesian baselines; on Dur360BEV, it surpasses both LiDAR-only and BEVFusion, while significantly reducing orientation error despite the geometric distortions; on Fisheye3DOD, it attains the highest detection score among all fusion methods.
- Abstract(参考訳): 自律システムは、資本集約型ロボット軸からコストに敏感なロジスティクスへと拡大するにつれ、センサー構成はコストに対してますます最適化されている。
一般的なスパースビューのセットアップでは、双眼カメラと屋根に取り付けられたLiDARを使用しており、極度の半径歪み、最小の重なり合い、球面射影と直線格子の間の不整合といった、厳密な幾何学的な課題を提起している。
BEV融合アルゴリズムは通常、パイプラインの初期に画像と点雲のモダリティを統合されたカルテシアングリッドに強制し、ワイドビューの魚眼カメラにおいて重要な特徴歪みと情報損失を引き起こす。
そこで本研究では,魚眼形状とBEV特徴歪みを明示的に考慮したGeometry-Aware Hybrid Fusion (GA-HF) フレームワークを提案する。このフレームワークでは,魚眼特徴をディストーション・アウェア・Lift-Splat-Shoot (LSS) モジュールを介して極性BEVグリッドに持ち上げ,ネイティブな角密度を維持する。
これらの不均一なストリームをブリッジするために、融合前に歪んだカメラの特徴に空間的およびチャネル的注意を向け、高品質なセマンティック・キューを向上しつつ、低品質な周辺領域のアーティファクトを明示的に抑制するDual-Attention Warping Correctionモジュールを導入する。
GA-HFは、KITTI-360、Dur360BEV、およびFisheye3DODデータセットの3つのベンチマークで評価される。
我々の知る限りでは、LiDAR-fisheyeカメラ融合を探索する最初のアプローチである。
KITTI-360では、GA-HFはカルテシアンベースラインよりも4.2%向上し、Dur360BEVではLiDARのみとBEVFusionを上回り、幾何学的歪みにもかかわらず方向誤差を著しく低減した。
関連論文リスト
- Distortion-Aware PETR for BEV Object Detection with Mixed Pinhole-Fisheye Cameras [0.0]
魚眼カメラは低コストフルカバー視野(FOV)のために自律走行認識スイートに広く配備されている
急激な放射歪みは、一様サンプリングの基本的な仮定に違反して、ほとんどのBEV検出器に挑戦する。
本研究では, ピンホール・フィッシュカメラの複合設置に適したプロジェクションフリー検出装置であるDistortion-Aware PETR (DAPETR) を提案する。
論文 参考訳(メタデータ) (2026-06-07T15:32:10Z) - FishRoPE: Projective Rotary Position Embeddings for Omnidirectional Visual Perception [6.114308991453516]
視覚基礎モデル(VFM)とバードアイビュー(BEV)の表現は、ピンホールカメラの直線幾何学を前提としている。
私たちのフレームワークは、凍結したVFMを2つのコンポーネントを通して魚眼幾何学に適応する軽量なフレームワークです。
論文 参考訳(メタデータ) (2026-04-12T00:46:51Z) - DirectFisheye-GS: Enabling Native Fisheye Input in Gaussian Splatting with Cross-View Joint Optimization [17.91043282211744]
3D Gaussian Splatting (3DGS)は、リアルタイム高忠実なレンダリングによる日常画像からの効率的な3Dシーン再構築を実現している。
より広い視野(FOV)を持つ魚眼カメラは、少ない入力から高品質な再構築を約束する。
論文 参考訳(メタデータ) (2026-04-01T09:00:04Z) - Enhancing Underwater Light Field Images via Global Geometry-aware Diffusion Process [93.00033672476206]
GeoDiff-LFは、SD-Turbo上に構築された新しい拡散ベースのフレームワークで、水中4次元LFイメージングを強化する。
拡散先行とLF幾何を統合することにより、GeoDiff-LFは水中のシーンにおける色歪みを効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-29T02:27:22Z) - Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - FisheyeGaussianLift: BEV Feature Lifting for Surround-View Fisheye Camera Perception [0.8374040635931297]
マルチカメラの高解像度魚眼画像を処理する歪み認識型BEVセグメンテーションフレームワークを提案する。
各画像画素はガウスパラメータ化により3次元空間に持ち上げられ、空間的手段と異方性共分散を予測し、幾何的不確かさを明示的にモデル化する。
実験では、複雑な駐車や都市部での運転のシナリオにおいて強いセグメンテーション性能を示し、乾燥可能な地域では87.75%、厳しい魚眼の歪み下では57.26%のIoUスコアを達成している。
論文 参考訳(メタデータ) (2025-11-21T12:42:07Z) - PFDepth: Heterogeneous Pinhole-Fisheye Joint Depth Estimation via Distortion-aware Gaussian-Splatted Volumetric Fusion [61.6340987158734]
ヘテロジニアス多視点深度推定のための最初のピンホール・フィッシュアイ・フレームワークPFDepthを提案する。
PFDepthは、ピンホールと魚眼カメラの任意の組み合わせを、様々な内在と外生とで処理できる統一アーキテクチャを採用している。
我々は,現在の主流深度ネットワーク上でのKITTI-360およびRealHetデータセットに対して,PFDepthが最先端の性能を示すことを示す。
論文 参考訳(メタデータ) (2025-09-30T09:38:59Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View
Spatial Feature Fusion for 3D Object Detection [10.507404260449333]
本稿では,3次元物体検出のためのカメラとLiDARセンサの融合アーキテクチャを提案する。
提案した3D-CVFは,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-04-27T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。