論文の概要: Distortion-Aware PETR for BEV Object Detection with Mixed Pinhole-Fisheye Cameras
- arxiv url: http://arxiv.org/abs/2606.08680v1
- Date: Sun, 07 Jun 2026 15:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.386394
- Title: Distortion-Aware PETR for BEV Object Detection with Mixed Pinhole-Fisheye Cameras
- Title(参考訳): 混合ピンホールフィシーカメラによるBEV物体検出のための歪み認識PETR
- Authors: Xiangzhong Liu,
- Abstract要約: 魚眼カメラは低コストフルカバー視野(FOV)のために自律走行認識スイートに広く配備されている
急激な放射歪みは、一様サンプリングの基本的な仮定に違反して、ほとんどのBEV検出器に挑戦する。
本研究では, ピンホール・フィッシュカメラの複合設置に適したプロジェクションフリー検出装置であるDistortion-Aware PETR (DAPETR) を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fisheye cameras are widely deployed in autonomous driving perception suites for their low cost and full-coverage field of view (FOV), yet their potential remains underleveraged in 3D object detection. Severe radial distortion challenges most BEV detectors by violating the fundamental assumption of uniform sampling. To bridge this gap, we propose Distortion-Aware PETR (DAPETR), a projection-free detector tailored for mixed pinhole-fisheye camera setups. DAPETR incorporates two key learned-adaptive modules: a unified distortion-aware positional embedding that harmonizes positional encodings for image representations with fisheye geometry, and a bidirectional feature-geometry co-modulation module that mutually adapts image features and 3D positional embeddings. In our experiments on a converted KITTI-360 benchmark, we systematically compare our learned adaptive approach against PETR in polar coordinates (PolarPETR). We find that while both methods improve over the baseline, our learned modules achieve superior performance. Crucially, we uncover a negative interaction when combining both strategies, revealing that learned adaptation and explicit geometric reparameterization can conflict. Our final DAPETR model significantly advances the research and benchmark for fisheye BEV detection, providing critical insights into effective distortion-aware 3D perception design other than image rectification.
- Abstract(参考訳): フィッシュアイカメラは、低コストでフルカバーの視野(FOV)のために、自律走行認識スイートに広く展開されているが、3Dオブジェクト検出においてそのポテンシャルは依然として過小評価されている。
急激な放射歪みは、一様サンプリングの基本的な仮定に違反して、ほとんどのBEV検出器に挑戦する。
このギャップを埋めるために,混合ピンホール・フィッシュアイカメラの設置に適したプロジェクションフリー検出装置であるDistortion-Aware PETR(DAPETR)を提案する。
DAPETRには、2つの重要な学習適応モジュールが組み込まれており、魚眼幾何学と画像表現のための位置エンコーディングを調和させる統合歪み認識位置埋め込みと、画像特徴と3次元位置埋め込みを相互に適応する双方向特徴幾何共変調モジュールが組み込まれている。
変換されたKITTI-360ベンチマークの実験では、極座標(PolarPETR)におけるPETRに対する学習適応アプローチを体系的に比較した。
両方のメソッドがベースラインよりも改善されているのに対して、学習したモジュールは優れたパフォーマンスを実現しています。
重要なことは、両方の戦略を組み合わせる際に負の相互作用が発見され、学習された適応と明示的な幾何学的パラメータ化が相反することを明らかにする。
最終DAPETRモデルは魚眼BEV検出のための研究とベンチマークを著しく向上させ、画像修正以外の効果的な歪み認識3D知覚設計に関する重要な洞察を提供する。
関連論文リスト
- Geometry-Aware Fisheye-LiDAR Fusion for Robust 3D Object Detection in Low-Overlap Setups [8.422269543220251]
魚眼形状とBEV特徴歪みを考慮したGeometry-Aware Hybrid Fusion (GA-HF) フレームワークを提案する。
GA-HFは、KITTI-360、Dur360BEV、およびFisheye3DODデータセットの3つのベンチマークで評価される。
論文 参考訳(メタデータ) (2026-06-07T21:26:00Z) - Benchmarking Multi-View BEV Object Detection with Mixed Pinhole and Fisheye Cameras [5.227238848375275]
我々は、KITTI-360をnuScenesフォーマットに変換することで、混合カメラを用いたマルチビューBEV検出ベンチマークを導入する。
本研究は,ゼロショット評価のための修正とnuScenes訓練モデルの微調整の3つの適応を含む。
プロジェクションフリーアーキテクチャは本質的に他のVTMよりも頑丈で,魚眼の歪みに対して有効であることを示す。
論文 参考訳(メタデータ) (2026-03-29T19:10:34Z) - PFDepth: Heterogeneous Pinhole-Fisheye Joint Depth Estimation via Distortion-aware Gaussian-Splatted Volumetric Fusion [61.6340987158734]
ヘテロジニアス多視点深度推定のための最初のピンホール・フィッシュアイ・フレームワークPFDepthを提案する。
PFDepthは、ピンホールと魚眼カメラの任意の組み合わせを、様々な内在と外生とで処理できる統一アーキテクチャを採用している。
我々は,現在の主流深度ネットワーク上でのKITTI-360およびRealHetデータセットに対して,PFDepthが最先端の性能を示すことを示す。
論文 参考訳(メタデータ) (2025-09-30T09:38:59Z) - RQR3D: Reparametrizing the regression targets for BEV-based 3D object detection [0.4604003661048266]
Bird's-eye view (BEV)ベースの知覚アプローチは、パースペクティブベースのソリューションの優れた代替手段として現れている。
本稿では,3次元回帰目標を定義するために,制限付き四辺形表現を提案する。
RQR3Dは、2つのボックスの隅の間にあるオフセットとともに、指向するボックスをカプセル化する最小の水平境界ボックスを回帰する。
論文 参考訳(メタデータ) (2025-05-23T10:52:34Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文 参考訳(メタデータ) (2022-06-30T16:32:48Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。