論文の概要: Understanding Cross-Sensor Feature Variations for Generalizable 3D Perception
- arxiv url: http://arxiv.org/abs/2606.11573v1
- Date: Wed, 10 Jun 2026 01:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.247988
- Title: Understanding Cross-Sensor Feature Variations for Generalizable 3D Perception
- Title(参考訳): 一般化可能な3次元知覚のためのクロスセンサ特徴変化の理解
- Authors: Xin Qiu, Wenjie Liu, Fuyuan Ai, YuChen Tan, Zhiwei Xu, Chunyi Song,
- Abstract要約: 運転シーン、センサー構成、環境条件の変化は、入力された観察と内部の融合表現の両方を変えることができる。
本稿では、周波数領域における視覚シーンの変動を特徴付けるフレームワークを導入し、それを多種多様なソースドメインビューの合成に利用する。
これらの変動パターンは検出器を規則化するために使用され、学習された融合空間は潜伏したシーンの変化の下で安定し続けるように促される。
- 参考スコア(独自算出の注目度): 8.442256203698774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radar-camera BEV perception often suffers from degraded performance when evaluated across datasets, as changes in driving scenes, sensor configurations, and environmental conditions can alter both the input observations and the internal fused representations. This work studies this issue from the perspective of source-domain variation modeling, aiming to improve the robustness of BEV-based 3D detectors without relying on target-domain samples. We introduce a framework that characterizes visual scene variations in the frequency domain and uses them to synthesize diverse source-domain views. By comparing the resulting fused BEV representations, the framework further captures how image-level variations influence multi-modal BEV features. These variation patterns are then used to regularize the detector, encouraging the learned fusion space to remain stable under latent scene changes. The proposed method is applied only during training and leaves the inference pipeline unchanged. Experiments on cross-dataset radar-camera 3D detection between View-of-Delft and TJ4DRadSet demonstrate consistent improvements over multiple BEV fusion backbones, and the gains remain effective when a small amount of target-domain data is available.
- Abstract(参考訳): レーダカメラのBEV知覚は、駆動シーン、センサー構成、環境条件の変化が入力観察と内部融合表現の両方を変える可能性があるため、データセット間で評価された場合、劣化するパフォーマンスに悩まされることが多い。
本研究は,BEVをベースとした3次元検出器のロバスト性向上を目標領域サンプルに頼らずに実現することを目的として,ソースドメイン変動モデリングの観点からこの問題を考察する。
本稿では、周波数領域における視覚シーンの変動を特徴付けるフレームワークを導入し、それを多種多様なソースドメインビューの合成に利用する。
このフレームワークは、融合したBEV表現を比較することで、画像レベルの変動がマルチモーダルなBEV機能にどのように影響するかをさらに捉えている。
これらの変動パターンは検出器を規則化するために使用され、学習された融合空間は潜伏したシーンの変化の下で安定し続けるように促される。
提案手法はトレーニング中にのみ適用され,推論パイプラインは変更されない。
View-of-DelftとTJ4DRadSetのクロスデータセットレーダカメラによる3D検出実験では、複数のBEV融合バックボーンに対して一貫した改善が見られ、少量のターゲットドメインデータが利用可能であれば、ゲインは有効である。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)は、よく構造化されたBEV表現を構成する新しい3Dオブジェクト検出フレームワークである。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3% NDSの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。