論文の概要: BEV-Denoise: Learning Intrinsic Noise for Accurate Bird's-Eye-View Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2606.22931v1
- Date: Mon, 22 Jun 2026 07:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:28:20.879914
- Title: BEV-Denoise: Learning Intrinsic Noise for Accurate Bird's-Eye-View Semantic Segmentation
- Title(参考訳): BEV-Denoise: 正確な鳥の視点的セマンティックセマンティックセグメンテーションのための固有ノイズ学習
- Authors: Dooseop Choi, Kyounghwan An, Kyoung-Wook Min,
- Abstract要約: 我々は,Bird's-Eye-View (BEV) 機能から固有ノイズを推定・除去し,正確なBEVセマンティックセマンティックセグメンテーションを実現する textbfBEV-Denoise というフレームワークを提案する。
DDPM(Denoising Diffusion Probabilistic Models)のノイズ推定機能に着想を得て,学習したBEV特徴からノイズを推定するUNetベースのノイズ推定モジュールを設計する。
そして、推定ノイズをBEV特徴から減算し、最終的な予測結果のためにBEVマップデコーダに供給する。
- 参考スコア(独自算出の注目度): 3.568466510804539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a framework dubbed \textbf{BEV-Denoise} that estimates and removes intrinsic noise from learned Bird's-Eye-View (BEV) features to achieve accurate BEV semantic segmentation. Inspired by the noise estimation capability of Denoising Diffusion Probabilistic Models (DDPM), we design a UNet-based noise estimation module that learns to estimate the noise from the learned BEV features. The estimated noise is then subtracted from the BEV features and fed to BEV map decoders for the final prediction results. To facilitate supervision for the noise estimation module, we follow a sequential learning paradigm called Task Decomposition (TD) where a pre-trained BEV map autoencoder is employed to train a view transformation (VT) encoder. We share three key insights learned from our intensive experiments that are critical for improved performance. We apply our framework to four existing models, encompassing the three major VT paradigms. Experimental results on a large-scale real-world dataset, nuScenes, demonstrate the effectiveness of our framework.
- Abstract(参考訳): 本稿では,学習したBird's-Eye-View(BEV)機能から固有ノイズを推定・除去し,正確なBEVセマンティックセマンティックセマンティックセグメンテーションを実現するフレームワークを提案する。
DDPM(Denoising Diffusion Probabilistic Models)のノイズ推定機能に着想を得て,学習したBEV特徴からノイズを推定するUNetベースのノイズ推定モジュールを設計する。
そして、推定ノイズをBEV特徴から減算し、最終的な予測結果のためにBEVマップデコーダに供給する。
ノイズ推定モジュールの監視を容易にするために,事前学習されたBEVマップオートエンコーダを用いてビュートランスフォーメーション(VT)エンコーダを訓練するタスク分解(TD)と呼ばれる逐次学習パラダイムに従う。
パフォーマンス向上に不可欠である集中的な実験から学んだ3つの重要な洞察を共有します。
3つの主要なVTパラダイムを含む、既存の4つのモデルに私たちのフレームワークを適用します。
大規模な実世界のデータセットであるnuScenesの実験結果は、我々のフレームワークの有効性を実証している。
関連論文リスト
- BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance [14.315057684079397]
自律走行作業において,バードアイビュー(BEV)の表現が重要な役割を担っている。
センサーの限界と学習プロセスから生じる固有のノイズは、ほとんど役に立たないままです。
BEVDiffuser は,BEV特徴マップを地中構造オブジェクトレイアウトをガイダンスとして効果的に識別する,新しい拡散モデルである。
論文 参考訳(メタデータ) (2025-02-27T02:11:29Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。
実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。
DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文 参考訳(メタデータ) (2023-03-15T02:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。