論文の概要: DDStereo: Efficient Dual Decoder Transformers for Stereo 3D Road Anomaly Detection
- arxiv url: http://arxiv.org/abs/2606.24805v1
- Date: Tue, 23 Jun 2026 16:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.097471
- Title: DDStereo: Efficient Dual Decoder Transformers for Stereo 3D Road Anomaly Detection
- Title(参考訳): DDStereo: ステレオ3次元道路異常検出のための高効率デュアルデコーダ変換器
- Authors: Shiyi Mu, Zichong Gu, Zhiqi Ai, Yilin Gao, Shugong Xu,
- Abstract要約: DDStereoはDual-Decoder Stereo Transformerで、リアルタイムのオープンセット3Dオブジェクト検出を行う。
提案手法は,既存のステレオ3次元検出器を推定速度で超越し,単分子法に匹敵するリアルタイム性能を初めて達成する。
- 参考スコア(独自算出の注目度): 19.129272402040915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo-based 3D object detection still faces two critical safety challenges: real-time performance and open-set generalization. Existing stereo 3D methods typically achieve twice the accuracy of monocular methods but suffer from significantly lower inference speeds, making them unsuitable for real-time applications. Meanwhile, recent advances in open-world detection have introduced open-set and open-vocabulary algorithms in monocular 2D and 3D settings, yet stereo-based open-set detection remains largely unexplored. To bridge this gap, we propose DDStereo, a novel Dual-Decoder Stereo Transformer for real-time open-set 3D object detection. DDStereo features two lightweight decoder branches: one for open-set foreground 2D detection and the other for 3D attribute regression. These decoders share object-level queries to achieve unified target-level alignment. To enhance inference efficiency, we designed a compact disparity feature extractor and a streamlined decoder architecture. Experiments on public stereo 3D benchmarks demonstrate that DDStereo achieves state-of-the-art accuracy under both closed-set and open-set protocols. Notably, our method surpasses existing stereo 3D detectors in inference speed and, for the first time, achieves real-time performance comparable to monocular approaches.
- Abstract(参考訳): ステレオベースの3Dオブジェクト検出は、リアルタイムパフォーマンスとオープンセットの一般化という、2つの重要な安全課題に直面している。
既存のステレオ3D法は、典型的には単分子法の2倍の精度を達成するが、推論速度が著しく低いため、リアルタイムアプリケーションには適さない。
一方、最近のオープンワールド検出の進歩は、モノクロ2Dと3D設定でオープンセットとオープンボキャブラリアルゴリズムを導入したが、ステレオベースのオープンセット検出はいまだに探索されていない。
このギャップを埋めるために、DDStereoという新しいDual-Decoder Stereo Transformerを提案する。
DDStereoは2つの軽量デコーダブランチを備えている。1つはオープンセットフォアグラウンド2D検出用であり、もう1つは3D属性回帰用である。
これらのデコーダはオブジェクトレベルのクエリを共有して、統一されたターゲットレベルのアライメントを実現する。
推論効率を向上させるために,コンパクトな分散特徴抽出器と合理化デコーダアーキテクチャを設計した。
パブリックステレオ3Dベンチマークの実験は、DDStereoがクローズドセットとオープンセットの両方のプロトコルで最先端の精度を達成することを示した。
特に,提案手法は,既存のステレオ3D検出器を推定速度で超越し,単分子法に匹敵するリアルタイム性能を初めて達成する。
関連論文リスト
- StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection [31.8104389684728]
本稿では2次元検出誘導多視点3D検出器に時間的ステレオモデリングを統合する統合フレームワークであるStereoMV2Dを提案する。
StereoMV2Dは、隣接するフレームにまたがる同じオブジェクトの時間的差異を利用して、深度知覚を強化し、クエリ先行を洗練する。
nuScenesとArgoverse 2データセットの実験により、StereoMV2Dは計算オーバーヘッドを発生させることなく、優れた検出性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-19T14:25:46Z) - LeAD-M3D: Leveraging Asymmetric Distillation for Real-time Monocular 3D Detection [72.97402509843484]
LeAD-M3Dは最先端のモノクル3D検出器であり、余分なモダリティを伴わずに最先端の精度とリアルタイムの推論を実現する。
非対称増強脱ノイズ蒸留(A2D2)は、幾何学的知識をクリーンイメージの教師からミックスアップノイズの学生に伝達する。
3D-Aware Consistent Matching (CM3D) は、予測と地上の真理の割り当てを改善する。
CGI3D(Confidence-Gated 3D Inference)は、高額な3Dレグレッションをトップ信頼領域に制限することで、検出を加速する。
論文 参考訳(メタデータ) (2025-12-05T12:08:18Z) - StereoDETR: Stereo-based Transformer for 3D Object Detection [29.652689845108046]
我々は,DETRに基づく効率的なステレオ3Dオブジェクト検出フレームワークであるStereoDETRを提案する。
単分子アプローチの精度は2倍になるが、推論速度はわずか半分である。
また、KITTIベンチマークの競合精度も達成し、歩行者およびサイクリストのサブセットに新たな最先端の結果を設定する。
論文 参考訳(メタデータ) (2025-11-24T05:38:31Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection [0.0]
Pseudo-Stereoに基づくモノクル3D検出のためのフレームワークが最近提案され、コミュニティで注目されている。
本研究では,単一視点拡散モデルを導入することで,エンドツーエンドで効率的な擬似ステレオ3D検出フレームワークを提案する。
SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-07-05T13:10:37Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。