論文の概要: Monocular 3D Occupancy Perception for Robots on Sidewalks via Hybrid 2D-3D Learning
- arxiv url: http://arxiv.org/abs/2606.19122v1
- Date: Wed, 17 Jun 2026 14:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.207374
- Title: Monocular 3D Occupancy Perception for Robots on Sidewalks via Hybrid 2D-3D Learning
- Title(参考訳): ハイブリッド2D-3D学習による歩道ロボットの単眼3次元動作知覚
- Authors: Yukai Ma, Joe Lin, Liu Liu, Honglin He, Lulu Ricketts, Brad Squicciarini, Yong Liu, Bolei Zhou,
- Abstract要約: WalkOCCは、歩道で動くロボットのためのハイブリッドなレイマーチモノクロ3D占有感フレームワークである。
ペア化されたシーケンスから擬似占有管理をブートストラップし、追加の2Dデータに基づいて画像レベルの表現を共同で学習する。
コストのかかる3D占有アノテーションを必要とせず、安定した最適化と一般化の改善を実現している。
- 参考スコア(独自算出の注目度): 36.24525372937089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sidewalks in the real world are crowded, cluttered, and less structured than roads, making 3D occupancy prediction a key ingredient for the safe navigation of mobile robots such as delivery bots and electric wheelchairs. Existing occupancy learning pipelines are largely designed for on-road autonomous driving and often train on large-scale paired LiDAR-RGB datasets with dense 3D supervision and multiple camera inputs, which are costly to collect and do not adequately capture sidewalk-specific characteristics. We propose WalkOCC, a hybrid Ray-marching monocular 3D occupancy perception framework for robots operating on sidewalks. WalkOCC explicitly couples geometric grounding from LiDAR-RGB paired data with scalable learning from large-scale unpaired monocular images. It bootstraps pseudo occupancy supervision from paired sequences and jointly learns image-level representations on additional 2D-only data. It yields stable optimization and improved generalization without requiring costly 3D occupancy annotations. Extensive experiments demonstrate consistent gains in prediction accuracy, fine-grained segmentation of subtle urban structures such as curbs and gutters, and robustness to environmental and cross-embodiment shifts compared with self-supervised image-based baselines. To facilitate evaluation and benchmarking, we also introduce Sidewalk3D, a large-scale sidewalk perception dataset with LiDAR-camera paired sequences collected across multiple locations and time periods, along with 3D semantic occupancy annotations for evaluation. Code and data will be made available.
- Abstract(参考訳): 現実世界の歩道は道路よりも混み合っており、散らばっており、道路よりも構造が低いため、配達ロボットや電動車椅子といった移動ロボットの安全なナビゲーションには、3Dの占有率予測が重要な要素となっている。
既存の占有学習パイプラインは、主に道路上での自動運転用に設計されており、しばしば歩道固有の特徴を適切に捉えない、高密度の3D監視と複数のカメラ入力を備えた大規模なLiDAR-RGBデータセットでトレーニングする。
歩道で作業するロボットのためのハイブリッドな光マーチングモノクル3D占有感フレームワークであるWalkOCCを提案する。
WalkOCCは、LiDAR-RGBペアデータからの幾何学的接地と、大規模単眼画像からのスケーラブルな学習を明示的に結合する。
ペア化されたシーケンスから擬似占有管理をブートストラップし、追加の2Dデータに基づいて画像レベルの表現を共同で学習する。
コストのかかる3D占有アノテーションを必要とせず、安定した最適化と一般化の改善を実現している。
大規模な実験では、予測精度、縁石や溝などの微妙な都市構造のきめ細かなセグメンテーション、そして自己監督された画像ベースラインと比較して環境や身体の移動に対する頑健さが一貫した向上を示した。
評価とベンチマークを容易にするために,LiDARカメラを用いた大規模歩道認識データセットであるSidewalk3Dを導入する。
コードとデータは利用可能になる。
関連論文リスト
- STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation [20.183016318362558]
STONEはオフロードナビゲーションのための大規模マルチモーダルデータセットである。
データセットは昼夜、草原、農地、建設現場、湖など幅広い環境と環境をカバーしている。
ボクセルレベルの3次元トレーサビリティ予測のベンチマークを確立し,単一モードとマルチモードの両方で強力なベースラインを提供する。
論文 参考訳(メタデータ) (2026-03-10T04:26:00Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation [32.50849425431012]
マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。
最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。
本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
論文 参考訳(メタデータ) (2024-11-19T02:40:42Z) - Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution [4.204990010424084]
自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
本稿では、正面2Dカメラ画像とLiDARスキャンから特徴を抽出し、3Dセマンティック占有予測にスパース畳み込みネットワーク(Minkowski Engine)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T17:50:59Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Cityscapes 3D: Dataset and Benchmark for 9 DoF Vehicle Detection [7.531596091318718]
我々はCityscapes 3Dを提案し、Cityscapesのオリジナルのデータセットを拡張し、あらゆる種類の車両に対して3Dバウンディングボックスアノテーションを提供する。
既存のデータセットとは対照的に、3DアノテーションはステレオRGB画像のみを使用してラベル付けされ、9自由度をすべてキャプチャしました。
さらに、我々はCityscapesベンチマークスイートを、新しいアノテーションに基づく3D車両検出と、この研究で提示されたメトリクスで補完する。
論文 参考訳(メタデータ) (2020-06-14T10:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。