論文の概要: WHU-Infra3D: A Full-stack Multi-modal Dataset and Benchmark for 3D Roadside Infrastructure Inventory
- arxiv url: http://arxiv.org/abs/2606.09882v1
- Date: Wed, 03 Jun 2026 06:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.001072
- Title: WHU-Infra3D: A Full-stack Multi-modal Dataset and Benchmark for 3D Roadside Infrastructure Inventory
- Title(参考訳): WHU-Infra3D: 3Dロードサイドインフラストラクチャインベントリのためのフルスタックマルチモーダルデータセットとベンチマーク
- Authors: Chong Liu, Luxuan Fu, Xuyu Feng, Zhen Dong, Bisheng Yang,
- Abstract要約: WHU-Infra3Dは、ロードサイドインフラストラクチャインベントリ専用の大規模マルチモーダルベンチマークデータセットである。
WHU-Infra3Dは3都市で53.8kmをカバーし、パノラマ画像とLiDAR点雲を厳密な2D-3Dアソシエーションインスタンスとクロスフレームトラッキングと一体化している。
- 参考スコア(独自算出の注目度): 11.807389677546134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of digital twin cities is shifting from coarse visual mapping toward more precise and actionable digitization of urban assets. However, existing datasets predominantly focus on coarse visual perception, lacking the strict multi-modal alignment and attribute and status diagnosis required for automated infrastructure maintenance. To bridge this gap, we introduce WHU-Infra3D, a large-scale, multi-modal benchmark dataset dedicated to roadside infrastructure inventory. Covering 53.8 km across three cities, WHU-Infra3D uniquely integrates panoramic imagery and LiDAR point clouds with rigorous 2D-3D instance association and cross-frame tracking. Comprising over 175k multi-view 2D bounding boxes alongside thousands of 3D infrastructure instances, the dataset provides over 181k detailed attribute and status annotations (e.g., rust, occlusion) to empower operational health assessment. We establish comprehensive baselines across five core tasks: 2D detection, 2D cross-view matching, 3D geo-identification, 3D point cloud segmentation, and attribute recognition. Extensive evaluations expose significant cross-city domain gaps and inherent vulnerabilities of current models on long-tailed defective statuses, establishing WHU-Infra3D as an essential testbed for advancing scalable, AI-driven urban infrastructure inventory and lifecycle management. The WHU-Infra3D dataset is available at https://github.com/WHU-USI3DV/WHU-Infra3D.
- Abstract(参考訳): デジタルツインシティーのパラダイムは、粗いビジュアルマッピングから、より正確で実用的な都市資産のデジタル化へとシフトしつつある。
しかし、既存のデータセットは主に粗い視覚知覚に焦点を当てており、自動化されたインフラストラクチャのメンテナンスに必要な厳密なマルチモーダルアライメントと属性とステータス診断が欠如している。
このギャップを埋めるために、道路インフラストラクチャインベントリ専用の大規模マルチモーダルベンチマークデータセットであるWHU-Infra3Dを紹介します。
WHU-Infra3Dは3都市で53.8kmをカバーし、パノラマ画像とLiDAR点雲を厳密な2D-3Dインスタンスアソシエーションとクロスフレームトラッキングと統合している。
数千の3Dインフラストラクチャインスタンスとともに175万以上のマルチビュー2Dバウンディングボックスを補完するデータセットは、181万以上の詳細な属性とステータスアノテーション(例えば、ラスト、オクルージョン)を提供して、運用上のヘルスアセスメントを強化する。
我々は,2D検出,2Dクロスビューマッチング,3Dジオアイデンティティ,3Dポイントクラウドセグメンテーション,属性認識という5つのコアタスクにまたがる包括的ベースラインを確立する。
大規模な評価は、拡張性のあるAI駆動の都市インフラストラクチャのインベントリとライフサイクル管理を進化させる上で不可欠なテストベッドとしてWHU-Infra3Dを確立することで、現在のモデルが長い尾の欠陥状態において、重要な都市間ドメインギャップと固有の脆弱性を明らかにしている。
WHU-Infra3Dデータセットはhttps://github.com/WHU-USI3DV/WHU-Infra3Dで公開されている。
関連論文リスト
- An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving [25.37985701473846]
本稿では,3次元パノプティカル占有予測タスクのインスタンス中心ベンチマークを提案する。
具体的には、自律運転に適した最初の統合3DメッシュライブラリであるADMeshを紹介する。
大規模で物理的に一貫した汎光学占有データセットであるCarlaOccを構築した。
論文 参考訳(メタデータ) (2026-03-28T11:22:31Z) - S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud [53.23686565523385]
本稿では,S2AM3Dを提案する。
我々は、ネイティブな3Dコントラスト学習を通じて、多視点2D特徴を集約する点一貫性部分エンコーダを設計する。
次に、セグメント化粒度のリアルタイムな調整を可能にするために、スケール対応プロンプトデコーダを提案する。
論文 参考訳(メタデータ) (2025-11-30T17:32:54Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - TUM2TWIN: Introducing the Large-Scale Multimodal Urban Digital Twin Benchmark Dataset [90.97440987655084]
都市デジタルツインズ(UDT)は、都市管理と多様なソースからの複雑な異種データの統合に欠かせないものとなっている。
これらの課題に対処するために、最初の総合的マルチモーダルなUrban Digital TwinベンチマークデータセットTUM2TWINを紹介する。
このデータセットには、地理的にセマンティックに整合した3Dモデルとネットワーク、およびさまざまな地球、モバイル、航空、衛星観測結果、約10,000ドル以上のデータサブセット、そして現在767GBのデータが含まれている。
論文 参考訳(メタデータ) (2025-05-12T09:48:32Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - InScope: A New Real-world 3D Infrastructure-side Collaborative Perception Dataset for Open Traffic Scenarios [13.821143687548494]
本稿では,新しい3次元インフラ側協調認識データセットについて紹介する。
InScopeは303の追跡軌道と187,787個の3D境界ボックスで20日間の捕獲期間をカプセル化している。
論文 参考訳(メタデータ) (2024-07-31T13:11:14Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。