論文の概要: Cross-View Urban Traffic Dataset: Drone-Supervised Ground Truth for Monocular Bird's-Eye View Localization
- arxiv url: http://arxiv.org/abs/2606.07708v1
- Date: Fri, 05 Jun 2026 11:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.300559
- Title: Cross-View Urban Traffic Dataset: Drone-Supervised Ground Truth for Monocular Bird's-Eye View Localization
- Title(参考訳): クロスビュー都市交通データセット:単眼鳥のEye Viewローカライゼーションのためのドローンスーパービジョングラウンドトゥルース
- Authors: Prakhar Bhardwaj, Simone Weikl, Kilian Mang, Elia Jonas Sandtner,
- Abstract要約: 我々は,エゴ中心の自転車映像と実際の都市交差点で録画された空中ドローン映像から構築された都市交通知覚のデータセットとベンチマークを紹介する。
このベンチマークは、ストリートビューとドローンビューのオブジェクトトラック間のクロスビューアイデンティティマッチングと、航空監視を用いたエゴ・ツー・バードの目視予測の2つの関連タスクをターゲットにしている。
- 参考スコア(独自算出の注目度): 0.3001251717100776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a dataset and benchmark for cross-view urban traffic perception built from synchronized ego-centric bicycle videos and aerial drone videos recorded at real urban intersections. The benchmark targets two linked tasks: cross-view identity matching between street-view and drone-view object tracks, and ego-to-bird's-eye-view prediction using aerial supervision. In contrast to prior urban driving and V2X datasets, our benchmark provides identity-level alignment across radically different viewpoints together with standardized evaluation, annotation tooling, and baseline implementations. This setting is motivated by intersection-centric traffic analysis, where identity preservation, local interactions, and global spatial structure must be reasoned about jointly across views. We evaluate methods at both the track and frame levels, including cross-view ID precision/recall/IDF1, near--far breakdowns, temporal stability, and consistency metrics. We also provide baseline results for wedge-based cross-view matching and for three BEV prediction baselines: inverse perspective mapping, a MonoLayout-style learned baseline, and a regression baseline. The results show that the benchmark is feasible but challenging: cross-view matching achieves strong recall yet remains limited by over-assignment and temporal inconsistency, while ego-to-BEV prediction benefits from aerial supervision but remains far from saturated under lightweight monocular sensing. We hope that this benchmark will support future research on cross-view perception, urban scene alignment, and ego-to-global traffic understanding.
- Abstract(参考訳): 実都市交差点で記録された自転車とドローンの同期映像から構築した都市交通知覚のデータセットとベンチマークを紹介する。
このベンチマークは、ストリートビューとドローンビューのオブジェクトトラック間のクロスビューアイデンティティマッチングと、航空監視を用いたエゴ・ツー・バードの目視予測の2つの関連タスクをターゲットにしている。
従来の都市運転やV2Xデータセットとは対照的に、我々のベンチマークは、標準化された評価、アノテーションツール、ベースライン実装とともに、根本的に異なる視点でアイデンティティレベルのアライメントを提供する。
この設定は交差点中心の交通分析によって動機付けられており、アイデンティティの保存、局所的相互作用、グローバル空間構造はビューを横断的に共同で考える必要がある。
我々は、トラックレベルとフレームレベルの両方で、クロスビューID精度/リコール/IDF1、近距離分解、時間安定性、一貫性の測定値などを評価する。
また、ウェッジベースのクロスビューマッチングと、逆視点マッピング、MonoLayoutスタイルの学習ベースライン、回帰ベースラインの3つのBEV予測ベースラインに対して、ベースライン結果を提供する。
クロスビューマッチングは、過割と時間的不整合によって強いリコールを達成できるが、エゴ・ツー・BEV予測は航空監督の恩恵を受けるが、軽量単分子センシングでは飽和には程遠い。
このベンチマークは、クロスビューの認識、都市景観のアライメント、そしてego-to-globalトラフィックの理解に関する将来の研究を支援することを願っている。
関連論文リスト
- Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling [31.36539752384395]
クロスビューUAVジオローカライゼーションは、ドローンが捉えた画像の正確な空間座標を、地理的に参照された広範囲な衛星データベースと整列させることを目的としている。
改良されたUAV-Satellite画像マッチングのための共同関係モデリングを明示的に行うために設計された,新しいプラグアンドプレイランキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-09T07:57:29Z) - History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation [64.51891404034164]
Aerial Vision-and-Language Navigation (AVLN) は、大規模都市環境でターゲットをローカライズするために無人航空機(UAV)のエージェントを必要とする。
既存のUAVエージェントは通常、これらの2つの側面のバランスに苦しむ単粒度フレームワークを採用する。
この研究は、粗いナビゲーションパイプラインを通じて2つの側面を統合するヒストリ強化2段階トランスフォーマー(HETT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-16T09:16:07Z) - Image-based Visibility Analysis Replacing Line-of-Sight Simulation: An Urban Landmark Perspective [2.3315115235829342]
この研究は、新しい画像ベースの可視性分析手法を導入することで、従来のLoSベースのアプローチに挑戦する。
最初のケーススタディでは、大都市における6つの高いランドマーク構造物の視認性を検出するための信頼性を87%の精度で証明した。
第二のケースでは、提案された可視グラフは、ロンドンのテムズ川に沿った複数のランドマークの接続形態と強度を明らかにする。
論文 参考訳(メタデータ) (2025-05-17T03:41:45Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View
Adaptation [20.476683921252867]
道路車両の視界から得られた知識をUAVの視界に適応させる新しいCROVIA(Cross-View Adaptation)アプローチを提案する。
まず、ビュー間の幾何学的相関に基づいて、クロスビュー適応に対する新しい幾何学的制約を導入する。
第2に、画像空間からのクロスビュー相関を、ペアオンロードとUAVのビューデータを必要としないセグメンテーション空間に効果的に転送する。
論文 参考訳(メタデータ) (2023-04-14T15:20:40Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle
Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。
既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。
Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文 参考訳(メタデータ) (2021-03-09T11:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。