論文の概要: VGP-Nav: Metric-Aware Visual Geometric Perception for Robot Navigation
- arxiv url: http://arxiv.org/abs/2606.09268v1
- Date: Mon, 08 Jun 2026 09:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.903456
- Title: VGP-Nav: Metric-Aware Visual Geometric Perception for Robot Navigation
- Title(参考訳): VGP-Nav:ロボットナビゲーションのためのメトリクス認識型視覚幾何学的知覚
- Authors: Hewei Pan, Weiye Zhu, Zekai Zhang, Zitong Huang, Rongtao Xu, Jinbao Wang, Feng Zheng,
- Abstract要約: VGP-Navは、テキスト・メトリック・アウェア・ビジュアル・ジオメトリック・パーセプションのための統合されたフレームワーク
単分子RGB入力にのみ依存し、メトリックローカライゼーションと障害物知覚を共同で支援する。
VGP-Navはモノクルスケールのあいまいさをオンラインで解決し、局所化基底の計量障害物表現を生成する。
- 参考スコア(独自算出の注目度): 59.44896676402453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable robotic navigation necessitates the seamless integration of accurate global localization and dense, metric-consistent obstacle perception. A common strategy to achieve these capabilities involves integrating diverse sensing modalities: cameras offer rich visual features for localization, while active sensors like LiDAR provide direct metric measurements. However, such multi-sensor configurations necessitate complex spatial-temporal calibration and increase deployment overhead. Although vision-only approaches offer a low-cost and scalable alternative, existing monocular visual systems typically struggle to simultaneously achieve efficient, globally consistent localization and dense, metric-consistent geometric perception. To bridge this gap, we propose \textbf{VGP-Nav}, a unified framework for \textit{Metric-Aware Visual Geometric Perception} that relies solely on monocular RGB input to jointly support metric localization and obstacle perception. Our key insight is to anchor localization-grounded visual geometry to physically meaningful scale constraints derived from ground-plane geometry, thereby providing a reliable metric reference for monocular perception. VGP-Nav resolves monocular scale ambiguity online and produces localization-grounded, metric obstacle representations that are directly applicable to downstream planning. Extensive experiments demonstrate strong generalization across diverse environments and successful deployment on real mobile robots, highlighting the practicality of our approach for scalable, low-cost, and safe autonomous navigation.
- Abstract(参考訳): 信頼性の高いロボットナビゲーションは、正確なグローバルローカライゼーションと、密集した計量一貫性のある障害物知覚のシームレスな統合を必要とする。
カメラはローカライゼーションのためのリッチな視覚的特徴を提供するが、LiDARのようなアクティブなセンサーは直接測定値を提供する。
しかし、このようなマルチセンサー構成は、複雑な空間的時間的キャリブレーションを必要とし、配置オーバーヘッドを増大させる。
視覚のみのアプローチは低コストでスケーラブルな代替手段を提供するが、既存の単眼視覚システムは通常、効率的でグローバルに一貫したローカライゼーションと密集した計量一貫性のある幾何学的知覚を同時に達成するのに苦労する。
このギャップを埋めるために,単分子RGB入力のみに頼り,メトリックローカライゼーションと障害物知覚を協調的に支援する, \textit{Metric-Aware Visual Geometric Perception} のための統合フレームワークである \textbf{VGP-Nav} を提案する。
我々の重要な洞察は、地平線幾何学から導かれる物理的に意味のあるスケールの制約に局所化地上の視覚幾何学を固定することであり、それによって単眼知覚に対する信頼性の高い計量基準を提供する。
VGP-Navはモノクルスケールのあいまいさをオンラインで解決し、下流の計画に直接適用可能な局所化基底のメトリクス障害物表現を生成する。
大規模な実験は、多様な環境にまたがる強力な一般化と、実際の移動ロボットへの展開の成功を示し、スケーラブルで低コストで安全な自律ナビゲーションのためのアプローチの実用性を強調している。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning [17.389094942979455]
GeoLanGは言語誘導の把握のためのエンドツーエンドのマルチタスクフレームワークである。
視覚的および言語的な入力を共有表現空間に統一し、ロバストなセマンティックアライメントと一般化を改善する。
その結果,GeoLanGは複雑で散在した環境において,正確かつ堅牢な言語誘導の把握を可能にすることを示した。
論文 参考訳(メタデータ) (2026-02-04T05:42:55Z) - TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。
提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。
シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文 参考訳(メタデータ) (2025-09-10T15:43:32Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Tightly-Coupled LiDAR-Visual SLAM Based on Geometric Features for Mobile
Agents [43.137917788594926]
幾何学的特徴に基づく密結合LiDAR視覚SLAMを提案する。
視覚サブシステムによって検出された全ラインセグメントは、LiDARサブシステムの制限を克服する。
本システムは,現在最先端のマルチモーダル手法と比較して,より正確でロバストなポーズ推定を実現する。
論文 参考訳(メタデータ) (2023-07-15T10:06:43Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。