論文の概要: See-and-Reach: Precise Vision-Language Navigation for UAVs within the Field of View
- arxiv url: http://arxiv.org/abs/2606.20045v1
- Date: Thu, 18 Jun 2026 10:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.792966
- Title: See-and-Reach: Precise Vision-Language Navigation for UAVs within the Field of View
- Title(参考訳): See-and-Reach: 視界内におけるUAVの精密視界ナビゲーション
- Authors: Fanfu Xue, En Yu, Yantian Shen, Zhikun Hu, Hongjun Wang, Yang Yang, Xindi Wang, Jiande Sun,
- Abstract要約: UAV-VLN (UAV Vision-Language Navigation) は、一般に総合的な探索と到達の問題として定式化されている。
UAV-VLN-FOVは,視線と視線を分離した目標視認可能なナビゲーションタスクである。
3DG-VLNは動的3次元方向の手がかりによって導かれる視覚言語ウェイポイント予測フレームワークである。
- 参考スコア(独自算出の注目度): 22.860978565302233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAV Vision-Language Navigation (UAV-VLN) is typically formulated as a holistic search-and-reach problem, where long-range target discovery and final target approach are optimized and evaluated jointly. This formulation makes it difficult to assess a critical capability of aerial embodied agents, namely whether a UAV can accurately ground a visible target and translate vision-language evidence into precise 3D motion once the target enters its field of view. To address this limitation, we introduce UAV-VLN-FOV, a target-visible navigation task that isolates the see-and-reach stage and enables a more diagnostic evaluation of terminal reaching ability. We further propose 3DG-VLN, a vision-language waypoint prediction framework guided by dynamic 3D direction cues to enhance fine-grained visual grounding and spatial direction alignment for precise target reaching. Specifically, 3DG-VLN adaptively processes high-resolution front-view and downward-view observations to preserve fine-grained visual and geometric details for target grounding. It also updates the target-relative direction online during closed-loop navigation, allowing the agent to maintain spatial alignment with the target and reduce accumulated direction drift. To support this task, we construct a dedicated high-resolution benchmark which contains 2,717 trajectories with target-oriented high-level instructions, high-resolution front-view and downward-view egocentric observations, and continuous 3D waypoint annotations. Experiments show that 3DG-VLN outperforms competitive UAV-VLN baselines, achieving a 13.82\% improvement in success rate. Real-world trials further demonstrate the potential of 3DG-VLN for practical see-and-reach navigation. The source code and benchmark are available at https://github.com/xuefanfu/3DG-VLN.
- Abstract(参考訳): UAV-VLN (UAV Vision-Language Navigation) は通常、長距離目標発見と最終目標アプローチを最適化し、共同で評価する全体的探索・到達問題として定式化される。
この定式化により、UAVが目に見える標的を正確に接地し、目標が視野に入ると、視覚言語による証拠を正確に3D運動に変換することができるかどうかを、航空体化剤の臨界能力を評価するのが困難になる。
この制限に対処するため,我々は,目標視認可能なナビゲーションタスクであるUAV-VLN-FOVを導入する。
さらに3DG-VLNを提案する。これは動的3D方向キューによってガイドされる視覚言語ウェイポイント予測フレームワークで、精密な目標到達のためのきめ細かい視覚的接地と空間的方向アライメントを強化する。
具体的には、3DG-VLNは、高解像度の正面視と下方視の観察を適応的に処理し、ターゲット接地のための微細な視覚的および幾何学的詳細を保存する。
また、クローズドループナビゲーション中のターゲット相対方向をオンラインで更新し、エージェントがターゲットとの空間的アライメントを維持し、蓄積した方向のドリフトを減らすことができる。
このタスクを支援するために,目標指向の高レベル命令,高解像度のフロントビューと下向きのエゴセントリックな観測,連続的な3Dウェイポイントアノテーションを備えた2,717のトラジェクトリを含む専用高解像度ベンチマークを構築した。
実験の結果、3DG-VLNは競争力のあるUAV-VLNベースラインを上回り、13.82 %の成功率の向上を達成した。
現実の試行は、3DG-VLNの実用的なシー・アンド・リーチナビゲーションの可能性をさらに実証する。
ソースコードとベンチマークはhttps://github.com/xuefanfu/3DG-VLNで公開されている。
関連論文リスト
- AgenticDiffusion: Agentic Diffusion-based Path Planning for Vision-Based UAV Navigation [2.186077977059593]
屋内UAVナビゲーションは、視野の限られた観測下での効率的な探索、シーン理解、信頼性の高い軌道実行を必要とする。
本稿では,多視点UAVナビゲーションフレームワークであるAgenticDiffusionを提案する。
このフレームワークは、適応的な視点選択、多段階のミッション実行、長距離ナビゲーション、安全な着陸場所選択を含む4つの現実のUAVナビゲーションシナリオで検証された。
論文 参考訳(メタデータ) (2026-06-02T18:18:35Z) - LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation [96.09246387639006]
LookasideVLNは、より正確な空間推論とより高い計算効率を達成するために、自然言語の方向の手がかりを利用する。
LookasideVLNは、シングルレベルのルックアヘッドでも、最先端のCityNavAgentよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-19T01:36:53Z) - Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - 3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。
3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。
ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文 参考訳(メタデータ) (2026-02-12T16:41:26Z) - Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space [48.19308247102762]
本稿では,過去のフレームや行動に照らされた将来の視覚的観察を予測する航空ナビゲーションワールドモデルANWMを提案する。
ANWMは4-DoF UAV軌道で訓練され、物理学にインスパイアされたモジュールであるFuture Frame Projectionを導入した。
実験により、ANWMは長距離視覚予測において既存の世界を著しく上回り、大規模環境でのUAV航法成功率を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-26T06:22:39Z) - Aerial Vision-and-Language Navigation with Grid-based View Selection and Map Construction [102.70482302750897]
Aerial Vision-and-Language Navigation (Aerial VLN)は、人間の指示に従って空中3D環境をナビゲートする無人航空機エージェントの取得を目的としている。
より長い航法、より複雑な3Dシーン、垂直アクションと水平アクションの相互作用の無視により、従来の手法はうまく機能しない。
グリッドベースのビュー選択タスクとして空のVLN動作予測を定式化する,グリッドベースのビュー選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T05:20:43Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。