論文の概要: Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation
- arxiv url: http://arxiv.org/abs/2606.06836v1
- Date: Fri, 05 Jun 2026 02:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.523378
- Title: Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation
- Title(参考訳): パイロットっぽい! 長距離UAV航法
- Authors: Xiangyi Zheng, Xiangyu Wang, Qinan Liao, Zimu Tang, Yue Liao, Dongyue Lyu, Guodong Wang, Junjie Liu, Si Liu,
- Abstract要約: 言語誘導型UAVエージェントは、スムーズで物理的に実行可能な連続飛行コマンドを生成しながら、長い水平意味指示を実行しなければならない。
textbfFine-fine textbfLong-horizon textbf Instruction-textbfGuided benchmark for textbfHybrid UAV navigation and reasoning textbfTasks。
UAVエージェントにタスク実行状況とミッション計画に対するリアルタイム飛行中の推論能力を与えるため、我々は、
- 参考スコア(独自算出の注目度): 22.062997228195815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided UAV agents must execute long-horizon semantic instructions while producing smooth, physically feasible continuous flight commands, yet existing Vision-Language Navigation (VLN) benchmarks typically use discrete or coarse actions and existing UAV Vision-Language-Action (VLA) tasks focus on short, atomic maneuvers. To address this gap in UAV task settings, we introduce \textbf{FLIGHT}, a \textbf{F}ine-grained \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G}uided benchmark for \textbf{H}ybrid UAV navigation and reasoning \textbf{T}asks, which combines multi-stage instructions with dense 6-DoF trajectory annotations across two dataset splits: Fine-grained VLN and Long-horizon Flow. To endow the UAV agent with the capability of real-time in-flight reasoning over task execution status and mission planning, while simultaneously accommodating high-frequency, real-time precise control, we further propose \textbf{FLIGHT VLA}, an asynchronous architecture that decouples a low-frequency Streaming Pilot Vision-Language Model (VLM) for task-state reasoning from a high-frequency diffusion action model for continuous control, supervised by explicit \textbf{Pilot Reasoning} texts that summarize the current flight state and anticipate the next subgoal. In closed-loop evaluation, FLIGHT VLA consistently surpasses representative VLN and VLA baselines on our FLIGHT benchmarks, achieving stronger multi-stage completion, subgoal adherence, and terminal control. Its trained Streaming Pilot Reasoning VLM further improves UAV video reasoning, validating the effectiveness of our design.
- Abstract(参考訳): 言語誘導型UAVエージェントは、スムーズで物理的に実現可能な連続飛行コマンドを生成しながら、長距離セマンティック命令を実行しなければならないが、既存のVision-Language Navigation (VLN)ベンチマークは、通常、離散的または粗いアクションを使用し、既存のUAV Vision-Language-Action (VLA)タスクは、短くて原子的な操作に重点を置いている。
UAVタスク設定におけるこのギャップに対処するために、UAVナビゲーションと推論のためのベンチマークである \textbf{F}ine-fine \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G}uided ベンチマークである \textbf{H}ybrid \textbf{T}asksを紹介します。
UAVエージェントにタスク実行状況とミッション計画のリアルタイム推論機能を持たせるとともに、高周波でリアルタイムな精密制御を同時に行うことを目的として、現在の飛行状態を要約した明示的な \textbf{Pilot Reasoning} テキストで指示された、連続制御のための高周波拡散動作モデルからタスク状態推論のための低周波ストリーミングパイロットビジョンランゲージモデル(VLM)を分離する非同期アーキテクチャである \textbf{FLIGHT VLA} を提案する。
閉ループ評価において、FLIGHT VLAは、我々のFLIGHTベンチマークにおける代表VLNおよびVLAベースラインを一貫して上回り、より強力なマルチステージ完了、サブゴール付着、端末制御を実現している。
トレーニングされたStreaming Pilot Reasoning VLMは、UAVビデオ推論をさらに改善し、我々の設計の有効性を検証する。
関連論文リスト
- MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - LiteVLA-H: Dual-Rate Vision-Language-Action Inference for Onboard Aerial Guidance and Semantic Perception [0.6119773373677944]
本稿では,Jets NVIDIAon AGX Orin上での2段演算のためのコンパクト256MパラメータVLAシステムLiteVLA-Hを提案する。
中心的な経験的観察は、このコンパクトなエッジ状態において、エンドツーエンドのレイテンシはマルチモーダルなプリフィルによって支配されるということである。
記述能力を損なうことなくモデルを専門化するために、反応飛行データ、空中意味データ、一般的なキャプション/VQA監視を混合した知識保存型微調整レシピを使用する。
論文 参考訳(メタデータ) (2026-04-27T06:42:50Z) - VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models [80.1055544841585]
ビジョン・ランゲージ・アクションモデルは通常、視覚観察と言語指示を直接ロボット制御信号にマッピングする。
本稿では,高レベルの推論と低レベルの実行を,構造化された視覚的プロンプトインタフェースを介して分離する,デュアルシステムフレームワークであるVP-VLAを提案する。
Robocasa-GR1-TabletopベンチマークとSimplerEnvシミュレーションの実験は、VP-VLAが成功率を5%と8.3%改善することを示した。
論文 参考訳(メタデータ) (2026-03-23T14:08:58Z) - LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration [49.676794850174325]
LongFlyは、長距離UAV VLNのための履歴認識時間モデリングフレームワークである。
断片化され、冗長な履歴データを構造化され、コンパクトで表現力のある表現に変換する。
最先端のUAV VLNベースラインを7.89%、成功率6.33%で上回っている。
論文 参考訳(メタデータ) (2025-12-26T12:09:40Z) - IndoorUAV: Benchmarking Vision-Language UAV Navigation in Continuous Indoor Environments [21.821075450697027]
Vision-IndoorLanguage Navigation (VLN)は、視覚的な観察に基づく自然言語命令に従うことで、エージェントが複雑な環境でのナビゲーションを可能にする。
室内のUAVベースのVLNは、検査、配送、捜索・救助といった現実世界の応用に関係があるにもかかわらず、未調査のままである。
室内UAVを用いたVLNに適した新しいベンチマークと手法である textbfIndoorUAV を紹介する。
論文 参考訳(メタデータ) (2025-12-22T04:42:35Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。
本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。
UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文 参考訳(メタデータ) (2025-05-21T16:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。