論文の概要: ScoutVLA: UAV-Centric Active Perception via a Dual-Expert VLA Model for Open-World Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2606.14772v1
- Date: Tue, 09 Jun 2026 10:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.065567
- Title: ScoutVLA: UAV-Centric Active Perception via a Dual-Expert VLA Model for Open-World Embodied Question Answering
- Title(参考訳): ScoutVLA: UAV-Centric Active Perception by a Dual-Expert VLA Model for Open-World Embodied Question Answering
- Authors: Wenhao Lu, Zhengqiu Zhu, Xiaofeng Wang, Xiaoran Zhang, Yatai Ji, Yong Zhao, Yue Hu, Yingzhen Nie, Jinlong Zhu, Zheng Zhu,
- Abstract要約: FG-EQAは、40K以上の擬似軌道と1K以上の実世界の軌道を持つ、きめ細かい能動知覚EQAベンチマークである。
我々は、屋外EQAのためのエビデンス駆動ビジョン・ランゲージ・アクションモデルであるScoutVLAを提案する。
ScoutVLAは視覚言語の専門家が行方不明の証拠を識別するための意味論的意図を推測し、独立したアクション専門家がハイDoFフローマッチングを使用して連続的な視点修正軌道を生成する。
- 参考スコア(独自算出の注目度): 36.33548882934067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial Embodied Question Answering (EQA) requires Unmanned Aerial Vehicles (UAVs) to actively perceive the environment and answer natural language questions. Existing outdoor EQA systems usually stop once the target enters the UAV's field of view, leaving the fine-grained viewpoint adjustment needed for evidence-seeking questions largely unresolved. To address this issue, we introduce FG-EQA, a fine-grained active perception EQA benchmark with more than 40K simulated trajectories and 1K real-world trajectories. Drawing inspiration from the ``waggle dance'' of scout bees, which iteratively adjust their flight paths to verify target information, we propose ScoutVLA, an evidence-driven Vision-Language-Action model for outdoor EQA. To emulate this active exploration behavior, ScoutVLA features a decoupled dual-expert architecture: a vision-language expert infers the semantic intent to identify missing evidence, while an independent action expert employs high-DoF flow matching to generate continuous viewpoint-refinement trajectories. To balance the competing demands of continuous control and semantic reasoning, we devise a decoupled training strategy with a knowledge insulation mechanism that prevents the action gradients from erasing the model's multimodal reasoning ability. Extensive simulated experiments and a qualitative real-world field study both verify the superiority of ScoutVLA over the state-of-the-art baselines, demonstrating a 10.48$\boldsymbol{\times}$ higher average strict success rate and a 7.72$\boldsymbol{\times}$ higher average QA correctness.
- Abstract(参考訳): EQA (Aerial Embodied Question Answering) は、無人航空機 (Unmanned Aerial Vehicles, UAV) が環境を積極的に認識し、自然言語の質問に答えることを要求する。
既存の屋外EQAシステムは通常、標的がUAVの視野に入ると停止する。
この問題に対処するために、FG-EQA(FG-EQA)という、40K以上のシミュレートされた軌道と1K以上の実世界の軌道を持つ、きめ細かい能動知覚EQAベンチマークを導入する。
目標情報を確認するために飛行経路を反復的に調整したスカウト蜂の「ワグルダンス」からインスピレーションを得て,エビデンス駆動の屋外EQAのためのビジョン・ランゲージ・アクションモデルであるScoutVLAを提案する。
視覚言語の専門家は、行方不明の証拠を特定するために意味論的意図を推論し、独立アクション専門家は、連続的な視点補正トラジェクトリを生成するために、ハイDoFフローマッチングを使用する。
連続制御とセマンティック推論の競合する要求のバランスをとるため,モデルのマルチモーダル推論能力の消去を防止するための知識絶縁機構を備えた非結合型トレーニング戦略を考案した。
大規模なシミュレーション実験と定性的実世界のフィールドスタディの両方が、最先端のベースラインよりもScoutVLAの優位性を検証し、10.48$\boldsymbol{\times}$平均厳密な成功率と7.72$\boldsymbol{\times}$平均QA正当性を証明した。
関連論文リスト
- DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving [15.87281823665284]
DriveSpatialは、5つの大規模自律運転データセットから20タスクにわたる15.6Kの検証済みQAペアのベンチマークである。
以前のベンチマークとは異なり、DriveSpatialはオブジェクトの状態、空間的関係、インタラクション、カメラの可視性、時間的対応をエンコードする動的多言語シーングラフから生成される。
最強のモデルは人間を28.4ポイント追尾し、認知シーン構築が重要なボトルネックとなる。
論文 参考訳(メタデータ) (2026-05-22T02:52:06Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Large Models in Dialogue for Active Perception and Anomaly Detection [35.16837804526144]
本稿では,新たなシーンにおける情報収集と異常検出を行うフレームワークを提案する。
2つのディープラーニングモデルが対話を行い、ドローンを積極的に制御し、認識と異常検出の精度を高める。
情報収集に加えて,本手法を異常検出に利用し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-27T18:38:36Z) - EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering [21.114403949257934]
大規模視覚言語モデル(VLM)は、EQA(Embodied Question Answering)を約束している。
既存のアプローチでは、アクティブな探索をせずに静的なビデオ質問応答として扱うか、あるいはクローズドな選択に対する回答を制限するかのどちらかである。
EfficientEQAは,効率的な探索と自由形式の回答生成を両立させる新しいフレームワークである。
実験結果から,EQAの解答精度は15%以上向上し,最先端手法よりも20%以上の探索ステップが要求されることがわかった。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。