論文の概要: NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation
- arxiv url: http://arxiv.org/abs/2606.18271v1
- Date: Fri, 05 Jun 2026 06:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.793195
- Title: NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation
- Title(参考訳): NAVI-Orbital: 自律地球観測のためのゼロショットビジョンランゲージモデルの最初の軌道上での実証
- Authors: Juan Manuel Delfa Victoria, Taran Cyriac John, Andrew W. Herson,
- Abstract要約: NAVI-Orbital(NAVI-Orbital)は、低軌道軌道(LEO)に展開するソフトウェアシステムである。
2026年4月16日、NAVI-Orbitalは、著者の知る限り、自律的なマルチモーダル推論を実行する視覚言語モデルの軌道上での最初のデモンストレーションを行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Earth Observation data generation outpaces downlink bandwidth and human-in-the-loop processing, a widening gap has emerged between onboard collection and actionable ground intelligence. This paper presents NAVI-Orbital, a software system deployed on a Low Earth Orbit (LEO) spacecraft. On April 16, 2026, NAVI-Orbital achieved what is, to the authors' knowledge, the first in-orbit demonstration of a vision-language model performing autonomous multi-modal inference entirely onboard. NAVI-Orbital uses a local vision-language model (Gemma 3) to classify each captured scene, produce a text description of its content and the relationships between its features, and respond to operator follow-up via natural-language dialogue. The system is re-tasked through plain-English prompts in place of conventional command sequences, and is orchestrated by a graph-based state machine (LangGraph) coordinating dedicated agents for detection and dialogue. Results across ground benchmarking (88.16% accuracy on the 7,960-image curated AID benchmark), Flatsat validation, and live in-orbit captures of newly acquired, previously unseen Earth imagery (including uncorrected YAM-9 imagery, processed onboard with hardware-accelerated GPU inference and no fine-tuning for the flight instrument) demonstrate the feasibility of running foundation models on satellite-class edge computers to invert the conventional acquire-then-downlink-everything bandwidth profile through semantic compression of Earth observations in-orbit.
- Abstract(参考訳): 地球観測データ生成がダウンリンク帯域幅と人為的ループ処理を上回っているため、搭載された収集物と動作可能な地上知能との間のギャップが広がりつつある。
本稿では,低地球軌道(LEO)衛星に搭載されたソフトウェアシステムであるNAVI-Orbitalについて述べる。
2026年4月16日、NAVI-Orbitalは、著者の知る限り、自律的なマルチモーダル推論を実行する視覚言語モデルの軌道上での最初のデモンストレーションを行った。
NAVI-Orbitalは、ローカル視覚言語モデル(Gemma 3)を使用して、キャプチャされたシーンを分類し、その内容と特徴間の関係をテキストで記述し、自然言語対話を通じてオペレーターのフォローアップに応答する。
システムは従来のコマンドシーケンスの代わりに平易な英語のプロンプトで再タスクされ、グラフベースのステートマシン(LangGraph)が検出と対話のための専用エージェントをコーディネートする。
地上ベンチマーク(7,960イメージのAIDベンチマークの88.16%の精度)、フラットサットの検証、未確認の地球画像(未修正のYAM-9画像、ハードウェアアクセラレーションのGPU推論による処理、飛行機器の微調整を含む)のライブ・イン・軌道キャプチャ(英語版)は、衛星級エッジコンピュータ上で基礎モデルを動作させることにより、地球観測のセマンティック圧縮によって従来の取得したリンク全帯域幅プロファイルを逆転させる可能性を実証している。
関連論文リスト
- VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - Earth-o1: A Grid-free Observation-native Atmospheric World Model [81.55899748753434]
我々は、構造的制約を克服する観測ネイティブな大気圏モデルであるEarth-o1を提示する。
多様なセンサー入力を統一されたグリッドフリーな力学場に統合することにより、モデルは空間と時間の大気状態を自律的に前進させる。
本稿では,このパラダイムにより,明示的な数値解法のオーバーヘッドを伴わずに,直接的,リアルタイムな予測とクロスセンサ推論が可能となることを示す。
論文 参考訳(メタデータ) (2026-05-07T14:27:48Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Vision Foundation Models for Domain Generalisable Cross-View Localisation in Planetary Ground-Aerial Robotic Teams [15.147723721875456]
我々は、機械学習を用いて、限られた視野の単眼の地上RGB画像を入力として、局所的な空域マップに自分自身をローカライズするローバーについて検討する。
機械学習手法における重要な考慮事項は、トレーニングに適した接地位置ラベルを持つ実空間データが不足していることである。
クロスビュー・ローカライズされたデュアルエンコーダディープニューラルネットワークを用いた空中地図におけるローバーのローカライズ手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T03:11:05Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - GAIA: A Foundation Model for Operational Atmospheric Dynamics [0.83442357861662]
我々は,MAE(Masked Autoencoders)とラベルのない自己蒸留(DINO)を融合したハイブリッド自己教師型モデルGAIAを紹介する。
GAIAは、自明な日中パターンではなく、大気力学を捉える非絡み合った表現を学ぶ。
下流タスクに移行すると、GAIAは一貫してMAEのみのベースラインを上回っます。
論文 参考訳(メタデータ) (2025-05-15T05:07:09Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。