論文の概要: Earth-OneVision: Extending Remote Sensing Multimodal Large Language Models to More Sensor Modalities and Tasks
- arxiv url: http://arxiv.org/abs/2606.10819v1
- Date: Tue, 09 Jun 2026 13:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.509325
- Title: Earth-OneVision: Extending Remote Sensing Multimodal Large Language Models to More Sensor Modalities and Tasks
- Title(参考訳): Earth-OneVision: リモートセンシングマルチモーダル大言語モデルを拡張してセンサのモダリティとタスクを増やす
- Authors: Miaoxin Cai, Guanqun Wang, Wei Zhang, Guangyao Zhou, Yin Zhuang, Tong Zhang, Hao Wang, He Chen, Jun Li,
- Abstract要約: Earth-OneVisionは、9つのタスクカテゴリにまたがる6つのセンサーモードとクロスセンサー融合を統合する2B RS-MLLMである。
2Bパラメータだけで、Earth-OneVisionは広範なベンチマークで競合または最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 20.969678030412407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RS-MLLMs enable natural-language understanding and spatial reasoning over earth observation imagery. However, existing models support only a narrow range of sensor types and tasks, yielding a fragmented view of the earth and leaving cross-modal geoscientific knowledge largely unexploited. This work presents Earth-OneVision, a 2B RS-MLLM that unifies six sensor modalities (i.e., optical, SAR, infrared, multispectral, temporal, and video) and cross-sensor fusion across 9 task categories within a single autoregressive framework. Three dedicated mechanisms address three bottlenecks. Full-Granularity Vision-Language Alignment (FGVLA) aligns multi-level visual features with the multi-dimensional language space. Spatial-Linguistic Isomorphic Serialization (SLIS) unifies heterogeneous spatial outputs as autoregressive tokens. Progressive Cross-Modality Adaptation (PCMA) decomposes the compound domain gap into sequential stages, tackling the viewpoint and imaging physics gaps in turn. To support joint training, MMRS-OneVision is constructed with ~34M QA pairs spanning all six sensor modalities and cross-sensor fusion across 9 task categories, substantially exceeding existing RS multimodal instruction datasets. With only 2B parameters, Earth-OneVision achieves competitive or state-of-the-art results across extensive benchmarks, consistently matching or outperforming 4B-72B RS-MLLMs. It achieves 87.52% P@0.5 on the OPT-RSVG testset for optical visual grounding and 80.68% on the SAR VQA benchmark SARLANG-Bench, exceeding 7B models by over 7%. It further achieves 75.74% recall on the BigEarthNet-MS testset for multispectral classification, and 81.94% MCQ accuracy on EarthMind-Bench for cross-modality reasoning.
- Abstract(参考訳): RS-MLLMは、地球観測画像上の自然言語の理解と空間的推論を可能にする。
しかし、既存のモデルは限られた種類のセンサーとタスクしかサポートしていないため、地球の断片化されたビューが得られ、大陸横断の地質学的な知識はほとんど明らかにされていない。
この研究は、光学、SAR、赤外線、マルチスペクトル、時間、ビデオ)と9つのタスクカテゴリにわたるクロスセンサー融合を単一の自己回帰フレームワーク内で統合する2B RS-MLLMであるEarth-OneVisionを提示する。
3つの専用メカニズムは、3つのボトルネックに対処する。
FGVLA(Full-Granularity Vision-Language Alignment)は、多次元言語空間と多層視覚特徴を一致させる。
空間言語的同型シリアライゼーション(SLIS)は異種空間出力を自己回帰トークンとして統一する。
プログレッシブ・クロスモダリティ適応(PCMA)は、複合領域のギャップを逐次段階に分解し、視点に対処し、物理ギャップを撮像する。
共同トレーニングをサポートするため、MMRS-OneVisionは6つのセンサーモードすべてにまたがる約34MのQAペアと9つのタスクカテゴリにまたがるクロスセンサーフュージョンで構成されており、既存のRSマルチモーダル命令データセットをはるかに上回っている。
Earth-OneVisionは2Bパラメータしか持たないため、広範囲なベンチマークで競合や最先端の結果が得られ、4B-72B RS-MLLMを一貫してマッチングまたは上回っている。
OPT-RSVGテストセットで87.52%のP@0.5を、SAR VQAベンチマークで80.68%、SARLANG-Benchで7Bモデル以上を達成した。
さらに、マルチスペクトル分類のためのBigEarthNet-MSテストセットで75.74%のリコールを達成し、EarthMind-Benchでは81.94%のMCQ精度でクロスモーダル推論を行う。
関連論文リスト
- DualSwinFusionSeg: Multimodal Martian Landslide Segmentation via Dual Swin Transformer with Multi-Scale Fusion and UNet++ [1.1666234644810893]
モーダリティ固有の特徴抽出を分離し,マルチスケールのクロスモーダル融合を行うマルチモーダルセグメンテーションアーキテクチャであるDualSwinFusionSegを提案する。
このモデルは2つの並列Swin Transformer V2エンコーダを使用して、RGBと補助的な物理入力を独立に処理し、階層的な特徴表現を生成する。
PBVS 2026 Mars-LS ChallengeによるMMLSv2データセットの実験では、モダリティ固有のエンコーダと単純な結合に基づく融合により、限られた訓練データの下でのセグメンテーション精度が向上した。
論文 参考訳(メタデータ) (2026-03-14T21:42:14Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。
緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文 参考訳(メタデータ) (2025-04-04T04:47:54Z) - Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction [7.8862197224709805]
私たちのフレームワークは、視覚と言語の間のギャップを埋め、マルチスケールの機能相互作用を強化し、オブジェクトの微粒化を改善するために設計された新しいフレームワークです。
ベンチマークデータセットであるRefSegRSとRRSIS-Dの実験は、我々の成果が最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-12T15:21:18Z) - MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images [4.2623421577291225]
画像バンド間の依存関係を利用して3次元ARローカライゼーションを生成するマルチタスク深層学習フレームワークを提案する。
我々のフレームワークは、すべてのモードで平均0.72 IoUと0.90 F1スコアを達成する。
論文 参考訳(メタデータ) (2024-07-19T17:21:53Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
本研究は,マルチクラス非教師付き異常検出へのMambaADの適用の先駆者であり,MambaADを提示する。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。