論文の概要: UniverSat: Resolution- and Modality-Agnostic Transformers for Earth Observation
- arxiv url: http://arxiv.org/abs/2606.23503v1
- Date: Mon, 22 Jun 2026 15:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:39:38.913886
- Title: UniverSat: Resolution- and Modality-Agnostic Transformers for Earth Observation
- Title(参考訳): UniverSat:地球観測のための解像度・モード非依存変換器
- Authors: Yohann Perron, Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu,
- Abstract要約: 任意の空間、スペクトル、時間分解能からパッチをマッピングするユニバーサルパッチを中心に構築されたViTスタイルのバックボーンを導入する。
我々は、GeoBench、PANGEABench、SpectralEarthの標準EOベンチマークの分類とセグメンテーションにまたがる強い結果で、このアプローチを検証した。
- 参考スコア(独自算出の注目度): 19.796587221784133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) dominate computer vision. However, their reliance on rigid patch projectors hinders transfer to Earth Observation (EO), where input modalities, scales, and resolutions vary widely. We introduce UniverSat, a ViT-style backbone built around a Universal Patch Encoder that maps patches from arbitrary spatial, spectral, and temporal resolutions, and from both optical and non-optical sensors, into a shared embedding space with a shared set of weights. This enables training a single model on heterogeneous multimodal corpora via self-supervision, yielding robust, sensor-agnostic spatial features. We validate this approach with strong results across classification and segmentation on standard EO benchmarks from GeoBench, PANGEABench, and SpectralEarth. Our code and models are available at https://github.com/gastruc/UniverSat.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンを支配している。
しかし、厳密なパッチプロジェクタへの依存は、入力のモダリティ、スケール、解像度が広く異なる地球観測(EO)への移行を妨げる。
我々は、Universal Patch Encoderを中心に構築されたViTスタイルのバックボーンであるUniversSatを紹介し、任意の空間、スペクトル、時間分解能から、光学センサーと非光学センサーの両方から、共有された重み付き埋め込み空間にパッチをマッピングする。
これにより、不均一なマルチモーダルコーパス上の単一モデルを自己超越によって訓練することができ、堅牢でセンサに依存しない空間的特徴が得られる。
我々は、GeoBench、PANGEABench、SpectralEarthの標準EOベンチマークの分類とセグメンテーションにまたがる強い結果で、このアプローチを検証した。
私たちのコードとモデルはhttps://github.com/gastruc/UniverSat.comで公開されています。
関連論文リスト
- FLORO: A Multimodal Geospatial Foundation Model for Ecological Remote Sensing Across Sensors and Scales [65.4821703903285]
FLOROは、小さなが高度に多様なリモートセンシングコーパスから転送可能な表現を学習するために設計されたマルチモーダル基礎モデルである。
FLOROは、Sentinel-1、Sentinel-2、SkySAT画像、標高、UAV由来のデータとの不均一な組み合わせによるマスク付きオートエンコーディングを用いて事前訓練される。
我々は、シーン分類、セグメンテーション、回帰タスクにまたがる凍結エンコーダプロトコルを用いて、PANGAEAベンチマーク上でFLOROを評価した。
論文 参考訳(メタデータ) (2026-05-27T08:55:54Z) - Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing [24.03278912134978]
我々は任意のバンド構成、センサタイプ、解像度スケールに対応するためのAOM(Any Optical Model)を提案する。
AOMは、バンド不足、クロスセンサー、クロス解像度設定といった困難な条件下で、常に最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-12-19T04:21:01Z) - Learning Spatial Decay for Vision Transformers [50.63391799053993]
視覚変換器(ViT)はコンピュータビジョンに革命をもたらしたが、その自己認識機構には明らかに空間誘導バイアスがない。
既存のアプローチでは、固定距離メトリクスに基づくデータ非依存の空間減衰が導入されている。
データ依存型空間減衰の2次元視覚変換器への適応が最初に成功した例を示す。
論文 参考訳(メタデータ) (2025-08-13T06:18:32Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Energy-Based Models for Cross-Modal Localization using Convolutional
Transformers [52.27061799824835]
GPSのない衛星画像に対して、距離センサを搭載した地上車両を位置決めする新しい枠組みを提案する。
本稿では, 畳み込み変換器を用いて, 高精度な計量レベルの局所化を行う手法を提案する。
我々は、エンドツーエンドでモデルをトレーニングし、KITTI、Pandaset、カスタムデータセットの最先端技術よりも高い精度でアプローチを実証する。
論文 参考訳(メタデータ) (2023-06-06T21:27:08Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer
for Fine-grained Visual Recognition [10.045205311757028]
物体の部分に関する微妙な表現を学習することは、きめ細かい視覚認識(FGVR)分野において重要な役割を担っている。
ViTのパッチサイズの固定化により、ディープレイヤのクラストークンは、グローバルな受容フィールドに焦点を当て、FGVRのマルチグラニュラリティ機能を生成することができない。
本稿では,適応型マルチスケールフュージョントランス (AFTrans) という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-04T08:11:21Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。