論文の概要: How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?
- arxiv url: http://arxiv.org/abs/2606.13896v1
- Date: Thu, 11 Jun 2026 20:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.643651
- Title: How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?
- Title(参考訳): ダウンストリームタスクへの自己監視型リモートセンシングビジョンモデルの適用
- Authors: Julia Romero, Qin Lv, Morteza Karimzadeh,
- Abstract要約: 自己教師付き地理空間基盤モデルは、リモートセンシングデータから転送可能な表現を学習する。
共同埋め込み,再建,マルチモーダルプレトレーニングを対象とする6種類のGeoFMについて検討した。
モデルランキングはタスクや適応設定によって変わります。
- 参考スコア(独自算出の注目度): 1.5713647046527652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised geospatial foundation models (GeoFMs) learn transferable representations from remote sensing data, but their downstream behavior is difficult to characterize. We study six representative GeoFMs spanning joint-embedding, reconstruction, and multimodal pretraining families, and evaluate transfer across classification, regression, and segmentation benchmarks under different label availability and downstream pipelines. We find that model rankings change across tasks and adaptation settings. Layerwise probing shows that, in most cases, task-relevant information is more accessible in intermediate transformer blocks compared to final-layer embeddings, and that GeoFMs exhibit distinct depthwise profiles. In segmentation case studies on PASTIS and Sen1Floods11, downstream adaptation settings such as decoder design and fine-tuning can be as impactful as the choice of GeoFM, and standard dense-prediction heads may be poorly aligned with how GeoFMs organize information over depth. Finally, CKA analysis on case studies shows that fine-tuning does not rewrite GeoFMs uniformly across depth, and the strongest changes are localized to the first linear layer of the MLP in ViT blocks. These results help explain why GeoFM rankings shift across benchmarks and motivate more representation-aware evaluation and adaptation strategies.
- Abstract(参考訳): 自己教師付き地理空間基盤モデル(GeoFM)はリモートセンシングデータから転送可能な表現を学習するが、下流の挙動を特徴付けることは困難である。
共同埋め込み,再構築,マルチモーダル事前訓練を対象とする6種類のGeoFMについて検討し,分類,回帰,セグメンテーションのベンチマークをラベルの可利用性および下流パイプラインで評価した。
モデルランキングはタスクや適応設定によって変わります。
レイヤワイズ探索は、ほとんどの場合、タスク関連情報は最終層埋め込みよりも中間変圧器ブロックでよりアクセスしやすく、GeoFMは異なる深さのプロファイルを示すことを示している。
PASTISとSen1Floods11のセグメンテーションケーススタディでは、デコーダの設計や微調整などの下流適応設定はGeoFMの選択に匹敵する影響があり、標準密度予測ヘッドはGeoFMが情報を深く整理する方法と不一致である可能性がある。
最後に、ケーススタディにおけるCKA分析は、微調整がGeoFMを均一に書き直さないことを示し、最も強い変化はViTブロックにおけるMLPの第1線形層に局所化されることを示している。
これらの結果は、GeoFMランキングがベンチマークを越えてシフトし、より表現に敏感な評価と適応戦略を動機付ける理由を説明するのに役立つ。
関連論文リスト
- Earth System Foundation Model (ESFM): A unified framework for heterogeneous data integration and forecasting [52.53742727060265]
地球系の基礎モデル(FM)は、大量のデータセットにわたる物理変数間の統計的関係を学習する。
本稿では,アース・システム・ファンデーション・モデル(ESFM)について紹介する。
本研究では,高密度グリッドデータ (ERA5, CMIP6) , 地域密集データ, 疎グリッドMODIS衛星データ, 局データを用いた。
結果は、最先端のベンチマークと比較して、競争力や優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T11:40:39Z) - Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - How To Embed Matters: Evaluation of EO Embedding Design Choices [3.21036640989662]
バックボーンアーキテクチャ,事前学習戦略,表現深度,空間集約,表現結合がEOタスクのパフォーマンスに与える影響を示す。
平均プーリングを備えたトランスフォーマーバックボーンは、強力なデフォルトの埋め込みを提供し、中間ResNet層は最終層を上回り、自己組織化された目的はタスク固有の強みを示し、異なる目的からの埋め込みは、しばしば改善される。
論文 参考訳(メタデータ) (2026-03-11T11:16:42Z) - GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - Landslide Hazard Mapping with Geospatial Foundation Models: Geographical Generalizability, Data Scarcity, and Band Adaptability [11.01843362076594]
地すべりマッピングのための地空間基盤モデル(GeoFM)を適用するためのフレームワークを提案する。
Prithvi-EO-2.0はタスク固有のCNN(U-Net, U-Net++)、視覚変換器(Segformer, SwinV2-B)、その他のGeoFMを一貫して上回っている。
我々は,地すべり研究において,計算コストや再利用可能なAI対応トレーニングデータの限定的利用といった課題を強調した。
論文 参考訳(メタデータ) (2025-11-06T15:47:37Z) - Parameter-Efficient Adaptation of Geospatial Foundation Models through Embedding Deflection [3.805591882842849]
DEFLECTは、非常に少数のパラメータを持つマルチスペクトル衛星画像にGFMを適用するための新しい戦略である。
5-10$times$より少ないパラメータで、オンパーまたはより高い精度で分類とセグメンテーションタスクを実現する。
論文 参考訳(メタデータ) (2025-03-12T15:53:58Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。