Fugu-MT 論文翻訳(概要): Multi-Modal Contrastive Learning for Implicit Earth Embeddings via Location Tying

論文の概要: Multi-Modal Contrastive Learning for Implicit Earth Embeddings via Location Tying

arxiv url: http://arxiv.org/abs/2606.20167v1
Date: Thu, 18 Jun 2026 12:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.8536
Title: Multi-Modal Contrastive Learning for Implicit Earth Embeddings via Location Tying
Title（参考訳）: 位置タイピングによる不必要な地球埋め込みのマルチモーダルコントラスト学習
Authors: Jonathan Hecht, Lukas Arzoumanidis, Ziyue Li, Youness Dehbi,
Abstract要約: 空間予測のタスクは、しばしば、高品質なラベル付き地上観測の欠如によって制限される。自己教師付き事前学習は、位置エンコーダにおいて対照的な学習が支配的なソリューションである。位置情報タイリング(MELT)によるマルチモーダル埋め込みと,SALT(Sequential Alternating Location Training)という2つのマルチモーダル・コントラスト学習アーキテクチャを提案する。
参考スコア（独自算出の注目度）: 6.393833349059462
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spatial prediction tasks are often limited by a lack of high-quality labelled ground-truth observations. To overcome this challenge, self-supervised pre-training is a possible solution, with contrastive learning dominant for location encoders. Those approaches usually align geographic coordinates with just one additional modality. We propose two multimodal contrastive learning architectures: Multimodal Embedding via Location Tying (MELT) and Sequential Alternating Location Training (SALT). These architectures expand this framework beyond two modalities by utilising unpaired geospatial data. Both methods are technically viable and match the performance of the strongest two-modality baseline (SATCLIP) across four downstream tasks. However, increasing the number of modalities does not consistently improve performance, suggesting that the chosen location encoder is the main limitation - the contrastive objective reaches its peak early, regardless of modality diversity or pre-training volume. MELT provides more stable training than SALT and presents a stronger foundation for future scaling.
Abstract（参考訳）: 空間予測のタスクは、しばしば、高品質なラベル付き地平線観測の欠如によって制限される。この課題を克服するために、自己教師付き事前学習は、位置エンコーダにおいて対照的な学習が支配的なソリューションである。これらのアプローチは通常、地理的座標を1つの追加モダリティで整列する。本稿では,Multimodal Embedding via Location Tying (MELT)とSequential Alternating Location Training (SALT)の2つのマルチモーダル・コントラスト学習アーキテクチャを提案する。これらのアーキテクチャはこのフレームワークを2つのモダリティを超えて拡張し、未ペアの地理空間データを活用する。どちらの手法も技術的に有効であり、4つの下流タスクで最強の2モードベースライン(SATCLIP)の性能に適合する。しかし、モダリティの数を増やすことはパフォーマンスを継続的に改善するものではなく、選択された位置エンコーダが主な制限であることを示している。 MELTはSALTよりも安定したトレーニングを提供し、将来のスケーリングのためのより強力な基盤を提供する。

関連論文リスト

LEAR: Learning Edge-Aware Representations for Event-to-LiDAR Localization [15.308350522323588]
LEARは、エッジ構造と高密度事象深度流れ場を共同で推定し、知覚とモダリティの分断を橋渡しする。いくつかの人気があり、挑戦的なデータセットにおいて、LEARは最高の先行メソッドよりも優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2026-03-02T13:18:25Z)
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-11T09:41:36Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文参考訳（メタデータ） (2025-02-17T02:53:08Z)
Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文参考訳（メタデータ） (2023-09-26T23:55:39Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。