Fugu-MT 論文翻訳(概要): Textual Supervision Enhances Geospatial Representations in Vision-Language Models

論文の概要: Textual Supervision Enhances Geospatial Representations in Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.07172v1
Date: Fri, 05 Jun 2026 11:40:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.714976
Title: Textual Supervision Enhances Geospatial Representations in Vision-Language Models
Title（参考訳）: テクスチュアル・スーパービジョンは視覚・言語モデルにおける地理空間表現を促進する
Authors: Marcelo Sartori Locatelli, Fernando Tonucci, Jea Kwon, Luiz Felipe Vecchietti, Bryan Nathanael Wijaya, Cheng Yaw Low, Virgilio Almeida, Meeyoung Cha,
Abstract要約: 地理空間的理解は、機械学習システムの開発において決定的だが未解明の要素である。視覚のみのアーキテクチャ(ViTなど)、視覚言語モデル(CLIPなど)、大規模マルチモーダル基盤モデル(LLaVA、Qwen、Gemmaなど)の3つのモデルファミリによって得られた空間的表現を分析する。
参考スコア（独自算出の注目度）: 47.5986642837928
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Geospatial understanding is a critical yet underexplored dimension in the development of machine learning systems for tasks such as image geolocation and spatial reasoning. In this work, we analyze the geospatial representations acquired by three model families: vision-only architectures (e.g., ViT), vision-language models (e.g., CLIP), and large-scale multimodal foundation models (e.g., LLaVA, Qwen, and Gemma). By evaluating across image clusters, including people, landmarks, and everyday objects, grouped based on the degree of localizability, we reveal systematic gaps in spatial accuracy and show that textual supervision enhances the learning of geospatial representations. Our findings suggest the role of language as an effective complementary modality for encoding spatial context and multimodal learning as a key direction for advancing geospatial AI.
Abstract（参考訳）: 地理空間的理解は、画像位置情報や空間的推論といったタスクのための機械学習システムの開発において、重要で未解明の次元である。本研究では、視覚のみのアーキテクチャ(例えば、ViT)、視覚言語モデル(例えば、CLIP)、大規模マルチモーダル基盤モデル(例えば、LLaVA、Qwen、Gemma)の3つのモデルファミリーによって得られた空間的表現を分析する。空間的精度の体系的なギャップを明らかにするとともに,テキストによる指導によって空間的表現の学習が促進されることを示す。本研究は,空間文脈の符号化と多モーダル学習が地理空間AIの推進の鍵となる上で,言語が効果的な補完的モダリティとしての役割を示唆する。

関連論文リスト

Spatial Representation Learning Beyond Pixels: Unifying Raster Data and Vector Semantics for Human-Centric Geospatial Foundation Models [12.200359585933766]
自己教師型学習の最近の進歩は地球観測基礎モデル(EOFMs)を提起した本稿では,ベクトルベース推論と認識を統合した統合埋め込み空間における共同空間表現学習(SRL)へのパラダイムシフトを提案する。このような統合は、地球をより正確で、解釈可能で、根底から理解できる次世代の地理空間AIシステムの開発に不可欠である、と我々は主張する。
論文参考訳（メタデータ） (2026-06-01T15:21:58Z)
Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization [3.713195826948382]
VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる強力なゼロショット推論能力を示す。地上画像のみを用いた国レベルの画像位置情報化のための複数の最先端VLMの体系的評価を行う。
論文参考訳（メタデータ） (2026-04-17T17:09:14Z)
Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework [13.268717213871147]
クロスモーダルジオローカライゼーション(CMGL)は、地上レベルのテキスト記述とジオタグ付き空中画像とを一致させる。グローバルCMGL専用の最初の100万規模のデータセットであるCOREを紹介する。モーダルな地理的ローカライゼーションのための物理ロッド・アウェア・ネットワーク(PLANET)を提案する。
論文参考訳（メタデータ） (2026-03-09T15:27:19Z)
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文参考訳（メタデータ） (2025-11-19T18:59:22Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。