論文の概要: When Vision Misleads, Let Location Speak: A Worldwide Image Geo-Localization Method via Location Attention Mechanism and Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2606.08918v1
- Date: Mon, 08 Jun 2026 01:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.562589
- Title: When Vision Misleads, Let Location Speak: A Worldwide Image Geo-Localization Method via Location Attention Mechanism and Large Multimodal Models
- Title(参考訳): 視覚が過ちをきたすとき:位置注意機構と大規模マルチモーダルモデルによる世界規模の画像ローカライズ手法
- Authors: Junchao Cui, Wenqi Shi, Xuanzi Ma, Nan Wu, Shaoyong Du, Xiangyang Luo,
- Abstract要約: 既存の手法はしばしば、異なる地理的領域の視覚的に類似したシーンとマッチングすることで、画像の非局所化を行う。
位置注意機構と大規模マルチモーダルモデルを統合した新しい検索ベースフレームワークであるTransGeoCLIPを提案する。
本研究では,TransGeoCLIPが視覚的に類似した画像のローカライゼーション性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 23.448145400461513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide image geo-localization aims to determine the capture location of an image on a global scale. Existing methods often mislocalize images by matching them to visually similar scenes from different geographic regions, which limits reliability in practical applications. To address this issue, we propose TransGeoCLIP, a novel retrieval-based framework that integrates a location attention mechanism and large multimodal models (LMMs). Using the Transformer encoder with location attention to encode GPS coordinates, TransGeoCLIP can effectively distinguish geographic features among visually similar images. The framework consists of two stages: 1) Retrieval database construction, which employs Transformers equipped with location attention mechanisms to encode labeled GPS coordinates and enhance location semantics, subsequently enables joint image-text-GPS embedding through CLIP; 2) Retrieval-augmented inference, which leverages LMMs to infer the final image location prediction from retrieved database results. Extensive experimental results on diverse datasets, including IM2GPS, IM2GPS3k, YFCC4k, and YFCC26k, demonstrate that TransGeoCLIP significantly enhances localization performance for visually similar images. Particularly, street-level localization accuracy (within 1 km error) is substantially improved, surpassing state-of-the-art methods by 1.5%, 1.07%, 7.18%, and 9.75% on these benchmarks, respectively.
- Abstract(参考訳): 世界規模の画像ジオローカライゼーションは、世界規模で画像のキャプチャー位置を決定することを目的としている。
既存の方法では、異なる地理的領域の視覚的に類似したシーンとマッチングすることで、画像の非局所化がしばしば行われており、実用的なアプリケーションでは信頼性が制限される。
この問題に対処するために,位置アテンション機構と大規模マルチモーダルモデル(LMM)を統合した新しい検索ベースフレームワークであるTransGeoCLIPを提案する。
Transformerエンコーダを用いてGPS座標を符号化することで、TransGeoCLIPは視覚的に類似した画像の地理的特徴を効果的に識別することができる。
フレームワークは2つのステージから構成される。
1) ラベル付きGPS座標を符号化し、位置セマンティクスを強化するため、位置注意機構を備えたトランスフォーマーを備えた検索データベースの構築。
2)LMMを利用して検索したデータベース結果から最終画像の位置予測を推測する検索拡張推論。
IM2GPS,IM2GPS3k,YFCC4k,YFCC26kなどの多様なデータセットに対する大規模な実験結果から,TransGeoCLIPが視覚的に類似した画像のローカライゼーション性能を大幅に向上させることが示された。
特に、ストリートレベルのローカライゼーション精度(誤差1km)は大幅に改善され、それぞれ1.5%、1.07%、7.18%、9.75%を超える。
関連論文リスト
- DualGeo: A Dual-View Framework for Worldwide Image Geo-localization [24.463319677769405]
本研究では,世界規模の画像位置情報化のための2段階フレームワークであるDualGeoを提案する。
まず、画像とセマンティックセグメンテーション機能を融合させることで、地理的表現基盤を確立する。
第2に、地理的クラスタリングを用いて、検索された候補を再ランク付けすることで、地理認知の洗練を行う。
実験の結果、DualGeoは最先端の手法より優れており、街路レベル(1km)と都市レベル(25km)のローカライゼーション精度はそれぞれ3.6%-16.58%、1.29%-8.77%向上している。
論文 参考訳(メタデータ) (2026-04-28T12:00:04Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。