Fugu-MT 論文翻訳(概要): GeoFidelity-Bench: Evaluating Segment-Level Geographic Fidelity in Text-to-Image Street-View Generation

論文の概要: GeoFidelity-Bench: Evaluating Segment-Level Geographic Fidelity in Text-to-Image Street-View Generation

arxiv url: http://arxiv.org/abs/2606.23669v1
Date: Mon, 22 Jun 2026 17:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 17:22:21.412046
Title: GeoFidelity-Bench: Evaluating Segment-Level Geographic Fidelity in Text-to-Image Street-View Generation
Title（参考訳）: GeoFidelity-Bench: テキスト・画像・ストリートビュー生成におけるセグメントレベル地理忠実度の評価
Authors: Kaizhen Tan, Hanzhe Hong, Siru Tao,
Abstract要約: GeoFidelity-Benchはストリートビュー生成におけるセグメント条件付き地理的忠実度に対する基準パネルベンチマークである。 6大陸25都市でOpenStreetMapと呼ばれる109の道路セグメントをカバーする7,117枚のキュレートされたMapillary画像を含んでいる。都市部のみ,街路近傍,GPS付加プロンプトの6つのオープンウェイトテキスト・ツー・イメージ・ジェネレータの評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image models can generate visually plausible city streets, but whether their outputs correspond to a requested road segment rather than a generic city prior remains unclear. We introduce GeoFidelity-Bench, a reference-panel benchmark for segment-conditioned geographic fidelity in street-view generation. It contains 7,117 curated Mapillary images covering 109 named OpenStreetMap road segments in 25 cities across six continents. For each generated panel, the benchmark ranks the target reference panel against panels from the nearest segment in the same city, other segments in the same city, and segments from other cities, making local discrimination rather than absolute target similarity the primary test. We evaluate six open-weight text-to-image generators under city-only, street-and-neighborhood, and GPS-augmented prompts. Adding street and neighborhood names is associated with an increase of 5.5 percentage points in top-1 retrieval accuracy over city-only prompts, with a 95% confidence interval from 3.4 to 7.7 percentage points. However, the similarity margin between the target and the nearest segment in the same city remains near zero, indicating that local names improve broad local plausibility more than exact segment identity. Prompts that keep the city fixed but use incorrect street or neighborhood names further show that only part of the gain depends on the correct local names, while appending raw GPS coordinates as ordinary text yields no statistically clear additional benefit. Held-out real-image queries successfully recover segment identity, showing that the curated references contain usable segment-level signal. GeoFidelity-Bench thus reveals a persistent gap between city- or neighborhood-plausible street-view generation and faithful generation for a specific road segment.
Abstract（参考訳）: テキスト・ツー・イメージ・モデルは、視覚的に可視な街路を生成することができるが、そのアウトプットが一般的な都市ではなく、要求された道路セグメントに対応するかどうかは不明だ。街路ビュー生成におけるセグメント条件付き地理的忠実度に対する基準パネルベンチマークであるGeoFidelity-Benchを紹介する。 6大陸25都市でOpenStreetMapと呼ばれる109の道路セグメントをカバーする7,117枚のキュレートされたMapillary画像を含んでいる。生成された各パネルについて、ベンチマークは、同一都市の最も近いセグメント、同じ都市の他のセグメント、および他の都市のセグメントに対するターゲット基準パネルをランク付けする。都市部のみ,街路近傍,GPS付加プロンプトの6つのオープンウェイトテキスト・ツー・イメージ・ジェネレータの評価を行った。街路名と地区名の追加は、都市のみのプロンプトよりもトップ1の検索精度が5.5ポイント向上し、95%の信頼区間が3.4から7.7ポイントに拡大している。しかし、同じ都市のターゲットと最寄りのセグメントとの類似性マージンはゼロに近いままであり、地域名は正確なセグメントのアイデンティティよりも広い地域的可視性を向上させることが示唆されている。街を固定するが、不正な通り名や地区名を使用するプロンプトは、その利得の一部は正しい地域名に依存していることを示しているが、通常のテキストとして生のGPS座標を付加することは、統計的に明らかな付加的な利益をもたらすものではない。 Held-out real-image query はセグメントのアイデンティティを回復し、キュレートされた参照には使用可能なセグメントレベルの信号が含まれていることを示す。そのため、GeoFidelity-Benchは、街路ビュー生成と特定の道路セグメントに対する忠実な生成との間に永続的なギャップを明らかにする。

関連論文リスト

DualGeo: A Dual-View Framework for Worldwide Image Geo-localization [24.463319677769405]
本研究では,世界規模の画像位置情報化のための2段階フレームワークであるDualGeoを提案する。まず、画像とセマンティックセグメンテーション機能を融合させることで、地理的表現基盤を確立する。第2に、地理的クラスタリングを用いて、検索された候補を再ランク付けすることで、地理認知の洗練を行う。実験の結果、DualGeoは最先端の手法より優れており、街路レベル(1km)と都市レベル(25km)のローカライゼーション精度はそれぞれ3.6%-16.58%、1.29%-8.77%向上している。
論文参考訳（メタデータ） (2026-04-28T12:00:04Z)
Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming [4.396860522241306]
クロスビュージオローカライゼーションは、ストリートビュー画像とジオレファレンスされたオーバーヘッド画像とをマッチングすることにより、カメラの位置を推定する。既存の手法は、対照的に訓練された埋め込み空間における画像検索問題としてCVGLをほぼ普遍的に定式化する。都市規模のオーバヘッドマップ上でオートレズームによりCVGLを実行する代替式であるJust Zoom Inを提案する。
論文参考訳（メタデータ） (2026-03-26T17:36:33Z)
Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文参考訳（メタデータ） (2025-10-13T01:12:21Z)
Neighbor-aware informal settlement mapping with graph convolutional networks [1.226598527858578]
本稿では,局所的な地理的コンテキストを分類プロセスに組み込んだグラフベースのフレームワークを提案する。リオデジャネイロのケーススタディでは,空間的クロスバリデーションを用いて実験を行った。本手法は,Kappa係数を個々の細胞分類よりも17ポイント向上する。
論文参考訳（メタデータ） (2025-09-30T12:25:25Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
Hex2vec -- Context-Aware Embedding H3 Hexagons with OpenStreetMap Tags [9.743315439284407]
都市機能と土地利用に関する地域ベクトル表現をマイクロエリアグリッドで学習するための最初のアプローチを提案する。土地利用, 建築, 都市域の機能, 水の種類, 緑その他の自然地域の主な特徴に関連するOpenStreetMapタグのサブセットを同定する。結果として得られるベクトル表現は、ベクトルベースの言語モデルに見られるものと同様、地図特性のセマンティック構造を示す。
論文参考訳（メタデータ） (2021-11-01T14:22:53Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)
Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2020-01-29T21:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。