論文の概要: Bridging Geographic Bias in Urban Streetscape Inference via Lifelong Learning with Visual-Semantic Pivoting
- arxiv url: http://arxiv.org/abs/2606.15055v1
- Date: Sat, 13 Jun 2026 01:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.749751
- Title: Bridging Geographic Bias in Urban Streetscape Inference via Lifelong Learning with Visual-Semantic Pivoting
- Title(参考訳): ビジュアルセマンティックピボットを用いた生涯学習による都市景観推論における地理バイアスのブリッジ
- Authors: Xinze Zhang,
- Abstract要約: 都市景観の視覚的認識は、景観計画、公衆衛生、場所作りにおけるエビデンスに基づく決定の基盤となっている。
しかし、いくつかのよく写真化されたメトロポリスで訓練されたモデルは、体系的に非表示の地区を誤認した。
このギャップに対処するHVSP-LLは、ビジュアル・セマンティック・ピボット・モジュールとエクイティ・アウェア・リハーサル・メカニズムを結合した生涯学習フレームワークである。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual perception of urban streetscapes underpins evidence-based decisions in landscape planning, public health, and place-making. Yet models trained on a few well-photographed metropolises systematically misjudge underrepresented districts, propagating geographic bias into downstream policy. We address this gap with HVSP-LL, a lifelong learning framework that couples a stratified visual-semantic pivoting module with an equity-aware rehearsal mechanism. The pivoting module organises landscape concepts along a three-tier ontology (macro structure, meso composition, micro element) and aligns image features to learnable semantic anchors at each tier, providing transferable representations that resist distributional drift. The lifelong adaptation component sequentially absorbs new urban regions while constraining inter-region perception gaps through a worst-region sample-reweighting objective and a structurally-aware exemplar buffer. We evaluate HVSP-LL on a panoramic streetscape benchmark assembled from twelve cities across four continents and seven perceptual dimensions. The framework attains 0.834 Spearman correlation on the held-out city sequence, an absolute 6.1 point improvement over the strongest continual baseline, and shrinks the inter-city perception gap to 0.094 -- a 38% reduction relative to the strongest continual baseline (0.151) and a 57% reduction relative to a representative regularisation baseline (0.218). Ablations confirm that each tier of the pivoting hierarchy contributes monotonically, and the equity-aware rehearsal converts mean backward transfer from -0.038 (without retention) to +0.013, eliminating catastrophic forgetting on the held-out sequence. Our results indicate that hierarchical anchoring is a practical pathway toward geographically equitable streetscape inference at city scale.
- Abstract(参考訳): 都市景観の視覚的認識は、景観計画、公衆衛生、場所作りにおけるエビデンスに基づく決定の基盤となっている。
しかし、いくつかのよく写真化されたメトロポリスで訓練されたモデルは、体系的に非表示の地区を誤認し、下流政策に地理的偏見を伝播させた。
HVSP-LLは、階層化された視覚的セマンティックなピボットモジュールと、エクイティを意識したリハーサル機構を結合した、生涯学習フレームワークである。
ピボットモジュールは、3層オントロジー(マクロ構造、メソ組成、マイクロ要素)に沿ってランドスケープの概念を編成し、各階層における学習可能なセマンティックアンカーに画像特徴を整列させ、分散ドリフトに抵抗する伝達可能な表現を提供する。
寿命適応成分は、最低領域サンプル再重み付け目標と構造的に認識可能な模範バッファとを介して、地域間知覚ギャップを拘束しながら、新しい都市領域を順次吸収する。
我々は,4大陸12都市と7つの知覚次元からなるパノラマストリートスケープベンチマークを用いて,HVSP-LLを評価した。
このフレームワークは、ホールドアウト都市シーケンス上のスピアマン相関値0.834、最強連続ベースラインに対する絶対6.1点改善値、都市間認識ギャップを0.094に縮小し、最強連続ベースライン(0.151)に対して38%、代表正規化ベースライン(0.218)に対して57%縮小する。
校正階層の各階層は単調に寄与し、エクイティ・アウェアのリハーサルは−0.038から+0.013への後退平均を変換し、ホールドアウトシーケンスにおける破滅的な忘れをなくす。
以上の結果から,階層的アンカーは都市規模での地理的に均等な街路景観推定への実践的経路であることが示唆された。
関連論文リスト
- Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images [52.50752250573993]
MLLM(Multimodal Large Language Models)は、視覚的知覚が強いが、視点の変化による空間の推論には限界がある。
本研究では、この課題を全方位360度画像におけるパースペクティブ・コンディションド・スペース・推論(PCSR)として検討する。
我々は2,600全方位画像から84,373組の質問応答対の診断ベンチマークであるPCSR-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-12T17:11:17Z) - Slum Detection and Density Mapping with AlphaEarth Foundations: A Representation Learning Evaluation Across 12 Global Cities [9.982796078979648]
画素レベルのスラムマッピングは、長い間、限られた都市間一般化によって制約されてきた。
AlphaEarth Foundationsは、軽量スラムモニタリングのための新しい分析可能なベースを提供する。
我々は,12都市と69都市年対のスラム分類とサブピクセル密度推定についてAFFを評価した。
論文 参考訳(メタデータ) (2026-05-11T05:54:15Z) - Earth Embeddings Reveal Diverse Urban Signals from Space [17.134313498337804]
都市信号予測のために、AlphaEarth、Prithvi、Clayの3つの地球埋め込みファミリーをベンチマークした。
統一的な教師付き学習フレームワークを用いて、犯罪、収入、健康、旅行行動にまたがる14の地区レベルの指標を予測する。
以上の結果から, 地層埋没が都市構造に結びつく結果の予測技術として, かなりの都市変動を捉えていることが示唆された。
論文 参考訳(メタデータ) (2026-04-03T20:58:37Z) - SLUM-i: Semi-supervised Learning for Urban Mapping of Informal Settlements and Data Quality Benchmarking [5.931174898048042]
急速な都市拡大は、低所得国と中所得国の主要都市における非公式の集落の成長を加速させた。
我々は,カラチとムンバイのベンチマークデータセットとともに,スクラッチから構築したLahoreのベンチマークデータセットを紹介した。
そこで本研究では,従来の半教師付き学習パイプラインに内在するクラス不均衡と特徴劣化を軽減するための,新しい半教師付きセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T13:16:30Z) - VisitHGNN: Heterogeneous Graph Neural Networks for Modeling Point-of-Interest Visit Patterns [3.545082819007165]
VisitHGNNは、個々の関心点(POI)の確率を予測するために設計された関係性特化グラフネットワークである。
ビジターHGNNは平均KL偏差0.287、MAE0.008、Top-1精度0.853、R-square0.853で高い予測性能を達成している。
都市計画、交通政策、移動システム、公衆衛生におけるモデルによる意思決定支援の可能性。
論文 参考訳(メタデータ) (2025-10-03T03:42:58Z) - Interpretable Multimodal Framework for Human-Centered Street Assessment: Integrating Visual-Language Models for Perceptual Urban Diagnostics [0.0]
本稿では,新しいマルチモーダルストリート評価フレームワーク(MSEF)を紹介する。
パラメータ効率適応のためにLoRAとP-Tuning v2を用いてフレームワークを微調整する。
このモデルは、客観的特徴に関するF1スコアの0.84と、集約された居住者の知覚との89.3%の一致を達成している。
論文 参考訳(メタデータ) (2025-06-05T14:34:04Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Consistency-Aware Anchor Pyramid Network for Crowd Localization [167.93943981468348]
クラウドローカライゼーションは、群衆シナリオにおける人間の空間的位置を予測することを目的としている。
本稿では,各画像領域のアンカー密度を適応的に決定するアンカーピラミッド方式を提案する。
論文 参考訳(メタデータ) (2022-12-08T04:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。