論文の概要: Flood Mapping from RGB imagery using a Vision Foundation Model
- arxiv url: http://arxiv.org/abs/2606.24120v1
- Date: Tue, 23 Jun 2026 04:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.760743
- Title: Flood Mapping from RGB imagery using a Vision Foundation Model
- Title(参考訳): ビジョンファウンデーションモデルを用いたRGB画像からの洪水マッピング
- Authors: Vladyslav Polushko, Tilman Bucher, Ronald Rösch, Thomas März, Markus Rauhut, Andreas Weinmann,
- Abstract要約: 集落周辺の洪水範囲の高解像度マップは緊急対応と被害評価に不可欠である。
洪水マップを作成するために、水分割のための深層学習モデルがよく用いられる。
ビジョンファウンデーションモデルや大きなビジョントランスフォーマーは、ドメインをまたいで一般化することが知られている。
- 参考スコア(独自算出の注目度): 0.20524609401792393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Timely, high-resolution maps of flood extent around settlements are essential for emergency response and damage assessment. We consider airborne RGB imagery for flood mapping as it can be collected rapidly at low cost. To produce flood maps, deep learning models for water segmentation are often used. CNN based and small vision transformer models are used. However, they need much data for adaptation to a change of scenery, i.e., another flooding event. Vision foundation models or large vision transformers are known to generalize across domains. Recently, foundation models for Earth observation became available. They are pretrained on satellite data, whose spatial resolution, viewing geometry, and radiometry differ from nadir RGB imagery. Thus, adaptation is required. We investigate how a satellite-pretrained Earth observation foundation model can be adapted to centimeter-scale floodwater mapping from RGB imagery. Specifically, we fine-tune a model we call Prithvi-2.0-UPN consisting of the Prithvi-EO-2.0-600M Vision Transformer combined with a UPerNet decoder for binary water segmentation on two RGB datasets (BlessemFlood21, NeuenahrFlood). In a first experiment we observe that Prithvi-2.0-UPN reaches state-of-the-art results on BlessemFlood21 and NeuenahrFlood, when trained on their datasets. In a second experiment we show that Prithvi-2.0-UPN performs better than state-of-the-art baseline models for transfer to a new flood event (trained on BlessemFlood21, tested on NeuenahrFlood) in a zero-shot setting. However, the performance indicates room for improvement. In this respect, we investigate in a third experiment how performance improves when further fine-tuning the models with small shares of NeuenahrFlood training data: Prithvi-2.0-UPN improves the fastest and reaches almost the performance level when fully trained on NeuenahrFlood, indicating transfer capabilities.
- Abstract(参考訳): タイムリーに、集落周辺の洪水範囲の高解像度マップは、緊急対応と被害評価に不可欠である。
洪水マッピングのための空中RGB画像は,低コストで迅速に収集できると考えられる。
洪水マップを作成するために、水分割のための深層学習モデルがよく用いられる。
CNNベースの小型ビジョントランスモデルが使用されている。
しかし、彼らは風景の変化、すなわち別の洪水イベントに適応するために多くのデータを必要としている。
ビジョンファウンデーションモデルや大きなビジョントランスフォーマーは、ドメイン間で一般化することが知られている。
近年、地球観測の基礎モデルが利用可能になった。
これらは衛星データに基づいて事前訓練されており、その空間分解能、視線幾何学、放射測定はナディルRGB画像とは異なる。
そのため、適応が必要である。
衛星による地球観測基盤モデルが,RGB画像から約1cm規模の地下水マッピングにどのように適用できるかを考察する。
具体的には、2つのRGBデータセット(BlessemFlood21, NeuenahrFlood)上で、Prithvi-EO-2.0-600M Vision TransformerとUPerNetデコーダを組み合わせたPrithvi-2.0-UPNと呼ばれるモデルを微調整する。
最初の実験では、Prithvi-2.0-UPNがBlessemFlood21とNeenahrFloodで最先端の結果に達するのを観測した。
第2の実験では、Prithvi-2.0-UPNは、ゼロショット設定で新しい洪水イベント(BlessemFlood21で訓練され、NeuenahrFloodで試験される)に移行するための最先端のベースラインモデルよりも優れた性能を示す。
しかし、パフォーマンスは改善の余地を示している。
そこで本研究では,NeuenahrFloodのトレーニングデータを用いてモデルをさらに微調整することで,パフォーマンスが向上することを示す。
関連論文リスト
- Explainable Flood Segmentation on Sentinel-1 SAR Imagery: A Comparative Study of CNN and Transformer Architectures [0.0]
本研究では,畳み込みニューラルネットワーク(CNN)とマルチクラス洪水セグメンテーションのための視覚トランスフォーマーアーキテクチャを包括的に比較する。
3つの最先端(SOTA)CNNベースのモデル、U-Net、U-Net++、DeepLabV3、ResNet-34のバックボーン、および3つのSegFormer変種(b0,b1,b2)を評価した。
結果は、SegFormer-b2がETCIデータセットのU-Netベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-06-15T07:06:30Z) - Riverine Land Cover Mapping through Semantic Segmentation of Multispectral Point Clouds [1.078579228944281]
本研究では,現実世界の河川環境における土地被覆マッピングにおけるポイントトランスフォーマーv2(PTv2)の利用について検討する。
我々は3チャンネルのLiDAR点雲からの幾何学的およびスペクトル的情報を用いて,砂,砂利,低植生,高植生,林床,水などの土地被覆クラスをマッピングする。
その結果、フル機能構成を用いることで、平均mIoU(mIoU)が0.950となり、幾何ベースラインを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2026-03-23T17:27:17Z) - PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models [16.820485795257195]
PIG-Nav(Pretrained Image-Goal Navigation)は、視覚に基づくナビゲーションモデルの事前学習戦略をさらに研究する新しいアプローチである。
事前訓練されたナビゲーションモデルの性能を一貫して改善する2つの重要な設計選択を同定する。
我々のモデルは、ゼロショット設定の平均22.6%の改善と、既存のビジュアルナビゲーション基盤モデルよりも37.5%の微調整設定の改善を実現している。
論文 参考訳(メタデータ) (2025-07-23T05:34:20Z) - Habaek: High-performance water segmentation through dataset expansion and inductive bias optimization [4.198865250277024]
本研究では,ADE20K や RIWA などのデータセットを用いたデータ拡張によるセグメンテーションのためのセグフォーマーモデルの改良を提案する。
提案するHabaekモデルは, 0.9 1986 から 0.94397 までの IoU (Intersection over Union) で, 現在のモデルよりも高い性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-21T09:06:13Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Rapid Flood Inundation Forecast Using Fourier Neural Operator [77.30160833875513]
洪水浸水予測は洪水前後の緊急計画に重要な情報を提供する。
近年,高分解能な流体力学モデリングが普及しつつあるが,道路の洪水範囲やリアルタイムのビルディングレベルは依然として計算的に要求されている。
洪水範囲と浸水深度予測のためのハイブリッドプロセスベースおよびデータ駆動機械学習(ML)アプローチを提案する。
論文 参考訳(メタデータ) (2023-07-29T22:49:50Z) - An evaluation of deep learning models for predicting water depth
evolution in urban floods [59.31940764426359]
高空間分解能水深予測のための異なる深層学習モデルの比較を行った。
深層学習モデルはCADDIESセル-オートマタフラッドモデルによってシミュレーションされたデータを再現するために訓練される。
その結果,ディープラーニングモデルでは,他の手法に比べて誤差が低いことがわかった。
論文 参考訳(メタデータ) (2023-02-20T16:08:54Z) - N2V2 -- Fixing Noise2Void Checkerboard Artifacts with Modified Sampling
Strategies and a Tweaked Network Architecture [66.03918859810022]
我々は,バニラN2V装置に2つの改良を加えて,不要なアーティファクトを大幅に削減する。
我々は、顕微鏡および自然画像データに基づいて、その修正を検証した。
論文 参考訳(メタデータ) (2022-11-15T21:12:09Z) - UDepth: Fast Monocular Depth Estimation for Visually-guided Underwater
Robots [4.157415305926584]
低コスト水中ロボットの3次元認識機能を実現するための高速な単眼深度推定法を提案する。
我々は,自然の水中シーンの画像形成特性に関するドメイン知識を取り入れた,UDepthという新しいエンド・ツー・エンドの深層学習パイプラインを定式化した。
論文 参考訳(メタデータ) (2022-09-26T01:08:36Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View
Synthesis [74.4983052902396]
単眼深度推定を改善するために,3つの主要なステップに分割した新しいトレーニング手法を提案する。
実験により,KITTIおよびNYU-Depth-v2データセット上での最先端ないし同等の性能が得られた。
論文 参考訳(メタデータ) (2021-12-22T12:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。