論文の概要: From Open Waters to Enclosed Cabins: ProteusVPR for Cross-Scene Visual Place Recognition in Maritime Perception and Cabin Inspection
- arxiv url: http://arxiv.org/abs/2606.24234v1
- Date: Tue, 23 Jun 2026 07:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.820913
- Title: From Open Waters to Enclosed Cabins: ProteusVPR for Cross-Scene Visual Place Recognition in Maritime Perception and Cabin Inspection
- Title(参考訳): オープンウォーターから閉鎖されたキャビン:海面知覚とキャビン検査における横断的な視覚的位置認識のためのProteusVPR
- Authors: Zexi Chena, Zitai Huang, Qiwen Gu, Zhiqi Li, Shengli Dong, Chenlei Wang, Junqiao Zhao, Hongdong Wang, Bing Han,
- Abstract要約: 海洋環境のクロスシーンシフトは、視覚的場所認識(VPR)に特有の課題をもたらす
既存のVPRメソッドは、非常に異なるシナリオで確実に一般化できない。
本稿では,2段階の検索・リファインメントフレームワークProteusVPRを提案する。
- 参考スコア(独自算出の注目度): 7.575782913368321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous robotic inspection in maritime environments presents unique challenges for Visual Place Recognition (VPR) due to cross-scene perceptual shifts. Robots navigating ship-borne environments must transition between visually distinct domains: open decks with sparse textures and severe illumination changes, and enclosed cabins with repetitive structures and high visual ambiguity. Existing VPR methods, designed primarily for urban or indoor scenes, fail to generalize reliably across these starkly different scenarios. To address this, we propose ProteusVPR, a two-stage retrieval-refinement framework. The first stage employs any standard VPR model for initial image retrieval. The second stage introduces a geometric-visual estimation network that fuses the retrieved image with two temporally preceding frames, incorporating geometric descriptors, a local affine coordinate system, and camera azimuth encoding to achieve precise localization. To support this task, we introduce the XHZ dataset, an 8K-panoramic ship-borne dataset collected from an operational vessel, featuring multi-floor cabin structures, deck transition zones, and strict query-database separation for rigorous evaluation. Extensive experiments on the XHZ dataset demonstrate that ProteusVPR consistently improves the localization accuracy across multiple VPR backbones, reducing mean localization error by over 60\% on average and that ProteusVPR offers an effective and robust solution for precise visual localization in challenging, cross-scene maritime environments.
- Abstract(参考訳): 海洋環境における自律型ロボット検査は、視覚的場所認識(VPR)に特有の課題をもたらす。
船内環境をナビゲートするロボットは、透明なテクスチャを持つオープンデッキと、厳密な照明変更、反復的な構造と高い視覚的あいまいさを持つ囲われたキャビンという、視覚的に異なる領域の間で移行する必要がある。
既存のVPR手法は、主に都市や屋内のシーン向けに設計されており、これらの非常に異なるシナリオを確実に一般化することができない。
そこで本稿では,2段階の検索・リファインメントフレームワークであるProteusVPRを提案する。
第1段階では、初期画像検索に標準のVPRモデルを使用する。
第2段階では、検索した画像を時間的に先行した2つのフレームで融合する幾何学的視覚推定ネットワークを導入し、幾何学的記述子、局所アフィン座標系、カメラ方位符号化を組み込んで正確なローカライゼーションを実現する。
このタスクを支援するために,運用船から収集した8Kパノラマ船載データセットであるXHZデータセットを導入し,マルチフロアキャビン構造,デッキ遷移ゾーン,厳密なクエリデータベース分離による厳密な評価を行った。
XHZデータセットの大規模な実験は、ProteusVPRが複数のVPRバックボーン間のローカライゼーション精度を一貫して改善し、平均的なローカライゼーションエラーを平均60倍以上削減し、挑戦的でクロスシーンの海洋環境において、正確な視覚的ローカライゼーションのための効果的で堅牢なソリューションを提供することを示した。
関連論文リスト
- CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation [14.612259909790454]
クロスビュージオローカライゼーションは、地上画像の位置を航空画像データベースとマッチングすることによって推定する。
既存の手法では、大規模な検索と正確なポーズ推定のいずれかによってこれに取り組むが、両方ではない。
両タスクを共同で実行する単一アーキテクチャであるCIPER(Cross-view Image-Retrieval and Pose-estimation TransformER)を提案する。
論文 参考訳(メタデータ) (2026-06-03T15:31:06Z) - FLORO: A Multimodal Geospatial Foundation Model for Ecological Remote Sensing Across Sensors and Scales [65.4821703903285]
FLOROは、小さなが高度に多様なリモートセンシングコーパスから転送可能な表現を学習するために設計されたマルチモーダル基礎モデルである。
FLOROは、Sentinel-1、Sentinel-2、SkySAT画像、標高、UAV由来のデータとの不均一な組み合わせによるマスク付きオートエンコーディングを用いて事前訓練される。
我々は、シーン分類、セグメンテーション、回帰タスクにまたがる凍結エンコーダプロトコルを用いて、PANGAEAベンチマーク上でFLOROを評価した。
論文 参考訳(メタデータ) (2026-05-27T08:55:54Z) - Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。
本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。
提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文 参考訳(メタデータ) (2026-04-02T08:08:41Z) - Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - CVD-SfM: A Cross-View Deep Front-end Structure-from-Motion System for Sparse Localization in Multi-Altitude Scenes [0.7623023317942882]
本稿では,様々な高度にまたがるロバストかつ正確な位置決めの課題に対処する,新しい多高度カメラポーズ推定システムを提案する。
このシステムは, クロスビュートランス, 深い特徴, 動きからの構造を統合して, 多様な環境条件や視点変化を効果的に処理する。
論文 参考訳(メタデータ) (2025-08-03T22:11:48Z) - Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery [0.0]
リモートセンシング画像から災害影響領域のセグメンテーションを洗練するための視覚変換器(ViT)ベースのディープラーニングフレームワークを提案する。
本フレームワークはセグメント化結果のスムーズさと信頼性を向上し,正確な地下真実が得られない場合の災害対応にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-21T07:48:07Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。