論文の概要: CrossMaps: Confidence-Aware Open-Vocabulary Semantic Mapping for Rover Navigation
- arxiv url: http://arxiv.org/abs/2606.16935v1
- Date: Mon, 15 Jun 2026 16:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.070456
- Title: CrossMaps: Confidence-Aware Open-Vocabulary Semantic Mapping for Rover Navigation
- Title(参考訳): CrossMaps: ローバーナビゲーションのための信頼性を意識したオープン語彙セマンティックマッピング
- Authors: Jan-Niklas Klein, Sona Ghahremani, Christian Medeiros Adriano, Holger Giese,
- Abstract要約: ローバーは物体とセンサーの品質の両方を符号化する空間地図を維持するために知覚に依存する。
提案するCrossMapsは,RGB-Dデータから言語問合せ可能なマップをリアルタイムに構築するセマンティックマッピングパイプラインである。
SLAMと一緒にJetson Orinを搭載したUGVでデプロイするために設計されたCrossMapsは、リアルタイムで動作し、自然言語でクエリしてローバーナビゲーションをガイドできるセマンティックヒートマップを生成する。
- 参考スコア(独自算出の注目度): 0.28582274879786684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rovers rely on perception to maintain spatial maps that encode both objects and sensor quality (e.g., range reliability, lighting artifacts, data density), guiding data fusion, embedding updates, and navigation under partial observability. To study these coupled perception-navigation processes, we present CrossMaps, a real-time confidence-aware open-vocabulary semantic mapping pipeline that constructs language-queryable maps from RGB-D data. Building on VLMaps-style approaches, CrossMaps integrates multi-scale CLIP embeddings with confidence-aware fusion and a dual-memory architecture consisting of Short-Term Memory (STM) and Long-Term Memory (LTM). The STM aggregates noisy visual observations using geometric, semantic, and temporal confidence cues, while confident and coherent cells are promoted to the LTM as persistent semantic landmarks. Designed for deployment with a Jetson Orin-powered UGV alongside SLAM, CrossMaps runs in real time and produces semantic heatmaps that can be queried with natural language to guide rover navigation.
- Abstract(参考訳): ローバーは、オブジェクトとセンサーの品質をエンコードする空間マップ(例えば、範囲の信頼性、照明アーチファクト、データ密度)の認識、データ融合の誘導、埋め込み更新、部分観測可能性の下でのナビゲーションに頼っている。
そこで本研究では,RGB-Dデータから言語クエリ可能なマップを構築するための,リアルタイムな信頼度を考慮したオープン語彙セマンティックマッピングパイプラインであるCrossMapsを提案する。
VLMapsスタイルのアプローチに基づいて、CLIPの複数スケールの埋め込みと、信頼性を意識した融合と、短期記憶(STM)と長期記憶(LTM)からなるデュアルメモリアーキテクチャを統合する。
STMは、幾何学的、意味的、時間的信頼の手がかりを用いてノイズの多い視覚的観察を集約し、自信とコヒーレントな細胞は永続的な意味的ランドマークとしてLTMに昇格する。
SLAMと一緒にJetson Orinを搭載したUGVでデプロイするために設計されたCrossMapsは、リアルタイムで動作し、自然言語でクエリしてローバーナビゲーションをガイドできるセマンティックなヒートマップを生成する。
関連論文リスト
- FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - Real-Time Metric-Semantic Mapping for Autonomous Navigation in Outdoor Environments [18.7565126823704]
大規模屋外環境のグローバルなメトリセマンティックメッシュマップを生成するオンラインメトリセマンティックマッピングシステムを提案する。
シナリオスケールに関わらず,フレーム処理は7ms未満で,マッピング処理は例外的な速度を実現する。
実世界のナビゲーションシステムにマップを組み込むことにより,大学構内における測地情報に基づく地形評価と自律的なポイント・ツー・ポイントナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-11-30T00:05:10Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - GenMapping: Unleashing the Potential of Inverse Perspective Mapping for Robust Online HD Map Construction [20.1127163541618]
我々はGenMappingというユニバーサルマップ生成フレームワークを設計した。
このフレームワークは、主および二重補助枝を含む三進的なシナジーアーキテクチャで構築されている。
実験結果の網羅的な配列から,提案手法はセマンティックマッピングとベクトル化マッピングの両方において最先端の手法を超越し,高速な推論速度を維持した。
論文 参考訳(メタデータ) (2024-09-13T10:15:28Z) - DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction [20.6143278960295]
本稿では,時間的インスタンス整合性と時間的マップ整合性学習に焦点を当てた。
DTCLMapperは、インスタンスの埋め込みとジオメトリマップを組み合わせた、双方向ストリームの時間一貫性学習モジュールである。
良く認識されたベンチマーク実験から,提案したDTCLMapperはベクトル化されたマッピングタスクにおいて最先端のパフォーマンスを達成することが示唆された。
論文 参考訳(メタデータ) (2024-05-09T02:58:55Z) - MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping [21.5611219371754]
本稿では,このマッピングをトラッキングタスクとして定式化し,メモリラテント履歴を用いて時間とともに一貫した再構成を行うベクトルHDマッピングアルゴリズムを提案する。
MapTrackerは、nuScenesとAgroverse2の両方のデータセットの既存のメソッドを、従来のメトリクスと新しい一貫性を意識したメトリクスでそれぞれ8%と19%以上上回っている。
論文 参考訳(メタデータ) (2024-03-23T23:05:25Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。