Fugu-MT 論文翻訳(概要): Compact Object-Level Representations with Open-Vocabulary Understanding for Indoor Visual Relocalization

論文の概要: Compact Object-Level Representations with Open-Vocabulary Understanding for Indoor Visual Relocalization

arxiv url: http://arxiv.org/abs/2606.24767v1
Date: Tue, 23 Jun 2026 16:27:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:49.071226
Title: Compact Object-Level Representations with Open-Vocabulary Understanding for Indoor Visual Relocalization
Title（参考訳）: オープン語彙理解によるコンパクトなオブジェクトレベル表現による屋内視覚的再局在化
Authors: Zhaopeng Cui, Jiarui Hu, Jingbo Liu, Boming Zhao, Xiyue Guo, Boyin Feng, Haocheng Peng, Yujun Shen, Hujun Bao, Guofeng Zhang,
Abstract要約: OpenReLocは、シーン理解と正確なポーズ推定機能を提供するために設計されたカメラ再ローカライズシステムである。 2D-3Dオブジェクトマッチングのためのオープン語彙意味知識を統合するためのマルチモーダル機構を提案する。実験により、OpenReLocは、様々なデータセット間で、より優れた再ローカライズリコールと精度を実現することが示された。
参考スコア（独自算出の注目度）: 93.79141221821858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Indoor visual relocalization plays a critical role in emerging spatial and embodied AI applications. However, prior research was predominantly devoted to low-level vision schemes, struggling to perceive scene semantics and compositions, which limits both interpretability and applicability. In this paper, we explore the issue of how to organize rich object information in a scene, including semantics, layout, and geometry, into a structured map representation, thereby utilizing object units exclusively to drive the camera relocalization task. To this end, we propose OpenReLoc, a camera relocalization system designed to provide scene understanding and accurate pose estimation capabilities. Leveraging recent foundation models, we first introduce a multi-modal mechanism to integrate open-vocabulary semantic knowledge for effective 2D-3D object matching. Additionally, we design object-oriented reference frames as position priors, paired with a reference frame selection strategy based on the Distance-IoU (DIOU), enabling extension to scalable scenes. Moreover, to ensure stable and accurate pose optimization, we also propose a dual-path 2D Iterative Closest Pixel loss guided by object shape. Experimental results demonstrate that OpenReLoc achieves superior relocalization recall and accuracy across various datasets. Our source code will be released upon acceptance.
Abstract（参考訳）: 屋内での視覚的再局在は、空間的および具現化されたAIアプリケーションにおいて重要な役割を果たす。しかし、先行研究は主に低レベルの視覚スキームに焦点が当てられ、シーンのセマンティクスや構成を理解するのに苦労し、解釈可能性と適用性の両方を制限した。本稿では,シーン内のリッチなオブジェクト情報(セマンティクス,レイアウト,幾何学など)を構造化地図表現に整理する方法について検討し,カメラ再配置タスクを駆動するためにのみオブジェクト単位を活用する。この目的のために,シーン理解と正確なポーズ推定機能を提供するカメラ再配置システムOpenReLocを提案する。近年の基盤モデルを活用することで,オープン語彙のセマンティック知識を効果的に2D-3Dオブジェクトマッチングに利用するためのマルチモーダル機構を導入する。さらに,Distance-IoU (DIOU) に基づく参照フレーム選択戦略と組み合わせて,オブジェクト指向参照フレームを位置優先として設計し,スケーラブルなシーンへの拡張を可能にする。さらに,安定かつ高精度なポーズ最適化を実現するために,オブジェクト形状をガイドした2次元反復クローズト・ピクセルの損失も提案する。実験により、OpenReLocは、様々なデータセット間で、より優れた再ローカライズリコールと精度を実現することが示された。ソースコードは受理後に公開されます。

関連論文リスト

Direct 3D-Aware Object Insertion via Decomposed Visual Proxies [101.76006356727015]
DIRECT(Decomposed Injection for Reference Composition and Target-integration)は、対話型ポーズ操作と高忠実度2D画像合成を統合する新しいフレームワークである。提案手法は挿入条件を,参照オブジェクトから視覚的詳細をキャプチャする外観ガイダンス,ユーザ調整3Dプロキシから派生した幾何学的ガイダンス,ターゲット背景からのコンテキストガイダンスの3つの補完成分に分解する。実験により、DIRECTは幾何学的制御性と視覚的品質の両方において従来の手法よりも優れていた。
論文参考訳（メタデータ） (2026-06-04T18:00:34Z)
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文参考訳（メタデータ） (2025-04-17T16:33:39Z)
BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation [81.24160191975781]
本稿では、スパースビュー設定における課題に対処するために、オブジェクトポーズ推定のための汎用RGBベースのアプローチを提案する。これらの制約を克服するために、オブジェクトのポーズの中間表現としてオブジェクト境界ボックスのコーナーポイントを導入する。 3Dオブジェクトコーナーはスパース入力ビューから確実に復元でき、対象ビューの2Dコーナーポイントは、新しい参照ベースポイントデータセットによって推定される。
論文参考訳（メタデータ） (2025-04-10T17:58:35Z)
Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [45.68105299990119]
Open-vocabulary 3D object Detection (OV-3DOD) は、閉じた集合を超えて新しいオブジェクトをローカライズし分類することを目的としている。我々は,OV-3DODの局所オブジェクトとグローバルシーン情報を同時に学習するための階層型フレームワークHCMAを提案する。
論文参考訳（メタデータ） (2025-03-10T17:55:22Z)
Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
LidaRefer: Context-aware Outdoor 3D Visual Grounding for Autonomous Driving [1.0589208420411014]
3Dビジュアルグラウンドは、自然言語記述でガイドされた3Dシーン内のオブジェクトや領域を見つけることを目的としている。大規模な屋外LiDARシーンは背景が支配的であり、フォアグラウンド情報も限られている。 LidaReferは、屋外シーンのためのコンテキスト対応の3D VGフレームワークである。
論文参考訳（メタデータ） (2024-11-07T01:12:01Z)
Semantic Object-level Modeling for Robust Visual Camera Relocalization [14.998133272060695]
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
論文参考訳（メタデータ） (2024-02-10T13:39:44Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文参考訳（メタデータ） (2022-02-01T15:00:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。