論文の概要: PROSE: Training-Free Egocentric Scene Registration with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.16569v1
- Date: Mon, 15 Jun 2026 11:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.476929
- Title: PROSE: Training-Free Egocentric Scene Registration with Vision-Language Models
- Title(参考訳): PROSE:視覚言語モデルによる訓練不要エゴセントリックなシーン登録
- Authors: Zhiang Chen, Nahyuk Lee, Boyang Sun, Taein Kwon, Marc Pollefeys, Zuria Bauer, Sunghwan Hong,
- Abstract要約: PROSE(Prompted Scene rEgistration)は、各RGBシーケンスをオブジェクトレベルの3Dシーングラフにリフトする。
PROSEは学習したパラメータを追加せず、深度センサーやトレーニング、注釈付きグラフを必要としない。
エゴセントリックなAria Digital TwinとAria Everyday Activityベンチマークでは、幾何学的および学習されたシーングラフのベースラインを、登録精度で上回っている。
- 参考スコア(独自算出の注目度): 48.66414784633783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Registering two captures of the same indoor space taken at different times underpins persistent spatial memory for robots and AR systems, yet the realistic version of this task is egocentric and its most scalable form is RGB-only. Head-mounted cameras yield blurry, fast-moving, partially overlapping views from which dense geometry is hard to recover. Classical registration leans on exactly the clean point clouds this setting lacks, while learned scene-graph methods require a pre-built or annotated graph and a trained matcher that we find brittle under egocentric data. We take a different route, using a pretrained vision-language model as the source of both scene understanding and cross-scan matching. Our method, PROSE (Prompted Scene rEgistration), lifts each RGB sequence into an object-level 3D scene graph using off-the-shelf foundation models for geometry, segmentation, and language, then prompts the same VLM to match object instances across the two RGB sequences. To make this matching tractable and reliable, we leverage object heights as a prior and verify each proposed match with a paired same/different query, then solve for the rigid transform by hypothesizing a candidate per matched object and selecting the one with the strongest geometric consensus. PROSE adds no learned parameters and requires no depth sensor, training, or annotated graph. On the egocentric Aria Digital Twin and Aria Everyday Activities benchmarks, it outperforms both geometric and learned scene-graph baselines in registration accuracy, on ground-truth and RGB-reconstructed point clouds alike, and the scene graph it produces transfers directly to downstream tasks.
- Abstract(参考訳): 異なるタイミングで撮影された同じ屋内空間の2つのキャプチャーを登録することは、ロボットやARシステムにとって永続的な空間記憶を支えているが、このタスクの現実的なバージョンはエゴセントリックであり、最もスケーラブルな形式はRGBのみである。
頭に搭載されたカメラはぼやけた、素早く動く、部分的に重なり合うビューを生成します。
古典的な登録は、この設定に欠けているクリーンな点の雲に完全に依存する。一方、学習されたシーングラフ法では、事前に構築または注釈付けされたグラフと、エゴセントリックなデータの下で不安定となるようなトレーニング済みのマーカが必要である。
我々は、シーン理解とクロススキャンマッチングの両方のソースとして、事前学習された視覚言語モデルを用いて、異なる経路を取る。
提案手法であるPrompted Scene rEgistrationは,各RGBシーケンスを,幾何学,セグメンテーション,言語などの既製の基礎モデルを用いてオブジェクトレベル3Dシーングラフに上げ,同じVLMに2つのRGBシーケンスのオブジェクトインスタンスをマッチングさせる。
このマッチングをトラクタブルで信頼性の高いものにするために、オブジェクトの高さを事前として活用し、提案した各マッチングをペアの同値/微分クエリで検証し、マッチング対象ごとの候補を仮説化し、最強の幾何学的コンセンサスで選択することで、厳密な変換を解く。
PROSEは学習したパラメータを追加せず、深度センサーやトレーニング、注釈付きグラフを必要としない。
エゴセントリックなAria Digital TwinとAria Everyday Activityベンチマークでは、ジオグラフィックと学習されたシーングラフのベースラインを、地上トルスとRGB再構成されたポイントクラウドと、下流タスクに直接転送するシーングラフで上回っている。
関連論文リスト
- SceneGraphGrounder: Zero-Shot 3D Visual Grounding via Structured Scene Graph Matching [2.4737219202679808]
SceneGrapherは,再構成された3次元シーングラフ上の構造化グラフマッチングとして3次元グラウンドを再構成するフレームワークである。
我々は,移動ロボットによる実世界展開によるフレームワークの実証を行い,長距離物理環境における堅牢な空間推論を実証した。
論文 参考訳(メタデータ) (2026-05-20T22:30:51Z) - GLASS: Geometry-aware Local Alignment and Structure Synchronization Network for 2D-3D Registration [31.27446797835971]
繰り返しパターンを持つシーンでは、画像には十分な3D構造的手がかりや点雲とのアライメントが欠如しており、不正確な一致につながっている。
本稿では,局所幾何拡張(LGE)モジュールとグラフ分散一貫性(GDC)モジュールの2つの新しいモジュールを提案する。
提案手法は,イメージ・ツー・ポイント・クラウド登録における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T10:30:40Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks [14.548198408544032]
我々は3次元シーングラフアライメントを部分的なグラフマッチング問題として扱い、グラフニューラルネットワークを用いてそれを解くことを提案する。
我々は、点雲登録法で学習した幾何学的特徴を再利用し、クラスタ化された点レベルの幾何学的特徴とノードレベルの意味的特徴を関連付ける。
本稿では,3次元シーングラフのノードワイドアライメントを用いて,事前学習した点雲登録手法からマッチング候補を再重み付けする点マッチング再構成手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T15:01:58Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - Robust Point Cloud Registration Framework Based on Deep Graph
Matching(TPAMI Version) [13.286247750893681]
3Dポイントクラウドの登録は、コンピュータビジョンとロボティクスの基本的な問題である。
本稿では,ポイントクラウド登録のための新しいディープグラフマッチングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-09T06:05:25Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。