論文の概要: Pose Anything Anywhere:Model-free Object Poses from Arbitrary References
- arxiv url: http://arxiv.org/abs/2606.23634v1
- Date: Mon, 22 Jun 2026 17:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:36:40.762359
- Title: Pose Anything Anywhere:Model-free Object Poses from Arbitrary References
- Title(参考訳): Pose Anything Anywhere:任意参照からのモデルなしオブジェクト
- Authors: Hongli Xu, Jiaqi Hu, Junwen Huang, Boyang Zhong, Peter KT Yu, Nassir Navab, Benjamin Busam, Slobodan Ilic,
- Abstract要約: RGBとRGB-Dの両方の入力をシームレスにサポートするモデルフリーフレームワークであるPANYを提案する。
1つまたはスパースなポーズフリー参照ビューで動作し、新しいオブジェクトに効果的に一般化する。
複数のベンチマークで最先端のパフォーマンスを実現し、既存のモデルフリーメソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 64.58017857473774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 6D pose of unseen objects is a fundamental yet challenging problem for open-world robotics and embodied perception. Model-based methods are accurate but depend on CAD assets or heavy onboarding, while most model-free approaches are still limited to pairwise single-anchor matching and thus fail under occlusion and large viewpoint changes with low query-reference overlap. Therefore, we present PANY, a unified model-free framework that seamlessly supports both RGB and RGB-D inputs, operates on one or sparse pose-free reference views, and generalizes effectively to novel objects. Built on a multi-view transformer geometry backbone, PANY moves beyond pairwise matching by learning view-consistent geometry and cross-view alignment cues that remain stable under wide baselines and limited overlap. When additional unposed assist views are available, PANY aggregates them via pose-graph canonical registration to increase geometric coverage and reinforce the final pose. Extensive experiments show that PANY achieves state-of-the-art performance across multiple benchmarks, substantially outperforming existing model-free methods, improving pose accuracy by +12% on YCB-V and over +20% on LM-O. Furthermore, PANY consistently performs well under both single-reference and sparse-reference settings, demonstrating strong robustness in real-world environments.
- Abstract(参考訳): 見えない物体の6Dポーズを推定することは、オープンワールドのロボティクスや知覚の具体化にとって、根本的かつ困難な問題である。
モデルベース手法は正確だがCADアセットや重いオンボーディングに依存するが、ほとんどのモデルフリーアプローチはペアワイズなシングルアンカーマッチングに制限されているため、オクルージョンの下で失敗し、クエリ参照の重複が低くなる。
そこで本研究では,RGBとRGB-Dの両方の入力をシームレスにサポートする統一モデルフリーフレームワークであるPANYについて述べる。
多視点トランスフォーマー幾何のバックボーン上に構築されたPANYは、広いベースラインと限られたオーバーラップの下で安定なビュー一貫性幾何とクロスビューアライメントキューを学習することによって、ペアワイズマッチングを超える。
追加の未提案のアシストビューが利用可能になると、PANYはそれらをポーズグラフの標準登録を通じて集約し、幾何学的カバレッジを高め、最終的なポーズを強化する。
広汎な実験により、PANYは複数のベンチマークで最先端のパフォーマンスを達成し、既存のモデルフリーメソッドよりも大幅に向上し、YCB-Vでは12%、LM-Oでは20%以上、ポーズ精度が向上した。
さらに、PANYは単一参照設定とスパース参照設定の両方で常に良好に動作し、実環境において強い堅牢性を示す。
関連論文リスト
- OMNI-PoseX: A Fast Vision Model for 6D Object Pose Estimation in Embodied Tasks [5.49148694940665]
オープン語彙認識とSO(3)を意識したリフレクションフローマッチング・ポーズ・プロジェクタを一体化した視覚基礎モデルを提案する。
このアーキテクチャは、幾何一貫性のある回転推定からオブジェクトレベルの理解を分離し、軽量なマルチモーダル融合戦略を採用している。
堅牢性と一般化性を高めるため、モデルは大規模な6Dポーズデータセットに基づいて訓練される。
論文 参考訳(メタデータ) (2026-04-03T06:07:52Z) - Object Pose Transformer: Unifying Unseen Object Pose Estimation [54.20344997573707]
モデルなしのオブジェクトポーズ推定を未知のインスタンスで学習することは、3Dビジョンにおける根本的な課題である。
我々のチームは、RGB入力から深度、ポイントマップ、カメラパラメータ、正規化されたオブジェクト座標を共同で予測します。
当社はカメラ非依存で、カメラ固有の知識をオンザフライで学習し、メトリックスケールリカバリのためのオプションの深度入力をサポートします。
論文 参考訳(メタデータ) (2026-03-24T16:04:16Z) - AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment [18.198789096671245]
本稿では,複数のRGBビューから情報を集約する6次元オブジェクトポーズ推定手法であるAlignPoseを紹介する。
このアプローチの鍵となるコンポーネントは、オブジェクトのポーズ用に特別に設計された、新しいマルチビュー特徴量改善である。
単一の一貫した世界フレームオブジェクトのポーズを最適化し、オンザフライでレンダリングされたオブジェクト特徴と観察された画像特徴との間の特徴差を最小限にする。
論文 参考訳(メタデータ) (2025-12-23T17:29:08Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。