論文の概要: G2G: Exploiting Intra-Group Geometry for Inter-Group Pose Estimation
- arxiv url: http://arxiv.org/abs/2606.08284v1
- Date: Sat, 06 Jun 2026 18:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.017153
- Title: G2G: Exploiting Intra-Group Geometry for Inter-Group Pose Estimation
- Title(参考訳): G2G:グループ間ポース推定のためのグループ内幾何の爆発
- Authors: Yufei Wei, Shuhao Ye, Chenxiao Hu, Yiyuan Pan, Dongyu Feng, Rong Xiong, Yue Wang, Yanmei Jiao,
- Abstract要約: 2つの画像群間の相対的な6-DoFの復元は、クロスシーケンス再局在とマルチカメラ・リグ・オドメトリーによって行われる。
基礎モデルを完全に凍結し,2つのグループをブリッジする軽量なトレーニング可能なモジュールを3つ追加します。
両方のタスクで最先端の精度を達成し、すべてのベースラインが元の監督下で再トレーニングされます。
- 参考スコア(独自算出の注目度): 20.21653355365599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recovering the relative 6-DoF pose between two image groups underlies cross-sequence relocalization and multi-camera rig odometry. Each group carries known intra-group geometry from visual odometry or rig calibration, and pretrained multi-view backbones already fuse such geometry into visual features. Yet current models treat all views as an unstructured set, leaving cross-group reasoning as the missing piece. We introduce \ours{}, which keeps the foundation model entirely frozen and adds three lightweight trainable modules to bridge the two groups: a perceiver resampler, a cross-group bridge with merged self-attention, and a multi-frame pose head. The trainable footprint totals about 32M parameters, under 6\% of the full model, and is supervised only by relative poses. Across four datasets that span indoor and outdoor simulation, real-world cross-season capture, and zero-shot sim-to-real transfer, \ours{} attains state-of-the-art accuracy on both tasks, while every baseline is retrained with its full original supervision. Code is available at https://github.com/WeiYuFei0217/G2G.
- Abstract(参考訳): 2つの画像群間の相対的な6-DoFの復元は、クロスシーケンス再局在とマルチカメラ・リグ・オドメトリーによって行われる。
各グループは、視覚的オードメトリーやリグキャリブレーションから既知のグループ内幾何学を持ち、事前訓練された複数ビューのバックボーンは、既にそのような幾何学を視覚的特徴に融合させている。
しかし、現在のモデルはすべてのビューを非構造化セットとして扱い、グループ間の推論が欠落している部分として残っています。
基礎モデルを完全に凍結し,2つの群を橋渡しする軽量なトレーニング可能なモジュールを3つ追加する \ours{} を導入する。
トレーニング可能なフットプリントは約32Mパラメータで、全モデルの6\%以下であり、相対的なポーズによってのみ監督される。
屋内と屋外のシミュレーション、実世界のクロスシーズンキャプチャー、ゼロショットのsim-to-realトランスファーの4つのデータセットにわたって、 \ours{}は両方のタスクで最先端の精度を達成する。
コードはhttps://github.com/WeiYuFei0217/G2Gで入手できる。
関連論文リスト
- GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction [18.936573991468926]
GARPSは、2つの独立して再構成された3Dシーンの直接的なアライメントとしてこの問題を論じる、トレーニング不要のフレームワークである。
差分可能なGMMアライメント目標を最適化することにより、フィードフォワード2ビューポーズ推定器の初期ポーズを洗練する。
Real-Estate10Kデータセットの実験では、GARPSが古典的および最先端の学習ベースの手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-09-17T02:57:34Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction
Framework Based on Panoramic Stereo Images for a Trimming Robot [7.248231584821008]
提案手法は,新たに設計されたパノラマステレオカメラと,3つの融合モジュールからなるハイブリッドソフトウェアフレームワークをベースとした。
異方性融合モジュールでは、修正ステレオ画像は、複数のステレオビジョンアルゴリズムを用いて初期異方性マップを生成する。
ポーズ融合モジュールは、2段階のグローバル粗大な局所的な戦略を採用する。
ボリューム融合モジュールでは、全ノードのグローバルなポーズを使用して、単一視点の雲をボリュームに統合する。
論文 参考訳(メタデータ) (2023-05-10T16:15:16Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Clustering of the Blendshape Facial Model [0.0]
デジタル人間のアニメーションは、人間の顔の高品質な3Dモデルに依存している。
本稿では,逆リグパラメータを精度の向上と計算コストの削減で学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-05T07:39:52Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。