論文の概要: Flow6D: Discrete-to-Continuous Flow Matching for Efficient and Accurate Category-Level 6D Pose Estimation
- arxiv url: http://arxiv.org/abs/2606.23293v1
- Date: Mon, 22 Jun 2026 13:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:46:14.23555
- Title: Flow6D: Discrete-to-Continuous Flow Matching for Efficient and Accurate Category-Level 6D Pose Estimation
- Title(参考訳): Flow6D: 効率的かつ高精度なカテゴリーレベル6次元位置推定のための離散連続フローマッチング
- Authors: Mingyu Mei, Li Zhang, Zibo Dai, Han Sun, Xinyue Zhao, Huiliang Shen, Zaixing He,
- Abstract要約: Flow6Dは階層的なフローマッチングフレームワークであり、2段階の離散的な空間局在-連続的なポーズ回帰戦略を持つ。
このフレームワークは自然にオブジェクトに拡張され、70FPSのリアルタイム推論を備えた合成および実際のデータセットにおける最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 18.258165456031975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 6D pose estimation is a key task in computer vision and embodied AI, widely used in robotic manipulation, augmented reality, etc. Existing methods directly regress in a high-dimensional continuous space, facing two key challenges in category-level pose estimation: limited accuracy due to noise and local optima, and inefficient search over an infinite space that hinders real-time performance. This paper proposes Flow6D, a hierarchical flow matching framework with a two-stage discrete latent space localization-continuous pose regression strategy. Rotation and translation parameters are first discretized into bins, with a discrete flow matching model locking the latent space around the true pose to reduce search complexity. Then, by sampling in the latent space, a continuous flow matching model predicts local pose residuals to optimize the estimate and regress to an accurate pose. The framework also naturally extends to articulated objects, outperforming state-of-the-art methods on synthetic and real datasets with real-time inference at 70 FPS. Project website: https://flow6d.github.io/.
- Abstract(参考訳): 6Dポーズ推定は、コンピュータビジョンやAIの具体化において重要なタスクであり、ロボット操作や拡張現実などで広く使われている。
既存の手法は高次元連続空間で直接回帰し、カテゴリーレベルのポーズ推定において2つの重要な課題に直面している。
本稿では,2段階の離散遅延空間局所化-連続的なポーズ回帰戦略を持つ階層型フローマッチングフレームワークであるFlow6Dを提案する。
回転と翻訳のパラメータは、まずビンに離散化され、離散フローマッチングモデルが真のポーズの周囲の潜伏空間をロックし、探索の複雑さを減少させる。
そして、潜伏空間をサンプリングすることにより、連続フローマッチングモデルが局所的なポーズ残差を予測し、推定と回帰を正確なポーズに最適化する。
このフレームワークは自然に、70FPSのリアルタイム推論を備えた合成および実際のデータセットにおける最先端の手法よりも優れた、明瞭なオブジェクトに拡張する。
プロジェクトウェブサイト:https://flow6d.github.io/.com
関連論文リスト
- GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文 参考訳(メタデータ) (2026-02-25T11:36:33Z) - DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces [42.055572875282344]
DICArtは、条件付き離散拡散過程としてポーズ推定を定式化する新しいフレームワークである。
本稿では,各トークンを復号化するかリセットすべきかを動的に決定するフレキシブルフロー決定器を提案する。
合成データセットと実世界のデータセットの両方でDICArtを検証する。
論文 参考訳(メタデータ) (2026-02-23T07:30:47Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - DynaMiTe: A Dynamic Local Motion Model with Temporal Constraints for
Robust Real-Time Feature Matching [47.72468932196169]
本稿では,ディスクリプタ入力に非依存な軽量パイプラインDynaMiTeを提案する。
DynaMiTeは、マッチング精度とフレームレートの高いカメラポーズ推定の両方で優れた結果を得る。
論文 参考訳(メタデータ) (2020-07-31T12:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。