論文の概要: A Cross-view Fusion Framework for Robust 6-DoF Grasp Pose Estimation
- arxiv url: http://arxiv.org/abs/2606.06878v1
- Date: Fri, 05 Jun 2026 03:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.551743
- Title: A Cross-view Fusion Framework for Robust 6-DoF Grasp Pose Estimation
- Title(参考訳): ロバスト6-DoFグラフ空間推定のためのクロスビュー融合フレームワーク
- Authors: Kangjian Zhu, Haobo Jiang, Jianjun Qian, Jin Xie,
- Abstract要約: クロスビュー融合フレームワークは、コーナービューにおける6-DoFグリップポーズ推定の堅牢性を高める。
本稿では,ポイントクラウドの機能の正規化にクロスビューアソシエーションを活用する,自己指導型コントラスト学習戦略を提案する。
このフレームワークは,GraspNet-1Billionベンチマークや実世界のアプリケーションで高い性能を発揮する。
- 参考スコア(独自算出の注目度): 34.48829831555172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a cross-view fusion framework that enhances the robustness of 6-DoF grasp pose estimation in corner views. Our framework alleviates occlusion by incorporating an auxiliary view and avoids the time-consuming, task-agnostic multi-view reconstruction through a post-fusion strategy. To enhance cross-view fusion, we propose a self-supervised contrastive learning strategy that leverages cross-view associations to regularize point cloud features. In brief, a cross-view point pair is considered a match if the two points correspond to the same 3D location, and a non-match if they represent distinct grasp directions. The learning strategy significantly enhances the spatial consistency and direction distinctiveness of point features, thereby facilitating cross-view fusion and improving estimation robustness. Furthermore, we propose a cross-view-aligned cylinder integration module to fuse grasp-relevant geometry into a comprehensive representation. Specifically, the module first aligns the cross-view points and features according to their similarity to enhance the robustness against noise. Subsequently, these points are registered into the cylindrical coordinate frame, emphasizing the rotation-symmetric geometry which is important for grasping. Finally, local self-attention and seed cross-attention layers are alternately employed, respectively enabling interactions within single views and across views, which supports fine-grained representation of grasp-relevant geometry. Our framework achieves strong performance on the GraspNet-1Billion benchmark and in real-world applications. Code is available at https://github.com/KJZhuAutomatic/Cross-view-Grasp.
- Abstract(参考訳): 本論文では,コーナービューにおける6-DoFグリップポーズ推定のロバスト性を高めるクロスビュー融合フレームワークを提案する。
本フレームワークは,補助的な視点を取り入れたオクルージョンを緩和し,ポストフュージョン戦略によるタスク非依存の多視点再構築を回避する。
クロスビュー・フュージョンを強化するために,クロスビュー・アソシエーションを利用した自己教師付きコントラッシブ・ラーニング・ストラテジーを提案する。
簡単に言えば、2つの点が同一の3D位置に対応する場合のクロスビュー点対と、それらが異なる把握方向を表す場合の非マッチとが一致している。
学習戦略は、点特徴の空間的一貫性と方向差を著しく向上させ、これにより、クロスビュー融合を容易にし、推定ロバスト性を向上させる。
さらに, グリップ関連幾何を包括的に表現するために, クロスビュー整列シリンダ積分モジュールを提案する。
具体的には、モジュールはまず、ノイズに対するロバスト性を高めるために、その類似性に応じて、クロスビューポイントと特徴を整列する。
その後、これらの点を円筒座標フレームに登録し、把握に重要な回転対称幾何学を強調する。
最後に、局所的な自己注意層とシードのクロスアテンション層を交互に使用し、個々のビューとビュー間の相互作用を可能にし、グリップ関連幾何のきめ細かい表現をサポートする。
このフレームワークは,GraspNet-1Billionベンチマークや実世界のアプリケーションで高い性能を発揮する。
コードはhttps://github.com/KJZhumatic/Cross-view-Grasp.comで入手できる。
関連論文リスト
- SegMASt3R: Geometry Grounded Segment Matching [23.257530861472656]
我々は3次元基礎モデルの空間的理解を活用して,広義のセグメントマッチングに取り組む。
本稿では,これら3次元基礎モデルの帰納バイアスを利用して,最大180度の視点変化回転で画像対間のセグメントをマッチングするアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:31:32Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Fully-Geometric Cross-Attention for Point Cloud Registration [51.865371511201765]
ポイントクラウド登録のアプローチは、ノイズのあるポイント対応のため、ポイントクラウド間の重なりが低いときに失敗することが多い。
この問題に対処するTransformerベースのアーキテクチャに適した,新たなクロスアテンション機構を導入する。
我々はGromov-Wasserstein距離をクロスアテンションの定式化に統合し、異なる点雲間の点間距離を共同計算する。
点レベルでは,局所的な幾何学的構造情報を細かなマッチングのための点特徴に集約する自己認識機構も考案する。
論文 参考訳(メタデータ) (2025-02-12T10:44:36Z) - Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - DV-Matcher: Deformation-based Non-Rigid Point Cloud Matching Guided by Pre-trained Visual Features [1.3030624795284795]
DV-Matcherは、非剛性変形点雲間の密接な対応を推定するための学習ベースのフレームワークである。
実験結果から,本手法は非剛性点雲をほぼ等尺形状と異質形状の両方で整合させることで,最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-16T07:02:19Z) - PointOBB: Learning Oriented Object Detection via Single Point
Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。
PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。
DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2023-11-23T15:51:50Z) - Voxel Field Fusion for 3D Object Detection [140.6941303279114]
本稿では,3次元オブジェクト検出のための概念的にシンプルなフレームワークであるvoxel field fusionを提案する。
提案手法は, ボクセル領域における画像特徴を線として表現し, 融合することにより, モダリティの整合性を維持することを目的としている。
このフレームワークは、さまざまなベンチマークで一貫したゲインを達成し、KITTIとnuScenesデータセットでの従来のフュージョンベースのメソッドを上回っている。
論文 参考訳(メタデータ) (2022-05-31T16:31:36Z) - Align then Fusion: Generalized Large-scale Multi-view Clustering with
Anchor Matching Correspondences [53.09276639185084]
マルチビューアンカーグラフクラスタリングは、完全なペアワイド類似性を避けるために代表アンカーを選択する。
既存のアプローチでは、ビューをまたいだアンカーセット間の正しい対応を確立するのに十分な注意を払わない。
論文 参考訳(メタデータ) (2022-05-30T13:07:40Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。