論文の概要: Revisiting Articulated Parts Perception in Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.08103v1
- Date: Sat, 06 Jun 2026 11:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.782991
- Title: Revisiting Articulated Parts Perception in Robot Manipulation
- Title(参考訳): ロボットマニピュレーションにおける関節部位の認識の再検討
- Authors: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li,
- Abstract要約: 幾何一次構造(GPS)は、スケーラビリティと品質のバランスをとるために部分幾何学構造の抽象化である。
GPSはポータブルなVirtual Reality(VR)デバイスと統合されており、1つのオブジェクトシーケンスをアノテートするのに1分しかかからない。
この効率的なVR-GPSシステムにより、6つのクラスにわたる234個のオブジェクトに対して41Kフレームを収集し、単一のRGB-Dオブジェクトイメージを入力として一般化可能なGPSモデルを訓練する。
- 参考スコア(独自算出の注目度): 53.043391395657835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.
- Abstract(参考訳): 私たちは、可動で関節のあるパーツ、例えば、箱、ハンドル、ドアを持つさまざまなオブジェクトに囲まれています。
ロボット操作能力を向上するためには, 関節部分の正確で一般化可能な認識が不可欠である。
作業の1行はポーズに基づく表現を使用し、これは高い手作業コストを必要とする。並行して、余分な手法は、追加の手作業なしでポイントトラッキングから将来のオブジェクトの動きを抽出するが、低品質のデータに悩まされる。
本稿では,幾何的一次構造 (GPS) を新たに表現し, 拡張性と品質のバランスをとるために, 部分幾何学構造を抽象化する。
効率的でスケーラブルなデータ収集のために、GPSはポータブルなVirtual Reality(VR)デバイスと統合されており、1つのオブジェクトシーケンスをアノテートするのに1分しかかからない。
この直接的な人間のアノテーションは、推定価格よりも高い品質を提供する。
この効率的なVR-GPSシステムにより、6つのクラスにわたる234個のオブジェクトに対して41Kフレームを収集し、単一のRGB-Dオブジェクトイメージを入力として一般化可能なGPSモデルを訓練する。
オブジェクト操作では,GPS予測に基づくヒューリスティックポリシーをデプロイする。
ドメイン内の微調整がなければ、73%の成功率を達成でき、9つのオブジェクトに対して270の初期状態をカバーできる。
私たちのコード、データ、再利用可能なツールはhttps://enlighten0707.github.io/gpsで利用可能です。
関連論文リスト
- ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation [51.54082859171464]
ArtiSGは、人間のデモを構造化されたロボットメモリにエンコードすることで、機能的な3Dシーングラフを構築するフレームワークである。
本研究では,ArtiSGが機能的要素リコールおよび調音推定精度において,ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-12-31T13:10:40Z) - Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance [5.161531917413708]
ほとんどのRGBベースのナビゲーションシステムは、粗いメートルレベルの精度しか保証していない。
このギャップは、操作ポリシーがトレーニングデモの配布内で動作することを防ぐ。
我々は、ラストメーターナビゲーションのためのオブジェクト中心の模倣学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-11T23:35:05Z) - 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [54.48052449493636]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションにおいて重要な役割を果たす。
BEVTrackは、シンプルだが効果的な動きに基づくトラッキング手法である。
我々は,BEVTrackが200FPSで動作しながら最先端の結果を達成し,リアルタイム適用性を実現していることを示す。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose
Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。
このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。
6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文 参考訳(メタデータ) (2023-08-02T23:59:59Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。