論文の概要: Pose-Agnostic Robotic Functional Grasping via Observation-Action Canonicalization
- arxiv url: http://arxiv.org/abs/2606.21148v1
- Date: Fri, 19 Jun 2026 06:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 07:58:43.837469
- Title: Pose-Agnostic Robotic Functional Grasping via Observation-Action Canonicalization
- Title(参考訳): 観測-アクション正準化によるポス非依存型ロボット機能グラスピング
- Authors: Le Qiu, Cole Harrison, Jiankai Sun, Yao Liu, Suning Huang, Qianzhong Chen, Yang You, Marco Pavone,
- Abstract要約: 機能的なロボットの把握には、多様なオブジェクトのジオメトリやポーズを一般化するポリシーが必要である。
我々はこの課題を、細いハンドル、インスタンスの変動、直立または逆転配置が物体の形状に敏感な知覚と制御の両方をもたらす、マグハンドグルーピングを通じて研究する。
本研究では,単一閉ループポリシーをシミュレーションで完全に訓練し,実ロボットにゼロショットで展開する機能把握のための正規化ビズモータ強化学習フレームワークであるAnyMugを提案する。
- 参考スコア(独自算出の注目度): 29.2994731532375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functional robotic grasping requires a policy that generalizes across diverse object geometries and poses while maintaining task-specific contact precision. We study this challenge through mug-handle grasping, where thin handles, instance variation, and upright or inverted placements make both perception and control sensitive to object configuration. Grasp pose detection methods operate open-loop and are sensitive to estimation errors on thin handle structures. Learned visuomotor policies must implicitly learn to handle the coupled variation in visual appearance and action direction induced by different object placements, limiting generalization. We propose AnyMug, a canonicalized visuomotor reinforcement learning framework for functional grasping that trains a single closed-loop policy entirely in simulation and deploys it zero-shot on a real robot. AnyMug introduces observation-action canonicalization, which transforms both the depth observation and the predicted end-effector action into a shared object-centric frame. The policy therefore sees a consistent mug-centered view and emits actions in a canonical direction regardless of mug placement, allowing the same grasping behavior to be reused across configurations. A handle-aware reward further encourages precise approach, gripper alignment, and opposing-finger placement, while a pose curriculum and domain randomization improve training stability and sim-to-real transfer. In simulation, AnyMug achieves over 93% success rate on both unseen upright and inverted mugs and transfers zero-shot to a real Franka Panda, reaching 80% success rate on 5 held-out physical mugs across both pose categories.
- Abstract(参考訳): 機能的ロボットグルーピングは、タスク固有の接触精度を維持しながら、多様なオブジェクトのジオメトリやポーズを一般化するポリシーを必要とする。
我々はこの課題を、細いハンドル、インスタンスの変動、直立または逆転配置が物体の形状に敏感な知覚と制御の両方をもたらす、マグハンドグルーピングを通じて研究する。
Graspのポーズ検出手法はオープンループを動作し、細いハンドル構造上の推定誤差に敏感である。
学習された視覚運動のポリシーは、異なる物体配置によって引き起こされる視覚的外観と行動方向の複合的な変化に対処し、一般化を制限することを暗黙的に学ばなければならない。
本研究では,単一閉ループポリシをシミュレーションで完全に訓練し,実際のロボットにゼロショットで展開する機能把握のための標準的ビズモータ強化学習フレームワークであるAnyMugを提案する。
AnyMugは、深度観測と予測されたエンドエフェクタアクションの両方を共有オブジェクト中心のフレームに変換する、観察-アクションの正準化を導入している。
したがって、ポリシーは一貫したマグマ中心の視点を捉え、マグマの配置に関係なく正準方向にアクションを放出し、同じ把握動作を構成全体で再利用することができる。
ハンドアウェア報酬は、より正確なアプローチ、グリップアライメント、反対フィンガー配置を奨励し、ポーズカリキュラムとドメインランダム化はトレーニング安定性とシム・トゥ・リアル転送を改善する。
シミュレーションでは、AnyMugは、直立しないマグカップと逆転したマグカップの両方で93%以上の成功率を獲得し、実のフランカパンダにゼロショットを転送し、両方のポーズカテゴリーで5つの保持された物理的マグカップで80%の成功率に達する。
関連論文リスト
- Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors [51.096845970243855]
高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
論文 参考訳(メタデータ) (2026-05-21T10:15:39Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation [91.20850436220267]
Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
論文 参考訳(メタデータ) (2026-04-07T07:41:11Z) - Pixel2Catch: Multi-Agent Sim-to-Real Transfer for Agile Manipulation with a Single RGB Camera [3.219880761967806]
本研究は、単一のRGB画像から抽出した画素レベルの視覚情報を用いて物体の動きを認識する新しいアプローチに焦点を当てる。
多指ハンドを備えたロボットアームによる高DoFシステムにおいて安定した学習を実現するため、異種多エージェント強化学習フレームワークを設計する。
各エージェントは、ロール固有の観察と報酬を使用して協調的に訓練され、学習されたポリシーはシミュレーションから実世界に移される。
論文 参考訳(メタデータ) (2026-02-26T08:15:38Z) - Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - Kinematics-Aware Diffusion Policy with Consistent 3D Observation and Action Space for Whole-Arm Robotic Manipulation [9.547155394196158]
フルアームキネマティクスを意識したロボットマニピュレータの全身制御は多くの操作シナリオにおいて重要である。
全体腕操作の典型的なアプローチは、ロボットの関節空間での動作を学ぶことである。
本稿では,一貫したタスク,観察,行動空間を備えたキネマティクス対応の模倣学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-19T13:34:29Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。