論文の概要: Affordance-Based Hierarchical Reinforcement Learning for Quadruped Pedipulation
- arxiv url: http://arxiv.org/abs/2606.07506v1
- Date: Fri, 05 Jun 2026 17:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.885
- Title: Affordance-Based Hierarchical Reinforcement Learning for Quadruped Pedipulation
- Title(参考訳): 四重項ペディピュレーションのためのアドプレッタンスに基づく階層的強化学習
- Authors: Tuba Girgin, Jose Castelblanco, Gabriel Rodriguez, Emre Girgin, Cagri Kilic,
- Abstract要約: 本研究では,3段階の階層型強化学習(RL)フレームワークを提案する。
さらに、四足歩行ロボットの対物中心のポーズアライメントを可能にする、インタラクションポイントのアプライアンスによって、ペプティゲーションポリシーを導出する。
提案するフレームワークをIsaacSimエコシステムでトレーニングし、シミュレーションと実世界の両方の環境で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The object manipulation capabilities of quadruped robots is an open research challenge. While previous studies have focused on low-level policy learning, task execution still relies on expert-designed high-level trajectories. Autonomous selection of both an affordable interaction point on the target object and an affordable robot base pose removes the need for pre-designed trajectories. This study proposes a three-level hierarchical reinforcement learning (RL) framework that utilizes pose affordances to guide the navigation policy, while the navigation policy drives the locomotion policy. In addition, the pedipulation policy is guided by interaction-point affordances, enabling object-centric pose alignment of the quadruped robot and effective end-effector manipulation planning. We train the proposed framework in the IsaacSim ecosystem and evaluate it in both simulation and real-world settings. We investigate the effectiveness of pose affordance across multiple scenarios in simulation while various object interaction tasks are validated on real-world setting forming an object-interaction dataset. The results show that the proposed framework can autonomously identify candidate poses based on their affordance and successfully execute object manipulation tasks in the real world without human guidance.
- Abstract(参考訳): 四足歩行ロボットの物体操作能力はオープンな研究課題である。
これまでの研究は低レベルの政策学習に重点を置いてきたが、タスクの実行は専門家が設計した高レベルの軌道に依存している。
対象物上の手頃な相互作用点と手頃なロボットベースの両方の自律的な選択は、事前に設計された軌道の必要性を取り除く。
本研究では,3段階の階層型強化学習(RL)フレームワークを提案する。
さらに、4足歩行ロボットの対物中心のポーズアライメントと効果的なエンドエフェクタ操作計画を可能にする。
提案するフレームワークをIsaacSimエコシステムでトレーニングし、シミュレーションと実世界の両方の環境で評価する。
本研究は,オブジェクトインタラクションデータセットを構成する実環境上で,さまざまなオブジェクトインタラクションタスクが検証されている間,シミュレーションにおける複数のシナリオ間でのポーズアプライアンスの有効性について検討する。
その結果,提案フレームワークは,人的指導を伴わずに現実のオブジェクト操作タスクを効果的に実行し,手頃な価格で候補者のポーズを自律的に識別できることが示唆された。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。