論文の概要: DexPIE: Stable Dexterous Policy Improvement from Real-World Experience
- arxiv url: http://arxiv.org/abs/2606.09615v1
- Date: Mon, 08 Jun 2026 15:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.380148
- Title: DexPIE: Stable Dexterous Policy Improvement from Real-World Experience
- Title(参考訳): DexPIE: 現実のエクスペリエンスから安定したDexterous Policyの改善
- Authors: Ruizhe Liao, Wenrui Chen, Liangji Zeng, Haoran Lin, Fan Yang, Kailun Yang, Yaonan Wang,
- Abstract要約: デクサラスな操作は、その高次元の作用空間と複雑な力学のため、模倣学習に重大な課題をもたらす。
実世界の展開を通じて収集した経験から,厳密な政策改善のためのポストトレーニングフレームワークであるDexPIEを提案する。
DexPIEは3つの挑戦的な現実世界の巧妙な操作タスクの中で、デモベースの参照ポリシーよりも成功率を37%向上させる。
- 参考スコア(独自算出の注目度): 33.644712897849196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous manipulation presents substantial challenges for imitation learning due to its high-dimensional action space and complex contact-rich dynamics. Policies trained purely from demonstrations often suffer from compounding errors during deployment and require large amounts of expert data to achieve reliable performance. To move beyond the limitations of demonstration data, in this work, we propose DexPIE, a post-training framework for dexterous policy improvement from experience collected through real-world deployment. First, DexPIE enables effective exploration coverage through a dexterous-hand-adapted intervention system and multi-stage DAgger-style data collection across initial and intermediate task stages, providing reliable supervision for accurate policy evaluation. To reduce temporal noise between post-training rollouts and demonstration data, we introduce asynchronous inference in the relative action space, which better aligns rollout data with demonstrated behavior and allows the critic to learn a value function induced by a more consistent underlying policy. Finally, DexPIE improves the policy through conditioning on a continuous optimality indicator, allowing the policy to leverage the quality of data in a more fine-grained manner. Across three challenging real-world dexterous manipulation tasks, DexPIE achieves a 37% improvement in success rate over the demonstration-based reference policy, outperforming all baseline methods and demonstrating stronger robustness. The source code and dataset will be made publicly available.
- Abstract(参考訳): デクサラスな操作は、その高次元のアクション空間と複雑な接触リッチダイナミクスにより、模倣学習に重大な課題をもたらす。
デモから純粋にトレーニングされたポリシは、デプロイメント中にエラーを複雑にし、信頼性の高いパフォーマンスを達成するために大量の専門家データを必要とすることが多い。
実証データの制限を超えて、本研究では、実世界の展開を通じて収集した経験から、厳密な政策改善のための後トレーニングフレームワークであるDexPIEを提案する。
第一に、DexPIEは、デキスタラスハンド適応介入システムと、初期および中間のタスクステージにわたる多段階DAggerスタイルのデータ収集による効果的な探索カバレッジを可能にし、正確なポリシー評価のための信頼性の高い監視を提供する。
学習後ロールアウトと実演データ間の時間的ノイズを低減するため、相対行動空間に非同期推論を導入し、ロールアウトデータと実演行動との整合性を向上し、より一貫性のある基本方針によって引き起こされる値関数を批評家が学習できるようにする。
最後に、DexPIEは、継続的な最適性指標を条件付けすることでポリシーを改善し、よりきめ細かい方法でデータの品質を活用することができる。
3つの挑戦的な現実世界の巧妙な操作タスクの中で、DexPIEはデモベースの参照ポリシーよりも成功率を37%向上させ、すべてのベースラインメソッドを上回り、強靭性を示す。
ソースコードとデータセットは一般公開される予定だ。
関連論文リスト
- Data-dependent Exploration for Online Reinforcement Learning from Human Feedback [50.34161049551627]
人的フィードバックからのオンライン強化学習(RLHF)は、トレーニング中に新たな嗜好フィードバックを継続的に収集することにより、大規模言語モデル(LLM)を整合させるための有望なパラダイムとして登場した。
既存の調査戦略は、しばしば政治上の期待を通じてボーナスを導き出すが、これは訓練中に利用できる限られた歴史的嗜好データから確実に見積もることが難しい。
高不確実性領域に対する余分な不確実性ボーナスを構築するために、履歴データを活用するシンプルでスケーラブルなデータ依存型選好最適化法(DEPO)を提案する。
論文 参考訳(メタデータ) (2026-05-06T03:56:45Z) - An Efficient Metric for Data Quality Measurement in Imitation Learning [1.5469452301122175]
デプロイ環境で収集されたエンドユーザによるデモを伴う、微調整済みのポリシは、この問題に対処するための有望な戦略である。
実証データをキュレートするための既存の自動化アプローチは、環境におけるポリシーのロールアウトを必要とする。
実演軌跡のパワースペクトル密度(PSD)に基づいて,高速で効率的で完全自動的な実演ランキング尺度を提案する。
論文 参考訳(メタデータ) (2026-05-02T17:16:50Z) - FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation [9.630733148732475]
本稿では,FAR-Dexを提案する。FAR-Dexは,少数ショットデータ拡張と適応的残差補正を統合した階層型フレームワークで,デキスタラスタスクにおける堅牢かつ高精度なハンドハンドコーディネーションを実現する。
シミュレーションと実世界の両方の実験では、FAR-Dexはデータ品質を13.4%改善し、タスク成功率は最先端の手法よりも7%向上した。
さらに、実世界のタスクにおいて80%以上の成功を達成し、強力な位置一般化を伴うきめ細かい操作を可能にする。
論文 参考訳(メタデータ) (2026-03-11T06:10:03Z) - Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning [21.705096559151286]
オフライン強化学習は、非専門的なデータを利用して模倣学習ポリシーの性能を向上させることができることを示す。
提案手法は, オフラインRLにより拡張された模倣アルゴリズムにより, タスクを頑健に解決できることを示す。
論文 参考訳(メタデータ) (2025-10-22T11:43:39Z) - CUPID: Curating Data your Robot Loves with Influence Functions [29.79350259314518]
CUPIDは、模倣学習ポリシーのための新しい影響関数理論定式化に基づく、ロボットデータキュレーション手法である。
我々は,1)政策パフォーマンスを損なうトレーニングデモをフィルタリングし,2)政策を最も改善する新たなトラジェクトリをサブセレクトするために,CUPIDを用いてデータをキュレートする。
論文 参考訳(メタデータ) (2025-06-23T20:49:34Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。