論文の概要: Recover, Discover, Plan: Learning Skills and Concepts from Robot Failures
- arxiv url: http://arxiv.org/abs/2606.18328v1
- Date: Tue, 16 Jun 2026 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.8309
- Title: Recover, Discover, Plan: Learning Skills and Concepts from Robot Failures
- Title(参考訳): Recover, Discover, Plan: ロボットの失敗から学ぶスキルとコンセプト
- Authors: Bowen Li, Mayank Mishra, Y. Isabel Liu, Stone Tao, Nishanth Kumar, Alexander G. Gray, Ruwan Wickramarachchi, Jonathan Francis, Sebastian Scherer, Tom Silver,
- Abstract要約: ReSYNCは、スキルと概念を学び、抽象的な計画を支援するために抽象ライブラリを洗練するロボットである。
本稿では,ReSYNCの抽象ライブラリを継続的に拡張・改良する能力により,従来は見つからなかった長期の問題を解くことができることを示す。
全体として、ReSYNCは、スケーラブルで障害対応の計画のための抽象化を自律的に取得するロボットにとって、重要なステップである。
- 参考スコア(独自算出の注目度): 50.668639270656115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent robots should not only recover from failures, but also acquire the abstract knowledge needed to avoid them in the future. While reinforcement learning (RL) can learn reactive recovery behaviors, training a separate policy for every distinct failure mode is highly inefficient. We introduce Recovery-Driven Synthesis of Relational Concepts (ReSYNC), the first approach that progressively discovers and refines state abstractions (relational predicates) from failure-recovery experience to support abstract planning. Unlike purely reactive methods, ReSYNC jointly learns skills and concepts through an incremental dual-learning process. In the skill-learning phase, the robot uses RL to learn to recover from failures seen in training tasks. In the concept-learning phase, the robot discovers new relational predicates and refines its abstract planning model to explain and generalize the learned recovery behaviors. This interaction enables ReSYNC to convert local recoveries seen during training into global failure avoidance at test time. Across four simulated domains, we show that ReSYNC's ability to continually expand and refine its abstraction library allows it to solve long-horizon, previously unseen problems, outperforming strong baselines by over 50%. Additionally, we demonstrate sim-to-real transfer of ReSYNC, where it performs real-world non-prehensile manipulation skills and generalizes to unseen scenarios through abstract planning. Overall, ReSYNC represents a significant step toward robots that autonomously acquire abstractions for scalable, failure-aware planning in the physical world.
- Abstract(参考訳): インテリジェントなロボットは、障害から回復するだけでなく、将来それらを避けるために必要な抽象的な知識も獲得すべきである。
強化学習(RL)は、反応性回復行動を学ぶことができるが、異なる障害モードごとに個別のポリシーをトレーニングするのは、非常に非効率である。
ReSYNC(Recovery-Driven Synthesis of Relational Concepts)は,障害復旧経験から段階的に状態抽象化(リレーショナル述語)を発見し,洗練し,抽象的な計画を支援する最初のアプローチである。
純粋にリアクティブな方法とは異なり、ReSYNCはインクリメンタルなデュアルラーニングプロセスを通じて、スキルとコンセプトを共同で学習する。
スキル学習の段階では、ロボットはRLを使用して、トレーニングタスクに見られる障害から回復する。
概念学習段階において、ロボットは新しい関係述語を発見し、学習した回復行動の説明と一般化のために抽象的な計画モデルを洗練する。
このインタラクションにより、ReSYNCはトレーニング中のローカルリカバリをテスト時にグローバルな障害回避に変換することができる。
4つのシミュレートされたドメインにわたって、ReSYNCの抽象ライブラリの継続的な拡張と洗練により、以前は目に見えない長い水平の問題を解くことができ、強いベースラインを50%以上上回ります。
さらに,ReSYNCのシミュレート・トゥ・リアルトランスファーを実世界の非包括的操作技術で実現し,抽象的な計画を通じて不可視のシナリオに一般化する。
全体として、ReSYNCは、物理的世界でスケーラブルで障害対応の計画のための抽象化を自律的に取得するロボットにとって、重要なステップである。
関連論文リスト
- Object-Centric Residual RL for Zero-Shot Sim-to-Real VLA Enhancement [52.93267443851685]
VLA(Vision-Language-Action)モデルは様々な操作タスクにまたがって一般化することができる。
シミュレーションで純粋に訓練された強化学習政策は、実世界のVLAのゼロショットの堅牢性を改善することができるか?
本稿では,オブジェクトポーズを用いてVLA動作を洗練するオブジェクト中心残差RLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-17T11:36:54Z) - Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning [14.911497503823123]
我々はOmniResetを紹介した。OmniResetはシンプルでスケーラブルなフレームワークで、オンデマンドの強化学習を可能にする。
我々は,OmniResetが,既存のアプローチの能力を超えた,長時間のデクサラスな操作タスクにスケール可能であることを示す。
論文 参考訳(メタデータ) (2026-03-16T18:14:36Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。