論文の概要: Learning Object Manipulation from Scratch via Contrastive Interaction
- arxiv url: http://arxiv.org/abs/2606.11525v1
- Date: Wed, 10 Jun 2026 00:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.219318
- Title: Learning Object Manipulation from Scratch via Contrastive Interaction
- Title(参考訳): コントラストインタラクションによるスクラッチからの物体操作の学習
- Authors: Tongle Shen, Caleb Chuck, Fan Feng, Biwei Huang,
- Abstract要約: コントラスト強化学習(CRL)は、動的に構造化された表現を学習することで、様々な目標条件のロボットタスクで最近成功している。
この困難の鍵となる要因は、接触や握りなどのオブジェクト中心の相互作用であり、基礎となる動的モードの異なる変化を誘発するものである、と我々は主張する。
本研究では, 操作力学を平滑なマルコフ過程として定式化し, 相互作用誘起モード変化が非線形到達性構造を生成することを示す。
- 参考スコア(独自算出の注目度): 29.976379315147756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Reinforcement Learning (CRL) has seen recent success in a wide variety of goal-conditioned robotics tasks by learning structured representations of the dynamics. However, despite its success in locomotion and simpler control domains, CRL often struggles in interaction-rich manipulation. We argue that a key source of this difficulty is object-centric interaction, such as contact or grasping, that induces distinct changes in the underlying dynamic modes. In this work, we formulate manipulation dynamics as a piecewise-smooth Markov process and show that interaction-induced mode changes create piecewise nonlinear reachability structures that are difficult for standard CRL energy functions to represent and plan over. Based on this analysis, we introduce Interaction-weighted Resampling (IWR). IWR performs interaction-aware resampling around phases before, during, and after interactions, encouraging the learned representation to preserve the mode boundaries that determine future reachability to capture multi-modal and piecewise nonlinear reachability. Across interaction-centric environments, including 2D dynamic control, robotic manipulation, and robot air hockey, IWR improves both sample efficiency and overall performance over prior CRL methods, with 19.8% average improvement in simulation. Finally, using a sim-to-real pipeline with policies trained by IWR, we demonstrate the first real-world goal-conditioned robot air hockey agent capable of hitting goals, improving success from 25% to 60%. Project Page: IWR-arxiv.github.io.
- Abstract(参考訳): コントラスト強化学習(CRL)は、動的に構造化された表現を学習することで、様々な目標条件のロボットタスクで最近成功している。
しかし、ロコモーションやシンプルな制御ドメインの成功にもかかわらず、CRLは相互作用に富む操作に苦しむことが多い。
この困難の鍵となる要因は、接触や握りなどのオブジェクト中心の相互作用であり、基礎となる動的モードの異なる変化を誘発するものである、と我々は主張する。
本研究では, 操作力学を平滑なマルコフ過程として定式化し, 相互作用によるモード変化が, 標準CRLエネルギー関数の表現や計画が困難である部分的非線形到達性構造を生成することを示す。
この分析に基づいて,インタラクション重み付け(Interaction-weighted Resampling, IWR)を導入する。
IWRは、相互作用の前、中、後の各フェーズについて、相互作用を意識した再サンプリングを行い、学習した表現に対して、将来の到達可能性を決定するモード境界の保存を奨励し、多モードおよび片方向の非線形到達性を捕捉する。
2Dダイナミックコントロール、ロボット操作、ロボットエアホッケーを含む相互作用中心の環境全体において、IWRは従来のCRL法よりもサンプル効率と全体的なパフォーマンスを改善し、シミュレーションの平均19.8%が改善した。
最後に、IWRによって訓練されたポリシーを備えたsim-to-realパイプラインを使用して、ゴールを達成し、成功率を25%から60%に向上する、世界初の現実的なゴール条件付きロボットエアホッケーエージェントを実演する。
プロジェクトページ: IWR-arxiv.github.io
関連論文リスト
- LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning [90.86828952599147]
提案するLaST-R1(LaST-R1)は,「最近の推論・行動」政策を活用するために設計された,新しい強化学習フレームワークである。
LaST-R1 は LIBERO ベンチマークで 99.9% の平均成功率を達成した。
実世界の展開では、LaST-R1はSOTAが監督する微調整アプローチよりも22.5%平均的に改善されている。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - Scalable Dexterous Robot Learning with AR-based Remote Human-Robot Interactions [8.111267700755986]
本稿では,手軽なロボットアームハンドシステムにおける操作のためのスケーラブルなロボット学習に焦点を当てた。
本稿では,汎用的な操作タスク問題に対処するための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-07T03:47:21Z) - Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration [7.50564221243905]
協調探索型マルチロボットRLアルゴリズムを提案する。
その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。
ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-12-15T13:03:08Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Continual Model-Based Reinforcement Learning with Hypernetworks [24.86684067407964]
本稿では,タスク条件付きハイパーネットを用いたタスクのシーケンスにおいて,遭遇するダイナミクスを継続的に学習する手法を提案する。
まず、従来のタスクからトレーニングデータを再考しない動的学習セッションを含むので、状態遷移経験の最新の固定サイズの部分を格納するだけです。
ロボットの移動と操作のシナリオにおいて,HyperCRLは連続モデルに基づく強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2020-09-25T01:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。