論文の概要: Scalable Multi-Task Data Generation via Reinforcement Learning for Language-Conditioned Bimanual Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2606.22471v1
- Date: Sun, 21 Jun 2026 12:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:51:56.172254
- Title: Scalable Multi-Task Data Generation via Reinforcement Learning for Language-Conditioned Bimanual Dexterous Manipulation
- Title(参考訳): 言語記述型2次元デクサラスマニピュレーションのための強化学習によるスケーラブルなマルチタスクデータ生成
- Authors: Zechu Li, Yufeng Jin, Puze Liu, Jan Peters, Georgia Chalvatzaki,
- Abstract要約: 厳密な操作のためのジェネラリストポリシのトレーニングにおける重要なボトルネックは、大規模で高品質なデータセットの欠如である。
本稿では,汎用的な報酬設計,効果的なドメインランダム化,言語条件のタスクアノテーションを組み込んだRLベースのデータ生成パイプラインを提案する。
実験の結果,生成したデータは,3つの操作タスク間での一般化を著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 23.479913962930024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key bottleneck in training generalist policies for bimanual dexterous manipulation is the lack of large-scale, high-quality datasets. Synthetic data generation in simulation provides a scalable alternative to human video demonstrations by overcoming challenges such as morphology mismatch, missing physical interactions, and the generation of robot actions. However, existing approaches based on human teleoperation offer limited task diversity, as object-centric trajectory matching often neglects the feasibility of robot execution. Reinforcement learning (RL) enables broader scalability but is often constrained by handcrafted, task-specific rewards. In this work, we propose a systematic RL-based data generation pipeline that integrates generalizable reward design, effective domain randomization, and language-conditioned task annotations. This pipeline synthesizes diverse, high-quality datasets for dexterous bimanual manipulation and enables training of language-conditioned multi-task policies. Our experiments show that the generated data significantly improves generalization across three representative manipulation tasks.
- Abstract(参考訳): 両面的な操作のためのジェネラリストポリシのトレーニングにおける重要なボトルネックは、大規模で高品質なデータセットの欠如である。
シミュレーションにおける合成データ生成は、形態的ミスマッチ、物理的相互作用の欠如、ロボットアクションの生成といった課題を克服することで、人間のビデオデモに代わるスケーラブルな代替手段を提供する。
しかしながら、人間による遠隔操作に基づく既存のアプローチはタスクの多様性に制限を与えており、オブジェクト中心の軌道マッチングはロボットの実行可能性を無視していることが多い。
強化学習(RL)は広範なスケーラビリティを実現するが、手作りのタスク固有の報酬によって制約されることが多い。
本研究では、一般化可能な報酬設計、効果的なドメインランダム化、言語条件のタスクアノテーションを統合したRLベースのデータ生成パイプラインを提案する。
このパイプラインは、デクスタラスなバイマニュアル操作のための多種多様な高品質データセットを合成し、言語条件のマルチタスクポリシーのトレーニングを可能にする。
実験の結果,生成したデータは,3つの操作タスク間での一般化を著しく改善することがわかった。
関連論文リスト
- JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy [90.77129709149574]
JoyAI-RAは、汎用的なロボット操作に適した、視覚言語対応の基盤モデルである。
JoyAI-RAは、特に人間の操作とロボット制御の間において、具体化のギャップを埋める。
シミュレーションと実世界のベンチマークの両方で最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-04-22T01:51:48Z) - Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation [37.52152452548065]
RoboGeneは多様な物理的に可能な操作タスクを生成するために設計されたエージェントフレームワークである。
広範に定量的な分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集した。
結果は、RoboGeneが最先端の基礎モデルよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2026-02-18T13:29:43Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。