論文の概要: Human-like autonomy emerges from self-play and a pinch of human data
- arxiv url: http://arxiv.org/abs/2606.19370v1
- Date: Thu, 11 Jun 2026 19:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.404898
- Title: Human-like autonomy emerges from self-play and a pinch of human data
- Title(参考訳): 人間のような自律性は、自己再生と人間のデータのピンチから生まれる
- Authors: Daphne Cornelisse, Julian Hunt, Zixu Zhang, Waël Doulazmi, Kevin Joseph, Jaime Fernández Fisac, Eugene Vinitsky,
- Abstract要約: セルフプレイ強化学習は、人間のデータなしで運転ポリシーを訓練する方法として登場した。
本手法は,最小限のゴール獲得報酬に基づいて,人間のデモンストレーションを正規化目標として扱う。
ポリシのコーディネートは、保持された人間のトラジェクトリと、単一のコンシューマグレードGPU上で15時間で完全にトレーニングされる。
- 参考スコア(独自算出の注目度): 5.286205985381964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play reinforcement learning has recently emerged as a way to train driving policies without any human data. It uses cheap, large-scale simulations to substitute expensive, large-scale human driving demonstrations. A key limitation of this approach is that policies trained through pure self-play can learn effective but alien driving conventions incompatible with people. Previous works attempt to mitigate such behavioral misalignments through extensive reward engineering and domain randomization, which are brittle and labor-intensive. Instead of completely discarding human demonstrations, our method treats them as a regularization objective on top of a minimal safe goal-reaching reward. Like the spice in a good stew, we find that a little human data goes a long way: our method uses only 30 minutes of human demonstrations, 2500x fewer than comparable imitation learning approaches. Resulting policies coordinate with held-out human trajectories and complete training in 15 hours on a single consumer-grade GPU. Videos and full source code are available at https://spiced-self-play.com/.
- Abstract(参考訳): 最近、人間データなしで運転ポリシーを訓練する方法として、セルフプレイ強化学習が登場した。
安価で大規模なシミュレーションを使用して、高価で大規模な人間の運転デモを代用する。
このアプローチの重要な制限は、純粋なセルフプレイによってトレーニングされたポリシーが、効果的に学習できるが、人々と互換性のない、異国間駆動の慣習を学習できることだ。
以前の研究は、広範囲な報酬工学とドメインランダム化を通じて、脆弱で労働集約的な行動的不適応を緩和しようと試みていた。
人間のデモを完全に捨てるのではなく、最小限の安全目標獲得報酬に基づいて正規化目標として扱う。
私たちの方法では、人間の30分間のデモしか使わず、同じ模倣学習のアプローチよりも2500倍も少ないのです。
ポリシのコーディネートは、保持された人間のトラジェクトリと、単一のコンシューマグレードGPU上で15時間で完全にトレーニングされる。
ビデオと完全なソースコードはhttps://spiced-self-play.com/.comで入手できる。
関連論文リスト
- EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data [114.89243396877453]
EgoScaleは、大規模な自我中心の人間データ上に構築された人から器用な操作伝達フレームワークである。
簡単な2段階のトランスファーレシピを導入し, 大規模人体事前訓練と, ライトウェイトアライメントされた人間ロボットのトレーニングを行った。
最終方針は、22個のDoFデキスタラスロボットハンドを使用して、トレーニング済みのベースラインに対して平均成功率を54%向上させる。
論文 参考訳(メタデータ) (2026-02-18T18:59:05Z) - Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration [21.94699075066712]
本稿では,タスクを実演する人間の1つのRGB-Dビデオのみを用いて,創発的な操作ポリシーを訓練する,新しいリアルタイム・シミュレート・トゥ・リアルフレームワークを提案する。
Human2Sim2Robotは、オブジェクト認識のリプレイを55%以上上回り、模倣学習を68%以上上回っている。
論文 参考訳(メタデータ) (2025-04-17T03:15:20Z) - Robust Autonomy Emerges from Self-Play [63.44745854476206]
我々は、前例のない規模のシミュレーションにおいて、頑健で自然主義的な運転が、完全に自己プレイから現れることを示す。
Gigaflowは、42年間の主観的な運転体験を1時間に合成し、訓練することができる。
論文 参考訳(メタデータ) (2025-02-05T16:41:05Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。