論文の概要: Imitation from Heterogeneous Demonstrations using Grounded Latent-Action World Models
- arxiv url: http://arxiv.org/abs/2606.21672v1
- Date: Fri, 19 Jun 2026 18:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:05:54.101477
- Title: Imitation from Heterogeneous Demonstrations using Grounded Latent-Action World Models
- Title(参考訳): 地中レイト・アクション・ワールドモデルを用いた不均質なデモからの模擬
- Authors: Tianyou Wang, Anson Lei, Joe Watson, Ingmar Posner,
- Abstract要約: 模倣学習は視覚的政策を学ぶための強力なパラダイムとして現れてきたが、その一般化と安定性は、必要な実演データの規模と品質によって制限されている。
有望な方向性は、アクション空間が異なり、しばしばアクションラベルが全くない、より豊富だが不均一なデータソースを活用することである。
異種データソースを組み合わせた既存のコトレーニングアプローチは、手作業によるアライメント技術に依存している。
我々は,この原理を,データソース間の共用潜在行動空間を持つ2組の生成モデルであるGLAM(グラウンドト・レイト・アクション・ワールド・モデル)を用いてインスタンス化する。
- 参考スコア(独自算出の注目度): 14.165510655766944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has emerged as a powerful paradigm for learning visuomotor policies, but its generalisation and stability are limited by the scale and quality of demonstration data needed. A promising direction is to leverage more abundant but heterogeneous data sources, which differ in action space and often lack action labels altogether. Existing co-training approaches that combine heterogeneous data sources rely on heuristic and hand-engineered alignment techniques. In contrast, we argue that action representations should be grounded in prediction: actions that produce the same effect on the environment should share the same representation, regardless of their sources. To this end, we instantiate this principle by using a grounded latent-action world model (GLAM), a pair of generative models with a shared latent action space across data sources that is grounded by predicting future observations consistently across sources. This latent action space is used to train downstream behavioural cloning (BC) policies which map observations to latent actions and decode them back to robot actions, providing a paradigm for learning from heterogeneous data. Empirically, we demonstrate that GLAM successfully learns an aligned latent action space that facilitates action transfer across data sources with and without action labels. Across five manipulation tasks in simulation and in the real world, GLAM-aligned policies significantly outperform BC baselines and prior latent-action methods, achieving an average of +48% improvement in task success rate with the same data-scarce setting. Videos and code are available at https://viccccciv.github.io/glam/.
- Abstract(参考訳): 模倣学習は視覚的政策を学ぶための強力なパラダイムとして現れてきたが、その一般化と安定性は、必要な実演データの規模と品質によって制限されている。
有望な方向性は、アクション空間が異なり、しばしばアクションラベルが全くない、より豊富だが不均一なデータソースを活用することである。
異種データソースを組み合わせた既存のコトレーニングアプローチは、ヒューリスティックおよび手動アライメント技術に依存している。
対照的に, 行動表現は, 発生源に関係なく, 環境に同じ効果をもたらす行動は, 同一の表現を共有するべきである。
この目的のために、我々は、データソース間で共用された潜在行動空間を持つ2組の生成モデルである、接地された潜在行動世界モデル(GLAM)を用いて、この原理をインスタンス化する。
この潜伏行動空間は、下流の行動クローニング(BC)ポリシーを訓練するために使用され、観測結果を潜伏行動にマッピングし、それらをロボットアクションに復号し、異種データから学習するためのパラダイムを提供する。
実験により, GLAMは, 動作ラベル付きおよび無動作ラベル付きでデータソース間での動作伝達を容易にする, 協調した潜在動作空間を学習できることを実証した。
シミュレーションおよび実世界の5つの操作タスクにおいて、GLAMに準拠したポリシーはBCベースラインと先行の潜時動作法を著しく上回り、同じデータスカース設定でタスク成功率を平均+48%向上させる。
ビデオとコードはhttps://viccciv.github.io/glam/.comで公開されている。
関連論文リスト
- TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation [61.35569005726248]
既存の具体的制御研究は、トレーニングデータとモデルサイズをスケールすることで、顕著なパフォーマンス向上を示す。
拡散や自己回帰モデルのような非決定論的生成モデルは、エンボディドコントロールの分野で広く採用されている。
推測時間サンプリングのためのプラグイン・アンド・プレイフレームワークである textbfTapSampling を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:03:31Z) - Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild [37.43820830488286]
JALAは,協調型潜在行動学習のための事前学習フレームワークである。
We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。
実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
論文 参考訳(メタデータ) (2026-02-25T09:46:42Z) - Latent Action World Models for Control with Unlabeled Trajectories [8.965084673299858]
我々は異種データから学習する世界モデルを研究する。
我々は,アクション条件付きおよびアクションフリーなデータを共同で使用する潜在アクション世界モデル群を紹介する。
論文 参考訳(メタデータ) (2025-12-10T19:09:45Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training [21.855770200309674]
一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
論文 参考訳(メタデータ) (2025-09-23T04:32:53Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。