論文の概要: ReGIL: Retrieval-Guided Imitation Learning from a Single Demonstration
- arxiv url: http://arxiv.org/abs/2606.09381v1
- Date: Mon, 08 Jun 2026 11:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.956834
- Title: ReGIL: Retrieval-Guided Imitation Learning from a Single Demonstration
- Title(参考訳): ReGIL: 単一のデモから学ぶ検索ガイド
- Authors: Yuying Zhang, Francesco Verdoja, Wenyan Yang, Ville Kyrki,
- Abstract要約: ReGILは、単一のデモを外部メモリとして扱う、検索誘導の模倣学習フレームワークである。
実ロボット実験では、1つのデモンストレーションと1時間未満のオンライントレーニングを使用して、ReGILは75%以上の成功率を達成する。
- 参考スコア(独自算出の注目度): 5.4940612300022025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robot manipulation policies with deep neural networks from a single demonstration remains highly challenging, as even small deviations from the demonstrated trajectory can quickly compound into failure, while collecting substantial online interaction data is costly. We propose ReGIL, a retrieval-guided imitation learning framework that treats a single demonstration as an external memory. ReGIL repeatedly queries this static memory throughout training to simultaneously guide exploration, generate the regularization buffer, and construct rewards. Specifically, it computes rewards through local temporal alignment between the current trajectory and the retrieved segment, providing step-wise and informative feedback for policy improvement. We evaluate ReGIL on robotic manipulation tasks from the LIBERO and Meta-World benchmarks under the single demonstration setting. ReGIL outperforms prior baselines in both success rate and training efficiency. In real-robot experiments, using only one demonstration and less than one hour of online training, ReGIL achieves over 75% success rate across three manipulation tasks with randomness in both initial robot pose and target position. These results demonstrate that leveraging the single demonstration as reusable memory can provide more than static supervision for efficient robot learning. More details can be found on our website: https://regil2026.github.io/
- Abstract(参考訳): 深層ニューラルネットワークによるロボット操作ポリシーを単一のデモから学ぶことは、まだ非常に難しい。
本稿では,1つの実演を外部メモリとして扱う検索誘導型模倣学習フレームワークReGILを提案する。
ReGILはこの静的メモリをトレーニングを通じて繰り返しクエリし、探索を同時にガイドし、正規化バッファを生成し、報酬を構築する。
具体的には、現在の軌道と回収されたセグメント間の局所的時間的アライメントを通じて報酬を計算し、政策改善のための段階的かつ情報的フィードバックを提供する。
LIBEROおよびMeta-Worldベンチマークを用いて,ロボット操作タスクにおけるReGILの評価を行った。
ReGILは、成功率とトレーニング効率の両方において、以前のベースラインを上回っます。
実ロボット実験では、1つのデモンストレーションと1時間未満のオンライントレーニングを使用して、3つの操作タスクで75%以上の成功率を達成し、初期ロボットのポーズと目標位置の両方にランダム性を持たせる。
これらの結果は,1つのデモンストレーションを再利用可能なメモリとして活用することで,効率的なロボット学習のための静的な監視以上のことができることを示している。
詳細は、私たちのWebサイト(https://regil2026.github.io/)で確認できます。
関連論文リスト
- How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning [69.68882580009982]
デモセグメントをVLM生成アノテーションでラベル付けする2段階のアプローチであるDeMiAnを紹介する。
学習したインストラクターがタスク記述と初期シーンスナップショットをデプロイ時にタスクに適したアノテーションにマップする。
RoboCasaでは、インストラクターはタスクのみのベースラインで5ポイント成功し、タスクごとのオラクルの3ポイント以内に到達する。
論文 参考訳(メタデータ) (2026-05-16T16:52:08Z) - Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision [2.3548641190233264]
自己拡張型ロボット軌道(Self-Augmented Robot Trajectory, SART)は、一つの人間のデモンストレーションからポリシー学習を可能にするフレームワークである。
SARTは、人間による実証にのみ訓練されたポリシーよりも、はるかに高い成功率を達成する。
論文 参考訳(メタデータ) (2025-09-11T23:10:56Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots [15.034811470942962]
3本指ロボットハンドを装備した腕の複雑な操作動作を学習できる新しい自己カリキュラム強化学習法であるDemoStartを提案する。
シミュレーションからの学習は、行動生成のサイクルを劇的に減らし、ドメインランダム化技術を利用して、ゼロショット・シム・トゥ・リアル転送を成功させる。
論文 参考訳(メタデータ) (2024-09-10T16:05:25Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via
Novel-View Synthesis [50.93065653283523]
SPARTN(Synthetic Perturbations for Augmenting Robot Trajectories via NeRF)は、ロボットポリシーを改善するための完全なオフラインデータ拡張スキームである。
提案手法はニューラルレイディアンス場(NeRF)を利用して,視覚的デモンストレーションに補正ノイズを合成注入する。
シミュレーションされた6-DoF視覚的把握ベンチマークでは、SPARTNは精度を2.8$times$で改善する。
論文 参考訳(メタデータ) (2023-01-18T23:25:27Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。