論文の概要: LOPAL: Local Performance-Aware Active Learning from Imperfect Demonstrations
- arxiv url: http://arxiv.org/abs/2606.16888v1
- Date: Mon, 15 Jun 2026 16:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.744941
- Title: LOPAL: Local Performance-Aware Active Learning from Imperfect Demonstrations
- Title(参考訳): LOPAL: 不十分なデモから学ぶローカルパフォーマンスを意識したアクティブラーニング
- Authors: Johannes Heidersberger, Shail Jadav, Dongheui Lee,
- Abstract要約: LOPAL(Local Performance-aware Active Learning)は、ローカルな実演品質情報を活用するアクティブな学習手法である。
LOPALは最大27.31パーセントのタスクパフォーマンス向上を実現し、デモ収集に必要な労力を削減できる。
- 参考スコア(独自算出の注目度): 8.372089733533386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from Demonstration (LfD) enables intuitive robot skill acquisition by allowing robots to learn directly from human task demonstrations. However, current methods often fail to address the fact that due to suboptimal and inconsistent human behavior, the quality of the demonstration can vary within each demonstration. Therefore, we introduce LOPAL (LOcal Performance-aware Active Learning), an active learning approach that leverages this local demonstration quality information. Our approach consists of two synergistic components. First, a local performance-driven LfD method uses a Gaussian Mixture Model (GMM) to encode both the demonstrated trajectories and their associated local quality assessments. This enables the generation of trajectories that outperform the imperfect demonstrations by utilizing complementary local data of high performance. Second, active data acquisition allows to improve beyond the imperfect demonstrations by collecting additional informative samples. In areas missing good data, the user is actively requested to provide corrections through a shared autonomy (SA) mechanism, while the robot autonomously executes the learned behavior. The efficacy of LOPAL was validated in both a simulation and a real-world experiment. The results from a real-world pipe inspection task showed that the proposed approach can achieve up to 27.31 % improvement in task performance while also reducing the effort required to collect the demonstrations.
- Abstract(参考訳): Demonstration(LfD)からの学習は、ロボットが人間のタスクのデモンストレーションから直接学習できるようにすることで、直感的なロボットスキルの獲得を可能にする。
しかし、現在の手法では、人間の行動が最適で矛盾しているため、デモの質が各演目ごとに異なるという事実に対処できないことが多い。
そこで我々は,このローカルな実演品質情報を活用するアクティブな学習手法であるLOPAL(Local Performance-aware Active Learning)を導入する。
我々のアプローチは2つの相乗的成分からなる。
まず、局所的な性能駆動型LfD法は、ガウス混合モデル(GMM)を用いて、実証された軌跡と関連する局所的品質評価の両方を符号化する。
これにより、高い性能の相補的なローカルデータを利用することで、不完全なデモンストレーションよりも優れたトラジェクトリを生成することができる。
第2に、アクティブなデータ取得は、追加のインフォメーションサンプルを収集することによって、不完全なデモ以上の改善を可能にする。
良いデータを欠いている地域では、ロボットが学習した振る舞いを自律的に実行している間に、共有自律性(SA)機構を介して修正を行うことを積極的に要求する。
LOPALの有効性はシミュレーションと実世界の実験の両方で検証された。
実世界の配管検査課題の結果,提案手法は実演の収集に要する労力を削減しつつ,タスク性能を最大27.31パーセント向上させることができることがわかった。
関連論文リスト
- Learning To Defer To A Population With Limited Demonstrations [13.40222956306532]
本稿では,L2D(L2D)システムを人口に遅延させる学習の実践的展開を妨げる重要なデータ不足に対処する。
メタラーニングを用いて,少数のデモンストレーションから専門家固有の埋め込みを生成する,コンテキスト対応の半教師付きフレームワークを導入する。
論文 参考訳(メタデータ) (2025-10-22T08:18:02Z) - Imitation Learning with Precisely Labeled Human Demonstrations [0.0]
この研究は、ハンドヘルドグリップを使って効率的なデータ収集を行うことの可能性を実証する先行研究に基づいている。
我々は、グリップの外観に対するユーザの制御を、特にユニークで、セグメンタブルな色を割り当てることで、正確なエンドエフェクタポーズ推定を可能にする。
本研究は,ロボットによる実演における性能の88.1%に到達可能な政策を,人間による実演を正確にラベル付けしたシミュレーションで示す。
論文 参考訳(メタデータ) (2025-04-18T17:12:00Z) - Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。