論文の概要: Task-Error Residual Learning for Real-Robot Five-Ball Juggling
- arxiv url: http://arxiv.org/abs/2606.16978v1
- Date: Mon, 15 Jun 2026 17:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.093862
- Title: Task-Error Residual Learning for Real-Robot Five-Ball Juggling
- Title(参考訳): 実ロボット5段ジャグリングにおけるタスクエラー残差学習
- Authors: Kai Ploeger, Jan Peters,
- Abstract要約: 強化学習の標準的なスカラー報酬は、タスクを定義する指向性タスクエラーよりもはるかに少ない情報をもたらす。
人為的なバレットWAMアームを安定して3,4,5球ジャグリングする。
単純な理想的なスタックを通じて計画と制御を行うにもかかわらず、システムは第2の試みから収束する。
- 参考スコア(独自算出の注目度): 16.640420524594443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For residual learning that refines existing behavior, sample efficiency depends on two things: how much information each rollout returns, and how efficiently the learner uses that information. Reinforcement learning's standard scalar reward carries far less information than the directional task error that defines the task. Random exploration further discards whatever information each rollout returns. Through residual learning with directional task-error supervision and a task error model that drives sample selection, we achieve stable three-, four-, and five-ball juggling on anthropomorphic Barrett WAM arms. Despite planning and controlling through a simple, idealized stack, the system converges from the second attempt. The first attempt drops, after which task error decreases monotonically without further failures. In comparison, five-ball juggling typically takes humans years of practice. We compare residual learners across two ternary axes, the directional information in the learning feedback and the commitment of the analytic prior, spanning Newton-style Jacobian updates, Composite Bayesian Optimization, and stochastic search methods. Both axes prove necessary: neither directional feedback nor an informative prior suffices alone, and the simplest method that combines them, a fixed-Jacobian Newton update, is the most reliable. The learned residual tolerates substantial prior misalignment and degraded joint tracking, affecting mainly convergence speed. The bottleneck for residual learning on real robots is therefore the information content of the supervision signal and how the learner uses it, not the accuracy of the surrounding stack. Video documentation of all experiments is available at https://kai-ploeger.com/residual-juggling.
- Abstract(参考訳): 既存の振る舞いを洗練させる残留学習では、サンプルの効率は、各ロールアウトがどれだけの情報を返すか、そして学習者がその情報をどのように効率的に利用するかの2点に依存する。
強化学習の標準的なスカラー報酬は、タスクを定義する指向性タスクエラーよりもはるかに少ない情報をもたらす。
ランダム探索は、ロールアウト毎に返される情報をさらに破棄する。
指向性タスクエラー監視と, サンプル選択を駆動するタスクエラーモデルを用いて, 人為的Barrett WAMアームの安定3球, 4球, 5球ジャグリングを実現する。
単純な理想的なスタックを通じて計画と制御を行うにもかかわらず、システムは第2の試みから収束する。
最初の試みは失敗し、その後タスクエラーはさらなる失敗なしに単調に減少する。
対照的に、5球ジャグリングは通常、人間の練習に何年もかかります。
3次軸間の残差学習者,学習フィードバックの方向情報,分析先行のコミットメント,ニュートンスタイルのヤコビアン更新,複合ベイズ最適化,確率探索法を比較した。
どちらの軸も必要であることが証明されている: 指向性フィードバックも情報的事前補足も必要であり、それらを結合する最も単純な方法は、ヤコビアン・ニュートンの更新である。
学習された残留物は、主に収束速度に影響を及ぼす、かなりの事前調整と変形した関節追跡を許容する。
したがって、実際のロボットにおける残差学習のボトルネックは、監視信号の情報内容と学習者が周囲のスタックの精度ではなく、どのようにそれを使うかである。
すべての実験のビデオドキュメンテーションはhttps://kai-ploeger.com/residual-juggling.comで公開されている。
関連論文リスト
- FaLW: A Forgetting-aware Loss Reweighting for Long-tailed Unlearning [24.734154431191538]
FaLWはプラグアンドプレイの動的損失再重み付け方式である。
各サンプルの未学習状態を、その予測確率と同一クラスからの未学習データの分布を比較して評価する。
実験により、FaLWは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-26T16:21:01Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Transfer Learning with Informative Priors: Simple Baselines Better than Previously Reported [4.453137996095194]
転送学習と5つのデータセットにまたがるソースタスクの事前情報とを比較検討する。
クラス毎の5-300例のシナリオでは、2つのデータセットに対して負あるいは無視的なゲイン、他の2つのデータセットでは控えめなゲイン、ひとつのデータセットでは実質的なゲインが見られます。
論文 参考訳(メタデータ) (2024-05-24T14:12:23Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - TaskMet: Task-Driven Metric Learning for Model Learning [29.0053868393653]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。
本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。
このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文 参考訳(メタデータ) (2023-12-08T18:59:03Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Rectification-based Knowledge Retention for Continual Learning [49.1447478254131]
ディープラーニングモデルは、インクリメンタルな学習環境で訓練されたときに壊滅的な忘れに苦しむ。
タスクインクリメンタル学習問題に対処するための新しいアプローチを提案する。これは、インクリメンタルに到着する新しいタスクに関するモデルをトレーニングすることを含む。
私たちのアプローチは、ゼロショットと非ゼロショットタスクインクリメンタルラーニング設定の両方で使用できます。
論文 参考訳(メタデータ) (2021-03-30T18:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。