論文の概要: Beyond Monotonic Progress: Retry-Supervised Value Learning for Robot Imitation
- arxiv url: http://arxiv.org/abs/2606.24633v1
- Date: Tue, 23 Jun 2026 14:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.01574
- Title: Beyond Monotonic Progress: Retry-Supervised Value Learning for Robot Imitation
- Title(参考訳): モノトニック・プログレスを超えて:ロボット模倣のためのリトライ・スーパーバイザード・バリューラーニング
- Authors: Xinyao Qin, Junjie Lu, Kaixin Wang, Chuheng Zhang, Sinjae Kang, Kimin Lee, Min Xu, Bin Liang, Jun Yang, Li Zhao,
- Abstract要約: 混在型ロボットのデモから誤検知値関数を学習するフレームワークであるReTVL(ReTry-Supervised Value Learning)を提案する。
ReTVLは、グローバルプログレスキャリブレーションとローカルなペアワイズ選好学習を組み合わせることで、ミスに伴う局所的な劣化・回復構造をキャプチャする。
実ロボット操作タスクの実験では、ReTVLは進捗ベースのベースラインよりもよりきめ細かな値推定を生成する。
- 参考スコア(独自算出の注目度): 38.88183703128359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human demonstrations for robot imitation learning often contain mistakes and corrective behaviors, such as imprecise grasps, object misalignment, unstable contact, and repeated attempts. While these segments are commonly treated as noisy or suboptimal data, they provide valuable evidence about when execution deviates from a desirable path and how task feasibility can be restored. However, existing reward and value models often rely on monotonic progress assumptions, which capture coarse task advancement but may overlook local execution errors and corrective behaviors in imperfect demonstrations. In this work, we propose ReTVL (ReTry-Supervised Value Learning), a framework for learning mistake-sensitive value functions from mixed-quality robot demonstrations by leveraging retry events as sparse supervision. ReTVL captures the local degradation-and-recovery structure around mistakes by combining global progress calibration with local pairwise preference learning induced by sparsely annotated retry keypoints. The learned value model is then used to reweight demonstration chunks for downstream behavior cloning, reducing the influence of harmful execution errors while preserving useful corrective behaviors. Experiments on real-robot manipulation tasks show that ReTVL produces more fine-grained value estimates than progress-based baselines and improves imitation learning from imperfect demonstrations.
- Abstract(参考訳): ロボット模倣学習のための人間の実演には、不正確な把握、物体の修正、不安定な接触、繰り返しの試みなどの誤りや修正行動が含まれることが多い。
これらのセグメントは、一般的にノイズや準最適データとして扱われるが、実行が望ましい経路から逸脱し、どのようにタスクの実現性を取り戻すかについて、貴重な証拠を提供する。
しかし、既存の報酬と価値モデルは、粗いタスクの進行をキャプチャする単調な進捗仮定に頼っていることが多いが、不完全な実演において局所的な実行エラーや修正行動を見落としてしまうことがある。
本研究では,リトライイベントをスパース・インスペクションとして活用して,複合品質ロボットのデモから誤り感値関数を学習するフレームワークであるReTVLを提案する。
ReTVLは、大域的な進行校正と、わずかに注釈付けされたリトライキーポイントによって引き起こされる局所的なペアワイズ選好学習を組み合わせることで、誤りを伴う局所的な劣化・回復構造をキャプチャする。
学習された価値モデルは、ダウンストリームの振る舞いクローンのデモチャンクの重み付けに使用され、有害な実行エラーの影響を低減し、有効な修正行動を保存する。
実ロボット操作タスクの実験では、ReTVLはプログレスベースベースラインよりもきめ細かな値推定をし、不完全なデモンストレーションから模倣学習を改善する。
関連論文リスト
- Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR [23.784808278172164]
検証リワード(RLVR)を用いた強化学習における系統的検証誤差の影響について検討する。
その結果,従来の結論とは対照的に,現実的な検証誤差はRLVRの結果を批判的に形作ることができた。
論文 参考訳(メタデータ) (2026-04-06T15:02:52Z) - Learning Actionable Manipulation Recovery via Counterfactual Failure Synthesis [21.197844940385725]
現在の障害学習パラダイムは、コストと安全性の低い実世界のデータ収集か、シミュレータベースの摂動に依存している。
このフレームワークは,実世界の実演を成功させるのから直接,フォトリアリスティックでファクトファクトファクトのロールアウトを合成するものだ。
生成の世界モデル内でアクションを摂動させることで、Dream2Fixはシミュレータに頼ることなくペアの失敗言語データを生成する。
論文 参考訳(メタデータ) (2026-03-13T19:02:58Z) - Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors [60.06461883533697]
我々は、ランクワンモデル編集を活用して、帰属誘導モデル修正フレームワークを確立する。
まず、既存のモデル編集と整合性の設定を区別し、信頼性の低い振る舞いを補正する定式化を行う。
そこで本研究では, 帰属誘導層ローカライゼーション手法を提案する。
論文 参考訳(メタデータ) (2026-03-08T01:06:07Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Learning from Demonstrations via Capability-Aware Goal Sampling [12.442790487354742]
Cago(カゴ)は、専門家の軌道への不安定な依存を軽減し、直接の模倣を行うための学習から学ぶ方法である。
Cagoはスパース・リワード・ゴール条件付きタスクの範囲で,サンプル効率と最終性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-13T17:03:31Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Beyond Observations: Reconstruction Error-Guided Irregularly Sampled Time Series Representation Learning [38.869433924831156]
iTimERはISTS表現学習のための自己教師型フレームワークである。
観測されていないタイムスタンプをノイズ対応トレーニングターゲットに変換し、意味のある再構築信号を可能にする。
iTimERは、ISTS設定下での最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-10T08:53:10Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。