Fugu-MT 論文翻訳(概要): HiL-ResRL: A Model-Agnostic Finetuning Adapter via Human-in-the-loop Residual Reinforcement Learning

論文の概要: HiL-ResRL: A Model-Agnostic Finetuning Adapter via Human-in-the-loop Residual Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.22860v1
Date: Mon, 22 Jun 2026 05:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 04:05:28.015294
Title: HiL-ResRL: A Model-Agnostic Finetuning Adapter via Human-in-the-loop Residual Reinforcement Learning
Title（参考訳）: HiL-ResRL:Human-in-the-loop Reinforcement Learningによるモデル非依存ファインタライザ
Authors: Jingyi Liu, Zhaohong Mai, ShunSen He, Hang Ren, Chao Wang, Shunbo Zhou, XiaoDong Wu, Heng Zhang,
Abstract要約: 本稿では,VLA(Vision-Language-Action)モデルのための,プラグイン・アンド・プレイファインチューニングパイプラインを提案する。 VLA生成したアクションを統一インターフェースとして概念化し、残留ポリシーをトレーニングする。オンラインのRLトレーニングを1.5時間以内に行うと、実際のロボットの平均成功率は95%を超えます。
参考スコア（独自算出の注目度）: 15.872908522637957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in generative imitation learning have significantly propelled the field of robotic manipulation. However, the majority of existing models rely heavily on Behavior Cloning (BC), a paradigm that suffers from compounding errors and distributional shift. Consequently, the efficacy of these models in practical industrial deployments remains limited. To address these challenges, we introduce a novel, plug-and-play fine-tuning pipeline designed to facilitate the robust deployment of Vision-Language-Action (VLA) models in real-world environments. In contrast to contemporary reinforcement learning (RL) fine-tuning strategies, which are often constrained by specific model architectures, our proposed framework is model-agnostic and adaptable to a diverse range of VLA models. We conceptualize VLA-generated actions as a unified interface, upon which we train a residual policy. This policy is designed to rectify suboptimal actions and address the distributional shift inherent in imitation learning. Additionally, we incorporate human-in-the-loop guidance to ensure safe exploration and maximize training efficiency. We conduct experiments directly in real-world robotic settings. The results demonstrate that within only 1.5 hour of real-world online RL training, the average success rate exceeds 95% on real robots. Our work presents a practical solution for deploying behavior cloning models in industrial scenarios.
Abstract（参考訳）: 遺伝子模倣学習の最近の進歩は、ロボット操作の分野を著しく推進している。しかしながら、既存のモデルの大半は、エラーの複合化と分散シフトに苦しむパラダイムである振舞いクローン(BC)に大きく依存している。したがって、これらのモデルが実用的産業展開において有効であることは依然として限られている。これらの課題に対処するために、実環境におけるビジョン・ランゲージ・アクション(VLA)モデルのロバストな展開を容易にするために設計された、プラグイン・アンド・プレイのファインチューニングパイプラインを導入する。特定のモデルアーキテクチャによって制約される現代強化学習(RL)ファインチューニング戦略とは対照的に,提案するフレームワークはモデルに依存しず,多様なVLAモデルに適用可能である。 VLA生成したアクションを統一インターフェースとして概念化し、残留ポリシーをトレーニングする。この方針は、最適以下の行動を正し、模倣学習に固有の分布シフトに対処するように設計されている。さらに、安全な探索とトレーニング効率の最大化を図るために、Human-in-the-loopガイダンスを組み込んだ。実世界のロボット環境で直接実験を行う。その結果、実世界のオンラインRLトレーニングがわずか1.5時間以内で、実際のロボットの平均成功率は95%を超えていることがわかった。本研究は,産業シナリオにおける行動クローニングモデルを展開するための実用的なソリューションを提案する。

関連論文リスト

EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models [84.73890225707264]
提案するEXPO-FTは,事前学習したVLAポリシーの安定かつサンプル効率の良いRL微調整システムである。本システムは,オンラインロボットデータの平均19.1分以内の全ての評価課題に対して,完全なタスク性能(30/30の成功)を実現する。我々は、ロボット工学におけるVLAモデルのより広範なRLファインタニング導入を促進することを目的とした、オープンソースのロバスト性をリリースする。
論文参考訳（メタデータ） (2026-05-25T06:31:03Z)
VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文参考訳（メタデータ） (2026-02-12T15:21:47Z)
World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文参考訳（メタデータ） (2026-02-06T08:57:55Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
Towards Accessible Physical AI: LoRA-Based Fine-Tuning of VLA Models for Real-World Robot Control [0.0]
本稿では,VLAモデルを低コストなロボット操作システムに適用するための,効率的な微調整手法と実世界の展開分析について述べる。本稿では,LoRA(Lo-Rank Adaptation)と量子化技術を用いた資源効率の高い微調整手法を提案する。本手法は,事前学習したVLAモデルを,限られた実演データを持つ新しいロボット体に適応させる上で重要な課題に対処する。
論文参考訳（メタデータ） (2025-12-11T16:25:30Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy [10.596344084789434]
VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。これらのモデルを教師付き学習で微調整することで、制限された一貫性のないデモのために堅牢なパフォーマンスを達成することができる。我々は,オフラインとオンラインのファインチューニングで構成されるConRFTという,VLAモデルのための強化されたファインチューニング手法を提案する。
論文参考訳（メタデータ） (2025-02-08T05:01:17Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。