論文の概要: HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.08610v1
- Date: Sun, 07 Jun 2026 12:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.297386
- Title: HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning
- Title(参考訳): エージェントロボット強化学習のためのハーネスフレームワークHARBOR
- Authors: Zechu Li, Yufeng Jin, Xiaoyang Liu, Puze Liu, Vignesh Prasad, Carlo D'Eramo, Georgia Chalvatzaki,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ロボット学習、特にシミュレート・トゥ・リアルな設定において強力なパラダイムとなっているが、アルゴリズムを取り巻くエンジニアリングパイプラインによって広く採用されている。
本稿では,ロボットRL自動化をハーネスエンジニアリングの課題とするエージェントフレームワークであるHARBORを紹介する。
HARBORは、シミュレーションRLワークフローをエンドツーエンドで自動化し、報酬を設計し、デフォルトの設定に合わせてアルゴリズムを調整または改善し、実用的なトークンとウォールクロックコストでエンジニアリングの労力を削減することを実証する。
- 参考スコア(独自算出の注目度): 21.762004279152674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a powerful paradigm for robot learning, particularly in sim-to-real settings, but its broader adoption remains limited by the engineering pipeline surrounding the algorithms. Building tasks, shaping rewards, and tuning hyperparameters require substantial expert effort, making RL workflows costly and difficult to scale. We introduce HARBOR, an agentic framework that frames robot RL automation as a harness-engineering problem: given a simulator codebase and a task specification, it automates the workflow from environment setup to policy training in simulation. HARBOR decomposes such high-level objectives into bounded stages executed by specialized agents through standardized commands, persistent artifacts, executable gates, and reusable knowledge, and scales iteration via decentralized parallel trials and experience learning across runs. We evaluate HARBOR across 6 benchmarks and 16 tasks in total, spanning manipulation, locomotion, and bimanual dexterous control. We demonstrate that HARBOR automates the simulation RL workflow end-to-end, designs rewards, tunes algorithms to match or improve over default configurations, and reduces engineering effort at practical token and wall-clock cost; the resulting policies can also be transferred to real robots.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロボット学習、特にシミュレート・トゥ・リアルな設定において強力なパラダイムとなっているが、アルゴリズムを取り巻くエンジニアリングパイプラインによって広く採用されている。
タスクの構築、報酬形成、ハイパーパラメータのチューニングには相当な専門的な作業が必要で、RLワークフローのコストとスケールが難しくなる。
本稿では,ロボットRL自動化をハーネスエンジニアリングの課題とするエージェントフレームワークであるHARBORを紹介した。シミュレータのコードベースとタスク仕様から,環境設定からシミュレーションにおけるポリシートレーニングまで,ワークフローを自動化する。
HARBORは、これらの高レベルな目的を、標準化されたコマンド、永続的なアーティファクト、実行可能ゲート、再利用可能な知識を通じて、特別なエージェントによって実行される有界なステージに分解し、分散並列トライアルと実行時の経験学習を通じてイテレーションをスケールする。
HARBORは6つのベンチマークと16のタスクにまたがって評価され、操作、移動、両手動のデキスタラス制御が可能である。
HARBORは、シミュレーションRLワークフローをエンドツーエンドで自動化し、報酬を設計し、デフォルトの設定に合わせてアルゴリズムを調整し、実用的なトークンやウォールクロックコストでのエンジニアリングの労力を削減する。
関連論文リスト
- Simulation-based Learning of Electrical Cabinet Assembly Using Robot Skills [2.900269335003268]
本稿では、DINレール上での電気端子の力制御組立を自動化するためのシミュレーション駆動方式を提案する。
提案手法は,物理シミュレーション環境下での深部強化学習(DRL)とパラメータ化可能なロボット技術を統合する。
実験結果は, 位置差や回転偏差の大きい場合であっても, シミュレーションと実世界の双方で高い成功率(最大100%)を示した。
論文 参考訳(メタデータ) (2026-02-16T08:45:54Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。
ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。
その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-14T10:13:41Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。