論文の概要: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
- arxiv url: http://arxiv.org/abs/2606.19980v1
- Date: Thu, 18 Jun 2026 09:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.760305
- Title: ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
- Title(参考訳): ENPIRE:現実世界におけるエージェントロボット政策の自己改善
- Authors: Wenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi,
- Abstract要約: ENPIREは、物理フィードバックルーチンを4つのコアモジュールでインスタンス化するコーディングエージェントのためのハーネスフレームワークである。
ENPIREの力で、フロンティアコーディングエージェントは、困難な巧妙な操作タスクで99%の成功率を達成するために、ポリシーを自律的に訓練することができる。
- 参考スコア(独自算出の注目度): 40.75426390954145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.
- Abstract(参考訳): 現実世界での巧妙なロボット操作の達成は、人間の監督とアルゴリズム工学に大きく依存しており、一般的な身体知性の追求において中心的なボトルネックとなっている。
新たなコーディングエージェントは、アルゴリズム検索を自動化するコードを生成することができるが、その成功は主にデジタル環境に限られている。
ロボット研究を自動化するための抽象化が欠如していることは、現実の政策改善のための繰り返し可能なフィードバックループである、と推測する:シーンをリセットし、ポリシーを実行し、結果を確認し、次のイテレーションを洗練する。
このギャップを埋めるために、我々は、この物理フィードバックルーチンを、自動リセットと検証のための環境モジュール(EN)、ポリシーリファインメントを起動するポリシー改善モジュール(PI)、並列に動作する1つまたは複数の物理ロボットによるポリシー評価を行うロールアウトモジュール(R)、コーディングエージェントがログを分析し、文献を相談し、トレーニングインフラと障害モードに対処するためのアルゴリズムコードを改良する進化モジュール(E)の4つのコアモジュールで、コーディングエージェントのためのハーネスフレームワークであるENPIREを紹介した。
このクローズドループシステムは、現実世界の操作学習を制御可能な最適化手順に変換し、トレーニングレシピやエージェントの変種間の公正な改善を許容しながら、人間の努力を最小限にする。
ENPIREによって、フロンティアコーディングエージェントは、ピンボックスの編成、ジップタイの締め付け、ツールの使用など、困難な操作タスクにおいて、99%の成功率を達成するためのポリシーを自律的にトレーニングすることができる。
以上の結果から,物理的世界における自律的なロボット工学へのコーディングエージェントの展開に向けた,実用的でスケーラブルな道のりが示唆された。
関連論文リスト
- Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation [0.0]
本稿では、LLMエージェントがロボット操作ポリシーを改善するためのフレームワークであるAct-Observe-Rewrite(AOR)を提案する。
AORはLLM推論の単位として、完全な低レベルモーター制御を実装している。
エージェントは、デモンストレーション、報酬工学、勾配更新なしで高い成功率を達成する。
論文 参考訳(メタデータ) (2026-03-03T22:15:55Z) - EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - A Roadmap Towards Automated and Regulated Robotic Systems [4.6015001632772545]
我々は、AIの非規制生成プロセスが低レベルのタスクに適合していると主張している。
完全自動化・制御されたロボットシステムを実現するためのロードマップを提案する。
論文 参考訳(メタデータ) (2024-03-21T00:14:53Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。