論文の概要: RHO: Your Coding Agent is Secretly a Roboticist
- arxiv url: http://arxiv.org/abs/2606.16458v1
- Date: Mon, 15 Jun 2026 09:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.274216
- Title: RHO: Your Coding Agent is Secretly a Roboticist
- Title(参考訳): RHO:あなたのコーディングエージェントは秘密裏にロボットだ
- Authors: Karim Elmaaroufi, Justin Svegliato, Sarunas Kalade, Graham Schelle, Sanjit A. Seshia, Matei Zaharia,
- Abstract要約: コード・アズ・ポリシーズ(CaP)は、大きな言語モデル(LLM)が知覚、計画、制御プリミティブを構成することでロボットのタスクを解くコードを書くことができることを示した。
最近のCaPシステムは、テスト時に多ターンコード生成ループに依存しており、リアルタイムロボット制御では不可能であることが多い。
ロボットハーネス最適化(ロボティクス・ハーネス・オプティマイゼーション、英: Robotics Harness Optimization、RHO)は、ツール対応のコーディングエージェントがトレーニング時に、解釈可能な、ニューロシンボリックなマルチファイルポリシーリポジトリの提案と検索を行う新しいパラダイムである。
- 参考スコア(独自算出の注目度): 24.9798218503493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-as-Policies (CaP) has shown that large language models (LLMs) can write code to solve robotics tasks by composing perception, planning, and control primitives. Recent CaP systems, however, rely on multi-turn code-generation loops at test time, which is often infeasible for real-time robot control. We introduce Robotics Harness Optimization (RHO), a novel paradigm in which tool-enabled coding agents, at training time, propose and search for interpretable, neurosymbolic multi-file policy repositories (Repositories-as-Policies) that compose these primitives rather than a single prompt, function, or file. RHO searches with reflective feedback from environment reward and execution rather than teleoperation demonstrations. It generalizes to perturbed pick-and-place settings like LIBERO-PRO, where OpenVLA scores 0.0% and $π_{0.5}$ averages 12.83%. Using the same low-level primitives, RHO reaches a 45.0% success rate, 2.5x higher than the strongest multi-turn agentic system, and 3.5x higher than $π_{0.5}$. On Robosuite, RHO sets a new state-of-the-art of 70.0%, exceeding the prior multi-turn record of 68.29% using single-turn execution with no corrective LLM code edits at deployment. When an LLM is used in the control loop, as on RAI's O3DE benchmark, RHO optimizes the deployed agent's multi-file harness of prompts, tools, and control code, improving held-out success from 23.5% to 44.3% with 20% less wall-clock time and 27% fewer tool calls.
- Abstract(参考訳): コード・アズ・ポリシーズ(CaP)は、大きな言語モデル(LLM)が知覚、計画、制御プリミティブを構成することでロボットのタスクを解くコードを書くことができることを示した。
しかし、近年のCaPシステムはテスト時に多ターンコード生成ループに依存しており、リアルタイムロボット制御には利用できないことが多い。
本稿では,ロボット・ハーネス・オプティマイゼーション(RHO)について紹介する。ロボット・ハーネス・オプティマイゼーションは,ツール対応のコーディングエージェントがトレーニング時に,単一のプロンプトや機能,ファイルではなく,これらのプリミティブを構成する解釈可能な,ニューロシンボリックな多ファイルポリシーリポジトリ(Repositories-as-Policies)を提案・検索する,新しいパラダイムである。
RHOは遠隔操作のデモンストレーションではなく、環境報酬と実行からの反射的なフィードバックで検索する。
LIBERO-PROのような摂動的なピック・アンド・プレース設定に一般化し、OpenVLAのスコアは0.0%、$π_{0.5}$平均は12.83%である。
同じ低レベルプリミティブを用いて、RHOは45.0%の成功率に達し、最強のマルチターンエージェントシステムよりも2.5倍高く、$π_{0.5}$より3.5倍高い。
Robosuiteでは、RHOが新しい最先端の70.0%を設定し、デプロイ時に修正LLMコード編集なしでシングルターンの実行で68.29%のマルチターン記録を突破した。
RAIのO3DEベンチマークのように、LLMが制御ループで使用されるとき、RHOはデプロイされたエージェントのプロンプト、ツール、制御コードのマルチファイル活用を最適化し、23.5%から44.3%に改善し、壁時計時間の20%削減し、ツールコールを27%削減した。
関連論文リスト
- VisualClaw: A Real-Time, Personalized Agent for the Physical World [76.89211120690028]
2つの原則に基づいて構築された自己進化型マルチモーダルエージェントであるVisualClawを紹介する。
第一に、ハイブリッド符号化は、情報の少ないストリーミングフレームをカスケードゲートでフィルタリングすることにより、デプロイメントコストを低減する。
第二に、スキルの進化により、エージェントは失敗から学び、将来の質問に役立つスキルバンク更新を生成する。
論文 参考訳(メタデータ) (2026-06-15T06:58:22Z) - Agent Explorative Policy Optimization for Multimodal Agentic Reasoning [97.64835302176056]
エージェント推論は2つの行動と構造的非対称性(思考と道具の使用)をインターリーブする。
GRPOのような標準的なRLレシピでは、ギャップはトレーニング中に2つの診断症状として現れる。
AXPO (Agent eXplorative Policy Optimization) を提案する。
論文 参考訳(メタデータ) (2026-05-27T17:36:39Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks [3.099103925863002]
3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。
各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。
UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。
本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
論文 参考訳(メタデータ) (2026-01-01T12:07:06Z) - MapCoder-Lite: Squeezing Multi-Agent Coding into a Single Small LLM [9.44363104217319]
MapCoder-Liteは、単一の7Bモデルを4つのロール特化エージェント-retriever、プランナー、コーダ、デバッガ使用のみランク32にアップグレードする。
MapCoder-LiteはxCodeEvalの精度を2倍以上にし($13.2%から$28.3%まで)、すべてのフォーマットの失敗を排除し、32Bベースラインの6ポイント以内に閉じる。
論文 参考訳(メタデータ) (2025-09-22T08:19:11Z) - rStar2-Agent: Agentic Reasoning Technical Report [25.266747156205266]
rStar2-Agentは、エージェント強化学習を用いて訓練された14Bの数学推論モデルであり、フロンティアレベルの性能を実現する。
この目的のために、rStar2-Agentはトレーニング済みの14Bモデルを1週間以内に510RLのステップで最先端に引き上げ、平均パス@1スコアはAIME24で80.6%、AIME25で69.8%となる。
論文 参考訳(メタデータ) (2025-08-28T12:45:25Z) - R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning [23.795932850992816]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。
144種類の多種多様な推論・計画タスクにまたがる汎用コードインタープリタのトレーニングは,タスクの不均一性や有効サンプルの不足による重大な課題を呈している。
最終モデルであるR1-CI-14Bは、37のテストタスクの平均精度を44.1%から72.4%に改善し、テキストのみのGPT-4o (58.6%) と GPT-4o with Code Interpreter (70.9%) を上回りました。
論文 参考訳(メタデータ) (2025-05-27T18:47:33Z) - ARCS: Agentic Retrieval-Augmented Code Synthesis with Iterative Refinement [1.980982378865332]
ARCSは凍結モデル上で、予算化された合成実行再生ループを介して動作する。
生成前に関連するコードコンテキストを検索し、候補を提案し、テストに対して実行し、実行フィードバックに基づいて修正する。
LANLの科学コーパスでは、ベースラインRAGよりも+0.115改良されている。
論文 参考訳(メタデータ) (2025-04-29T05:15:52Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。