論文の概要: UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.12372v1
- Date: Wed, 10 Jun 2026 17:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.60056
- Title: UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning
- Title(参考訳): UniIntervene: 効果的な実世界強化学習のためのエージェント介入
- Authors: Haoyuan Deng, Yitong Gao, Yudong Lin, Haichao Liu, Zhenyu Wu, Ziwei Wang,
- Abstract要約: 非生産的探索を検知し、高価値状態に対する政策を自律的に回復するエージェント介入モデルUniInterveneを提案する。
様々な実世界の操作タスクの実験では、UniInterveneは平均成功率を8.6%改善し、最先端のHiL-RLベースラインと比較して人間の介入を57%削減した。
- 参考スコア(独自算出の注目度): 10.315300563393782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-in-the-loop reinforcement learning (HiL-RL) has emerged as an effective paradigm for real-world robotic manipulation, enabling online policy improvement with human guidance. However, current HiL-RL frameworks remain intervention-intensive, relying on frequent human corrections to redirect the policy out of unproductive exploration, which incurs high labor cost and limits real-world scalability. To address this, we propose UniIntervene, an agentic intervention model that detects unproductive exploration and autonomously recovers the policy toward high-value states, taking over the bulk of interventions from human operators. Specifically, UniIntervene first performs future-conditioned action-value estimation, predicting the latent consequence of the current action and evaluating its induced value, which provides a more stable progress signal. Building on this, a temporal value-risk critic aggregates recent value dynamics and triggers intervention when the estimated value exhibits sustained stagnation or degradation. When intervention is required, UniIntervene retrieves a high-value recovery target from a memory of past intervention episodes and produces executable corrective actions through a goal-conditioned recovery policy. In this way, UniIntervene turns intervention from passive human correction into a value-aware recovery process for efficient real-world RL. Extensive experiments on diverse real-world manipulation tasks demonstrate that UniIntervene improves the average success rate by 8.6% while reducing human interventions by 57% relative to state-of-the-art HiL-RL baselines.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ強化学習(Human-in-the-loop reinforcement learning, HiL-RL)は、実世界のロボット操作において効果的なパラダイムとして登場し、ヒューマンガイダンスによるオンラインポリシー改善を実現している。
しかし、現在のHiL-RLフレームワークは介入に重きを置き、非生産的な探索から政策をリダイレクトするために頻繁に人的修正を頼りにしており、これは高い労働コストを発生させ、現実のスケーラビリティを制限する。
そこで本研究では,非生産的探索を検知し,高価値状態に対する政策を自律的に回復するエージェント介入モデルUniInterveneを提案する。
特に、UniInterveneは、まず将来条件付きアクション値の推定を行い、現在のアクションの潜伏した結果を予測し、その誘導された値を評価し、より安定した進行信号を提供する。
これに基づいて、時間的価値リスク批判が最近の価値ダイナミクスを集約し、見積もり値が持続的な停滞または劣化を示すときに介入をトリガーする。
介入が必要な場合、UniInterveneは過去の介入エピソードの記憶から高価値回復目標を検索し、目標条件の回復ポリシーを通じて実行可能な修正アクションを生成する。
このように、UniInterveneは、受動的人間の修正からの介入を、効率的な実世界のRLのための価値認識回復プロセスに変換する。
様々な実世界の操作タスクに関する大規模な実験により、UniInterveneは平均成功率を8.6%改善し、最先端のHiL-RLベースラインと比較して人間の介入を57%削減した。
関連論文リスト
- Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation [40.17737666526493]
PACT(Preference-calibrated Actor-Critic Training framework)を提案する。
まず、人間の実演から学習し、信用補正のための最適部分を特定するプログレスモデルを設計する。
次に、選好ペアを構築して、同定された準最適セグメントのベルマン目標をペナルティ化する反ファクト的優位性を定義する。
論文 参考訳(メタデータ) (2026-06-02T17:38:25Z) - OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation [16.28822074948203]
Online Human Preference as Guidance in Reinforcement Learning (OHP-RL) は、政策学習の指針となる選好情報として人間の介入を利用するフレームワークである。
OHP-RLは、強い成功率、より高速な収束、そして従来のアプローチよりもはるかに低い人間の介入努力を一貫して達成する。
論文 参考訳(メタデータ) (2026-05-15T14:02:34Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [76.83428371942735]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。