論文の概要: APEX: Adaptive Policy Execution for Precise Manipulation
- arxiv url: http://arxiv.org/abs/2606.16504v1
- Date: Mon, 15 Jun 2026 10:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.365571
- Title: APEX: Adaptive Policy Execution for Precise Manipulation
- Title(参考訳): APEX:精密操作のための適応的政策実行
- Authors: Mengfei Zhao, Chenxi Jiang, Tuo An, Jindou Jia, Jianfei Yang,
- Abstract要約: 我々は、ポリシーとコントローラ間の実行ギャップを埋めるために、適応ポリシー実行(APEX)を提案する。
APEXはポリシー出力から動的に実行可能な参照を再構築し、低レベルの状態フィードバックに従ってテスト時に適応する。
コントローラによるトラッキングエラーをデモのリプレイで41.2%削減し、4つのビジュモータとVLAポリシークラスで4.8-25.8ポイントの操作成功を改善する。
- 参考スコア(独自算出の注目度): 17.137901655707616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern imitation learning methods, including visuomotor and Vision-Language-Action (VLA) policies, typically output high-level action references that are executed by low-level controllers. However, the absence of higher-order reference signals, together with the policy's lack of awareness of the underlying low-level control dynamics during training, inevitably induces an execution gap. As a result, realized actions deviate systematically from policy-commanded ones, with a critical impact on precision-sensitive manipulation. Prior work either modifies the policy architecture or the low-level controller, both requiring intrusive changes to the pretrained policy or packaged controller. This raises a natural question: when the policy and controller are both treated as inaccessible black boxes, can we bridge the execution gap? We propose Adaptive Policy Execution (APEX), a plug-and-play framework inserted between the policy and the controller that reconstructs a dynamically feasible reference from policy outputs and adapts at test-time according to low-level state feedback, with a provable convergence guarantee. Extensive empirical studies show that APEX reduces controller-induced tracking error by 41.2% on demonstration replay and improves manipulation success by 4.8--25.8 percentage points across four visuomotor and VLA policy classes.
- Abstract(参考訳): Visuomotor や Vision-Language-Action (VLA) ポリシを含む現代の模倣学習手法は、通常は低レベルコントローラによって実行される高レベルアクション参照を出力する。
しかし、高次の参照信号がないことは、政策が訓練中に下層の低レベルの制御力学を意識していないことと共に、必然的に実行ギャップを生じさせる。
結果として、実現された行動は、正確さに敏感な操作に重大な影響を与えながら、政策が指示された行動から体系的に逸脱する。
以前の作業では、事前訓練されたポリシーやパッケージ化されたコントローラに侵入的な変更を必要とするため、ポリシーアーキテクチャや低レベルのコントローラを変更していた。
ポリシーとコントローラがどちらもアクセス不能なブラックボックスとして扱われたとき、実行ギャップを埋めることができますか?
政策出力から動的に実現可能な参照を再構築し,低レベル状態フィードバックに従ってテスト時に適応する,ポリシとコントローラの間に挿入されるプラグアンドプレイフレームワークであるAdaptive Policy Execution (APEX)を提案する。
大規模な実験研究により、APEXは4つのビジュモータとVLAポリシークラスで4.8-25.8ポイントの操作を成功させ、コントローラによるトラッキングエラーを41.2%削減している。
関連論文リスト
- Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning [50.738952715864116]
表現的連続制御ポリシは、シミュレーションされた実ロボット制御のための模倣学習のスケーリングにおける進歩のバックボーンを形成する。
テスト時に完全にポリシー最適化を行うRLアルゴリズムであるQGF(Q-Guided Flow)を提案する。
実証的には、QGFはシングルタスクおよびゴール条件のオフラインRLベンチマークにおいて、以前のテスト時間RLメソッドよりも優れている。
論文 参考訳(メタデータ) (2026-06-09T16:45:57Z) - One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - OGPO: Sample Efficient Full-Finetuning of Generative Control Policies [53.42266064673132]
ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。
この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-05-04T18:36:40Z) - Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty [13.173545520334871]
本稿では,各制御次元において,力や位置制御をいつ使うかを選択するためのハイブリッドな位置力制御ポリシーを提案する。
MATCHはポーズ制御ポリシーを大幅に上回っている。
論文 参考訳(メタデータ) (2026-04-21T16:55:48Z) - Policy Gradient Guidance Enables Test Time Control [9.24766442685354]
政策グラディエントガイダンス(PGG)について紹介する。
PGGは無条件分岐でポリシー勾配を強化し、条件分岐と無条件分岐を補間する。
離散的および連続的な制御ベンチマークでPGGを評価する。
論文 参考訳(メタデータ) (2025-10-02T16:00:35Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty [22.276925045008788]
emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-08T13:06:35Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。