論文の概要: MODIP: Efficient Model-Based Optimization for Diffusion Policies
- arxiv url: http://arxiv.org/abs/2606.10825v1
- Date: Tue, 09 Jun 2026 13:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.512141
- Title: MODIP: Efficient Model-Based Optimization for Diffusion Policies
- Title(参考訳): MODIP:拡散政策の効率的なモデルベース最適化
- Authors: Zakariae El Asri, Philippe Gratias-Quiquandon, Nicolas Thome, Olivier Sigaud,
- Abstract要約: 拡散政策(DP)は,ロボット学習の表現的政策表現として登場した。
DPのオフライン・オンライン微調整のためのフレームワークであるMODIPを提案する。
- 参考スコア(独自算出の注目度): 13.033386079956266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies (DPs) have emerged as expressive policy representations for robot learning, often used with imitation learning methods such as behavioral cloning (BC). However, while their success has largely been confined to BC, direct reinforcement learning (RL) fine-tuning remains challenging because actions are generated through a multi-step denoising process. In this work, we propose MODIP, a framework for the offline-to-online fine-tuning of DPs. Rather than directly applying RL to the DPs, MODIP leverages a world model (WM) to guide policy adaptation and keeps the simplicity and stability of BC. We utilize model predictive control (MPC) to generate high-quality trajectories within the WM, and use them as supervised targets for fine-tuning the DP. To make MPC planning efficient, MODIP uses a terminal state value instead of a policy-dependent state-action value, reducing inference time. Additionally, MODIP trains critics with policy-independent TD targets, reducing training time. Experiments on D4RL (MuJoCo, Kitchen) and RoboMimic tasks show that MODIP improves diffusion policies beyond BC, and is competitive with or outperforms diffusion policy RL fine-tuning methods and strong model-based baselines such as TD-MPC2.
- Abstract(参考訳): 拡散ポリシー(DP)は、ロボット学習の表現的ポリシー表現として現れ、しばしば行動クローニング(BC)のような模倣学習手法で用いられる。
しかし、その成功はBCに限られているが、多段階の認知過程を通じて行動が生成されるため、直接強化学習(RL)の微調整は難しいままである。
本研究では,DPのオフライン・オンライン微調整のためのフレームワークであるMODIPを提案する。
DPに直接RLを適用するのではなく、MODIPは世界モデル(WM)を活用して政策適応を誘導し、BCの単純さと安定性を維持する。
We use model predictive control (MPC) to generate high-quality trajectories within the WM, and use them as supervised target for fine-tuning the DP。
MPC計画を効率化するため、MODIPはポリシー依存の状態-動作値の代わりに端末状態値を使用し、推論時間を短縮する。
さらに、MODIPは政策に依存しないTDターゲットで批判を訓練し、トレーニング時間を短縮する。
D4RL(MuJoCo, Kitchen)およびRoboMimicタスクの実験は、MODIPがBCを超えて拡散ポリシーを改善し、拡散ポリシーRL微調整法やTD-MPC2のような強力なモデルベースラインと競合することを示している。
関連論文リスト
- V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Model Predictive Control with Differentiable World Models for Offline Reinforcement Learning [17.293286354647716]
モデル予測制御(MPC)にインスパイアされた推論時間適応フレームワークを提案する。
ポリシーパラメータを最適化するために推定時情報を利用すると、強いオフラインRLベースラインよりも一貫した利得が得られることを示す。
論文 参考訳(メタデータ) (2026-03-23T18:05:29Z) - Bootstrap Off-policy with World Model [59.129118672069644]
ブートストラップループを通じて計画と非政治学習を緊密に統合するフレームワークであるBOOMを提案する。
BOOMは、トレーニングの安定性と最終的なパフォーマンスの両方において、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-01T06:33:04Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Steering Your Diffusion Policy with Latent Space Reinforcement Learning [46.598122553180005]
行動クローニング(BC)が引き起こした政策は通常、行動を改善するために追加の人間のデモを集める必要がある。
強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる大量のサンプルのために、これを達成できないことが多い。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-18T18:35:57Z) - Bootstrapped Model Predictive Control [19.652808098339644]
本稿では,ブートストラップ方式でポリシー学習を行う新しいアルゴリズムであるBootstrapped Model Predictive Control(BMPC)を紹介する。
BMPCは、MPCの専門家を模倣してネットワークポリシーを学び、その結果、MPCプロセスのガイドにこのポリシーを使用する。
本手法は,各種連続制御タスクの先行作業よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-03-24T16:46:36Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。