論文の概要: FlowDPG: Deterministic Policy Gradient on Flow Matching Policies for Real-World Manipulation
- arxiv url: http://arxiv.org/abs/2606.22303v1
- Date: Sun, 21 Jun 2026 02:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:19:18.528745
- Title: FlowDPG: Deterministic Policy Gradient on Flow Matching Policies for Real-World Manipulation
- Title(参考訳): FlowDPG: リアルタイム操作のためのフローマッチングポリシーに基づく決定論的ポリシーのグラディエント
- Authors: Kexin Shi, Junyao Shi, Poorvi Hebbar, Zhuolun Zhao, Tarun Amarnath, Yifan Su, Shikhar Bahl, Deepak Pathak,
- Abstract要約: FlowDPG は DDPG スタイルのフローマッチング方式で, BPTT を完全にバイパスして, 評価勾配をトレーニング時の速度場に蒸留する。
提案手法は,(1)フローマッチングポリシにおけるDDPGスタイルの安定な政策改善を可能にするBPTTフリー蒸留フレームワーク,(2)フローDPG更新方向とバニラ決定性ポリシーの形式的接続を3つの明示的近似によりグラディエントとし,(3)長期・多段階・デュアルアーム組立タスクにおける実世界の検証を行う。
- 参考スコア(独自算出の注目度): 30.518432730829957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world reinforcement learning for robotic manipulation remains challenging, and this difficulty is amplified for flow matching policies: applying policy gradient methods to these policies is fundamentally limited by the need to backpropagate through time(BPTT) along the multi-step ODE that maps noise to actions, which is computationally prohibitive and numerically fragile. We propose FlowDPG, a DDPG-style method specifically designed for flow matching policies that distills the critic gradient into the velocity field at training time, bypassing BPTT entirely. Intuitively, FlowDPG combines two complementary vectors: the demonstration-driven velocity that keeps the action feasible, and the critic-driven correction that steers it toward higher value. Our contributions are threefold: (1) a BPTT-free distillation framework that enables stable DDPG-style policy improvement on flow matching policies, (2) a formal connection between the FlowDPG update direction and vanilla Deterministic Policy Gradient via three explicit approximations, and (3) real-world validation on a long-horizon, multi-stage, dual-arm AirPods assembly task, where FlowDPG attains a 92% end-to-end success rate, substantially outperforming recent RL methods spanning value-conditioning, auxiliary-module adaptation, and adjoint-based critic-gradient approaches. Videos and more results are provided on the project page https://flowdpg.github.io.
- Abstract(参考訳): ロボット操作のための実世界の強化学習は依然として困難であり、この困難さはフローマッチングポリシーのために増幅されている: これらのポリシーにポリシー勾配法を適用することは、時間(BPTT)を通してノイズを行動にマッピングする多段階ODEに沿ってバックプロパゲートする必要があるため、基本的に制限される。
本稿では, BPTT を完全にバイパスする DDPG スタイルのフローマッチング方式である FlowDPG を提案する。
直感的には、FlowDPGは2つの相補的なベクトル、つまりアクションを実現可能に維持するデモ駆動のベロシティと、より高い値に向けた批判駆動の補正を組み合わせる。
提案手法は,(1)フローマッチングポリシにおけるDDPGスタイルの安定な政策改善を可能にするBPTTフリー蒸留フレームワーク,(2)FlowDPG更新方向とバニラ決定性ポリシの形式的接続,(3)長期・多段・デュアルアームAirPods組立タスクにおける現実的検証,(3)FlowDPGが92%のエンドツーエンド成功率を達成し,近年のRL手法よりも大幅に向上している。
ビデオやその他の結果はプロジェクトページ https://flowdpg.github.io.com で公開されている。
関連論文リスト
- ReFPO: Reflow Regularization for Flow Matching Policy Gradients [58.32178725687043]
本稿では,フローマッチングポリシーに明示的なリフロー正規化を追加する,シンプルなオンラインRL手法を提案する。
ReFPOはGridWorld, MuJoCo Playground, および高次元ヒューマノイド制御タスクにおける平均性能と離散化を改善することを実験的に実証した。
論文 参考訳(メタデータ) (2026-06-19T04:23:10Z) - Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow [24.52437280908291]
ドリフトフィールドポリシー(DFP)は、ドリフトモデルパラダイムに基づく一段階の生成ポリシーである。
我々は、このポリシー更新を、ソフトターゲットポリシーに向けた逆KL Wasserstein-2勾配流として構成し、各DFP更新が確率空間の勾配ステップに対応するようにした。
我々は、トップKの批評家が選択した行動における行動のクローンのような、さほど難解でない更新損失の、単純でトラクタブルなサロゲートを導出する。
論文 参考訳(メタデータ) (2026-05-08T13:34:27Z) - Wasserstein Proximal Policy Gradient [10.574676421687718]
We study policy gradient method for continuous-action, entropy-regularized learning through the lens of Wasserstein geometry。
我々はWPPGによって実装されたヒートステップと最適なトランスポート更新を交互に行う演算子分割方式によりWWPG(Wsserstein Proximal Policy Gradient)を導出する。
我々はWPPGの線形収束率を確立し、正確なポリシー評価と制御された近似誤差によるアクター・クリティカルな実装の両方をカバーした。
論文 参考訳(メタデータ) (2026-03-03T03:48:09Z) - Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。