論文の概要: Reinforcement Learning for Flow-Matching Policies with Density Transport
- arxiv url: http://arxiv.org/abs/2606.08602v1
- Date: Sun, 07 Jun 2026 12:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.29292
- Title: Reinforcement Learning for Flow-Matching Policies with Density Transport
- Title(参考訳): 密度輸送を伴うフローマッチング政策の強化学習
- Authors: Boshu Lei, Kostas Daniilidis, Antonio Loquercio,
- Abstract要約: 連続制御問題における微調整フローマッチングポリシーに対するオンライン強化学習アルゴリズムを提案する。
我々の重要な洞察は、RLに基づく政策改善を、高い報酬のある地域への行動密度の輸送と見なすことである。
実験により, RLDTは報酬品質と収束速度において競争ベースラインを上回った。
- 参考スコア(独自算出の注目度): 38.30268045534078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key insight is to view RL-based policy improvement as a transport of action densities towards regions of high reward, which naturally aligns with the transport formulation of flow matching models. Prior methods either approximate the current or optimal policy distribution or resort to distillation, which introduces biased gradients or sacrifices multimodal modeling capacity. In contrast, our approach for RL with Density Transport, which we name \emph{RLDT}, constructs a transport field from a maximum-entropy RL objective using Stein Variational Gradient Descent (SVGD). Then, it finetunes a pretrained flow matching policy to align with this field. Training with this alignment objective is nontrivial because flow-matching policies generate actions via a multi-step process, making direct gradient-based optimization challenging. To overcome this challenge and stabilize training, we approximate policy actions from intermediate denoising steps via expected-target estimation. This allows the transport-field update to propagate into the network parameters without unstable backpropagation through time. Experimental results demonstrate that RLDT outperforms competitive baselines in reward quality and convergence speed. This performance holds across diverse continuous-control tasks, encompassing both dense and sparse rewards, as well as state- and vision-based long-horizon robot manipulation. The project webpage is \href{https://rpfey.github.io/rldt/}{https://rpfey.github.io/rldt/}.
- Abstract(参考訳): 連続制御問題におけるフローマッチングポリシーを微調整するためのオンライン強化学習(RL)アルゴリズムを提案する。
我々の重要な洞察は、RLに基づく政策改善を、高報酬の領域への行動密度の輸送と見なすことであり、フローマッチングモデルの輸送定式化と自然に一致する。
従来の方法は、現在の政策分布や最適政策分布を近似するか、あるいは、偏りのある勾配を導入したり、マルチモーダルモデリング能力を犠牲にした蒸留に頼ったものだった。
対照的に, 密度輸送を用いたRLのアプローチでは, 最大エントロピーRL目標からStein Variational Gradient Descent (SVGD) を用いた輸送場を構築する。
そして、トレーニング済みのフローマッチングポリシーを微調整して、このフィールドに合わせる。
このアライメント目標を用いたトレーニングは、フローマッチングポリシーがマルチステッププロセスを介してアクションを生成するため、直接的な勾配に基づく最適化が困難になるため、簡単ではない。
この課題を克服し、トレーニングを安定させるため、予測目標推定による中間的認知段階からのポリシーアクションを近似する。
これにより、トランスポートフィールドの更新は、時間を通して不安定なバックプロパゲーションを伴わずに、ネットワークパラメータに伝搬する。
実験により, RLDTは報酬品質と収束速度において競争ベースラインを上回った。
このパフォーマンスは、多種多様な連続制御タスクにまたがり、密度と疎度の両方の報酬と、状態と視覚に基づくロングホライゾンロボット操作を含む。
プロジェクトのWebページは \href{https://rpfey.github.io/rldt/}{https://rpfey.github.io/rldt/} である。
関連論文リスト
- Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment [52.570581883709345]
本稿では,報酬を人間レベルの報酬分布マッチングに置き換えるトラジェクティブマッチングポリシバランス最適化(TMPO)を提案する。
TMPOは最先端の手法に対する生成的多様性を9.1%向上させ、下流および効率の指標で競合性能を達成する。
大規模フロープレフィックスのマルチトラックトレーニング時間を短縮するため、TMPOはDynamic Tree Smplingモデルを導入し、動的にスケジュールされたステップでトラジェクトリがdenoisingとブランチを共有する。
論文 参考訳(メタデータ) (2026-05-09T04:41:02Z) - Fisher Decorator: Refining Flow Policy via A Local Transport Map [22.885775277923106]
フローベースオフライン強化学習(RL)は,フローマッチングによるポリシのパラメータ化によって,高い性能を実現している。
既存のフローポリシーは、2-ワッサーシュタイン距離(W$)の上限として$L$正規化を解釈する。
行動ポリシー多様体は本質的に異方性を持ち、$L$正規化は等方性と密度非感性である。
誘導密度変換を解析することにより、フィッシャー情報行列が支配するKL制約対象の局所2次近似を導出する。
論文 参考訳(メタデータ) (2026-04-20T07:54:36Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Amortizing Trajectory Diffusion with Keyed Drift Fields [2.5352713493505785]
キード・ドリフト・ポリシーズ (Keyed Drifting Policies) は、ドリフトフィールドの目標で訓練された1ステップの軌道生成装置である。
生成されたトラジェクトリを条件マッチングされたデータセットウィンドウに反映する。
1ステップの推論で高い性能を達成し、拡散サンプリングよりも計画遅延を大幅に低減する。
論文 参考訳(メタデータ) (2026-03-14T17:56:15Z) - Flow-Based Policy for Online Reinforcement Learning [34.86742824686496]
FlowRLは、フローベースのポリシー表現とWasserstein-2正規化最適化を統合する、オンライン強化学習のためのフレームワークである。
オンライン強化学習ベンチマークにおいて,FlowRLが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-15T10:53:35Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。