Fugu-MT 論文翻訳(概要): ReFPO: Reflow Regularization for Flow Matching Policy Gradients

論文の概要: ReFPO: Reflow Regularization for Flow Matching Policy Gradients

arxiv url: http://arxiv.org/abs/2606.21086v1
Date: Fri, 19 Jun 2026 04:23:10 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:15:16.465266
Title: ReFPO: Reflow Regularization for Flow Matching Policy Gradients
Title（参考訳）: ReFPO: フローマッチングポリシーの規則化
Authors: Ge Wang, Yibo Peng, Fan Feng, Shenhao Yan, Chengsi Yao, Jiahao Yang, Honghao Cai, Yiming Zhao, Xi Li, Jinke Ren, Shuguang Cui, Yatong Han, Zhen Li,
Abstract要約: 本稿では,フローマッチングポリシーに明示的なリフロー正規化を追加する,シンプルなオンラインRL手法を提案する。 ReFPOはGridWorld, MuJoCo Playground, および高次元ヒューマノイド制御タスクにおける平均性能と離散化を改善することを実験的に実証した。
参考スコア（独自算出の注目度）: 58.32178725687043
License:
Abstract: We present Reflow-regularized Flow Matching Policy Gradients (ReFPO), a simple online RL method that adds explicit Reflow regularization to FPO for efficient flow-based control. We uncover a key structural property: the gradient updates in Flow Matching Policy Gradients (FPO) can be interpreted as an implicit advantage-weighted Reflow process, providing a new geometric perspective on flow-based policy gradients. Building on this insight, ReFPO introduces an explicit geometric regularizer that can be implemented with a single line of code change without incurring additional computational overhead or auxiliary distillation stages. By synergizing advantage-guided updates with path rectification, our method reduces CFM proxy-ratio spikes, stabilizes PPO-style training, and enables high-fidelity one-step inference that often matches or exceeds multi-step performance. We experimentally demonstrate that ReFPO improves average performance and discretization robustness across GridWorld, MuJoCo Playground, and high-dimensional Humanoid Control tasks, providing a scalable and stable approach for generative policies in complex physical simulations.
Abstract（参考訳）: 本稿では,効率的なフローベース制御のためにFPOに明示的なリフロー正規化を付加するシンプルなオンラインRL法であるReFPOを提案する。フローマッチングポリシー勾配(FPO)の勾配更新は、暗黙的に有利なリフロープロセスとして解釈することができ、フローベースのポリシー勾配に関する新しい幾何学的視点を提供する。この洞察に基づいて、ReFPOは、追加の計算オーバーヘッドや補助蒸留段階を発生させることなく、一行のコード変更で実装できる明示的な幾何正規化器を導入している。 CFMプロキシ比のスパイクを低減し、PPOスタイルのトレーニングを安定化し、多段階性能によく適合または超越する高忠実なワンステップ推論を可能にする。 ReFPOはGridWorld, MuJoCo Playground, および高次元ヒューマノイド制御タスク全体の平均性能と離散化ロバスト性を向上し, 複雑な物理シミュレーションにおける生成ポリシーに対するスケーラブルで安定したアプローチを提供する。

関連論文リスト

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models [61.74572554094633]
比クリッピングは流れモデルに不適であると主張する。本稿では,比クリッピングを分岐近位制約に置き換えるFlow-DPPOを提案する。実験により,フローDPPOはKL近位効率が向上し,高い報酬が得られることが示された。
論文参考訳（メタデータ） (2026-06-09T15:59:57Z)
Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。 7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文参考訳（メタデータ） (2026-05-20T15:14:14Z)
PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。 PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文参考訳（メタデータ） (2026-02-01T11:08:09Z)
Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。 SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文参考訳（メタデータ） (2025-10-17T07:43:51Z)
Flow Matching Policy Gradients [33.011978450108636]
フローポリシー最適化は、条件付きフローマッチング損失から計算された利益重み付け比を最大化するものとしてポリシー最適化を推し進める。 FPOは,様々な連続制御タスクにおいて,スクラッチから拡散型ポリシーを訓練できることを示す。フローベースモデルでは,マルチモーダルな動作分布を捉えることができ,特に未条件条件下でのガウスポリシーよりも高い性能を実現することができる。
論文参考訳（メタデータ） (2025-07-28T17:59:57Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。