論文の概要: Exploring the Design Space of Reward Backpropagation for Flow Matching
- arxiv url: http://arxiv.org/abs/2606.11075v1
- Date: Tue, 09 Jun 2026 16:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.615335
- Title: Exploring the Design Space of Reward Backpropagation for Flow Matching
- Title(参考訳): フローマッチングのための逆バックプロパゲーションの設計空間の探索
- Authors: Ruoyu Wang, Boye Niu, Xiangxin Zhou, Yushi Huang, Tongliang Liu, Chi Zhang,
- Abstract要約: FlowBPは、後方軌道自体をデザインオブジェクトとして扱う統一的なサロゲート・トラジェクトリフレームワークである。
FlowBP-Sparse、FlowBP-Bridge、FlowBP-Lagrangeの3つの変種をインスタンス化する。
アクティブセットサイズと制限勾配連鎖による3つの有界メモリは、少なくとも1つのジャコビアン因子に連鎖する。
- 参考スコア(独自算出の注目度): 47.80328464705813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning text-to-image flow matching models with human preferences via direct reward backpropagation is sample-efficient but hampered by two well-known pathologies: activations cannot be stored across the full sampling trajectory at modern model scale, and chained Jacobian products across steps inflate the reward gradient as it travels back to early indices. Connector-based methods, such as LeapAlign, address these issues by replacing the full backward trajectory with a short pinned path, highlighting a useful decoupling between sampling and optimization. However, the quality of the resulting gradient depends on how accurately this short path approximates the full rollout, especially over long intervals. We propose FlowBP, a unified surrogate-trajectory framework that treats the backward trajectory itself as the design object. FlowBP keeps a no-gradient cached rollout for sampling, then builds a lightweight backward surrogate from cached and selectively re-forwarded velocities. This view separates four choices: the reward-model input, active set, integration weights, and bridge coupling, and recovers prior direct-gradient methods as particular settings. Within this framework, we instantiate three variants: FlowBP-Sparse uses sparse Euler reconstruction, FlowBP-Bridge adds controlled bridge coupling, and FlowBP-Lagrange raises the order of leap quadrature. All three bound memory by the active-set size and limit gradient chaining to at most one Jacobian factor. Across SD3.5-M, FLUX.1-dev, and FLUX.2-Klein-base on preference, quality, and compositional metrics, the three variants improve over direct-gradient baselines on most metrics.
- Abstract(参考訳): 直接報酬バックプロパゲーションによる人間の好みによるテキスト間フローマッチングモデルの調整は、サンプル効率が良いが、2つのよく知られた病理によって妨げられる: アクティベーションは、現代のモデルスケールで完全なサンプリング軌道にわたって保存できない。
LeapAlignのようなコネクタベースの手法は、完全な後方軌道を短いピン付きパスに置き換えることでこれらの問題に対処し、サンプリングと最適化の間の有用な分離を強調している。
しかし、結果として生じる勾配の質は、この短い経路がフルロールアウト、特に長い間隔でどれだけ正確に近似するかに依存する。
本稿では,後進軌道自体を設計対象として扱う一貫した代理軌道フレームワークであるFlowBPを提案する。
FlowBPは、サンプリングのために、段階的にキャッシュされたロールアウトを保持し、キャッシュされ、選択的に再フォワードされた速度から、軽量な後方サロゲートを構築する。
このビューでは、報酬モデル入力、アクティブセット、統合ウェイト、ブリッジ結合の4つの選択を分離し、特定の設定として、事前の直接勾配メソッドを復元する。
FlowBP-SparseはスパースEuler再構成を使用し、FlowBP-Bridgeは制御されたブリッジ結合を追加し、FlowBP-Lagrangeは跳躍4次法の順序を上げる。
アクティブセットサイズと制限勾配連鎖による3つの有界メモリは、少なくとも1つのジャコビアン因子に連鎖する。
SD3.5-M, FLUX.1-dev, FLUX.2-Klein-baseの3つの変種は、好み、品質、構成の指標において、ほとんどの指標において、直進的なベースラインよりも改善されている。
関連論文リスト
- Accelerating Rectified Flow Models via Trajectory-Aware Caching [35.13071059415995]
我々は,スキップ・then-compensateパラダイムに従って,トレーニング不要なアクセラレーションフレームワークであるTACacheを提案する。
Trajectory-Aware Cacheは、テキスト・ツー・イメージ・ジェネレーションで最大4.14スピードアップ、テキスト・ツー・ビデオ・ジェネレーションで2.11スピードアップを達成する。
論文 参考訳(メタデータ) (2026-05-16T03:44:58Z) - AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation [70.80207977907908]
フローマップをベースとした,最初のノンステップビデオ拡散蒸留フレームワークであるAnyFlowを紹介した。
我々は、AnyFlowがいくつかの段階において、パフォーマンスの一致を達成するか、一貫性ベースの結果を上回ることを示す。
論文 参考訳(メタデータ) (2026-05-13T16:06:34Z) - FAVE: Flow-based Average Velocity Establishment for Sequential Recommendation [33.3202615024807]
本稿では,フローベース平均速度設定(Fave)フレームワークを提案する。
Faveは、ターゲット分布の前に情報提供者から直接軌跡を学習する。
3つのベンチマークの実験では、Faveは最先端のレコメンデーションパフォーマンスを達成するだけでなく、推論効率のオーダー・オブ・マグニチュードの改善も実現している。
論文 参考訳(メタデータ) (2026-04-06T05:17:43Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - Flow-based Extremal Mathematical Structure Discovery [1.1087735229999816]
FlowBoostは、希少かつ極端な幾何学構造を発見することを学ぶクローズドループ生成フレームワークである。
4つの幾何学的最適化問題の枠組みを実証する。
論文 参考訳(メタデータ) (2026-01-25T21:41:47Z) - Optimal Flow Matching: Learning Straight Trajectories in Just One Step [89.37027530300617]
我々は,新しいtextbf Optimal Flow Matching (OFM) アプローチを開発し,理論的に正当化する。
これは2次輸送のための直列のOT変位をFMの1ステップで回復することを可能にする。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
論文 参考訳(メタデータ) (2024-03-19T19:44:54Z) - AccFlow: Backward Accumulation for Long-Range Optical Flow [70.4251045372285]
本稿では、長距離光フロー推定のためのAccFlowと呼ばれる新しいリカレントフレームワークを提案する。
従来の前方累積よりも後方累積の方が優れていることを示す。
長距離光流量推定におけるAccFlowの有効性を検証する実験
論文 参考訳(メタデータ) (2023-08-25T01:51:26Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。