論文の概要: PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update
- arxiv url: http://arxiv.org/abs/2606.13400v1
- Date: Thu, 11 Jun 2026 14:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.851396
- Title: PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update
- Title(参考訳): PolyFlow: 制約埋め込みとプロジェクションフリーアップデートを併用した安全で効率的なPolytope制約付きフローマッチング
- Authors: Jianming Ma, Qiyue Yang, Yang Zhang, Liyun Yan, Zhanxiang Cao, Yazhou Zhang, Yue Gao,
- Abstract要約: PolyFlowは、モデルとフローのダイナミックスに直接制約を埋め込む、ポリトープ制約付きフローマッチングフレームワークである。
以上の結果から,PolyFlowは多種多様な計画・制御タスクの分散性を維持しつつ,制約違反をゼロとすることを示す。
- 参考スコア(独自算出の注目度): 10.835717328925227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While flow-based generative models have demonstrated strong performance across a wide range of domains, deploying them in safety-critical physical systems remains challenging due to strict constraint requirements. Existing approaches typically enforce safety through post-hoc corrections, which incur substantial computational overhead and may distort the learned distribution. We propose PolyFlow, a polytope-constrained flow matching framework that embeds constraints directly into the model and flow dynamics. PolyFlow introduces a discrete-time flow formulation and a projection-free architecture, which eliminate the discretization error and guarantee strict satisfaction of arbitrary polyhedral constraints, without the need for expensive iterative solvers. Experimental results show that PolyFlow achieves zero constraint violation while maintaining high distributional fidelity across a range of planning and control tasks. Compared to state-of-the-art constrained generation baselines, PolyFlow significantly reduces inference latency and demonstrates a favorable trade-off between safety, efficiency, and generative quality. Code is available on https://github.com/MJianM/PolyFlow.
- Abstract(参考訳): フローベースの生成モデルは、幅広い領域にわたって強力な性能を示してきたが、厳格な制約条件のため、安全クリティカルな物理システムにそれらをデプロイすることは依然として困難である。
既存のアプローチは通常、ポストホック補正を通じて安全性を強制するが、これはかなりの計算オーバーヘッドを発生させ、学習した分布を歪ませる可能性がある。
モデルとフローダイナミクスに直接制約を埋め込む,ポリトープ制約付きフローマッチングフレームワークであるPolyFlowを提案する。
PolyFlowは離散時間フローの定式化とプロジェクションフリーアーキテクチャを導入し、離散化エラーを排除し、高価な反復解法を必要とせずに任意の多面体制約の厳密な満足度を保証する。
実験の結果,PolyFlowは多種多様な計画・制御タスクの分散性を維持しつつ,制約違反をゼロにすることがわかった。
最先端の制約付き生成ベースラインと比較して、PolyFlowは推論レイテンシを著しく削減し、安全性、効率、生成品質のトレードオフを良好に示す。
コードはhttps://github.com/MJianM/PolyFlowで入手できる。
関連論文リスト
- Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models [61.74572554094633]
比クリッピングは流れモデルに不適であると主張する。
本稿では,比クリッピングを分岐近位制約に置き換えるFlow-DPPOを提案する。
実験により,フローDPPOはKL近位効率が向上し,高い報酬が得られることが示された。
論文 参考訳(メタデータ) (2026-06-09T15:59:57Z) - HiFlow: Tokenization-Free Scale-Wise Autoregressive Policy Learning via Flow Matching [11.405254375363818]
階層フロー政策(Hierarchical Flow Policy)は、トークン化のない粗大な自己回帰政策である。
HiFlowは、単純な時間プーリングを通じて、各アクションチャンクからマルチスケールの連続的なアクションターゲットを構築する。
MimicGen、RoboTwin 2.0、および実環境の実験は、HiFlowが既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-28T14:22:58Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control [61.155940786140455]
強化学習(RL)は,アクティブフロー制御(AFC)において有望な結果を示した。
現在のAFCベンチマークは、外部計算流体力学(CFD)の解法に依存しており、完全には微分不可能であり、3Dとマルチエージェントのサポートが限られている。
AFCにおけるRLのための最初のスタンドアロンで完全に差別化可能なベンチマークスイートであるFluidGymを紹介する。
論文 参考訳(メタデータ) (2026-01-21T14:13:44Z) - DeFlow: Decoupling Manifold Modeling and Value Maximization for Offline Policy Extraction [4.558338633638409]
本稿では、フローマッチングを利用して複雑な振る舞い多様体を忠実にキャプチャする、分離されたオフラインRLフレームワークであるDeFlowを紹介する。
フロー多様体の明示的でデータ由来の信頼領域内で,軽量な精細化モジュールを学習することにより,この問題に対処する。
DeFlowは、挑戦的なOGBenchベンチマークで優れたパフォーマンスを実現し、オフラインからオンラインへの効率的な適応を実証している。
論文 参考訳(メタデータ) (2026-01-15T14:56:57Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - UniConFlow: A Unified Constrained Generalization Framework for Certified Motion Planning with Flow Matching Models [16.275286046169594]
生成モデルはロボットモーション生成の強力なツールとなり、様々なタスクで柔軟で多モーダルな軌道生成を可能にしている。
本論文では,同一性制約と不等式制約の両方を体系的に組み込んだトラジェクトリ生成のための統一フローマッチングフレームワークUniConFlowを提案する。
我々は移動ナビゲーションと高次元操作タスクを行い、最先端の制約付き生成プランナと比較して安全性と実現可能性の向上を図っている。
論文 参考訳(メタデータ) (2025-06-03T14:48:04Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは高速な推論速度で高い性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T10:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。