論文の概要: FlowPipe: LLM-Enhanced Conditional Generative Flow Networks for Data Preparation Pipeline Construction
- arxiv url: http://arxiv.org/abs/2606.24679v1
- Date: Tue, 23 Jun 2026 15:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.023821
- Title: FlowPipe: LLM-Enhanced Conditional Generative Flow Networks for Data Preparation Pipeline Construction
- Title(参考訳): FlowPipe:データ準備パイプライン構築のためのLLM強化条件生成フローネットワーク
- Authors: Kunyu Ni, Lei Cao, Jie He, Xiaotong Zhang, Jianfeng Jin, Junyu Dong, Yanwei Yu,
- Abstract要約: データ準備パイプラインは、生のテーブルを学習可能なデータに変換することによって、機械学習におけるデータ品質を改善する。
既存の最先端(SOTA)マルチDQNメソッドは3つの重要な制限に直面している。
有向非巡回グラフ上での条件付き確率フロー生成としてパイプライン合成を定式化する統合フレームワークであるFlowPipeを提案する。
- 参考スコア(独自算出の注目度): 43.791981476558384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data preparation pipelines improve data quality in machine learning by transforming raw tables into learning-ready data through sequential cleaning and feature transformation operators. However, automatically constructing such pipelines is computationally difficult because operator sequences are combinatorial and end-to-end evaluation is expensive. Existing state-of-the-art (SOTA) Multi-DQN methods still face three key limitations: decoupled value estimators weaken long-horizon credit assignment, dataset context is only weakly injected into the policy, and exploration is inefficient in a sparse search space with many invalid states. To address these issues, we propose FlowPipe, a unified framework that formulates pipeline synthesis as conditional probabilistic flow generation over a directed acyclic graph. FlowPipe uses Conditional Generative Flow Networks (C-GFlowNets) with a Trajectory Balance objective to connect terminal validation rewards with early pipeline decisions. It further introduces Deep Semantic Modulation through Feature-wise Linear Modulation (FiLM), allowing LLM-derived logical priors to condition the policy's internal activations according to dataset semantics. In addition, FlowPipe incorporates failure awareness into the flow objective to avoid invalid states and concentrate search on high-potential regions. Experiments on two benchmark suites with 74 real-world datasets show that FlowPipe outperforms SOTA baselines, improving accuracy by 11.96% on average and achieving 12.5x faster training convergence. Source code is available at https://github.com/KunyuNi/FlowPipe.
- Abstract(参考訳): データ準備パイプラインは、シーケンシャルなクリーニングと特徴変換演算子を通じて、生のテーブルを学習可能なデータに変換することによって、機械学習におけるデータ品質を改善する。
しかし、演算子列は組合せ的であり、エンドツーエンド評価は高価であるため、そのようなパイプラインの自動構築は計算的に困難である。
既存のSOTA(State-of-the-art) 既存のマルチDQN手法は、3つの重要な制限に直面している: 分離された値推定器は長期水平クレジット割り当てを弱め、データセットコンテキストはポリシーに弱められ、多くの無効な状態を持つスパース検索空間では探索が非効率的である。
これらの問題に対処するために、パイプライン合成を有向非巡回グラフ上の条件付き確率的フロー生成として定式化する統合フレームワークFlowPipeを提案する。
FlowPipeは、Conditional Generative Flow Networks(C-GFlowNets)とTrjectory Balanceの目標を使用して、端末バリデーション報酬と早期パイプライン決定を接続する。
さらに、FiLM(Feature-wise Linear Modulation)によるDeep Semantic Modulationを導入し、データセマンティクスに従ってポリシーの内部アクティベーションを条件付けるLLM由来の論理的事前処理を可能にする。
さらに、FlowPipeは障害認識をフロー目標に組み込んで、無効な状態を避け、高潜在領域の検索に集中させる。
74の実世界のデータセットを持つ2つのベンチマークスイートの実験では、FlowPipeはSOTAベースラインを上回り、平均で11.96%の精度向上と12.5倍高速なトレーニング収束を実現している。
ソースコードはhttps://github.com/KunyuNi/FlowPipe.comで入手できる。
関連論文リスト
- PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。
これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。
我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文 参考訳(メタデータ) (2026-04-20T14:29:08Z) - DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI [42.191938707504406]
DataFlowは、統一的でLLM駆動のデータ準備フレームワークである。
システムレベルの抽象化により、モジュラー、再利用可能な、構成可能なデータ変換が可能になる。
DataFlowは、ダウンストリームのLarge Language Modelsのパフォーマンスを継続的に改善します。
論文 参考訳(メタデータ) (2025-12-18T15:46:15Z) - Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。
本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文 参考訳(メタデータ) (2025-11-24T18:19:42Z) - MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection [47.86433139298671]
本稿では,MAWILAB v1.1データセットから得られたフローベースベンチマークであるMAWIFlowを紹介する。
得られたデータセットは、2011年1月、2016年、2021年に太平洋横断のバックボーンのトラフィックから引き出された、時間的に異なるサンプルで構成されている。
決定木、ランダムフォレスト、XGBoost、ロジスティック回帰を含む伝統的な機械学習手法は、CNN-BiLSTMアーキテクチャに基づいたディープラーニングモデルと比較される。
論文 参考訳(メタデータ) (2025-06-20T14:51:35Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。