論文の概要: Understanding Latent Flow Models for Tabular Data Synthesis: Targets, Paths, and Sampling
- arxiv url: http://arxiv.org/abs/2606.20878v1
- Date: Thu, 18 Jun 2026 19:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:19:03.220936
- Title: Understanding Latent Flow Models for Tabular Data Synthesis: Targets, Paths, and Sampling
- Title(参考訳): 語彙データ合成のための潜在フローモデルを理解する:ターゲット,パス,サンプリング
- Authors: Bahrul Ilmi Nasution,
- Abstract要約: 本研究では,7つのデータセットにまたがる潜水流モデルについて実験的検討を行った。
学習目標がユーティリティリスクの運用体制を大半を決定し,速度と後続のマッチングにより高い実用性が得られる傾向にあることを示す。
設定とサンプリングの選択が性能を変化させることを示し、中間点はしばしば分布の忠実度を向上し、OTパスは早期停止を許容することを示した。
- 参考スコア(独自算出の注目度): 0.4877265781665232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic tabular data enables microdata sharing in regulated domains, yet deploying continuous-time generative models requires balancing analytical utility, disclosure risk, and computational cost. Latent-space flow models are flexible, but theoretical equivalences across learning targets, probability paths, and sampling dynamics can translate into different behaviour under finite-step integration and explicit compute budgets. We present an empirical study of tabular latent flow models across seven datasets, evaluating velocity, score, noise, and posterior matching objectives under optimal transport (OT) and variance-preserving (VP) paths, ODE and SDE sampling, and varying integration budgets. Our contributions are threefold: (1) we show that the learning target largely determines the utility-risk operating regime, with velocity and posterior matching tending to yield higher utility, while score and noise matching tend to achieve lower disclosure risk; (2) we demonstrate that configuration and sampling choices shift performance, with midpoint often improving distributional fidelity and OT paths often tolerating earlier stopping than VP, enabling compute savings under fixed budgets or risk thresholds; and (3) we distil these findings into actionable defaults and practical configuration guidance to support pre-release model selection under disclosure risk and resource constraints. The code implementation and supplementary materials can be accessed in https://github.com/rulnasution/tabular-latent-flow/.
- Abstract(参考訳): 合成表データにより、規制された領域でのマイクロデータ共有が可能になるが、連続時間生成モデルのデプロイには分析ユーティリティ、開示リスク、計算コストのバランスが必要である。
潜在空間フローモデルは柔軟であるが、学習目標、確率パス、サンプリング力学の理論的等価性は、有限ステップ積分および明示的な計算予算の下で異なる振る舞いに変換することができる。
本研究では, 最適輸送(OT) および分散保存(VP) 経路, ODE および SDE サンプリング, 各種統合予算下での速度, スコア, ノイズ, および後続マッチング目標を評価する。
筆者らの貢献は,(1) 学習対象が実用リスクの運用体制を大々的に決定し,速度と後部整合性が向上する傾向にあること,(2) スコアとノイズマッチングが開示リスクを低くする傾向にあること,(2) 構成とサンプリングの選択が変動する傾向にあること,(2) 中点では,VP よりも早期停止を許容し,固定予算やリスク閾値下での計算節約が可能であること,(3) 情報開示リスクと資源制約下での事前リリースモデル選択を支援するための実用的な設定ガイダンスにこれらの知見を活用できること,の3点である。
コードの実装と補足資料はhttps://github.com/rulnasution/tabular-latent-flow/で参照できる。
関連論文リスト
- Joint Model and Data Sparsification via the Marginal Likelihood [53.29070892356214]
本稿では,個々の特徴とサンプルの相違点を同時学習し,同時にモデルとデータスペーシングを実現することを提案する。
このモデルとデータの対称的なプルーニングは、共役を保存する自然な拡張を提供する。
多様な回帰タスクにわたる経験的結果は、共同ARDアプローチがスパースモデルとロバスト予測モデルの両方を一貫して生成することを確認した。
論文 参考訳(メタデータ) (2026-05-28T13:26:53Z) - A Unified Measure-Theoretic View of Diffusion, Score-Based, and Flow Matching Generative Models [0.3222802562733787]
本稿では,データ分布への単純な参照分布の移動に基づく連続時間生成モデリング手法について,決定論的ダイナミクスを用いて検討する。
本稿では,拡散モデル,スコアベース生成モデル,フローマッチングが時間依存ベクトル場を学習する一貫したフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T18:32:15Z) - Few-Step Diffusion Sampling Through Instance-Aware Discretizations [16.93105640007355]
正規あるいは微分方程式(ODEs/SDEs)で定義される経路をシミュレートして拡散・流れマッチングモデルにより高忠実度データを生成する
本稿では、入力依存の事前情報に基づいてタイムステップアロケーションを適応させることを学習する、インスタンス対応の離散化フレームワークを提案する。
提案手法は,トレーニングや無視可能な推論オーバーヘッドと比較して,限界チューニングコストで生成品質を継続的に向上する。
論文 参考訳(メタデータ) (2026-03-18T12:49:38Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - RAAG: Ratio Aware Adaptive Guidance [9.525432706814675]
フローベースの生成モデルは驚くべき進歩を遂げた。
推論全体を通じて強力な、固定されたガイダンススケールを適用することは、現代的なアプリケーションに必要な、迅速な、数ステップのサンプリングには適していない。
本稿では,進化率に基づいて早期段階の指導尺度を自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型指導スケジュールを提案する。
論文 参考訳(メタデータ) (2025-08-05T13:41:05Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-03T12:42:20Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。