論文の概要: Declarative Outcome-Conformant Synthesis: Exact, Closed-Form Specification Satisfaction and a Conformance Benchmark
- arxiv url: http://arxiv.org/abs/2606.08736v1
- Date: Sun, 07 Jun 2026 17:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.421451
- Title: Declarative Outcome-Conformant Synthesis: Exact, Closed-Form Specification Satisfaction and a Conformance Benchmark
- Title(参考訳): 宣言的アウトカム・コンフォーマント合成:実行、クローズドフォーム仕様満足度およびコンフォーマンスベンチマーク
- Authors: Muhammed Rasin,
- Abstract要約: イミテーション法は実際の分布とサンプルを学習し、実データへの忠実性に基づいて判断される。
市販の模倣ツールは、そのようなターゲットに対するインターフェースを提供しておらず、サンプルが正確なアグリゲーションをヒットすることはない。
我々は、このタスク結果整合合成を命名し、その評価軸は忠実性よりも整合性であり、2つの軸が整合性であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a capability the dominant paradigm in synthetic tabular data does not provide: exact satisfaction of a declared analytical outcome with no source data. Imitation methods (copulas, GANs, diffusion) learn a real distribution and sample from it, and are judged on fidelity to real data. A large, practical class of needs is different: generating data with no source data ("cold start") that reproduces a declared outcome (a revenue curve, a churn rate, a group share) across a relational schema. Off-the-shelf imitation tools offer no interface for such targets, and no sampler can hit an exact aggregate, because sampling has variance. On a real public dataset, off-the-shelf learned synthesizers trained on that very data miss the declared monthly aggregate by 74 to 86 percent; a per-period steelman cuts the miss to about 19 percent and still cannot reach 0; a closed-form generator reaches exactly 0. We name this task outcome-conformant synthesis, argue its evaluation axis is conformance rather than fidelity, and show the two axes are orthogonal. We contribute: (1) a formal account showing a widely-used family of exact-aggregate generators is exactly conditional-sum sampling of a Gamma population (via Lukacs' characterization), with closed-form exactness, a closed-form marginal CV, and scale-invariance; a controlled experiment maps the boundary, enforcing the exact aggregate costs at most 0.006 in 1-Wasserstein distance to an arbitrary external marginal, the rest being shape-family mismatch; (2) SpecBench, to our knowledge the first benchmark to measure conformance to analytical outcomes for cold-start relational synthesis; and (3) a closed-form, deterministic reference system. Exact aggregation alone is trivial; the contribution is conformance jointly with closed-form marginals, integrity, determinism, and zero source data. We concede fidelity to imitation where real data exists.
- Abstract(参考訳): 本研究では,合成表データにおいて支配的なパラダイムが提供しない能力について考察する。
模擬法(コプラ、GAN、拡散)は実際の分布とサンプルを学習し、実データに対する忠実性に基づいて判断される。
宣言された結果(収益曲線、チャーンレート、グループシェア)をリレーショナルスキーマで再現するソースデータ("コールドスタート")のないデータを生成する。
オフザシェルフの模倣ツールは、そのようなターゲットに対するインターフェースを提供しておらず、サンプリングがばらつきがあるため、サンプリング者が正確なアグリゲーションを打つことはできない。
実際の公開データセットでは、そのデータに基づいて訓練された無学のシンセサイザーが、宣言された月間累計を74~86%減らし、周期ごとのスチールマンがミスを約19%減らし、まだ0に到達できない。
我々はこのタスク結果整合合成を命名し、その評価軸は忠実性よりも適合性であり、2つの軸が直交であることを示す。
筆者らは,(1) 厳密な集合生成体群を広く利用していることを示す公式な説明として,(Lukacs による)ガンマ個体群を厳密な条件付きでサンプリングし,(Lukacs による)クローズドフォームの完全性,閉形式境界CV,スケール不変性, 制御された実験により, 境界をマッピングし, 1-ワッサーシュタイン距離で最大0.006 の正確な集計コストを任意の外部辺縁に付与し, 残りは形状的ミスマッチである,(2) SpecBench について, コールドスタート関係合成における解析結果に適合する最初のベンチマーク, (3) クローズドフォームの決定論的基準系について検討した。
厳密なアグリゲーションのみは自明であり、コントリビューションはクローズド形式、完全性、決定性、およびゼロソースデータと共同で適合する。
実データが存在する場所では、忠実さを模倣とみなす。
関連論文リスト
- A data-driven Fourier-mixture neural-network method for density estimation [0.0]
実験特性関数(CF)情報から固定水平確率密度を推定するためのデータ駆動型ニューラルネットワーク手法を提案する。
この方法は、i.d.サンプルから構築された経験的CFに対して訓練される。
実験では、重み付けされた目標に対する明らかな利得、理論と一致した$L$エラー崩壊、および再サンプリングされた依存データから1年間のオーストラリア株式リターン法を効果的に推定している。
論文 参考訳(メタデータ) (2026-05-18T08:11:24Z) - PAIR-CI: Calibrated Conditional Independence Testing for Causal Discovery with Incomplete Data [0.0]
PAIR-CIは非パラメトリック条件独立(CI)テストであり,複数の命令を直接推論手順に統合することによりキャリブレーションを回復する。
確率的に一貫した分散推定器は、クロスバリデーションと多重計算による不確かさを共同で説明する。
論文 参考訳(メタデータ) (2026-05-06T12:34:37Z) - Wasserstein Convergence of Score-based Generative Models under Semiconvexity and Discontinuous Gradients [3.007949058551534]
スコアベース生成モデル(SGM)は、ガウス雑音で摂動させ、学習された拡散過程を通じてデノベーションすることで、データ分布を近似する。
我々は、潜在的に不連続な勾配を持つ半1次を対象とするSGMに対して、最初の非同相なワッサーシュタイン-2収束保証を確立する。
論文 参考訳(メタデータ) (2025-05-06T11:17:15Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Zero Inflation as a Missing Data Problem: a Proxy-based Approach [4.981774157564172]
共通型のゼロ膨らんだデータは、ある真の値を誤ってゼロに置き換える。
本稿では、ゼロインフレーションされたデータを、欠落データ問題の一般的なタイプとみなす。
追加の仮定なしでは、ゼロインフレード変数を含むターゲットパラメータが特定されないことを示す。
論文 参考訳(メタデータ) (2024-06-01T20:21:35Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。