論文の概要: Disparate Impact in Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2606.13105v1
- Date: Thu, 11 Jun 2026 09:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.698967
- Title: Disparate Impact in Synthetic Data Generation
- Title(参考訳): 合成データ生成における異なる影響
- Authors: Paul Andrey, Michaël Perrot, Batiste Le Bars, Marc Tommasi,
- Abstract要約: 合成データ生成における異なる影響の概念を再考する。
我々は、合成分布と実分布が同じ場合、非異なる影響が達成されると主張している。
- 参考スコア(独自算出の注目度): 10.23887083601828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the fairness notion of disparate impact for synthetic data generation (SDG), that assesses whether the utility of generated records is the same across sensitive groups. Our approach departs from existing work on fair SDG, that address the problem of correcting for undue biases in the observed distribution, hence redefining SDG as learning a distribution that is not that of the real data. By contrast, non-disparate impact is notably achieved when the synthetic and real distributions are the same. We expose reasons why SDG may fail to reach that solution and discuss why approximation and estimation errors occur and can be disparate across groups. We notably look into the expressive power of SDG methods relative to distribution complexity, sampling errors due to group proportions, and estimation errors induced by differential privacy mechanisms. We illustrate cases of disparate impact on both artificial and real-world data, focusing on SDG methods that rely on probabilistic graphical models. We also introduce a strategy of learning group-wise SDG models and illustrate how it can improve both the overall utility and its parity in many settings.
- Abstract(参考訳): 我々は、生成したレコードの有効性がセンシティブなグループ間で同一であるかどうかを評価する合成データ生成(SDG)に対する異なる影響の公平性の概念を再考する。
我々のアプローチは、観測された分布における不適切なバイアスを補正する問題に対処する、公平なSDGに関する既存の研究から逸脱し、SDGを実際のデータではない分布の学習として再定義する。
対照的に、合成分布と実分布が同じである場合、非異なる影響が顕著に達成される。
SDGがその解に届かなかった理由を明らかにし、近似と推定誤差が発生した理由を議論する。
本稿では,分散複雑性に対するSDG手法の表現力,グループ比例によるサンプリング誤差,差分プライバシー機構による推定誤差について検討する。
本稿では、確率的グラフィカルモデルに依存するSDG手法に着目し、人工データと実世界のデータの両方に異なる影響の事例を示す。
また,グループワイドSDGモデルを学習する戦略を導入し,多くの設定で汎用性と同等性を両立させる方法について説明する。
関連論文リスト
- Multi-environment Invariance Learning with Missing Data [0.0]
本研究では、変数選択特性と$ell$エラー収束率に関する漸近的でない保証を確立する。
シミュレーションにより新しい推定器の性能を評価し,その応用をUCI Bike Sharingデータセットを用いて実証した。
論文 参考訳(メタデータ) (2026-01-12T06:30:58Z) - DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。
不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。
構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。
本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文 参考訳(メタデータ) (2024-10-27T00:22:18Z) - Fairness-Aware Estimation of Graphical Models [13.39268712338485]
本稿では,グラフィカルモデル(GM)の推定における公平性の問題について検討する。
標準GMは、特に基礎となるデータが機密性や保護されたグループに関わる場合、バイアスのある結果をもたらす可能性がある。
本稿では,保護属性に関連するGMの推定におけるバイアス低減を目的とした包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-30T16:30:00Z) - Counterfactual Fairness through Transforming Data Orthogonal to Bias [7.109458605736819]
我々は新しいデータ前処理アルゴリズムOrthogonal to Bias (OB)を提案する。
OBは、連続的な敏感な変数群の影響を排除し、機械学習アプリケーションにおける反ファクトフェアネスを促進するように設計されている。
OBはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
論文 参考訳(メタデータ) (2024-03-26T16:40:08Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。