論文の概要: MGI: Member vs Generated Inference
- arxiv url: http://arxiv.org/abs/2606.23872v1
- Date: Mon, 22 Jun 2026 19:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.640944
- Title: MGI: Member vs Generated Inference
- Title(参考訳): MGI: Member vs Generated Inference
- Authors: Bihe Zhao, Michel Meintz, Juangui Xu, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: メンバー vs 生成推論: サンプルと対象生成モデルが与えられた場合、サンプルが真のトレーニングメンバーなのか、生成された出力なのかを推測する。
既存の会員推論手法は、生成したサンプルをトレーニングメンバーとして体系的に誤って分類する。
生成モデルのオートエンコーダと潜時発生器の相補的な信号を組み合わせた3段階の手法であるData Circuit Breaker (DCB)を提案する。
- 参考スコア(独自算出の注目度): 19.92808356325455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative models increasingly produce samples that are indistinguishable from human-created content, it becomes difficult to determine whether a given data point was part of a model's natural training set or was generated by the model itself, especially when models memorize and reproduce training data. We formalize this challenge as Member vs Generated Inference (MGI): given a sample and a target generative model, infer whether the sample is a true training member or a generated output of that model. Focusing on image generation, we show that existing membership inference methods systematically misclassify generated samples as training members, while attribution-based methods often misclassify true members as generated. This failure arises because both approaches rely on likelihood-related signals that are similarly elevated for training examples and for the model's own outputs. To address MGI, we propose Data Circuit Breaker (DCB), a three-stage method that combines complementary signals from a generative model's autoencoder and latent generator to distinguish training members from generated samples. Across multiple generative models, including image autoregressive and diffusion models, DCB consistently addresses the shortcomings of membership inference and attribution methods, remains effective even when models reproduce near-duplicates of training samples, and generalizes to challenging model derivative settings in which new models are trained on generated data.
- Abstract(参考訳): 生成モデルは、人為的なコンテンツと区別できないサンプルを生成する傾向にあるため、与えられたデータポイントがモデルの自然なトレーニングセットの一部なのか、モデル自体によって生成されたのか、特にモデルの記憶と再現が困難になる。
我々は、この課題を、サンプルと対象生成モデルが与えられた場合、サンプルが真のトレーニングメンバーであるか、そのモデルの生成されたアウトプットであるかを推測する、メンバ対生成推論(MGI)として定式化する。
画像生成に焦点をあて、既存の会員推論手法は、生成したサンプルをトレーニングメンバーとして体系的に誤分類し、属性ベースの手法は、生成した真のメンバーを誤分類することが多いことを示す。
この失敗は、両方のアプローチが訓練例やモデル自身の出力に対して同様に高められる確率関連信号に依存しているために生じる。
MGIに対処するために、生成モデルのオートエンコーダとラテントジェネレータからの相補的な信号を組み合わせて、トレーニングメンバーと生成されたサンプルを区別する3段階の手法であるData Circuit Breaker (DCB)を提案する。
画像自己回帰モデルや拡散モデルを含む複数の生成モデルにおいて、DCBはメンバーシップ推論と帰属法の欠点を一貫して解決し、モデルがトレーニングサンプルのほぼ重複を再現した場合でも有効であり、新しいモデルが生成されたデータに基づいてトレーニングされる挑戦的なモデルデリバティブ設定に一般化する。
関連論文リスト
- GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning [83.56510119503267]
モデルがトレーニングを欠席した場合、モデルが生成したサンプルの変化に対してどのように振る舞うか?
拡散モデルに対してGUDA(Group Unlearning-based Data Attribution)を提案する。
論文 参考訳(メタデータ) (2026-01-30T07:10:59Z) - Score-based Idempotent Distillation of Diffusion Models [0.9367224590861915]
一等性生成ネットワーク(IGN)は、対象多様体への等等性写像に基づく新しい生成モデルである。
本研究では拡散モデルスコアから等等化モデルを蒸留することにより拡散とIGNを結合し、SIGNと呼ぶ。
提案手法は非常に安定しており, 対向的損失を伴わないため, 提案手法の理論的解析を行い, IGNを予め学習した拡散モデルから効果的に蒸留できることを実証的に示す。
論文 参考訳(メタデータ) (2025-09-25T19:36:10Z) - One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Ablation Based Counterfactuals [7.481286710933861]
ABC (Ablation Based Counterfactuals) は、モデル再訓練ではなくモデルアブレーションに依存する反ファクト解析を行う手法である。
拡散モデルの集合を用いてこのようなモデルを構築する方法を示す。
次に、このモデルを用いて、完全な対物的景観を列挙することで、トレーニングデータ属性の限界を研究する。
論文 参考訳(メタデータ) (2024-06-12T06:22:51Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - Reconstructing Training Data from Diverse ML Models by Ensemble
Inversion [8.414622657659168]
モデルインバージョン(MI)は、学習された機械学習(ML)モデルへのアクセスを敵が悪用するものであり、研究の注目を集めている。
本研究では,訓練されたモデルのアンサンブルに制約されたジェネレータを訓練することにより,元のトレーニングデータの分布を推定するアンサンブル変換手法を提案する。
データセットを使わずに高品質な結果が得られ、想定されるトレーニングデータに類似した補助データセットを利用することで、結果がどう改善されるかを示す。
論文 参考訳(メタデータ) (2021-11-05T18:59:01Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。