論文の概要: The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
- arxiv url: http://arxiv.org/abs/2606.20536v1
- Date: Thu, 18 Jun 2026 17:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.038212
- Title: The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation
- Title(参考訳): FIDロッテ:生成モデル評価における隠れランダム性の定量化
- Authors: Nicolas Dufour, Alexei A. Efros, Patrick Pérez,
- Abstract要約: 本研究では,FIDを2軸パネル上のランダムな変数として扱う。
クラス条件の ImageNet 256x256 でトレーニングした数百の SiT ネットワーク上で,その分散を直接測定する。
- 参考スコア(独自算出の注目度): 55.62875959637507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.
- Abstract(参考訳): Frechet Inception Distance (FID)は、画像生成の事実上のアービターであるが、ほとんどの論文では、単一のサンプリングシードを使用して訓練されたモデルから1つの数値を報告している。
モデルをリトレーニングしたり、単にリサンプルしたりすれば、その数はどの程度再現できますか?
本稿では、FIDを2軸のトレーニングおよび生成種子パネル上のランダム変数として扱い、その分散を、クラス条件の画像Net 256x256でトレーニングされた数百のSiTネットワーク上で直接測定する。
驚くべき発見を報告します。
(a)異なる種で同じレシピを用いてモデルをトレーニングし、固定されたネットワークからサンプルを再描画するよりも、FID 3.2倍多く(開始特徴空間において)移動させる。
b) このギャップは, ランダム初期化, データの順序, フローマッチング損失のガウスノイズの3つの要因によって引き起こされる。
(c)計算量やモデルサイズの増加は、FID係数の変動(CoV)を1〜2%帯域内に保持して、スプレッドをわずかに締め付ける。
(d) 細胞ごとの分類器フリー誘導チューニングでは, 種子の拡散と再シャッフルが最善であり, ラッキートレーニング種子は同じFIDに到達し, 不運な種に比べて最大2倍少ない計算量である。
これらの結果に基づき、セルごとの最適誘導の下での評価、実験的に測定された1.3% CoV以下のFIDギャップを不確定として扱い、単一のFID番号ではなく、複数のトレーニングシードに対してエラーバーを報告する、新たなFID評価プロトコルを推奨する。
関連論文リスト
- Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration [88.94434023253872]
画像間で共有するアテンション機構をアンロックするグループ拡散を提案する。
グループのサイズが大きくなれば、より強力なクロスサンプルの注意と、より優れた生成品質が得られる。
本研究は, クロスサンプル推論を, 生成モデリングの有効な, 未探索のメカニズムとして明らかにした。
論文 参考訳(メタデータ) (2025-12-11T18:59:55Z) - Measuring training variability from stochastic optimization using robust nonparametric testing [5.519968037738177]
本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新たな要約統計量である$alpha$-trimmingレベルを提案する。
仮説を$alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
モデル変数の測定に$alpha$-trimmingレベルを使用する方法を示し、パフォーマンス指標よりも表現力が高いことを実験的に実証する。
論文 参考訳(メタデータ) (2024-06-12T15:08:15Z) - Rethinking FID: Towards a Better Evaluation Metric for Image Generation [43.66036053597747]
Inception Distanceは、実画像のInception-v3特徴分布とアルゴリズムによって生成された画像の距離を推定する。
インセプションの貧弱な表現は、現代のテキスト・画像モデルによって生成されるリッチで多様なコンテンツ、不正確な正規性仮定、そしてサンプルの複雑さによって引き起こされる。
よりリッチなCLIP埋め込みとガウスRBFカーネルとの最大平均差距離に基づく代替のCMMDを提案する。
論文 参考訳(メタデータ) (2023-11-30T19:11:01Z) - Memorization Through the Lens of Curvature of Loss Function Around
Samples [10.028765645749338]
そこで本研究では,各トレーニング試料の曲率を,トレーニングエポックよりも平均的に算出し,サンプルの記憶の指標として用いることを提案する。
まず、高い曲率のサンプルは、長い尾、ラベルのずれ、あるいは矛盾するサンプルと視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100とImageNetデータセットの新たな障害モードを見つけるのに役立ちます。
論文 参考訳(メタデータ) (2023-07-11T22:53:09Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Reducing Training Sample Memorization in GANs by Training with
Memorization Rejection [80.0916819303573]
本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法であるリジェクション記憶法を提案する。
我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。
論文 参考訳(メタデータ) (2022-10-21T20:17:50Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。