論文の概要: Evaluating the Representation Space of Diffusion Models via Self-Supervised Principles
- arxiv url: http://arxiv.org/abs/2606.09718v1
- Date: Mon, 08 Jun 2026 16:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.563766
- Title: Evaluating the Representation Space of Diffusion Models via Self-Supervised Principles
- Title(参考訳): 自己監督原理による拡散モデルの表現空間の評価
- Authors: Xiao Li, Yixuan Jia, Zekai Zhang, Xiang Li, Lianghe Shi, Jinxin Zhou, Zhihui Zhu, Liyue Shen, Qing Qu,
- Abstract要約: 拡散モデルの表現と生成能力を評価するためのフレームワークを提案する。
拡散モデルの識別的および生成的挙動を解析する。
この結果から,自己監督的視点から拡散モデルを監視することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 35.85907484884706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable generative capabilities and have also emerged as powerful self-supervised representation learners, yet the connection between these two abilities remains less explored. Drawing inspiration from self-supervised learning (SSL), we introduce a framework for jointly evaluating the representation and generation capabilities of diffusion models. Specifically, we decompose features into invariant and residual components and derive the Invariant Contamination Ratio (ICR), a Fisher-based metric that quantifies how residual variation contaminates invariant signal in feature space. We use this framework to analyze both discriminative and generative behavior of diffusion models. On the representation side, we find that invariance peaks at intermediate noise levels, which also yield the best downstream classification performance. On the generative side, we study how training transitions from genuine generalization to memorization in data-limited regimes, and show that ICR serves as a sensitive training-time indicator of early learning: increasing residual energy along Fisher directions marks the onset of memorization, detectable from training features alone without external evaluators or held-out test sets. Overall, our results show that diffusion models can be monitored from a self-supervised perspective through the geometry of their learned representations.
- Abstract(参考訳): 拡散モデルは、顕著な生成能力を示し、また強力な自己教師付き表現学習者としても現れてきたが、これらの2つの能力の関連性はいまだ研究されていない。
自己教師付き学習(SSL)からインスピレーションを得て,拡散モデルの表現と生成能力を共同で評価する枠組みを導入する。
具体的には、特徴を不変成分と残留成分に分解し、残差が特徴空間における不変信号をどのように汚染するかを定量化するフィッシャーベースの計量である不変汚染比(ICR)を導出する。
この枠組みを用いて拡散モデルの識別的および生成的挙動を解析する。
表現面では,中間雑音レベルにおける非分散ピークが最良な下流分類性能をもたらすことが判明した。
生成側では、データ制限体制における真の一般化から記憶へのトレーニング遷移について検討し、ICRが早期学習のセンシティブな訓練時間指標として機能していることを示し、フィッシャー方向に沿った残留エネルギーの増加は、外部評価器や保持テストセットを使わずにトレーニング特徴のみから検出できる記憶の開始を示す。
以上の結果から,拡散モデルは,学習した表現の幾何学を通して,自己監督的な視点から観察できることが示唆された。
関連論文リスト
- Disentangled Representation Learning via Flow Matching [48.12507436294143]
遠方表現学習は、観測データの基礎となる説明的要素を捉えることを目的としている。
既存の拡散に基づく手法は帰納的バイアスを通じて因子の独立を促進するが、しばしば強い意味的アライメントを欠く。
本稿では,不整合表現学習のためのフローマッチングに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T02:14:36Z) - Generalization of Diffusion Models Arises with a Balanced Representation Space [32.68561555837436]
我々は,表現学習のレンズを用いて,拡散モデルにおける記憶と一般化の区別を分析する。
暗記は,学習重みに生のトレーニングサンプルを格納し,符号化と復号を行い,局所的な「スピーキー」表現を生成するモデルに対応することを示す。
本稿では,表現ステアリングによる正確な制御を可能にする,暗記検出のための表現ベース手法と,トレーニング不要な編集手法を提案する。
論文 参考訳(メタデータ) (2025-12-24T05:40:40Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Beyond Observations: Reconstruction Error-Guided Irregularly Sampled Time Series Representation Learning [38.869433924831156]
iTimERはISTS表現学習のための自己教師型フレームワークである。
観測されていないタイムスタンプをノイズ対応トレーニングターゲットに変換し、意味のある再構築信号を可能にする。
iTimERは、ISTS設定下での最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-10T08:53:10Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Learning Disentangled Discrete Representations [22.5004558029479]
本稿では,標準ガウス変分オートエンコーダをカテゴリー変分オートエンコーダに置き換えることで,離散潜在空間と非交分表現の関係を示す。
本研究では,非絡み合った表現を学習する上で,個別のVAEの利点を示す分析的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2023-07-26T12:29:58Z) - Manifold Contrastive Learning with Variational Lie Group Operators [5.0741409008225755]
そこで本研究では, 余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰余剰乗群演算子を用いて, 潜在多様体を直接モデル化する対照的な学習手法を提案する。
これらの係数上の変動分布は多様体の生成モデルを提供し、対照的なトレーニングと下流のタスクの両方で適用可能な特徴増強を提供するサンプルを提供する。
論文 参考訳(メタデータ) (2023-06-23T15:07:01Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。