論文の概要: Learning a Maximum Entropy Model for Visual Textures using Diffusion
- arxiv url: http://arxiv.org/abs/2606.17342v1
- Date: Mon, 15 Jun 2026 22:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.164551
- Title: Learning a Maximum Entropy Model for Visual Textures using Diffusion
- Title(参考訳): 拡散を用いた視覚テクスチャの最大エントロピーモデル学習
- Authors: Xinyuan Zhao, Eero P. Simoncelli,
- Abstract要約: 本研究では,最大エントロピー確率モデルを制約するために用いられる統計の集合の教師なし学習法を開発した。
トレーニングされたモデルのコンパクトさにもかかわらず、現在の最先端モデルに匹敵する品質のテクスチャ画像を生成する。
- 参考スコア(独自算出の注目度): 19.229797869081462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual textures -- spatially homogeneous image regions containing repeated elements (e.g. a field of grass, the bark of a tree) -- are ubiquitous in visual scenes and provide important cues for recognizing and analyzing materials and objects. A number of existing texture models extract essential statistics from a single texture image, and can then generate high-quality samples that are visually similar to the original by matching these statistics. However, their statistics are either hand-designed or based on a network pretrained for another purpose (e.g., object recognition). Here, we develop the first principled method for unsupervised learning of a set of statistics that are used to constrain a maximum entropy probability model. We leverage methods developed for generative diffusion models to derive training and sampling procedures, and compare these to the traditional method of sampling via matching the statistics. Despite the compactness of our trained model (512 statistics), it generates texture images whose quality is as good as or better than the current state-of-the-art model (~177k statistics). A more direct comparison of the two models, obtained by synthesizing images that are indistinguishable for one model but maximally different for the other, reveals their relative strengths and weaknesses. Finally, we show that unlike previous statistical texture models, a straight trajectory in the representation space of our model generates homogeneous texture samples that interpolate smoothly between the features of the two end points.
- Abstract(参考訳): 視覚テクスチャ - 繰り返し要素(例えば草の畑、木の樹皮)を含む空間的に均質な画像領域 - は、視覚的にどこにでもあり、材料や物体を認識・分析するための重要な手がかりを提供する。
既存のテクスチャモデルの多くは、単一のテクスチャ画像から重要な統計データを抽出し、これらの統計値に一致させることで、オリジナルと視覚的に類似した高品質なサンプルを生成することができる。
しかし、それらの統計は手作業で設計されるか、または別の目的(オブジェクト認識など)のために事前訓練されたネットワークに基づいている。
本稿では,最大エントロピー確率モデルを制約するために用いられる統計の集合を教師なし学習する第一原理的手法を開発する。
生成拡散モデルで開発された手法を用いてトレーニングとサンプリングの手順を導出し,これらの手法を統計値のマッチングによる従来のサンプリング手法と比較する。
トレーニングされたモデル(512統計値)のコンパクトさにもかかわらず、現在の最先端モデル(約177k統計値)に匹敵する品質のテクスチャ画像を生成する。
2つのモデルのより直接的な比較は、1つのモデルでは区別できないが、もう1つのモデルでは極端に異なる画像の合成によって得られ、それらの相対的な強度と弱さを明らかにしている。
最後に, 従来の統計テクスチャモデルとは異なり, モデルの表現空間における直線軌道は, 両端点の特徴間を円滑に介在する均一なテクスチャサンプルを生成する。
関連論文リスト
- Efficient Flow Matching using Latent Variables [9.363347684114474]
我々は、texttLatent-CFM$は、最先端のフローマッチングモデルよりも、トレーニングや計算が大幅に少ないため、生成品質が向上していることを示す。
また、物理過程から生じる空間場の生成的モデリングについても検討する。
論文 参考訳(メタデータ) (2025-05-07T14:59:23Z) - DDB: Diffusion Driven Balancing to Address Spurious Correlations [24.940576844328408]
経験的リスク最小化でトレーニングされたディープニューラルネットワークは、アウト・オブ・ディストリビューションのサンプルに一般化できないことが多い。
テキストと画像の拡散モデルを用いたトレーニングサンプルを生成するための拡散駆動バランス(DDB)手法を提案する。
実験の結果,本手法は既存の最先端手法よりもグループ精度がよいことがわかった。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - Origin Identification for Text-Guided Image-to-Image Diffusion Models [39.234894330025114]
テキスト誘導画像と画像の拡散モデル(ID$2$)の原点識別を提案する。
ID$2$の直接的な解決策は、クエリと参照イメージの両方から機能を抽出し比較するために、特別なディープ埋め込みモデルをトレーニングすることである。
提案したID$2$タスクのこの課題を解決するために,最初のデータセットと理論的に保証されたメソッドをコントリビュートする。
論文 参考訳(メタデータ) (2025-01-04T20:34:53Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - A Practical Guide to Sample-based Statistical Distances for Evaluating Generative Models in Science [7.2447605934304375]
我々は、異なる方法論を表す統計距離の4つの一般的な概念に焦点を当てる。
それぞれの距離の背後にある直感を強調し、そのメリット、スケーラビリティ、複雑さ、落とし穴を説明します。
我々は、異なる科学的領域、すなわち意思決定のモデルと医療画像の生成モデルから生成モデルを評価する。
論文 参考訳(メタデータ) (2024-03-19T11:16:14Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。