論文の概要: Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion
- arxiv url: http://arxiv.org/abs/2606.15236v2
- Date: Tue, 16 Jun 2026 13:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.728142
- Title: Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion
- Title(参考訳): 信号を見せ、ノイズを隠す:Pixel空間拡散のためのスペクトル強制
- Authors: Weichen Fan, Haiwen Diao, Penghao Wu, Ziwei Liu,
- Abstract要約: 本稿では,パラメータフリーで時間条件付き2D-DCTローパス演算子であるSpectral Forcingを導入する。
その遮断は拡散時間とともに単調に膨張し、データエンドポイントのアイデンティティとなる。
JiT-700M/32のImageNet-256では、Spectral Forcingは、異なるトレーニングエポック間で、FIDとInception Scoreの両方を一貫して改善している。
- 参考スコア(独自算出の注目度): 46.51681899437508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-space diffusion models are trained on full-bandwidth noisy images, yet the useful signal available to the denoiser is strongly frequency dependent. Under rectified-flow diffusion and natural-image power-law spectra, the per-band data-to-noise contour $k^{*}(t) = (1-t)^{-2/α}$ separates a signal-bearing low-frequency region from a noise-dominated high-frequency region at each time $t$. We show that this implicit coarse-to-fine structure is not merely descriptive: it induces a capacity-allocation problem. A standard pixel-space denoiser must discover the moving bandwidth boundary internally and can spend computation on frequency-time regions where the optimal prediction collapses to deterministic baselines rather than data-distribution modeling. To make this boundary explicit, we introduce Spectral Forcing, a parameter-free, time-conditional 2D-DCT low-pass operator applied to the noisy input before the patch embedder. Its cutoff expands monotonically with the diffusion time and becomes the identity at the data endpoint. Through controlled synthetic experiments, we identify the regime in which the operator is beneficial: coarse patch tokenization and data whose high-frequency content is predominantly noise rather than essential signal. On ImageNet-256 with JiT-700M/32, Spectral Forcing consistently improves both FID and Inception Score across different training epochs, demonstrating robust gains throughout training; at finer tokenization, the spectral forcing is still competitive. We further insert the unchanged operator into SenseNova-U1, a unified text-to-image model, where it improves DPG-Bench and GenEval, showing that the input-side spectral prior transfers beyond class-conditional generation. These results suggest a route to capacity-efficient pixel-space diffusion by showing the signal and hiding the noise.
- Abstract(参考訳): 画素空間拡散モデルは、広帯域ノイズ画像に基づいて訓練されるが、デノイザに利用可能な有用な信号は周波数依存性が強い。
整流拡散と自然画像パワーロースペクトルの下では、帯域あたりのデータ対雑音コンター $k^{*}(t) = (1-t)^{-2/α}$ は、信号が有する低周波領域と、ノイズが支配する高周波領域をそれぞれ$t$で分離する。
この暗黙的な粗い微細構造は単に記述的なものではなく、キャパシティ割り当ての問題を引き起こす。
標準画素空間デノイザは、内部の移動帯域境界を発見し、最適な予測がデータ分散モデリングよりも決定論的ベースラインに崩壊する周波数時間領域での計算に費やさなければならない。
この境界を明示するために,パラメータフリーで時間条件の2D-DCTローパス演算子であるSpectral Forcingを導入する。
その遮断は拡散時間とともに単調に膨張し、データエンドポイントのアイデンティティとなる。
制御された合成実験により、オペレーターが有益である状況:粗いパッチトークン化と、高周波が必須信号ではなく、主にノイズであるデータを特定する。
JiT-700M/32のImageNet-256では、Spectral ForcingはFIDとInception Scoreを異なるトレーニングエポックにわたって一貫して改善し、トレーニングを通じて堅牢なゲインを示す。
DPG-BenchとGenEvalを改良した統一テキスト・画像モデルであるSenseNova-U1に、変化のない演算子を挿入し、入力側スペクトル先行転送がクラス条件生成を超えたことを示す。
これらの結果から,信号を表示し,ノイズを隠蔽することにより,容量効率の高い画素空間拡散への経路が示唆された。
関連論文リスト
- ZoomSpec: A Physics-Guided Coarse-to-Fine Framework for Wideband Spectrum Sensing [7.560433707709695]
ZoomSpecは物理誘導型粗粒度フレームワークで、信号処理の事前処理とディープラーニングを統合している。
SpaceNetのリアルタイムデータセットの評価では、最先端の78.1 mAP@0.5:0.95が示されている。
論文 参考訳(メタデータ) (2026-04-15T07:29:25Z) - Adaptive Local Frequency Filtering for Fourier-Encoded Implicit Neural Representations [7.7579389797716365]
フーリエ符号化INRに対する適応型局所周波数フィルタリング法を提案する。
提案手法では,エンコードされたフーリエ成分を変調するために,空間的に変化するパラメータ $(mathbfx)$ を導入する。
2次元画像整合、3次元形状表現、スパースデータ再構成の実験は、提案手法が常に再現品質を向上させることを示す。
論文 参考訳(メタデータ) (2026-04-03T08:04:30Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - Improving Accuracy and Efficiency of Implicit Neural Representations: Making SIREN a WINNER [0.0]
我々は正弦波表現ネットワーク(SIREN)の基本的制限を特定し、対処する。
極端な場合、ネットワークの周波数サポートがターゲットスペクトルと不一致した場合、「スペクトルボトルネック」が観測される。
ニューラル表現のためのノイズ付きウェイト初期化を提案する。
論文 参考訳(メタデータ) (2025-09-16T11:41:13Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain [23.22881271027173]
グラフに基づく協調フィルタリングにインスパイアされたS-Diffを提案する。
S-Diffは、ユーザの相互作用ベクトルをスペクトル領域にマッピングし、拡散ノイズをパラメータ化してグラフ周波数に合わせる。
この異方性拡散は重要な低周波成分を保持し、高い信号対雑音比を保持する。
論文 参考訳(メタデータ) (2024-12-31T10:54:41Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。