論文の概要: SpectralDiT: Timestep-Conditioned Spectral Residual Correction for Flow-Matching DiTs
- arxiv url: http://arxiv.org/abs/2606.18765v1
- Date: Wed, 17 Jun 2026 07:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.042177
- Title: SpectralDiT: Timestep-Conditioned Spectral Residual Correction for Flow-Matching DiTs
- Title(参考訳): スペクトルDiT:フロー整流DiTの時間分解スペクトル残差補正
- Authors: Jiayu Tian,
- Abstract要約: SpectralDiTは拡散変換器に時間ステップのスペクトル補正を追加する。
モジュールは、残余の更新を低周波と高周波のコンポーネントに分解する。
CIFAR-10のピクセル空間生成では、SpectralDiTはFIDを20.78から19.71に改善し、パッチサイズは1。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SpectralDiT, a lightweight modification to flow-matching Diffusion Transformers that adds timestep-conditioned spectral correction to the MLP residual branch. The module decomposes each residual update into low- and high-frequency components on the patch-token grid, then learns a zero-initialized additive gate so the model initially matches the baseline DiT. On CIFAR-10 pixel-space generation, SpectralDiT improves FID from 20.78 to 19.71 at patch size 1 and reduces the radial Fourier spectrum gap. Furthermore, we scale our method to latent diffusion on ImageNet-100. With 0.6% additional theoretical FLOPs and 1.36% additional parameters, SpectralDiT improves latent flow-matching, achieving an 8.7% relative FID reduction under classifier-free guidance (CFG 2.0). All reported results are averaged over five seeds. Ablations and gate visualizations on CIFAR-10 reveal stable block-specific spectral correction patterns.
- Abstract(参考訳): 我々は,MLP残差分枝に時間経過条件付きスペクトル補正を加えたフローマッチング拡散変換器の軽量な修正であるSpectralDiTを提案する。
モジュールは、残余更新をパッチトーケングリッド上の低周波および高周波のコンポーネントに分解した後、ゼロ初期化加算ゲートを学習し、モデルが最初にベースラインのDiTと一致するようにする。
CIFAR-10のピクセル空間生成では、SpectralDiTはパッチサイズ1でFIDを20.78から19.71に改善し、ラジアルフーリエスペクトルギャップを小さくする。
また,ImageNet-100上では遅延拡散に拡張する。
0.6%の追加理論的FLOPと1.36%の追加パラメータにより、SpectralDiTは遅延フローマッチングを改善し、分類器フリーガイダンス(CFG 2.0)の下で8.7%の相対的なFID還元を達成する。
報告されたすべての結果は平均5種以上である。
CIFAR-10のアブレーションとゲートの可視化は、安定なブロック固有のスペクトル補正パターンを示す。
関連論文リスト
- Flicker-DDPM: Accelerating Denoising Diffusion via 1/f Colored Noise Injection [0.0]
自己組織臨界(SOC)にインスパイアされたフリック(1/f)ノイズを取り入れた新しい拡散モデルFlicker-DDPMを提案する。
本研究では,空間相関カーネル (d) = (d + 1)- をベースとした色付きノイズモジュールを開発し,生成した1/f雑音のスペクトル指数を制御することを理論的に確立する。
CIFAR-10では、Flicker DDPMは標準DDPMベースラインの生成品質を3.33倍のサンプリングステップで一致または上回る。
論文 参考訳(メタデータ) (2026-06-02T09:36:09Z) - Single Spatio-Temporal Mode Bright Twin-Beam Source Across the Near- and Mid-Infrared [0.0]
超高速, 明るい, 絡み合ったツインビーム源を, 周期的に置換したニオブ酸リチウムの0型パラメトリックダウンコンバージョンにより, MHz繰り返し速度で導入する。
明るい数モードの制限では、全絡み合い資源は、モダリティと職業的自由度の間で明確に分離されていることを示す。
論文 参考訳(メタデータ) (2026-05-14T20:15:37Z) - FRIGID: Scaling Diffusion-Based Molecular Generation from Mass Spectra at Training and Inference Time [52.735012862324766]
本稿では,質量スペクトルに条件付き構造を生成する新しい拡散言語モデルを用いたフレームワークFRIGIDを提案する。
スペクトル非一貫性フラグメントを同定することにより、前方フラグメンテーションモデルが推論時間スケーリングを実現する方法を示す。
さらなる実証分析により、FRIGIDは推論時間の増大を伴う対数線形性能のスケーリングを示すことが示された。
論文 参考訳(メタデータ) (2026-04-17T19:11:18Z) - SpectralLoRA: Is Low-Frequency Structure Sufficient for LoRA Adaptation? A Spectral Analysis of Weight Updates [0.6345523830122167]
LoRAの更新は低周波成分によって普遍的に支配されていることを示す。
また,RoBERTaベースはすべてのタスクにおいてBERTベースよりも体系的にスペクトル圧縮可能であることも確認した。
論文 参考訳(メタデータ) (2026-04-12T13:54:52Z) - Spectral Gating Networks [65.9496901693099]
我々は、フィードフォワードネットワークに周波数リッチな表現性を導入するために、スペクトルゲーティングネットワーク(SGN)を導入する。
SGNは、標準活性化経路をコンパクトなスペクトル経路と学習可能なゲートで拡張し、安定したベース動作からモデルを開始することができる。
計算予算に匹敵する精度と効率のトレードオフを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-07T20:00:49Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - SpectrumFM: A Foundation Model for Intelligent Spectrum Management [99.08036558911242]
既存のインテリジェントスペクトル管理手法は、通常は小規模モデルに基づいており、認識精度、収束速度、一般化の顕著な制限に悩まされている。
本稿では、スペクトルFMと呼ばれる新しいスペクトル基盤モデルを提案し、スペクトル管理のための新しいパラダイムを確立する。
実験により、SpectrumFMは精度、堅牢性、適応性、少数ショット学習効率、収束速度の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-02T04:06:39Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。