論文の概要: AsyncPatch Diffusion: spatially-flexible image generation
- arxiv url: http://arxiv.org/abs/2606.07079v1
- Date: Fri, 05 Jun 2026 09:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.663301
- Title: AsyncPatch Diffusion: spatially-flexible image generation
- Title(参考訳): AsyncPatch Diffusion:空間的にフレキシブルな画像生成
- Authors: Samuele Papa, Valentin De Bortoli, Guillaume Couairon, Daniel Sýkora, Romuald Elie, Klaus Greff,
- Abstract要約: AsyncPatch Diffusionは、異なる入力次元に異なるノイズレベルを割り当てる共同拡散フレームワークである。
この非同期な腐敗が、いかに有効な生成過程を定義するかを示す。
我々は不確実性誘導加速度や自己回帰サンプリングを含む適応的な生成戦略を実証する。
- 参考スコア(独自算出の注目度): 24.854661299695156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard diffusion models corrupt an entire sample with a single shared noise level, forcing all spatial regions to follow the same denoising trajectory. We introduce AsyncPatch Diffusion, a joint-diffusion framework that assigns distinct noise levels to different input dimensions, such as image pixels, or latent tokens. We show how this asynchronous corruption defines a valid generative process while supporting a richer family of spatially heterogeneous denoising trajectories, and prove the first valid ELBO for this process. We show that a single pretrained model can perform spatially adaptive generation, where different regions are denoised on different schedules. A key challenge is training: naive independent noise-level sampling overemphasizes highly heterogeneous configurations and underrepresents homogeneous noise levels, that are crucial during sampling. We address this with a controlled noise-level sampler that regulates both the average corruption level and its spatial variability. AsyncPatch achieves generation quality comparable to conventional diffusion on ImageNet 256 and LSUN, while being natively suited for inpainting without task-specific fine-tuning. We further introduce input guidance, which uses clean or partially corrupted regions to guide the generation of unknown regions, improving local consistency and texture matching. Finally, we demonstrate adaptive generation strategies including uncertainty-guided acceleration and autoregressive sampling.
- Abstract(参考訳): 標準拡散モデルは、サンプル全体を1つの共有ノイズレベルで破壊し、すべての空間領域が同一の雑音軌跡に従うように強制した。
AsyncPatch Diffusionは,画像画素や潜在トークンなど,異なる入力次元に異なるノイズレベルを割り当てる,共同拡散フレームワークである。
本研究は,空間的不均一な認知軌道のリッチなファミリーをサポートしながら,この非同期汚濁が有効な生成過程を定義することを示し,この過程において最初の有効なELBOを証明した。
本研究では,1つの事前学習モデルを用いて,異なる領域を異なるスケジュールで識別する空間適応生成を行うことができることを示す。
独立したノイズレベルサンプリングは、非常に異質な構成を過度に強調し、サンプリングにおいて重要な均質なノイズレベルを過小評価する。
本研究では, 平均汚損レベルと空間変動量の両面を制御したノイズレベルサンプリング器を用いてこの問題に対処する。
AsyncPatchは、ImageNet 256とLSUNの従来の拡散に匹敵する生成品質を達成すると同時に、タスク固有の微調整なしでのインペイントにネイティブに適している。
さらに、クリーンまたは部分的に破損した領域を用いて未知の領域の生成を誘導し、局所的な一貫性とテクスチャマッチングを改善する入力ガイダンスを導入する。
最後に、不確実性誘導加速度や自己回帰サンプリングを含む適応的な生成戦略を示す。
関連論文リスト
- Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers [8.989774165042542]
従来の画像復調モデルは, 環境要因とノイズパターンの急激な相関関係を不注意に学習する。
本稿ではTCD-Net(Teacher-Guided Causal Disentanglement Network)を提案する。
大規模な実験により、TCD-Netは、複数のベンチマークにおいて、忠実さと効率の両方で、メインストリームのメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-03-01T15:04:37Z) - Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation [48.203403471536866]
本稿では,異なる画素に異なるタイムステップを割り当て,画素単位の分解過程を再構成する新しいフレームワークを提案する。
実験により、非同期拡散モデルにより、多様なプロンプト間のテキスト・画像のアライメントが大幅に改善できることが実証された。
論文 参考訳(メタデータ) (2025-10-06T05:45:56Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech [42.663766380488205]
DIDiffGesは、いくつかのサンプリングステップだけで、高品質で表現力のあるジェスチャーを音声から合成することができる。
提案手法は, 人間の類似性, 適切性, スタイルの正しさにおいて, 最先端のアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-03-21T11:23:39Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。