論文の概要: UNITY: Attention Flow Networks for Adaptive Conditioning in Diffusion
- arxiv url: http://arxiv.org/abs/2606.20971v1
- Date: Thu, 18 Jun 2026 22:29:28 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:32:18.841481
- Title: UNITY: Attention Flow Networks for Adaptive Conditioning in Diffusion
- Title(参考訳): ユニティ:拡散における適応的条件付けのための注意フローネットワーク
- Authors: Aryan Das, Koushik Biswas, Moloud Abdar, Vinay Kumar Verma,
- Abstract要約: UNITYは、拡散ベースの画像生成において、効率的でスケーラブルな複合コンディショニングのためのユニバーサル・ツー・スペシャライズド・アダプタである。
提案した2つのステージトレーニングパラダイムは、すべての条件付きモーダルを横断するモーダル表現をキャプチャするユニバーサルステージで構成されている。
定数複雑性の定式化は、単一条件設定と複合条件設定の両方で柔軟な操作をサポートする。
- 参考スコア(独自算出の注目度): 10.869713613527763
- License:
- Abstract: We introduce UNITY, a Universal-to-Specialized adapter for efficient and scalable composite conditioning in diffusion based image generation. Unlike prior methods that train separate adapters for each conditioning modality, UNITY jointly learns shared semantics across multiple conditioning types and subsequently specializes without modifying the underlying architecture. The proposed two stage training paradigm consists of a Universal Stage that captures cross modal representations across all conditioning modalities using half of the total training steps, followed by a Specialization Stage that refines modality specific features using the remaining training budget. At the core of UNITY are the Morphable Attention Flow (MAF) Network and Morph Wrapper modules, which enable channel aware and spatially adaptive feature alignment through learnable flow fields and attention based fusion. This constant complexity formulation supports flexible operation under both single and composite conditioning settings while significantly reducing inference latency and memory consumption. Extensive experiments across multiple datasets demonstrate that UNITY achieves state of the art image fidelity while maintaining superior memory efficiency. Code: https://github.com/arya-domain/UNITY
- Abstract(参考訳): 拡散ベース画像生成における効率よくスケーラブルな複合コンディショニングのためのUniversal-to-specized AdapterであるUNITYを紹介する。
コンディショニングのモダリティごとに個別のアダプタを訓練する以前の方法とは異なり、UNITYは複数のコンディショニングタイプ間で共有セマンティクスを共同で学習し、その後、基盤となるアーキテクチャを変更することなく専門化している。
提案した2段階の訓練パラダイムは、全訓練ステップの半分を用いて、全条件モードの横断的な表現をキャプチャするユニバーサルステージと、残りのトレーニング予算を用いてモダリティ特有の特徴を洗練するスペシャライゼーションステージで構成されている。
UNITYのコアとなるのはMorphable Attention Flow (MAF) NetworkとMorph Wrapperモジュールである。
この定数複雑性の定式化は、単一条件設定と複合条件設定の両方で柔軟な操作をサポートし、推論遅延とメモリ消費を大幅に削減する。
複数のデータセットにわたる大規模な実験により、UNITYはより優れたメモリ効率を維持しつつ、最先端のイメージ忠実性を達成することを示した。
コード:https://github.com/arya- domain/UNITY
関連論文リスト
- LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model [77.66516875262963]
マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。
MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。
実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2026-03-01T12:05:06Z) - OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance [85.23143742905695]
画像ベースの仮想トライオン(VTON)は、人間のポーズと身体の制約下での衣服の再レンダリングを通じて、現実的な人物画像の合成を懸念する。
OmniVTON++は、トレーニング不要なVTONフレームワークで、普遍的な適用性のために設計されている。
論文 参考訳(メタデータ) (2026-02-16T08:27:43Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - UHKD: A Unified Framework for Heterogeneous Knowledge Distillation via Frequency-Domain Representations [5.382357091398666]
クロスアーキテクチャ転送に周波数領域の中間的特徴を利用するフレームワークとして、統一不均一知識蒸留(UHKD)が提案されている。
CIFAR-100とImageNet-1Kの実験では、最新の手法よりも5.59%、0.83%向上した。
論文 参考訳(メタデータ) (2025-10-28T06:41:43Z) - Generalizable Federated Learning using Client Adaptive Focal Modulation [0.29465623430708915]
フェデレートラーニング(FL)は、分散クライアント間での、プライバシー保護、協調トレーニングに不可欠であることが証明されている。
本稿では,サーバ側通信のオーバーヘッドを低減したTransFedの効率的なバージョンを提案する。
我々の発見は、より適応的で、スケーラブルで、一般化可能なトランスフォーマーベースのフェデレーションシステムへの道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:06:50Z) - CORE-ReID: Comprehensive Optimization and Refinement through Ensemble fusion in Domain Adaptation for person re-identification [0.0]
本研究は,「個人再識別のためのドメイン適応におけるアンサンブル融合による包括的最適化と再定義」という新しい枠組みを紹介する。
このフレームワークは、CycleGANを使用して、事前トレーニング段階で異なるカメラソースからの画像特性の違いを調和させる多様なデータを生成する。
微調整の段階では、教師と学生の2つのネットワークに基づいて、多層クラスタリングのためのマルチビュー機能を統合し、多様な擬似ラベルを導出する。
論文 参考訳(メタデータ) (2025-08-05T04:25:03Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Unified Contrastive Fusion Transformer for Multimodal Human Action
Recognition [13.104967563769533]
我々は、Unified Contrastive Fusion Transformer (UCFFormer)と呼ばれる新しいマルチモーダル核融合アーキテクチャを導入する。
UCFFormerは、人間の行動認識(HAR)性能を向上させるために、さまざまなディストリビューションとデータを統合する。
We present the Factorized Time-Modality Attention to perform self-attention for the Unified Transformer。
論文 参考訳(メタデータ) (2023-09-10T14:10:56Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。