論文の概要: Compressing Image Style Training into a Single Model Forward
- arxiv url: http://arxiv.org/abs/2606.13809v1
- Date: Thu, 11 Jun 2026 18:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.572149
- Title: Compressing Image Style Training into a Single Model Forward
- Title(参考訳): イメージスタイルのトレーニングを1つのモデルに圧縮する
- Authors: Zhongjie Duan, Yingda Chen,
- Abstract要約: i2L(image-to-LoRA)は、スタイルのLoRAトレーニングを1つのフォワードパスに補正するフレームワークである。
i2Lは、既存のベースラインよりも、スタイルの忠実さ、迅速なアライメント、知覚品質を向上させる。
- 参考スコア(独自算出の注目度): 3.579087003804642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based style transfer must balance inference efficiency with stylization fidelity. Adapter-based methods are efficient, but they inject style as an external condition and can either weaken reference-specific appearance or copy reference semantics into the generated image. Optimization-based personalization methods such as LoRA internalize style more effectively, but require a separate training process for every new style. We introduce i2L (image-to-LoRA), a framework that amortizes style LoRA training into a single forward pass. Given one or more reference images, i2L predicts LoRA weights for a text-to-image model, enabling immediate style instantiation without per-style optimization. The architecture combines an image encoder, learnable LoRA queries, and compressed decoding heads that generate adapted matrices. Training on semantically diverse style pairs encourages the predictor to preserve appearance cues while suppressing reference-content copying. Experiments on Z-Image, FLUX.2, and Hidream-O1 show that i2L improves style fidelity, prompt alignment, and perceptual quality over existing baselines. Because i2L produces explicit LoRA weights, it also supports asymmetric classifier-free guidance, multi-reference style fusion, and composition with controllable-generation modules.
- Abstract(参考訳): 拡散に基づくスタイル転送は、推論効率とスタイル化の忠実さのバランスをとる必要がある。
アダプタベースの手法は効率的だが、外部条件としてスタイルを注入し、参照固有の外観を弱めるか、生成された画像に参照セマンティクスをコピーする。
LoRAのような最適化に基づくパーソナライズ手法は、より効果的にスタイルを内部化するが、新しいスタイルごとに個別のトレーニングプロセスを必要とする。
i2L(image-to-LoRA)は,スタイルのLoRAトレーニングを1つのフォワードパスに補正するフレームワークである。
1つ以上の参照画像が与えられた場合、i2Lはテキスト画像モデルのLoRA重みを予測し、スタイルごとの最適化なしに即時スタイルのインスタンス化を可能にする。
このアーキテクチャは、画像エンコーダ、学習可能なLoRAクエリ、適応行列を生成する圧縮復号ヘッドを組み合わせる。
意味的に多様なスタイルペアのトレーニングは、参照内容のコピーを抑えながら、予測者が外観の手がかりを保存することを奨励する。
Z-Image、FLUX.2、Hidream-O1の実験では、i2Lは既存のベースラインよりもスタイルの忠実さ、迅速なアライメント、知覚品質を改善している。
i2Lは明示的なLoRA重みを生成するため、非対称な分類子なし誘導、マルチ参照スタイルの融合、および制御可能な世代モジュールによる合成もサポートする。
関連論文リスト
- LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation [28.098287135605364]
画像品質を向上し、マージ処理において4000ドルを超える驚くべきスピードアップを実現する方法であるLoRA$.$rarを紹介する。
本手法は,MLLMの評価と人的評価によって評価され,内容とスタイルの忠実さの両面で技術の現状を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-06T16:04:56Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。