論文の概要: Redirecting the Flow: Image Customization through Attention Distribution Shift
- arxiv url: http://arxiv.org/abs/2606.16866v1
- Date: Mon, 15 Jun 2026 15:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.676509
- Title: Redirecting the Flow: Image Customization through Attention Distribution Shift
- Title(参考訳): 流れのリダイレクト:注意分布シフトによる画像のカスタマイズ
- Authors: Jie Li, Suorong Yang, Jian Zhao, Furao Shen,
- Abstract要約: 被験者主導のイメージカスタマイズは、テキストによる指示に従う画像を生成し、与えられた参照対象のアイデンティティを保持することを目的としている。
既存のアプローチは、限られた効率性、抽出された参照特徴と生成過程の相違、無関係情報からの干渉に悩まされている。
安定拡散3に基づくデュアルブランチアーキテクチャであるCustomShiftを提案する。
DreamBooth と Custom101 ベンチマークの実験は、我々の手法が常に最先端のアプローチより優れていることを示した。
- 参考スコア(独自算出の注目度): 18.601789249339014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Subject-driven image customization aims to generate images that not only follow textual instructions but also preserve the identity of a given reference subject. Existing approaches, including test-time fine-tuning, encoder-based methods, and token competition in shared attention spaces, suffer from limited efficiency, misalignment between extracted reference features and the generative process, and interference from irrelevant information. To address these limitations, we formulate the customization task as a distribution shift induced by incorporating reference images into text-to-image generation, and derive a Conditional Attention Distribution Shift formulation grounded in maximum entropy theory. Building on this formulation, we propose CustomShift, a dual-branch architecture based on Stable Diffusion 3. The Reference-Alignment Branch leverages self-attention between reference images and subject names to achieve layer-wise alignment with latent representations, while the Cross-Guidance Branch integrates textual and reference cues to guide generation. Experiments on the DreamBooth and Custom101 benchmarks demonstrate that our method consistently outperforms state-of-the-art approaches, achieving a better balance between semantic fidelity and subject consistency.
- Abstract(参考訳): 対象駆動画像のカスタマイズは、テキストの指示に従うだけでなく、参照対象の同一性を保った画像を生成することを目的としている。
テストタイムの微調整、エンコーダベースの手法、共有注意空間におけるトークン競合など、既存のアプローチでは、限られた効率性、抽出された参照特徴と生成過程の相違、無関係情報からの干渉に悩まされている。
これらの制約に対処するために、参照画像をテキストから画像生成に組み込んだ分散シフトとしてカスタマイズタスクを定式化し、最大エントロピー理論に基づく条件付きアテンション分布シフトの定式化を導出する。
この定式化に基づいて、安定拡散3に基づくデュアルブランチアーキテクチャであるCustomShiftを提案する。
参照アライメントブランチは、参照画像と被写体名間の自己アライメントを活用して、遅延表現とのレイヤーワイドなアライメントを実現し、クロスガイドブランチはテキストと参照キューを統合して生成をガイドする。
DreamBooth と Custom101 ベンチマークの実験では、我々の手法が常に最先端のアプローチより優れており、セマンティックな忠実さと主観的な一貫性のバランスが良いことが示されている。
関連論文リスト
- UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation [65.53694602893042]
VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T13:10:05Z) - Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing [38.240269144736224]
Re-Alignは構造化推論誘導アライメントを通じて理解と生成のギャップを埋める。
In-context Image Generation and editing (ICGE)により、ユーザーはインターリーブされた画像テキストプロンプトによって視覚概念を指定できる。
論文 参考訳(メタデータ) (2026-01-08T17:13:00Z) - OmniRefiner: Reinforcement-Guided Local Diffusion Refinement [10.329465965964571]
VAEベースの潜伏圧縮は微妙なテクスチャ情報を破棄し、アイデンティティと属性固有の手がかりが消滅する。
参照駆動補正の2段階を連続的に行う細部対応精細化フレームワークである ourMthd を紹介した。
実験により,我々のMthdは参照アライメントと細かなディテール保存を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-11-25T06:57:49Z) - In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation [41.79836820271156]
In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。
オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
論文 参考訳(メタデータ) (2025-05-26T17:49:10Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。