論文の概要: Improving Text-Instance Alignment Of Foreground Conditioned Out-Painting Via Customized Concept Embedding
- arxiv url: http://arxiv.org/abs/2606.10892v1
- Date: Tue, 09 Jun 2026 14:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.538008
- Title: Improving Text-Instance Alignment Of Foreground Conditioned Out-Painting Via Customized Concept Embedding
- Title(参考訳): カスタムコンセプト埋め込みによる前景条件付き外装のテキストインスタンスアライメントの改善
- Authors: Yihao Zhao, Xuan Han, Bin He, Mingyu You,
- Abstract要約: Foreground Conditioned Outpainting (FCO)により、ユーザはテキストプロンプトを調整することで、フォアグラウンドインスタンスの望ましいバックグラウンドを低コストで作成できる。
既存のテキスト駆動型FCO法は出力に重大な欠陥を示す。
本稿では,CCE-Diffusion(Customized Concept Embedding Diffusion)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.991391944769402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To showcase products, merchants often incur substantial costs creating high-quality display images. Foreground Conditioned Outpainting (FCO) meets this demand, allowing users to create desired backgrounds for foreground instances at a low cost by adjusting the text prompt. However, existing text-driven FCO methods exhibit critical flaws in their outputs, most notably the presence of artifacts, which refer to regions in the synthesized background that share the same semantics as the foreground instance. Such artifacts diminish the object's prominence and degrade image quality. We attribute the issue to the misalignment between the given instance and text-derived concept embeddings. To address this, we propose the Customized Concept Embedding Diffusion (CCE-Diffusion) framework. Its core is a CCE-Module to customize concept embeddings, bridging the gap between generic noun semantics and a specific visual instance. An Instance-Aware Loss guides the module's optimization, while a Semantic-Preserving Prompt Template prevents customized embeddings from distorting other words in the prompt. Both qualitative and quantitative evaluations demonstrate that CCE-Diffusion significantly reduces artifacts in the outputs. As a plug-and-play component, the CCE-Module can integrate with various FCO methods, enhancing their performance.
- Abstract(参考訳): 商品を展示するために、商人は高品質のディスプレイ画像を作成するのにかなりのコストがかかることが多い。
Foreground Conditioned Outpainting (FCO)はこの要求に応え、ユーザはテキストプロンプトを調整することで、フォアグラウンドインスタンスの望ましいバックグラウンドを低コストで作成できる。
しかし、既存のテキスト駆動型FCO法は出力に重大な欠陥を示しており、特に前景のインスタンスと同じ意味を持つ合成背景の領域を指すアーティファクトの存在が顕著である。
このようなアーティファクトは、オブジェクトの優位性を低下させ、画像の品質を低下させる。
この問題は、与えられたインスタンスとテキストから導かれる概念の埋め込みの不一致に起因している。
そこで我々は,CCE-Diffusion(Customized Concept Embedding Diffusion)フレームワークを提案する。
そのコアはCCE-Moduleで、概念の埋め込みをカスタマイズし、ジェネリック名詞の意味論と特定のビジュアルインスタンスの間のギャップを埋める。
Semantic-Preserving Prompt Templateは、カスタマイズされた埋め込みがプロンプト内の他の単語を歪ませるのを防ぐ。
定性的および定量的評価は、CCE拡散が出力のアーティファクトを著しく減少させることを示す。
プラグアンドプレイコンポーネントとして、CCE-Moduleは様々なFCOメソッドと統合でき、性能が向上する。
関連論文リスト
- DiSa: Saliency-Aware Foreground-Background Disentangled Framework for Open-Vocabulary Semantic Segmentation [16.57245702815661]
Open-vocabulary semantic segmentationは、テキストラベルに基づいた画像内の各ピクセルにラベルを割り当てることを目的としている。
既存のアプローチでは、CLIPのような視覚言語モデル(VLM)を高密度な予測に利用するのが一般的である。
本稿では,新しいサリエンシを意識したフォアグラウンド・バックアングル型フレームワークであるDiSaを紹介する。
論文 参考訳(メタデータ) (2026-01-27T21:15:10Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。
不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。
実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-12T10:59:44Z) - AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models [16.634138745034733]
ユーザによる参照画像を用いたテキスト・画像拡散モデルのカスタマイズの問題点を考察する。
新しいプロンプトが与えられた場合、既存のメソッドは参照イメージからキーコンセプトをキャプチャできるが、生成されたイメージとプロンプトを一致させることができない。
興味ある概念の鍵と値を注入する新しい後処理アルゴリズムAlignITを提案する。
論文 参考訳(メタデータ) (2024-06-27T05:08:46Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Learning Semantic-Aware Knowledge Guidance for Low-Light Image
Enhancement [69.47143451986067]
低照度画像強調法 (LLIE) は、照明の改善方法と正常照度画像の生成方法を検討する。
既存の手法の大部分は、異なる領域のセマンティック情報を考慮せずに、グローバルかつ均一な方法で低照度画像を改善する。
セマンティックセグメンテーションモデルにカプセル化される多種多様な事前学習において、低照度強化モデルを支援する新しいセマンティック・アウェア・ナレッジ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T10:22:28Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。