論文の概要: Semantic Browsing: Controllable Diversity for Image Generation
- arxiv url: http://arxiv.org/abs/2606.23679v1
- Date: Mon, 22 Jun 2026 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:11:31.982487
- Title: Semantic Browsing: Controllable Diversity for Image Generation
- Title(参考訳): セマンティックブラウジング:画像生成のための制御可能な多様性
- Authors: Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or,
- Abstract要約: 本稿では,セマンティックブラウズを可能にする多様性制御手法を提案する。
我々は、最近のテキスト・ツー・イメージモデルが精巧なキャプションで訓練されているという事実を活用している。
これはパラダイムシフトを可能にします – テキスト・ツー・イメージモデル内のバリエーションに頼るのではなく,テキストレベルで直接多様性を誘導します。
- 参考スコア(独自算出の注目度): 51.503726779537
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern text-to-image models excel in visual fidelity and prompt adherence. However, this strict adherence comes at the cost of diversity: generated samples tend to collapse into a single visual interpretation. Existing methods to improve diversity produce outputs driven by incidental variations rather than meaningful design choices. This motivates a new variant of the diversity task where structure is enforced on the generated samples. We introduce a method for controlled diversity that enables Semantic Browsing, where users can navigate structured image galleries and experience creative exploration through a systematic traversal of meaningful, interpretable axes of variation. Achieving this level of semantic control requires a deep understanding of the scene. We exploit the fact that recent text-to-image models are trained on elaborated captions, effectively decoupling semantic decision-making from pixel generation. This enables a paradigm shift: instead of relying on stochastic variation within the text-to-image model, we induce diversity directly at the text level. By leveraging rich textual representations, we allow a Vision Language Model (VLM) to operate on the full scene context. To overcome the generic outputs typical of standard VLMs, we employ an agentic workflow that explicitly enforces structured variation attuned to the original prompt. We demonstrate that our method produces diverse and navigable design spaces where every variation corresponds to a specific, user-understandable semantic decision.
- Abstract(参考訳): 現代のテキスト・ツー・イメージモデルでは、視覚的忠実さと迅速な定着性が優れている。
しかし、この厳密な固執は多様性の犠牲となり、生成されたサンプルは単一の視覚的解釈に崩壊する傾向がある。
多様性を改善する既存の方法は、意味のある設計選択ではなく、偶発的な変化によって引き起こされるアウトプットを生成する。
これは、生成したサンプルに構造を強制する多様性タスクの新しい変種を動機付けている。
本稿では,セマンティックブラウジングを実現するための多様性制御手法を提案する。これは,ユーザが構造化画像ギャラリーをナビゲートし,有意義で解釈可能な変動軸の体系的なトラバースを通じて創造的な探索を体験することを可能にする。
このレベルのセマンティックコントロールを実現するには、シーンを深く理解する必要がある。
我々は、最近のテキスト・ツー・イメージモデルが精巧なキャプションに基づいて訓練されているという事実を活用し、ピクセル生成から意味決定を効果的に分離する。
これにより、テキスト・ツー・イメージモデルにおける確率的変動に頼る代わりに、テキストレベルで直接多様性を誘導するパラダイムシフトが可能になる。
リッチなテキスト表現を活用することで、視覚言語モデル(VLM)がシーン全体のコンテキストで動作できるようにする。
標準VLMの典型的な一般的な出力を克服するために、エージェントワークフローを使用し、元のプロンプトに適応した構造変化を明示的に強制する。
提案手法は,各変数が特定のユーザ理解可能な意味決定に対応する多様かつナビゲート可能な設計空間を創出することを示す。
関連論文リスト
- UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。
プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-03T20:48:43Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。