論文の概要: BLM-SGAN: Bidirectional Language Modeling for Semantic-Spatial Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2606.08847v1
- Date: Sun, 07 Jun 2026 21:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.483037
- Title: BLM-SGAN: Bidirectional Language Modeling for Semantic-Spatial Text-to-Image Generation
- Title(参考訳): BLM-SGAN:意味空間テキスト・画像生成のための双方向言語モデリング
- Authors: Ahmed Abdelmoneim Mazrou, Haidy Maher El-Amir, Ali Hamdi,
- Abstract要約: BLM-SGANはセマンティック・空間テキスト・画像生成のための双方向言語モデリングを取り入れた新しいモデルである。
Inception Score (IS) は5.45 +/-0.08で、いくつかの競合モデルを上回っている。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the success of image generation from text descriptions, it still faces challenges that are difficult to overcome in domains such as natural language processing (NLP) and computer vision (CV). Recent advancements in text-to-image (T2I) models, particularly those utilizing generative adversarial networks (GANs), have significantly improved the synthesis of realistic images across various domains. However, existing GAN-based T2I models still encounter key challenges, such as difficulty in capturing long-range dependencies, vanishing gradients, and the limitations of sequential processing. To address these issues, we introduce BLM-SGAN, a novel model that incorporates Bidirectional Language Modeling for Semantic-Spatial Text-to-Image Generation. BLM-SGAN leverages BERT's attention mechanisms to capture rich contextual information and efficiently manage extended sequences. Our model demonstrates state-of-the-art performance, with an Inception Score (IS) of 5.45 +/- 0.08, surpassing several competitive models such as SSA-GAN, DF-GAN, SD-GAN, and AttnGAN. BLM-SGAN effectively generates highly realistic images of birds from detailed text descriptions. The implementation code is available at: https://github.com/haidy-maher/BLM-SGAN-Text-to-Image-Generation.
- Abstract(参考訳): テキスト記述による画像生成の成功にもかかわらず、自然言語処理(NLP)やコンピュータビジョン(CV)といった領域では克服が難しい課題に直面している。
テキスト・ツー・イメージ(T2I)モデルの最近の進歩、特にGAN(Generative Adversarial Network)を利用したモデルでは、様々な領域にわたる現実的な画像の合成が大幅に改善されている。
しかし、既存のGANベースのT2Iモデルは、長距離依存のキャプチャの難しさ、勾配の消失、シーケンシャル処理の制限など、依然として重要な課題に直面している。
これらの問題に対処するために,BLM-SGANという,セマンティック・空間テキスト・画像生成のための双方向言語モデリングを取り入れた新しいモデルを導入する。
BLM-SGANはBERTの注意機構を利用して、リッチなコンテキスト情報をキャプチャし、拡張シーケンスを効率的に管理する。
本モデルでは,SSA-GAN,DF-GAN,SD-GAN,AttnGANなどの競合モデルを上回る5.45 +/-0.08のインセプションスコア(IS)が得られた。
BLM-SGANは、詳細なテキスト記述から、鳥の非常に現実的なイメージを効果的に生成する。
実装コードは以下の通りである。 https://github.com/haidy-maher/BLM-SGAN-Text-to-Image-Generation。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis [18.876109299162138]
特殊設計されたセマンティックビジョンランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。
この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。
MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-07-10T12:52:49Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。