論文の概要: EPIG: Emotion-Based Prompting for Personalised Image Generation
- arxiv url: http://arxiv.org/abs/2606.13247v1
- Date: Thu, 11 Jun 2026 12:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.773477
- Title: EPIG: Emotion-Based Prompting for Personalised Image Generation
- Title(参考訳): EPIG:パーソナライズされた画像生成のための感情ベースのプロンプト
- Authors: Emna Othmen, Mohamed Yassine Landolsi, Lotfi Ben Romdhane,
- Abstract要約: 本研究では,画像生成に先立って情緒的表現性を高めるEPIGを提案する。
EPIGは軽量で、トレーニング不要で、リソースに制約のあるパーソナライズされた画像生成シナリオに適している。
- 参考スコア(独自算出の注目度): 9.012166263116415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved impressive results in synthesizing high-quality images from natural language prompts. However, commonly used prompting strategies remain relatively generic, limiting the model's ability to accurately express emotional intent and nuanced affective attributes. This work proposes EPIG, a method that enhances emotional expressiveness at the prompt level prior to image generation. Grounded in psychologically informed emotion representations (valence-arousal) and leveraging structured, role-aware prompt enrichment, EPIG enriches emotion-related components of prompts without modifying or retraining the image generation backbone. The resulting emotion-aware prompts guide the generative process toward more emotionally coherent visual outputs, with particular effectiveness in controlling arousal. EPIG is lightweight, training-free, and well suited for resource-constrained and personalized image generation scenarios. Experimental results on a benchmark of 10 diverse prompts show that EPIG reduces mean arousal error compared to strong baselines, including naive insertion and LLM-based prompt expansion, with reductions of 14% and 12%, respectively. These improvements are statistically significant. EPIG also preserves valence alignment and semantic consistency, as measured by CLIPScore and supported by ablation studies. The effect is more pronounced on prompts containing explicit subjects such as humans, children, or animals, where the reduction reaches 17%, highlighting the subject-sensitive behavior of the proposed method.
- Abstract(参考訳): テキストと画像の拡散モデルは、自然言語のプロンプトから高品質な画像を合成することで、驚くべき結果を得た。
しかし、一般的に使用されるプロンプト戦略は比較的一般的であり、モデルが感情的意図や感情的属性を正確に表現する能力を制限する。
本研究では,画像生成に先立って情緒的表現性を高めるEPIGを提案する。
心理的にインフォームドされた感情表現(原子価刺激)と、構造化されたロールアウェア・プロンプト・エンリッチメントを利用するEPIGは、画像生成のバックボーンを変更または再トレーニングすることなく、プロンプトの感情関連コンポーネントを豊かにする。
結果として生じる感情認識は、生成過程をより感情的に一貫性のある視覚的アウトプットへと導く。
EPIGは軽量で、トレーニング不要で、リソースに制約のあるパーソナライズされた画像生成シナリオに適している。
10種類の異なるプロンプトのベンチマーク実験の結果,EPIGは強いベースラインに比べて平均覚醒誤差を低減し,それぞれ14%,12%の減少を示した。
これらの改善は統計的に重要である。
EPIGはまた、CLIPScoreによって測定され、アブレーション研究によって支持されるように、原子価のアライメントとセマンティック一貫性を保っている。
この効果は、人間、子供、動物などの明示的な対象を含むプロンプトにおいてより顕著であり、還元率は17%に達し、提案手法の主観的行動を強調している。
関連論文リスト
- Analyzing Image Beyond Visual Aspect: Image Emotion Classification via Multiple-Affective Captioning [9.701754879957853]
本稿では、画像感情分類のためのACIEC(Affective Captioning for Image Emotion Classification)を提案する。
本研究では,イメージから感情的概念を検出するために階層的多段階のコントラッシブ・ロスを設計し,感情的文を生成するために感情的連鎖推論を提案する。
本手法は, 感情ギャップを効果的に埋めることができ, 複数のベンチマークにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2025-11-28T11:57:39Z) - EmoFeedback$^2$: Reinforcement of Continuous Emotional Image Generation via LVLM-based Reward and Textual Feedback [35.44748809967547]
連続感情画像生成(C-EICG)のための新世代フィードバック強化パラダイム(EmoFeedback$2$)を提案する。
我々は、LVLMが生成した画像の感情価値を評価し、対象の感情に対する報酬を計算する感情認識型報酬フィードバック戦略を導入する。
提案手法は,所望の感情を持つ高品質な画像を効果的に生成し,我々のカスタムデータセットにおける既存の最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-11-25T06:51:15Z) - RLAIF-SPA: Optimizing LLM-based Emotional Speech Synthesis via RLAIF [23.474332076771308]
テキスト音声合成は中性音声においてほぼ人間に近い品質を達成しているが、感情的な表現性は依然として課題である。
本稿では,AIフィードバック機構からの強化学習を取り入れたRLAIF-SPAフレームワークを提案する。
Libri 音声データセットの実験によると、RLAIF-SPA は Chat-TTS より優れており、WER は26.1%、SIM-O は9.1%、人的評価は10%以上向上している。
論文 参考訳(メタデータ) (2025-10-16T12:40:37Z) - Visually grounded emotion regulation via diffusion models and user-driven reappraisal [0.0]
本稿では,大規模テキスト・画像拡散モデルを感情制御プロセスに統合することにより,認知的再評価を視覚的に向上する新しい手法を提案する。
具体的には、ユーザが音声の再評価によって感情的に否定的なイメージを再解釈するシステムを提案する。
この生成変換は、元の刺激と構造的類似性を維持しつつ、ユーザーの再評価を視覚的にインスタンス化し、外部化し、規制意図を補強する。
論文 参考訳(メタデータ) (2025-07-14T23:28:59Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。