論文の概要: ZIPP:Zero-shot Image Personalization from Personas
- arxiv url: http://arxiv.org/abs/2606.08841v1
- Date: Sun, 07 Jun 2026 21:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.478454
- Title: ZIPP:Zero-shot Image Personalization from Personas
- Title(参考訳): ZIPP:ペルソナからのゼロショット画像パーソナライゼーション
- Authors: Harini SI, Somesh Singh, Yaman Kumar Singla, David Doermann, Rajiv Ratn Shah,
- Abstract要約: 我々はペルソナ(ZipP)からゼロショット画像パーソナライズを導入する。
ZipPは、ユーザ固有のデータや重み更新を使わずに、自然言語のペルソナで画像を生成する。
インダクティブグラフ注意ネットワークを2200万ユーザRedditインタラクショングラフ上でトレーニングし、大規模にペルソナをマイニングする。
- 参考スコア(独自算出の注目度): 25.359254229320086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image diffusion models are increasingly deployed in open-ended creative contexts, yet their outputs remain impersonal, optimized for aggregate aesthetics rather than individual taste. Human preferences are pluralistic: one user favoring muted, nostalgic portraits may prefer vibrant street photography, while another gravitates toward dreamy film aesthetics. Existing methods require dense interaction histories or per-user fine-tuning, failing in cold-start settings and collapsing context-dependent preferences into a static representation. We introduce zero-shot image personalization from personas (ZIPP), which conditions image generation on natural-language personas (concise descriptors of a user's identity and aesthetic sensibilities) without any user-specific data or weight updates. ZIPP uses an LLM to rewrite prompts from the perspective of a given persona, steering diffusion models toward personalized outputs. To mine personas at scale, we train an inductive Graph Attention Network over a 22M-user Reddit interaction graph with dual contrastive objectives aligning graph structure with visual behavior, then verbalize learned representations into natural-language personas via an MLLM. We introduce ZIPBench, the first zero-shot personalization benchmark with 1.5K users, graph-mined personas, and 40K generated images. Across four benchmarks and 14 LLMs spanning five model families, persona conditioning yields consistent gains (13-20%), with frontier models benefiting most. In the few-shot setting, ZIPP matches or exceeds fine-tuned baselines trained on 100+ examples per user. ZIPP achieves the lowest preference distributional divergence (CMMD 0.16 vs. 0.55), and IPF-normalized demographic evaluation shows it substantially reduces subpopulation bias present in existing methods. Human evaluation confirms a 79% win rate over generic generation and 58-65% over all fine-tuned baselines.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは、オープンエンドの創造的な文脈でますます展開されているが、そのアウトプットは、個人の味ではなく、総合的な美学に最適化されている。
人間の好みは多元的であり、あるユーザーはミュートを好み、懐古的な肖像画は活気のあるストリート写真を好むかもしれない。
既存の手法では、密接なインタラクション履歴やユーザ毎の微調整が必要で、コールドスタート設定に失敗し、コンテキスト依存の好みを静的表現に分解する。
本研究では、ユーザ固有のデータや重み更新を伴わずに、自然言語のペルソナ(ユーザのアイデンティティと審美感の簡潔な記述子)に画像生成を条件とした、パーソナからのゼロショット画像パーソナライゼーション(ZIPP)を導入する。
ZIPPはLLMを使用して、与えられたペルソナの観点からプロンプトを書き直し、パーソナライズされた出力に向けて拡散モデルを操る。
大規模にペルソナをマイニングするために,2200万ユーザからなるRedditインタラクショングラフ上に,グラフ構造と視覚行動の整合性を両立させたインダクティブグラフアテンションネットワークをトレーニングし,学習した表現をMLLMを介して自然言語ペルソナに言語化する。
ZIPBenchは、1.5Kユーザ、グラフマイニングされたペルソナ、40K生成イメージを備えた、最初のゼロショットパーソナライズベンチマークである。
4つのベンチマークと5つのモデルファミリにまたがる14のLLMで、ペルソナ条件付けが一貫した利得(13-20%)を達成し、フロンティアモデルが最も恩恵を受ける。
数ショット設定では、ZIPPはユーザ当たり100以上の例でトレーニングされた微調整されたベースラインにマッチするか、超過します。
ZIPPは、最も低い選好分布分散(CMMD 0.16 vs. 0.55)を実現し、IPF正規化人口統計学的評価は、既存の方法におけるサブポピュレーションバイアスを著しく減少させることを示している。
人間の評価では、ジェネリックジェネレーションよりも79%、微調整されたベースラインよりも58-65%の勝利率が確認されている。
関連論文リスト
- Personalizing Text-to-Image Generation to Individual Taste [27.034209539539926]
我々は、パーソナライズされた画像評価をモデル化するための新しいデータセットと予測フレームワーク、PAMELAを紹介した。
私たちのデータセットは、最先端のモデルによって生成される5000の多様な画像に対して、70,000のレーティングで構成されています。
我々のモデルは、現在の最先端手法の大多数よりも高い精度で個人の好みを予測する。
論文 参考訳(メタデータ) (2026-04-08T17:35:36Z) - PersonaMem-v2: Towards Personalized Intelligence via Learning Implicit User Personas and Agentic Memory [56.81126490418336]
パーソナライゼーションは、AI能力とアライメントの進歩における次のマイルストーンの1つだ。
PersonaMem-v2は300以上のシナリオ、20,000以上のユーザの好み、128kのコンテキストウィンドウで、1,000の現実的なユーザ-チャットボットインタラクションをシミュレートする。
我々はQwen3-4BをトレーニングしてGPT-5を上回り、暗黙のパーソナライゼーションにおいて53%の精度を達成した。
論文 参考訳(メタデータ) (2025-12-07T06:48:23Z) - Personalized Image Descriptions from Attention Sequences [55.65023709100682]
異なる領域、オブジェクト、詳細をさまざまな順序で参照し、異なる言語スタイルで記述する。
パーソナライズされた画像記述のための既存のモデルは、個々の視聴パターンを活用する以前の作業がなく、言語スタイルのみに焦点を当てている。
我々は、パーソナライズされた視聴動作を記述生成のコアファクターとして明示的にモデル化することで、このギャップに対処する。
そこで,本手法では,補助的な注意制御タスクによって誘導される言語スタイルと視聴行動の両方をキャプチャする対象埋め込みについて学習する。軽量なアダプタは,これらの埋め込みを凍結した視覚言語モデルと整合させ,再訓練を行なわずにパーソナライズすることができる。
論文 参考訳(メタデータ) (2025-12-07T05:23:18Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Learning Multi-dimensional Human Preference for Text-to-Image Generation [18.10755131392223]
テキスト・ツー・イメージ・モデル評価のための最初の多次元選好スコアモデルである多次元選好スコア(MPS)を提案する。
MPSはCLIPモデルに設定条件モジュールを導入し、これらの様々な好みを学習する。
MHP(Multi-dimensional Human Preference)データセットに基づいて,4次元にわたる918,315人の選好選択をトレーニングする。
論文 参考訳(メタデータ) (2024-05-23T15:39:43Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。