論文の概要: TailorMind: Towards Preference-Aligned Multimodal Content Generation
- arxiv url: http://arxiv.org/abs/2606.23643v1
- Date: Mon, 22 Jun 2026 17:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:29:20.943902
- Title: TailorMind: Towards Preference-Aligned Multimodal Content Generation
- Title(参考訳): TailorMind: 優先型マルチモーダルコンテンツ生成を目指して
- Authors: Hengji Zhou, Ye Liu, Yufeng Liu, Si Wu, Lianghao Xia, Liqiang Nie,
- Abstract要約: マルチモーダルジェネレータは、オンデマンドでコンテンツを合成できるが、動作トレースを生成可能な好みに変換する方法はまだ未定である。
パーソナライズされたコンテンツ生成について検討し、既存のアイテムプールやマッチングを待つことなく、ユーザに適したマルチモーダルコンテンツを作成する。
本論文では、協調的嗜好モデルと制御可能なマルチモーダル生成をリンクするTailorMindを提案する。
- 参考スコア(独自算出の注目度): 64.3904234880215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized content systems depend on available UGC and struggle when suitable content is absent, delayed, or costly to create. Although multimodal generators can synthesize content on demand, how to translate behavioral traces into generation-ready preferences remains underexplored. We study personalized multimodal content generation: creating user-tailored multimodal content without existing item pools or waiting for matching UGC. We propose TailorMind, linking collaborative preference modeling with controllable multimodal generation. TailorMind enriches sparse user histories via hypergraph collaborative filtering and optimizes textual profiles with ranking-error feedback and textual gradient descent. Retrieval-augmented style control grounds outputs in authentic UGC patterns, while cross-modal cohesion reflection reduces semantic drift. We construct TailorBench, a benchmark from three mainstream platforms evaluated along five dimensions: coherence, novelty, aesthetic, hallucination, profiling. Experiments show that TailorMind achieves competitive or stronger coherence, improves novelty and aesthetic quality over representative generation baselines and ground-truth UGC, demonstrating advantages over retrieving available content or comparable UGC, while achieving up to 29% Recall gains in reranking. Our code is released at: https://github.com/iLearn-Lab/TailorMind.
- Abstract(参考訳): パーソナライズされたコンテンツシステムは利用可能なUGCに依存しており、適切なコンテンツが欠落したり、遅れたり、コストがかかる場合に苦労する。
マルチモーダル・ジェネレータは、オンデマンドでコンテンツを合成できるが、動作トレースを生成可能な好みにどのように変換するかはまだ未定である。
パーソナライズされたマルチモーダルコンテンツの生成について検討する。
本論文では、協調的嗜好モデルと制御可能なマルチモーダル生成をリンクするTailorMindを提案する。
TailorMindは、ハイパーグラフコラボレーティブフィルタリングを通じてスパースユーザー履歴を豊かにし、ランキングエラーフィードバックとテキスト勾配勾配によるテキストプロファイルを最適化する。
Retrieval-augmented style control grounds outputs in agentic UGC pattern, while cross-modal cohesion reflection reduces semantic drift。
ここでは,コヒーレンス,ノベルティ,審美,幻覚,プロファイリングという,3つの主要なプラットフォームから評価されたベンチマークであるTailorBenchを構築した。
実験の結果、TalorMindは競争力や強固なコヒーレンスを達成し、代表的世代ベースラインや地味なUGCよりも斬新さと美的品質を向上し、利用可能なコンテンツや同等のUGCを検索するよりもアドバンテージを示しながら、29%のリコールゲインを達成している。
私たちのコードは、https://github.com/iLearn-Lab/TailorMind.comでリリースされています。
関連論文リスト
- Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models [73.89069781682032]
我々は、Omni-Modal Large Language Models (OLLM) のモダリティ嗜好を定量化する。
従来のVLMの「テキスト・マディナンス」とは異なり、ほとんどのOLLMは視覚的嗜好が顕著である。
私たちの仕事は、機械的な理解と、より信頼できるOLLMを構築するための実践的なツールの両方を提供します。
論文 参考訳(メタデータ) (2026-04-18T08:25:52Z) - ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment [70.19758313256503]
我々は、MLLMベースのプロンプトとパーソナライズされた嗜好アライメントを統合し、文脈に関連のあるカバーを生成するフレームワークであるICGを提案する。
ICGは、アイテムタイトルとメタトークンを介して参照画像からセマンティックな特徴を抽出し、ユーザ埋め込みによってそれらを洗練し、結果としてパーソナライズされたコンテキストを拡散モデルに注入する。
実験により、ICGは画像の品質、セマンティックな忠実度、パーソナライゼーションを著しく改善し、ユーザの魅力とオフラインレコメンデーションの精度が向上することが示された。
論文 参考訳(メタデータ) (2026-04-08T06:36:54Z) - ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文 参考訳(メタデータ) (2025-11-24T16:28:49Z) - Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - End-to-End Personalization: Unifying Recommender Systems with Large Language Models [0.0]
グラフ注意ネットワーク(GAT)と大言語モデル(LLM)を組み合わせた新しいハイブリッドレコメンデーションフレームワークを提案する。
LLMは、タイトル、ジャンル、概要などのメタデータに基づいて意味的に意味のあるプロファイルを生成することによって、ユーザーとアイテムの表現を豊かにするために最初に使用される。
MovieLens 100kと1Mを含むベンチマークデータセットでモデルを評価し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-02T22:46:50Z) - HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction [16.78634288864967]
ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
論文 参考訳(メタデータ) (2025-07-01T16:31:50Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。