論文の概要: Popcorn: A Configurable Benchmark for Visual Evidence in Multimodal Movie Recommendation
- arxiv url: http://arxiv.org/abs/2606.09595v1
- Date: Mon, 08 Jun 2026 15:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.367186
- Title: Popcorn: A Configurable Benchmark for Visual Evidence in Multimodal Movie Recommendation
- Title(参考訳): Popcorn:マルチモーダル映画レコメンデーションにおける視覚的エビデンスのための構成可能なベンチマーク
- Authors: Ali Tourani, Fatemeh Nazary, Yashar Deldjoo, Tommaso Di Noia,
- Abstract要約: Popcornはマルチモーダル映画レコメンデーションにおける視覚的証拠のベンチマークである。
タイトルアラインのフルモーフィー/トレーラーの埋め込みと、モダンな視覚モデルと視覚言語モデルでエンコードされたMovieLensにリンクされたサムネイル機能を組み合わせたものだ。
- 参考スコア(独自算出の注目度): 13.23209079972789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Movies are long-form audiovisual works, yet recommender benchmarks often rely on trailers, thumbnails, or metadata. These sources differ in semantics and scalability: full movies preserve consumption-level evidence, trailers concentrate promotional highlights, and thumbnails provide sparse but catalog-scale visual signals. We present Popcorn, a configurable benchmark for visual evidence in multimodal movie recommendation, combining title-aligned full-movie/trailer embeddings with MovieLens-linked thumbnail features encoded by modern visual and vision-language models. Popcorn standardizes modality assembly, fusion, splitting, evaluation, and LLM-augmented metadata through a single configuration contract. Experiments show that thumbnail VLMs provide strong, scalable item-side evidence, while controlled trailer/full-movie comparisons show that visual evidence sources are not interchangeable: the choice of source and fusion strategy affects ranking accuracy, coverage, diversity, and calibration. The framework is available at https://github.com/RecSys-lab/Popcorn.
- Abstract(参考訳): 映画は長い形式のオーディオヴィジュアル作品であるが、推奨ベンチマークはトレーラー、サムネイル、メタデータに依存していることが多い。
映画は消費レベルの証拠を保存し、トレーラーはプロモーションのハイライトに集中し、サムネイルはスパースだがカタログスケールの視覚信号を提供する。
マルチモーダル映画レコメンデーションにおける視覚的エビデンスのための構成可能なベンチマークであるPopcornを、タイトル整列フルモーション/トレーラーの埋め込みと、モダンな視覚モデルと視覚言語モデルでエンコードされたMovieLensリンクサムネイル機能を組み合わせて紹介する。
Popcornは単一の構成契約を通じて、モダリティアセンブリ、融合、分割、評価、LLM拡張メタデータを標準化する。
実験の結果、サムネイルVLMは強力な、スケーラブルなアイテムサイドのエビデンスを提供する一方、制御されたトレーラー/フルモーキーの比較では、視覚的エビデンスソースは互換性がないことが示され、ソースと融合戦略の選択は、ランキングの正確性、カバレッジ、多様性、キャリブレーションに影響を与える。
フレームワークはhttps://github.com/RecSys-lab/Popcorn.comで入手できる。
関連論文リスト
- Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations [9.236723273675603]
既存のビデオレコメンデータシステムは、ユーザ定義のメタデータや、特殊なエンコーダによって抽出された低レベルの視覚的および音響的信号に依存している。
本稿では,レコメンデーションパイプラインに高レベルのセマンティクスを注入する,システムに依存しないゼロファインタニングフレームワークを提案する。
MLLM出力と最先端のテキストエンコーダを用いて、標準の協調的、コンテンツベース、生成的レコメンデータに入力する。
論文 参考訳(メタデータ) (2025-08-13T13:19:31Z) - ViLLA-MMBench: A Unified Benchmark Suite for LLM-Augmented Multimodal Movie Recommendation [14.62192876151853]
ViLLA-MMBenchはマルチモーダル映画レコメンデーションのベンチマークである。
オーディオ(ブロックレベル、i-ベクター)、ビジュアル(CNN、AVF)、テキストの3つのモードからの密なアイテムの埋め込みを調整する。
不足メタデータやスパースメタデータは、最先端のLCMを使用して自動的に強化される。
論文 参考訳(メタデータ) (2025-08-06T08:39:07Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Collaborative Noisy Label Cleaner: Learning Scene-aware Trailers for
Multi-modal Highlight Detection in Movies [12.313098016561543]
我々は、より実用的で有望な設定、すなわち、ハイライト検出を「ノイズラベルによる学習」として再構成することを研究する。
この設定は、時間を要する手動のアノテーションを必要とせず、既存の豊富なビデオコーパスを完全に活用することができる。
MovieLightsとYouTube Highlightsのデータセットに関する総合的な実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-03-26T16:16:31Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。