論文の概要: MVEB: Massive Video Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2606.14958v1
- Date: Fri, 12 Jun 2026 21:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.477408
- Title: MVEB: Massive Video Embedding Benchmark
- Title(参考訳): MVEB:大量のビデオ埋め込みベンチマーク
- Authors: Adnan El Assadi, Roman Solomatin, Isaac Chung, Chenghao Xiao, Deep Shah, Manan Dey, Shriya Sudhakar, Zacharie Bugaud, Wissam Siblini, Ayush Sunil Munot, Yashwanth Devavarapu, Rakshitha Ireddi, Michelle Yang, Márton Kardos, Niklas Muennighoff, Kenneth Enevoldsen,
- Abstract要約: Massive Video Embedding Benchmark (MVEB) は、分類、ゼロショット分類、クラスタリング、ペア分類、検索、ビデオ中心の質問応答にまたがるビデオ埋め込みのベンチマークである。
MVEBは184タスクプールであるMVEB+から派生しており、評価コストを低減しつつタスクの多様性を維持するように設計されている。
- 参考スコア(独自算出の注目度): 14.964923439407274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Massive Video Embedding Benchmark (MVEB), a 23-task benchmark for video embeddings spanning classification, zero-shot classification, clustering, pair classification, retrieval, and video-centric question answering. We evaluate 33 models and find that no single model dominates: MLLM-based embeddings lead on classification, clustering, pair classification, and QA; multimodal binding leads on retrieval and zero-shot classification; generative MLLMs without contrastive adaptation collapse on cross-modal tasks. Paired video-only vs. audio+video evaluations show that audio's contribution depends on dataset annotation provenance: audio helps when labels were produced from both modalities and hurts when they were produced from visuals alone, a six-point gap consistent across model families. MVEB is derived from MVEB+, a 184-task pool, and is designed to maintain task diversity while reducing evaluation cost. It integrates into the MTEB ecosystem for unified evaluation across text, image, audio, and video. We release MVEB and all 184 tasks along with code and a leaderboard at https://github.com/embeddings-benchmark/mteb.
- Abstract(参考訳): 我々は、分類、ゼロショット分類、クラスタリング、ペア分類、検索、ビデオ中心の質問応答にまたがるビデオ埋め込みの23タスクベンチマークであるMassive Video Embedding Benchmark(MVEB)を紹介する。
MLLMをベースとした埋め込みは分類,クラスタリング,ペア分類,QA,マルチモーダルバインディングは検索とゼロショット分類に導かれる。
Paired Video-only vs. Audio+ Video Evaluationsによると、オーディオの寄与はデータセットアノテーションの証明に依存している。
MVEBは184タスクプールであるMVEB+から派生しており、評価コストを低減しつつタスクの多様性を維持するように設計されている。
MTEBエコシステムに統合され、テキスト、画像、オーディオ、ビデオの総合的な評価を行う。
MVEBと184のタスクとコード、https://github.com/embeddings-benchmark/mteb.comでリーダーボードをリリースします。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。