論文の概要: YTClickbait21K: Human-Annotated Multimodal Dataset for YouTube Clickbait Detection Across Diverse Channels and Content Categories
- arxiv url: http://arxiv.org/abs/2606.14780v1
- Date: Wed, 10 Jun 2026 09:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.144843
- Title: YTClickbait21K: Human-Annotated Multimodal Dataset for YouTube Clickbait Detection Across Diverse Channels and Content Categories
- Title(参考訳): YTClickbait21K:YouTubeのClickbait検出のための人間アノテーション付きマルチモーダルデータセット
- Authors: Md. Minhazul Islam, Md. Tanbeer Jubaer, Amith Khandakar, Shovon Sarker, Sumaiya Rahman, Md. Masum Mia, Mohamed Arselene Ayari, Hamed Noori,
- Abstract要約: ビデオ共有プラットフォームのクリックベイトコンテンツは、情報の信頼性に重大な課題をもたらす。
今回紹介するYTClickbait21Kは、29か国40のチャンネルから21,238のビデオを収集した人手によるYouTubeクリックベイトデータセットである。
- 参考スコア(独自算出の注目度): 4.727840689918407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clickbait content on video-sharing platforms poses a significant challenge to information reliability, yet progress in automated detection has been constrained by the lack of large-scale, high-quality multimodal datasets. We present YTClickbait21K, a human-annotated YouTube clickbait dataset comprising 21,238 videos collected from 40 channels across 29 countries, covering diverse content categories such as news, entertainment, education, and gaming. Each sample includes structured metadata (title, description, engagement statistics) along with associated thumbnail images, enabling comprehensive multimodal analysis. To ensure annotation quality, every video was independently labeled by three annotators using a standardized decision framework that incorporates textual, visual, and cross-modal consistency cues, with final labels determined through majority voting. The dataset exhibits substantial inter-annotator agreement (k=0.65), confirming reliable labeling despite the inherent subjectivity of clickbait detection. By combining scale, annotation rigor, and multimodal richness, this dataset provides a robust benchmark for developing and evaluating machine learning models, facilitating research in cross-modal semantic understanding, and advancing automated content moderation systems.
- Abstract(参考訳): ビデオ共有プラットフォームのクリックベイトコンテンツは、情報の信頼性に重大な課題をもたらすが、自動検出の進歩は、大規模で高品質なマルチモーダルデータセットの欠如によって制限されている。
今回紹介するYTClickbait21Kは、29か国40のチャンネルから21,238のビデオを収集し、ニュース、エンターテイメント、教育、ゲームなどの多様なコンテンツカテゴリをカバーしている。
各サンプルには構造化メタデータ(タイトル、記述、エンゲージメント統計)と関連するサムネイル画像が含まれており、包括的なマルチモーダル解析を可能にする。
アノテーションの品質を保証するため、すべてのビデオはテキスト、ビジュアル、およびクロスモーダルな一貫性を組み込んだ標準決定フレームワークを使用して、3つのアノテータによって独立にラベル付けされ、最終的なラベルは多数決によって決定される。
このデータセットは、クリックベイト検出の固有の主観性にも拘わらず、信頼性の高いラベリングを確認する、相当なアノテータ間合意(k=0.65)を示す。
このデータセットは、スケール、アノテーションリガー、マルチモーダルリッチネスを組み合わせることで、機械学習モデルの開発と評価、クロスモーダルなセマンティック理解の研究の促進、自動コンテンツモデレーションシステムの進歩のための堅牢なベンチマークを提供する。
関連論文リスト
- Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing [62.250874651622574]
AVQAデータセット構築のための実用的なアプローチを提案する。
AVQAのためのクラウドソース型主観的実験フレームワークを設計し、インラブ設定の制約を破り、様々な環境にまたがって信頼性の高いアノテーションを実現する。
ユーザ生成オーディオおよびビデオシーケンス1,620のAVQAデータセットのうち,最大かつ最も多様なYT-NTU-AVQを用いて,このアプローチを検証する。
論文 参考訳(メタデータ) (2026-02-26T06:18:11Z) - MVAD : A Comprehensive Multimodal Video-Audio Dataset for AIGC Detection [47.072548525112865]
本稿では,AIが生成するマルチモーダルビデオオーディオコンテンツを検出するために設計された,初めての包括的データセットを紹介する。
本データセットは,(1)実写映像フォージェリパターンに基づくサンプル生成による真のマルチモーダル,(2)多種多様生成モデルによる高い知覚品質,(3)実写映像とアニメ映像の視覚スタイルにまたがる包括的多様性の3つの特徴を示す。
論文 参考訳(メタデータ) (2025-11-29T05:59:38Z) - Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning [59.56171041796373]
我々は、堅牢で効率的なマルチモーダル・インストラクショナルデータを収集する。
インタラクションスタイルを多様性指標とし、マルチモーダルリッチなスタイルラーを用いてデータインストラクションパターンを識別する。
14のマルチモーダルベンチマークによって検証された10以上の実験環境において、ランダムサンプリング、ベースライン戦略、最先端の選択方法に対する一貫した改善を示す。
論文 参考訳(メタデータ) (2025-03-17T17:11:22Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos [46.148023197749396]
ToxVidLMには、マルチモーダルモジュール、クロスモーダルシンクロナイゼーションモジュール、マルチタスクモジュールという3つの重要なモジュールが含まれている。
本稿では,YouTubeから収集した931の動画と4021のコード混成ヒンディー語発話からなるベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-31T05:40:56Z) - BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in
Bangla with Multi-Feature and Multi-Modal Analysis [0.51795041186793]
本研究では,253,070個のデータポイントからなる大規模マルチモーダルなBangla YouTubeクリックベイトデータセットを提案する。
データセットには、メタデータ、一次コンテンツ、エンゲージメント統計、個々のビデオのラベルに分類される18の多様な機能が含まれている。
論文 参考訳(メタデータ) (2023-10-13T13:25:16Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。