論文の概要: MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Reproduced Content Identification
- arxiv url: http://arxiv.org/abs/2606.14786v1
- Date: Wed, 10 Jun 2026 15:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.1521
- Title: MatchLM2Lite: A Scalable MLLM-to-Lite Framework for Reproduced Content Identification
- Title(参考訳): MatchLM2Lite: 再生成コンテンツ識別のためのスケーラブルなMLLM-to-Liteフレームワーク
- Authors: Xiaotian Fan, Hiok Hian Ong, David Yuchen Wang, Zirui Zhu, Kanchan Sarkar, Kun Xu,
- Abstract要約: リアルタイム・プロダクショングレード再生コンテンツ識別(RCI)システムであるMatchLM2Liteを提案する。
我々のシステムは、ビデオ、オーディオ、テキストの信号を共同でモデル化し、ビデオのペアを操作して、きめ細かい再生スコアを生成する。
本システムは,ユーザのエンゲージメントを低下させることなく,再生ビデオ視聴率を2.5%削減した。
- 参考スコア(独自算出の注目度): 4.328459730935948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation is critical for online video platforms to ensure content safety, protect creators, and sustain positive user experiences. Beyond filtering harmful content, platforms must guarantee content authenticity at scale so that users are exposed to diverse, original videos rather than low-value reproductions. We present MatchLM2Lite, a real-time, production-grade reproduced content identification (RCI) system that leverages the powerful understanding of a multimodal large language model (MLLM) distilled into a small and fast-inference model. Our system jointly models video, audio, and text signals, operating on pairs of videos to produce fine-grained reproduction scores. The system comprises two modules, MatchLM and MatchLite, and a two-stage training recipe. First, our high-capacity MLLM, MatchLM, serves as a teacher model to define the upper bound of RCI performance. Its capabilities are then distilled into a compact student model, MatchLite. This design allows MatchLite to deliver low-latency, high-throughput inference on video pairs while preserving much of MatchLM's accuracy, making it suitable for integration into real-time recommendation systems. MatchLM achieves an F1-score improvement of +8.57 compared to our previous production model. After knowledge distillation, MatchLite retains a +6.55 gain in F1-score while reducing computational cost by 35x. Deployed at scale, MatchLM2Lite enables efficient, pairwise multimodal RCI, stably serving online traffic at high queries per second (QPS) with an end-to-end latency below 30 seconds. This system has reduced the reproduced video view rate on our platform by 2.5% without degrading user engagement, demonstrating its effectiveness in a large-scale production environment.
- Abstract(参考訳): コンテンツモデレーションは、コンテンツの安全性を確保し、クリエイターを保護し、ポジティブなユーザー体験を維持するために、オンラインビデオプラットフォームにとって不可欠である。
有害なコンテンツのフィルタリング以外にも、プラットフォームはコンテンツの信頼性を保証し、ユーザーが低価値の再生ではなく、多様なオリジナルビデオに晒されるようにしなければならない。
我々は,マルチモーダル大規模言語モデル (MLLM) を小型かつ高速な推論モデルに拡張した,リアルタイムかつ生産段階の再生コンテンツ識別(RCI)システムであるMatchLM2Liteを提案する。
我々のシステムは、ビデオ、オーディオ、テキストの信号を共同でモデル化し、ビデオのペアを操作して、きめ細かい再生スコアを生成する。
このシステムはMatchLMとMatchLiteの2つのモジュールと、2段階のトレーニングレシピで構成されている。
第一に、我々の高容量MLLMであるMatchLMは、RCI性能の上限を定義する教師モデルとして機能する。
その能力はその後、コンパクトな学生モデルMatchLiteに蒸留される。
この設計により、MatchLMの精度の多くを保ちながら、ビデオペアに低レイテンシで高スループットの推論を提供することができ、リアルタイムレコメンデーションシステムとの統合に適している。
MatchLMは、これまでの生産モデルと比較して、+8.57のF1スコア改善を実現している。
知識蒸留の後、MatchLiteはF1スコアで+6.55ゲインを維持し、計算コストを35倍に削減した。
大規模にデプロイされたMatchLM2Liteは、効率的なペアワイズマルチモーダルRCIを可能にし、30秒未満のエンドツーエンドのレイテンシで、オンライントラフィックを高いクエリ/秒(QPS)で安定的に提供する。
本システムは,ユーザのエンゲージメントを低下させることなく,プラットフォーム上で再生した映像視聴率を2.5%削減し,大規模生産環境での有効性を実証する。
関連論文リスト
- ViLL-E: Video LLM Embeddings for Retrieval [55.66444095205989]
ViLL-E (Video-LLM-Embed) は、新しい埋め込み生成機構を備えた統合ビデオLLMアーキテクチャである。
我々は、生成学習とコントラスト学習を組み合わせた3段階の学習手法を用いて、このモデルを訓練する。
我々のモデルは、時間的ローカライゼーション(他のビデオLLMよりも7%)とビデオ検索(デュアルエンコーダモデルより最大4%)を大幅に改善する。
論文 参考訳(メタデータ) (2026-04-13T23:54:58Z) - HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming [21.627116007248777]
HiVidは、VoD(Video-on-Demand)とライブストリーミングの両方で高忠実度重みを生成するために、Large Language Modelsを活用するフレームワークである。
我々は、HiVidがVODで最大11.5%、SOTAベースライン上でのライブストリーミングで最大26%の重量予測精度を向上させることを示した。
論文 参考訳(メタデータ) (2026-02-15T16:13:51Z) - LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding [23.207637210563504]
LiViBenchはインタラクティブなライブストリームビデオのための全方位ベンチマークである。
24タスクの多様なセットが特徴で、知覚、推論、ライブストリーム固有の課題を強調している。
インタラクティブなライブストリームの知識を充実させたMLLMであるLiVi-LLM-7Bを開発した。
論文 参考訳(メタデータ) (2026-01-21T14:14:20Z) - Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。
OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。
また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2025-12-09T09:40:20Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - Filter-And-Refine: A MLLM Based Cascade System for Industrial-Scale Video Content Moderation [21.18948097612397]
本稿では,ジェネレーティブMLLMを最小識別学習データを用いたマルチモーダル分類器に変換する効率的な手法を提案する。
そこで我々は,MLLMと軽量ルータモデルを統合するルータレベルのカスケードシステムを提案する。
オンライン評価では,本システムでは自動コンテンツモデレーション量を41%増加させ,カスケード展開では計算コストを1.5%に削減した。
論文 参考訳(メタデータ) (2025-07-23T04:52:58Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。