論文の概要: MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2606.25225v1
- Date: Tue, 23 Jun 2026 22:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.165168
- Title: MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning
- Title(参考訳): MJEPA: オーディオ・ビジュアル・ラーニングのためのシンプルでスケーラブルな統合埋め込み予測アーキテクチャ
- Authors: Revant Teotia, Adrien Bardes, Michael Rabbat, Sumit Chopra, Matthew J. Muckley, Nicolas Ballas,
- Abstract要約: 大規模ビデオデータからの自己教師付き学習が視覚表現学習の主流のパラダイムとして浮上している。
既存の方法は、モダリティ固有のエンコーダと、コントラストや再構成目的の複雑な組み合わせに依存している。
両モードで単一の統一エンコーダを使用する音声・視覚学習のための共同埋め込み型予測アーキテクチャであるMJEPAを紹介する。
- 参考スコア(独自算出の注目度): 15.707226798418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning from large-scale video data has emerged as a dominant paradigm for visual representation learning. Since audio and visual streams naturally co-occur in video data, extending this success to jointly learn from both modalities is a natural next step, yet it remains challenging. Existing audio-visual self-supervised methods rely on modality-specific encoders and complex combinations of contrastive or reconstruction objectives, limiting cross-modal synergy and scalability. Joint Embedding Predictive Architectures (JEPAs) offer a simple, modality-agnostic alternative, but have to date been applied primarily to individual modalities. We introduce MJEPA, a joint-embedding predictive architecture for audio-visual learning that uses a single, unified encoder for both modalities. Our approach uses only a single predictive objective, applied both within and across modalities. We show that cross-modal prediction is critical: without it, a shared encoder degrades below unimodal baselines; with it, each modality's representation benefits from the other. Our frozen ViT-g model outperforms the best prior frozen baseline by over 6.8 mAP on AudioSet-20K, surpasses fully finetuned models on ESC-50 and FSD50K, and is competitive on video benchmarks despite using 10x less video data.
- Abstract(参考訳): 大規模ビデオデータからの自己教師付き学習が視覚表現学習の主流のパラダイムとして浮上している。
オーディオとビジュアルストリームは、ビデオデータに自然に共生しているので、この成功を両モードから共同で学ぶことが、次の自然なステップである。
既存の音声・視覚的自己監督手法は、モダリティ固有のエンコーダとコントラストや再構成目的の複雑な組み合わせに依存しており、モダリティ間の相乗効果とスケーラビリティを制限している。
共同埋め込み予測アーキテクチャ(JEPA)は、単純でモダリティに依存しない代替手段を提供するが、これまでは主に個々のモダリティに適用されてきた。
両モードで単一の統一エンコーダを使用する音声・視覚学習のための共同埋め込み型予測アーキテクチャであるMJEPAを紹介する。
私たちのアプローチでは、モダリティ内および横断的に適用される単一の予測目的のみを使用します。
共用エンコーダは単調なベースライン以下に分解され、各モダリティの表現は他方から恩恵を受ける。
凍結したViT-gモデルは、AudioSet-20Kで6.8mAP以上、ESC-50とFSD50Kで完全に微調整されたモデルより優れており、ビデオデータの10倍少ないにもかかわらず、ビデオベンチマークでは競争力がある。
関連論文リスト
- JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation [57.864929968616586]
Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
論文 参考訳(メタデータ) (2025-11-24T07:11:12Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Hear Me Out: Fusional Approaches for Audio Augmented Temporal Action
Localization [7.577219401804674]
本稿では TAL に対する単純かつ効果的な核融合法を提案する。
実験により,本手法は,アートビデオのみの TAL アプローチにおける性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-27T00:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。