論文の概要: Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding
- arxiv url: http://arxiv.org/abs/2606.09331v1
- Date: Mon, 08 Jun 2026 10:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.931253
- Title: Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding
- Title(参考訳): Conan-embedding-v3:Fusing Modality-Specific Models for Omni-Modal Embedding
- Authors: Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang,
- Abstract要約: 本報告では,オムニモーダル検索のための復号化フレームワークであるConan-embedding-v3を提案する。
コナン-エンベディング-v3 は、まず、個別にモダリティスペシャリストを訓練し、タスクベクトルを単一の高密度バックボーンに融合させる。
この融合は、視覚、ビデオ、文書検索機能を構成するが、プロジェクタベースのモダリティの障害モードを公開することも示す。
- 参考スコア(独自算出の注目度): 27.635569025106587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Omni-modal retrieval promises a single embedding space for text, image, video, document, and audio inputs, but building such a unified retriever is difficult since these modalities differ in data distribution, architecture, and optimization dynamics. In this work, we present Conan-embedding-v3, a decouple--fuse--recover framework for omni-modal retrieval. Conan-embedding-v3 first trains modality specialists independently and fuses their task vectors into a single dense backbone, a strategy we call Decoupled Specialist Fusion. We show that this fusion composes visual, video, and document retrieval capabilities, but also exposes a failure mode for projector-based modalities: when audio is attached through an external encoder and projector, fusing the backbone leaves the projector calibrated to the audio-specialist backbone, causing a large audio retrieval regression despite copying all audio-specific modules unchanged. We call this failure Projector Drift. To repair it, Conan-embedding-v3 applies Projector Recovery (i.e., full-parameter fine-tuning of the projector while keeping the backbone frozen) followed by balanced multi-modal rehearsal. The resulting model supports these retrieval pathways in one backbone, achieving 74.9 scores on MMEB while obtaining 55.61 on the 30-task MAEB audio suite.
- Abstract(参考訳): オムニモーダル検索は、テキスト、画像、ビデオ、ドキュメント、オーディオ入力のための単一の埋め込み空間を約束するが、これらのモダリティはデータ分散、アーキテクチャ、最適化のダイナミクスが異なるため、このような統一されたレトリバーの構築は困難である。
そこで本研究では,Omni-modal 検索のためのデソプリ-ヒューズ-リカバリフレームワークであるConan-embedding-v3を提案する。
コナン・エンベディング-v3は、まずモダリティの専門家を独立に訓練し、タスクベクトルを単一の高密度のバックボーンに融合させます。
音声が外部エンコーダとプロジェクタを介してアタッチされると、背骨を融合させて、プロジェクタをオーディオ特殊主義のバックボーンに調整し、すべてのオーディオ固有のモジュールをコピーしても、大きなオーディオ検索レグレッションが発生する。
私たちはこの失敗をプロジェクター・ドリフトと呼んでいる。
修復のため、Conan-embedding-v3はプロジェクターリカバリ(背骨を凍結したままプロジェクターのフルパラメータ細調整)を施し、その後にバランスの取れたマルチモーダルリハーサルを施した。
その結果得られたモデルは、これらの検索経路を1つのバックボーンでサポートし、MMEBでは74.9得点、30タスクのMAEBオーディオスイートでは55.61得点を得た。
関連論文リスト
- Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。