論文の概要: DREAM: Extending Vision-Language Models with Dual-Objective Encoding for Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2606.19062v1
- Date: Wed, 17 Jun 2026 13:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.180792
- Title: DREAM: Extending Vision-Language Models with Dual-Objective Encoding for Cross-Modal Retrieval
- Title(参考訳): DREAM:クロスモーダル検索のための2目的符号化による視覚言語モデルの拡張
- Authors: Kaleem Ullah, Altaf Hussain, Muhammad Munsif, Sung Wook Baik,
- Abstract要約: DREAM: Dual-path Representation Enhancement and Alignment Modelを紹介する。
空間情報と時間情報を統合した階層型視覚エンコーダを設計する。
広範に使われているMSRVTT, MSVD, LSMDCベンチマークデータセットの総合的な評価を通じてDREAMを検証する。
- 参考スコア(独自算出の注目度): 8.127699016544822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's media-driven world, the exponential growth of video content across domains such as surveillance, education, and entertainment has made retrieving semantically relevant videos via natural language queries increasingly critical. Early video retrieval systems relied on handcrafted features or shallow cross-modal mappings, limiting their ability to capture complex semantics and temporal dynamics. While large-scale vision-language models have improved cross-modal alignment, challenges remain in modeling fine-grained temporal dependencies and nuanced linguistic structures. In this paper, we introduce DREAM: Dual-path Representation Enhancement and Alignment Model, a novel multimodal framework that addresses these limitations through enhanced visual and textual encoding. DREAM incorporates a hybrid language modeling strategy that combines masked and permuted language modeling objectives to capture both local and global linguistic semantics. On the visual side, we design a hierarchical vision encoder with cascaded group attention, which integrates spatial and temporal information through multi-stage token interaction and coarse-to-fine attention refinement. We validate DREAM through comprehensive evaluations on the widely-used MSRVTT, MSVD and LSMDC benchmark datasets, where it achieves new state-of-the-art R1 scores of 49.4%, 49.7% and 27.3%, respectively. Qualitative analyses further show the model's ability to maintain coherent attention across frames and align complex queries with dynamic video content. These findings underscore the effectiveness of hierarchical attention and dual-objective textual modeling in enabling robust, context-aware video retrieval, and pave the way for future research in advancing cross-modal representation learning.
- Abstract(参考訳): 今日のメディア主導の世界では、監視、教育、エンターテイメントといった分野におけるビデオコンテンツの指数関数的な成長が、自然言語クエリによる意味論的ビデオの検索をますます重要にしている。
初期のビデオ検索システムは手作りの機能や浅いクロスモーダルマッピングに依存しており、複雑なセマンティクスや時間的ダイナミクスを捉える能力に制限があった。
大規模視覚言語モデルでは、相互モーダルアライメントが改善されているが、微粒な時間依存性やニュアンスド言語構造をモデル化する上での課題は残る。
本稿では,DREAM: Dual-path Representation Enhancement and Alignment Modelを紹介する。
DREAMには、マスキングと置換言語モデリングの目的を組み合わせたハイブリッド言語モデリング戦略が組み込まれており、局所言語意味論とグローバル言語意味論の両方を捉えている。
視覚面では,多段階のトークンインタラクションと粗い注目改善により空間的・時間的情報を統合した階層型視覚エンコーダを設計する。
DREAMはMSRVTT、MSVD、LSMDCのベンチマークデータセットを総合的に評価し、それぞれ49.4%、49.7%、27.3%の新しい最先端R1スコアを達成している。
質的な分析により、フレーム全体のコヒーレントな注意を保ち、複雑なクエリをダイナミックなビデオコンテンツと整合させることができる。
これらの知見は、階層的注意と二重目的のテキストモデリングが、頑健でコンテキスト対応のビデオ検索を可能にすることの有効性を浮き彫りにして、クロスモーダル表現学習の進歩に向けた今後の研究の道を開くものである。
関連論文リスト
- VaaWIT: Visual-Aware Adaptation of Large Language Models for Multilingual Web Image Translation [18.312531006938162]
VaaWITは、多言語Web画像変換にLarge Language Modelsを適用するエンドツーエンドフレームワークである。
Dual-Stream Attention Module (DSAM)は、多言語の意味的特徴と詳細な視覚的表現の間の双方向の相互作用を容易にする。
VAA(Visual-Aware Adapter)は、これらの融合した視覚的手がかりを冷凍LDMバックボーンに動的に注入する。
論文 参考訳(メタデータ) (2026-05-23T17:25:45Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling [3.5408685781175016]
認知的に証明可能な量のデータに基づいて視覚言語モデルをトレーニングするには、モデルがマルチモーダル情報を統合する方法を再考する必要がある。
本稿では,トークンワイド動的ゲーティングを用いた軽量デコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:10:36Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。