論文の概要: IMAGINE: Adaptive Schema-Imagery Enhanced Composition for Composed Video Retrieval
- arxiv url: http://arxiv.org/abs/2606.08144v1
- Date: Sat, 06 Jun 2026 12:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.8696
- Title: IMAGINE: Adaptive Schema-Imagery Enhanced Composition for Composed Video Retrieval
- Title(参考訳): IMAGINE: コンポジションビデオ検索のための適応型スキーマ画像強調合成
- Authors: Jiale Huang, Zixu Li, Zhiwei Chen, Zhiheng Fu, Chunxiao Wang, Yupeng Hu,
- Abstract要約: Composed Video Retrieval (CVR) は、修正テキストによって修正された参照ビデオと一致するターゲットビデオを取得するように設計されている。
IMAGINEは動的マルチモーダルプロトタイプを通じて暗黙のセマンティクス(決定されたスキーマ画像)を実現する。
IMAGINEは、CVRとComposeed Image Retrieval(CIR)の両方で、広く使用されている3つのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.497247372090758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Video Retrieval (CVR) is designed to retrieve a target video that matches a reference video modified by a modification text. While existing methods explore cross-modal correspondences, they often assume modified objects appear directly in videos. However, modification texts frequently describe concepts not explicitly presented but implicitly expressed through semantically related visual cues (e.g., "cake" implying "birthday party"). Current approaches typically rely on aligning explicit feature representations within the concrete space, neglecting critical latent associations. To address this, we propose an adaptIve scheMa-ImAGery enhanced composItional NEtwork (IMAGINE). Unlike standard explicit matching, IMAGINE materializes implicit semantics (termed schema imagery) via dynamic multimodal prototypes. These prototypes capture shared latent concepts to adaptively modulate visual features, effectively injecting implicit guidance into the retrieval process. By bridging the gap between explicit visual contents and implicit retrieval intentions, IMAGINE achieves state-of-the-art performance in both CVR and Composed Image Retrieval (CIR) across three widely used benchmarks.
- Abstract(参考訳): Composed Video Retrieval (CVR) は、修正テキストによって修正された参照ビデオと一致するターゲットビデオを取得するように設計されている。
既存の手法ではクロスモーダル対応を探索するが、ビデオに直接修正されたオブジェクトが現れると仮定することが多い。
しかし、修正文は、明示的に提示されていない概念をしばしば記述し、意味的に関連づけられた視覚的手がかり(例えば「ケーキ」は「誕生日パーティー」を意味する)を通して暗黙的に表現する。
現在のアプローチは典型的には、具体的な空間内での明示的な特徴表現の整合に頼り、重要な潜在関連性を無視している。
そこで本研究では,AdaptIve scheMa-ImAGery 拡張複合言語 (IMAGINE) を提案する。
標準的な明示的なマッチングとは異なり、IMAGINEは動的マルチモーダルプロトタイプを通じて暗黙のセマンティクス(決定されたスキーマ画像)を実現する。
これらのプロトタイプは、視覚的特徴を適応的に調節し、暗黙のガイダンスを検索プロセスに効果的に注入する、共有潜在概念をキャプチャする。
IMAGINEは、明示的な視覚内容と暗黙的な検索意図のギャップを埋めることで、CVRとComposeed Image Retrieval(CIR)の両方で、広く使用されている3つのベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - Novel Semantic Prompting for Zero-Shot Action Recognition [0.0]
ゼロショットアクション認識は、視覚言語モデルからセマンティック記述を用いた未知のアクションへの知識の伝達に依存している。
本稿では,複数の抽象化レベルにおける動作を記述する構造化セマンティックプロンプトを用いて,凍結視覚言語モデルを拡張する軽量フレームワークSP-CLIPを紹介する。
論文 参考訳(メタデータ) (2026-03-09T12:07:55Z) - Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration [64.12127577975696]
ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2026-01-20T15:17:14Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。