論文の概要: Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval
- arxiv url: http://arxiv.org/abs/2606.19682v1
- Date: Thu, 18 Jun 2026 01:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.597454
- Title: Vortex: Multi-Modal Fusion System for Intelligent Video Retrieval
- Title(参考訳): Vortex: インテリジェントビデオ検索のためのマルチモードフュージョンシステム
- Authors: Duc-Tho Nguyen, Hieu-Hoc Tran-Minh, Khanh-Hoa Lam, Hoang-Nhut Ly, Huu-Phuc Huynh, Thanh-Tien Tran, Trung-Nghia Le,
- Abstract要約: 本稿では,我々のチームであるFocusOnFunが開発したマルチモーダルビデオ検索システムであるVortexについて,2025年のホーミン市AIチャレンジで紹介する。
このシステムは、適応型Chi抽出、視覚言語モデルからのマルチモーダルメタデータ生成、ハイブリッド検索戦略を統合する。
MilvusとSigLIP2をベースに構築されたこのアーキテクチャは、スケーラブルなインデックス作成と効率的な検索を可能にする。
- 参考スコア(独自算出の注目度): 2.5995006632251516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents Vortex, the multimodal video retrieval system developed by our team, FocusOnFun, for the Ho Chi Minh City AI Challenge 2025, designed to advance intelligent multimedia search and temporal reasoning. The system integrates adaptive keyframe extraction, multimodal metadata generation from vision-language and speech models, and a hybrid retrieval strategy that fuses CLIP and SigLIP2 embeddings through Reciprocal Rank Fusion to balance global and fine-grained semantics. To enhance interactivity, Vortex incorporates Rocchio-based relevance feedback and a multi-stage temporal search mechanism for sequential event alignment. Built on Milvus and Elasticsearch, the architecture enables scalable indexing and efficient retrieval. Evaluated in the official competition, our FocusOnFun team's system achieved a score of 79.6/88 (90.5\%) in the Preliminary Round and was further evaluated in the Final Round, achieving an `Excellent' overall performance with `Outstanding' results in the question-answering (QA) task. This demonstrating the complementary strengths of CLIP and SigLIP2 and confirming the effectiveness of the hybrid retrieval approach. The system establishes a robust foundation for future research in intelligent, context-aware, and interactive video retrieval.
- Abstract(参考訳): 本稿では,Hho Chi Minh City AI Challenge 2025のためのマルチモーダルビデオ検索システムであるVortexについて述べる。
このシステムは、適応的なキーフレーム抽出、視覚言語と音声モデルからのマルチモーダルメタデータ生成、およびCLIPとSigLIP2の埋め込みを相互ランクフュージョンを通じて融合し、グローバルおよび微粒なセマンティクスのバランスをとるハイブリッド検索戦略を統合する。
対話性を高めるため、VortexはRocchioベースの関連フィードバックと、シーケンシャルイベントアライメントのための多段階時間探索機構を組み込んだ。
MilvusとElasticsearchをベースに構築されたこのアーキテクチャは、スケーラブルなインデックス作成と効率的な検索を可能にする。
ファイナルラウンドでは,FocusOnFunチームのシステムが79.6/88(90.5\%)のスコアを獲得し,さらに「Excellent」の総合成績を,質問応答(QA)タスクで達成した。
このことはCLIPとSigLIP2の相補的強度を示し、ハイブリッド検索の有効性を確認した。
このシステムは、知的、コンテキスト認識、インタラクティブなビデオ検索における将来の研究のための堅牢な基盤を確立する。
関連論文リスト
- Turing Patterns for Multimedia: Reaction-Diffusion Multi-Modal Fusion for Language-Guided Video Moment Retrieval [59.55233913340214]
ビデオ言語モデルは、時間的ビデオシーケンスとテキスト意味論の間の動的で非線形な相互作用を捉えるのに苦労することが多い。
反応拡散過程としてビデオ言語アライメントを再現する新しいフレームワークである textbfReaction-Diffusion Multimodal Fusion (RDMF) を提案する。
予備実験は、有能なビデオモーメントを識別する既存の手法より優れている可能性を実証している。
論文 参考訳(メタデータ) (2026-06-01T03:02:35Z) - TempRet: Temporal Enhancement and Two-Stage Reranking for CVPR 2026 EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge [71.10535279591527]
我々は,CVPR 2026 EPIC-KITCHENS-100 MIRチャレンジに対して,TempRetと呼ばれるソリューションを提示する。
当社のアプローチは,CLIPベースのデュアルエンコーダのバックボーン上に構築されており,時間的および横断的な課題に対処するための2つの重要なコンポーネントを導入している。
EK-100 MIRベンチマークでは,平均mAPは67.97%,平均nDCGは82.92%であった。
論文 参考訳(メタデータ) (2026-05-23T08:37:39Z) - CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval [0.0]
モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
論文 参考訳(メタデータ) (2025-12-06T07:46:51Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。