論文の概要: Never Seen Before: Benchmarking Genuine Zero-Shot Composed Image Retrieval with Consistent Video-Sourced Datasets
- arxiv url: http://arxiv.org/abs/2606.07032v1
- Date: Fri, 05 Jun 2026 08:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.638057
- Title: Never Seen Before: Benchmarking Genuine Zero-Shot Composed Image Retrieval with Consistent Video-Sourced Datasets
- Title(参考訳): Genuine Zero-Shotコンポジション画像検索と一貫性のあるビデオソースデータセットのベンチマーク
- Authors: Zhenyu Yang, Zemin Du, Shengsheng Qian, Changsheng Xu,
- Abstract要約: Zero-Shot Composed Image Retrieval (ZS-CIR) は、参照画像と相対キャプションからなるクエリに基づいて、サンプルをトレーニングせずにターゲット画像を取得することを目的としている。
既存のZS-CIRデータセットは、ノイズの多い画像ソースのため、参照画像とターゲット画像の完全な不一致に悩まされることが多い。
ZS-CIRの新しいベンチマークであるZeroSightを紹介する。
- 参考スコア(独自算出の注目度): 61.420656457977195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve a target image based on a query composed of a reference image and a relative caption without training samples. Existing ZS-CIR datasets often suffer from complete irrelevance between reference and target images due to noisy image sources, and do not achieve a true zero-shot scenario as they use public image datasets that models like CLIP have been trained on. To tackle these challenges, we introduce ZeroSight, a novel benchmark for ZS-CIR. It includes a dataset with consistent reference-target pairs sourced from videos, a data construction pipeline, and evaluation methods that consider the ranking of multiple positive and negative target images. We ensure visually and semantically consistent reference-target pairs by extracting frames from a single video and generating relative captions using LLM-assisted methods. To ensure a true zero-shot scenario, we use video data published after March 31, 2022, ensuring it was not included in CLIP's pre-training data. Additionally, we propose a training-free MLLM-driven method, SC4CIR (Symmetric Consistency for CIR), which can effectively identify hard negative targets through 3 symmetric consistency checks. This method is plug-and-play, seamlessly integrating with various CIR methods and significantly improving performance. Our experimental results from 27 methods reveal that current ZS-CIR datasets and evaluation metrics result in inflated retrieval performance, exaggerating the capabilities of CIR methods. Our benchmark and models can be accessed at https://github.com/sotayang/ZeroSight.
- Abstract(参考訳): Zero-Shot Composed Image Retrieval (ZS-CIR) は、参照画像と相対キャプションからなるクエリに基づいて、サンプルをトレーニングせずにターゲット画像を取得することを目的としている。
既存のZS-CIRデータセットは、ノイズの多い画像ソースによる参照とターゲットイメージの完全な不一致に悩まされることが多く、CLIPのようなモデルがトレーニングされているパブリックイメージデータセットを使用するため、真のゼロショットシナリオは達成できない。
これらの課題に対処するために、ZS-CIRの新しいベンチマークであるZeroSightを紹介する。
これには、ビデオからソースされた一貫した参照ターゲット対を持つデータセット、データ構築パイプライン、複数の正と負のターゲットイメージのランキングを考慮に入れた評価方法が含まれる。
我々は、単一のビデオからフレームを抽出し、LLM支援手法を用いて相対的なキャプションを生成することにより、視覚的かつ意味的に一貫した参照ターゲットペアを確保する。
真のゼロショットシナリオを保証するため、2022年3月31日以降に公開されたビデオデータを使用し、CLIPの事前トレーニングデータには含まれないことを確認する。
さらに,3 対称整合性チェックによるハードネガティブターゲットの同定を効果的に行う,学習不要な SC4CIR (Symmetric Consistency for CIR) を提案する。
この方法はプラグアンドプレイであり、様々なCIRメソッドとシームレスに統合され、性能が大幅に向上する。
27の手法による実験結果から、現在のZS-CIRデータセットと評価指標が拡張された検索性能をもたらし、CIR法の性能を誇張していることが明らかとなった。
私たちのベンチマークとモデルはhttps://github.com/sotayang/ZeroSight.comでアクセスできます。
関連論文リスト
- SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval [10.874487857707038]
Composed Image Retrieval (CIR) は、参照画像と修正テキストからなるクエリからターゲット画像を取得することを目的としている。
SDR-CIR(SDR-CIR)を提案する。
論文 参考訳(メタデータ) (2026-02-04T11:24:35Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。