論文の概要: Show, Don't Ask: Generative Visual Disambiguation for Composed Image Retrieval with Turn-Valid Coverage
- arxiv url: http://arxiv.org/abs/2606.18992v1
- Date: Wed, 17 Jun 2026 12:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.156157
- Title: Show, Don't Ask: Generative Visual Disambiguation for Composed Image Retrieval with Turn-Valid Coverage
- Title(参考訳): Show, Don't Ask: Turn-Valid Coverage を用いた合成画像検索のための生成的視覚的曖昧化
- Authors: Amsisan Tran, Baogh Le, Tuan Kiet Pham, Sui Yang Guang,
- Abstract要約: 合成画像検索(CIR)は、基準画像とテキスト修正を用いて対象画像の検索を行う。
本稿では,視覚的代替案の小さなパネルをユーザに提供することで,あいまいさを解消する明確化フレームワークであるCLARAを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval (CIR) uses a reference image and a text modification to search for a target image. However, such queries often describe several possible images rather than one exact target, making the user's intent ambiguous. Recent methods address this by using conformal prediction to estimate ambiguity and by asking users clarifying text questions. However, these methods have two limitations: their coverage guarantee only holds at the first interaction, and text questions are often insufficient for resolving fine-grained visual differences such as appearance, attributes, or viewpoint. We propose CLARA, a clarification framework that resolves ambiguity by showing users a small panel of visual alternatives. Instead of answering text questions, the user simply selects the prototype image closest to the intended target. This provides a direct visual signal and avoids relying on a model to predict the user's answer. To maintain valid conformal guarantees across multiple interaction rounds, CLARA reweights calibration using the likelihood ratio induced by the user's selection. The displayed prototypes are also constrained to represent the current candidate set and are snapped to real corpus images, ensuring that generated images cannot artificially improve coverage. Experiments on open-domain and fashion benchmarks show that CLARA matches single-turn state-of-the-art retrieval performance, maintains nominal coverage across interaction rounds, and finds the intended target in fewer rounds than strong text-question baselines. Its advantage is especially clear when ambiguity involves viewpoint or fine-grained attributes, where visual clarification is more effective than textual questioning.
- Abstract(参考訳): 合成画像検索(CIR)は、基準画像とテキスト修正を用いて対象画像の検索を行う。
しかしながら、そのようなクエリは1つの正確なターゲットではなく、複数の可能なイメージを記述することが多いため、ユーザの意図は曖昧である。
近年の手法では、コンフォメーション予測を用いて曖昧さを推定し、テキスト質問を明確にすることでこの問題に対処している。
しかしながら、これらの手法には2つの制限がある: カバレッジ保証は、最初のインタラクションでのみ成立し、テキスト質問は、外観、属性、視点などの細かい視覚的違いを解決するのに不十分である。
本稿では,視覚的代替案の小さなパネルをユーザに提供することで,あいまいさを解消する明確化フレームワークであるCLARAを提案する。
テキスト質問に答える代わりに、ユーザは意図したターゲットに最も近いプロトタイプ画像を選択する。
これにより、直接視覚信号が提供され、ユーザの回答を予測するためにモデルに頼ることを避ける。
複数の対話ラウンドにまたがる有効な共形保証を維持するため、CLARAはユーザの選択によって引き起こされる可能性比を用いてキャリブレーションをリライトする。
表示されたプロトタイプは、現在の候補セットを表すよう制約され、実際のコーパス画像にスナップされ、生成された画像が人工的にカバレッジを改善できないことが保証される。
オープンドメインとファッションベンチマークの実験では、CLARAは1ターンの最先端検索性能と一致し、対話ラウンドを通した名目カバレッジを維持し、意図されたターゲットを強力なテキスト検索ベースラインよりも少ないラウンドで見つける。
その利点は、曖昧さが視点や微粒な属性にかかわる場合、特に明確であり、視覚的明確化はテキストによる質問よりも効果的である。
関連論文リスト
- Resolving Ambiguity in Composed Image Retrieval via Calibrated Interaction [0.0]
合成画像検索(CIR)は、コーパスに参照画像と修正方法を記述するテキストを検索する。
本稿では,CIRRの休眠補助アノテーションと対話アノテーションを復活させる,ベンチマークおよび人間検証型ユーザシミュレータであるAmbiCIRを紹介する。
論文 参考訳(メタデータ) (2026-05-23T15:49:16Z) - DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval [53.482391830683014]
合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
論文 参考訳(メタデータ) (2026-03-04T13:17:44Z) - Seeing Through Words: Controlling Visual Retrieval Quality with Language Models [68.49490036960559]
本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。
我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。
提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
論文 参考訳(メタデータ) (2026-02-24T18:20:57Z) - Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries [19.511404894563455]
我々は、与えられた自然言語タスクに対して、モデルがどのようにうまく機能するかを評価するために、テキストのみの比較を使用して、事前の作業の上に構築する。
我々は、ゼロショット精度の予測を評価・改善するために、そのタスクに関連する合成画像を生成するアプローチを検討する。
論文 参考訳(メタデータ) (2026-01-24T17:30:23Z) - SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。
SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。
このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文 参考訳(メタデータ) (2025-12-01T18:33:04Z) - Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。