Fugu-MT 論文翻訳(概要): Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

論文の概要: Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval

arxiv url: http://arxiv.org/abs/2606.19684v1
Date: Thu, 18 Jun 2026 01:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.599197
Title: Exploring Multi-Modal Large Language Models and Two-Stage Fine-Tuning for Fashion Image Retrieval
Title（参考訳）: ファッション画像検索のための多モード大言語モデルと2段階ファインチューニングの探索
Authors: Nguyen Cao Hoang, Hoang Bui Le, Nam Vo Hoang, Trung-Nghia Le,
Abstract要約: ファッション領域では、このタスクは色、パターン、テクスチャといった微妙なバリエーションを理解する必要がある。既存のアプローチは、注釈付きデータが少なく、単純なネガティブサンプリングのために制限に直面している。本稿では,多粒大言語モデル (LLaVA) を統合し,属性認識三重項を生成する新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 3.1033110046835457
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Composed image retrieval retrieves a target image using a composed query of a reference image and a modified text description. In the fashion domain, this task requires understanding subtle attribute variations such as color, pattern, and texture. However, existing approaches face limitations due to scarce annotated data and simplistic negative sampling. We propose a novel framework that integrates a multi-modal large language model (LLaVA) to generate attribute-aware triplets and introduces a two-stage fine-tuning strategy to enhance contrastive learning. We leverage pretrained vision-language models, such as CLIP-ViT/B32, to generate and concatenate sentence-level prompts with the relative caption and to scale the number of negatives using static representations. Experimental results demonstrate enhanced compositional reasoning and improved fine-grained retrieval behavior, underscoring the feasibility and potential of the proposed framework for fashion retrieval.
Abstract（参考訳）: 合成画像検索は、参照画像の合成クエリと修正されたテキスト記述とを用いて対象画像を検索する。ファッション領域では、このタスクは色、パターン、テクスチャといった微妙な属性のバリエーションを理解する必要がある。しかし、既存のアプローチは、注釈付きデータが少なく、単純なネガティブサンプリングのために制限に直面している。本稿では,マルチモーダルな大規模言語モデル(LLaVA)を統合して属性認識三脚を生成する新しいフレームワークを提案し,コントラスト学習を強化するための2段階の微調整戦略を提案する。我々は、CLIP-ViT/B32のような事前学習された視覚言語モデルを利用して、文レベルのプロンプトを相対的なキャプションに生成・連結し、静的表現を用いて負の数を拡大する。提案手法の有効性と可能性を実証し, 合成推論の強化, きめ細かな検索行動の向上を図った。

関連論文リスト

MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。 CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文参考訳（メタデータ） (2026-03-18T04:49:19Z)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching [8.470864568439968]
本稿では、画像テキストと要素マッチング(iMatch)のためのインストラクション強化マルチモーダルアライメントと呼ばれる改善された評価手法を提案する。 iMatchは、微調整された多モーダルな言語モデルにより、画像テキストのセマンティックアライメントを評価する。実験の結果,iMatch法は既存の手法をはるかに上回り,その有効性と実用性を確認した。
論文参考訳（メタデータ） (2025-04-16T12:21:49Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文参考訳（メタデータ） (2024-01-20T22:04:28Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)
Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。 Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文参考訳（メタデータ） (2020-06-30T22:55:02Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。