論文の概要: Beyond Patches: Superpixel Token-based Transformers for Attribute-Specific Fashion Retrieval
- arxiv url: http://arxiv.org/abs/2606.10697v1
- Date: Tue, 09 Jun 2026 10:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.019862
- Title: Beyond Patches: Superpixel Token-based Transformers for Attribute-Specific Fashion Retrieval
- Title(参考訳): パッチを超えて:超画素トークンベースの属性特異的ファッション検索用トランスフォーマー
- Authors: Shuili Zhang, Hongzhang Mu, Wenyuan Zhang, Duohe Ma, Tingwen Liu,
- Abstract要約: SuperFashionはTransformerアーキテクチャ内でスーパーピクセルトークンを採用する最初のフレームワークである。
SuperFashionは属性関連の特徴を抽出するために属性誘導型アテンションメカニズムを使用している。
スーパーピクセルセグメンテーションはこれらの領域を利用して、コンパクトでセマンティックにコヒーレントなスーパーピクセルトークンを生成する。
- 参考スコア(独自算出の注目度): 23.129131576592403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribute-Specific Fashion Retrieval (ASFR) aims to improve fine-grained image retrieval by focusing on specific attributes. However, existing patch-based attention and Transformer methods often misalign with irregular attribute regions and are prone to background noise, limiting their ability to capture subtle, pixel-level microstructures. To tackle these challenges, we propose SuperFashion, the first ASFR framework that adopts superpixel tokens within a Transformer architecture. SuperFashion initially employs an attribute-guided attention mechanism to extract attribute-related features, which in turn guide the cropping of semantically meaningful image regions. Superpixel segmentation is then leveraged on these regions to generate compact, semantically coherent superpixel tokens. By incorporating modality-specific embeddings for both attribute and superpixel tokens, the superpixel token-based Transformer facilitates adaptive interaction and fusion, thereby enhancing attribute localization and discrimination. Extensive experiments on FashionAI, DARN, and DeepFashion demonstrate relative overall MAP improvements of 1.84%, 9.27%, and 9.35% over prior SOTA. SuperFashion offers a new solution for web-based image retrieval.
- Abstract(参考訳): Attribute-Specific Fashion Retrieval (ASFR) は、特定の属性に着目してきめ細かい画像検索を改善することを目的としている。
しかし、既存のパッチベースのアテンションとトランスフォーマーの手法は、しばしば不規則な属性領域と不一致であり、背景ノイズの傾向があり、微妙なピクセルレベルのマイクロ構造を捉える能力を制限する。
これらの課題に対処するために,Transformer アーキテクチャ内でスーパーピクセルトークンを採用する最初の ASFR フレームワークである SuperFashion を提案する。
SuperFashionは最初属性誘導型アテンションメカニズムを使用して属性関連の特徴を抽出し、意味論的に意味のある画像領域のトリミングを導く。
スーパーピクセルセグメンテーションはこれらの領域を利用して、コンパクトでセマンティックにコヒーレントなスーパーピクセルトークンを生成する。
属性とスーパーピクセルトークンの両方にモダリティ固有の埋め込みを組み込むことで、スーパーピクセルトークンベースのトランスフォーマーは適応的な相互作用と融合を促進し、属性のローカライゼーションと識別を強化する。
FashionAI、DARN、DeepFashionの大規模な実験では、SOTAよりも1.84%、9.27%、9.35%のMAP改善が見られた。
SuperFashionはウェブベースの画像検索の新しいソリューションを提供する。
関連論文リスト
- AttDiff-GAN: A Hybrid Diffusion-GAN Framework for Facial Attribute Editing [78.6161238980415]
AttDiff-GANは、GANベースの属性操作と拡散ベースの画像生成を組み合わせたハイブリッドフレームワークである。
提案手法は,最先端の手法よりも,より正確な顔属性の編集と非ターゲット属性の保存が可能であることを示す。
論文 参考訳(メタデータ) (2026-04-23T05:05:46Z) - SuperInpaint: Learning Detail-Enhanced Attentional Implicit
Representation for Super-resolutional Image Inpainting [26.309834304515544]
我々はSuperInpaintと呼ばれる課題の画像復元タスクを導入する。
この課題は、低解像度画像中の欠落領域を再構築し、任意の高解像度画像を生成することである。
本論文では,SuperInpaintを1つのモデルで実現可能な細部強調型暗黙表現を提案する。
論文 参考訳(メタデータ) (2023-07-26T20:28:58Z) - Adaptive Superpixel for Active Learning in Semantic Segmentation [34.0733215363568]
本稿では,ピクセル単位のアノテーションではなく,上位のラベルを収集する,スーパーピクセル単位のアクティブラーニングフレームワークを提案する。
スーパーピクセル毎に支配的なラベルを持つことは、クリック数が少なくなるため、アノテータの負担を大幅に削減する。
また、潜在的にノイズの多いアノテーションを学習から識別し排除するシービングメカニズムも考案した。
論文 参考訳(メタデータ) (2023-03-29T16:07:06Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - HIPA: Hierarchical Patch Transformer for Single Image Super Resolution [62.7081074931892]
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
論文 参考訳(メタデータ) (2022-03-19T05:09:34Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - SuperPatchMatch: an Algorithm for Robust Correspondences using Superpixel Patches [6.264258565843105]
われわれはまず,SuperPatchと呼ばれるスーパーピクセルベースのパッチを新たに導入する。
提案した構造は,空間情報が自然に含まれているため,強靭な記述子となる。
画像データベースから高速なセグメンテーションとラベリングを行うためのフレームワークを提案し、計算コストと精度、顔ラベリングと医用画像セグメンテーションの両面で最先端の手法の結果を比較検討した結果、我々のアプローチの可能性を実証した。
論文 参考訳(メタデータ) (2019-03-17T21:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。