論文の概要: LARE: Low-Attention Region Encoding for Text-Image Retrieval
- arxiv url: http://arxiv.org/abs/2606.18885v1
- Date: Wed, 17 Jun 2026 10:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.107186
- Title: LARE: Low-Attention Region Encoding for Text-Image Retrieval
- Title(参考訳): LARE:テキスト画像検索のための低アテンション領域符号化
- Authors: Abdulmalik Alquwayfili, Faisal Almeshal, Jumanah Almajnouni, Leena Alotaibi, Faisal Alhajari, Mohammed Alkhrashi, Alreem Almuhrij, Abdullah Aldwyish, Raied Aljadaany, Huda Alamri, Muhammad Kamran J. Khan,
- Abstract要約: LARE(Low-Attention Region)は、これらの見落としている領域を明示的にモデル化するフレームワークである。
Dense-SetはCOCOとFlickr30Kから派生した挑戦的なサブセットである。
その結果,提案フレームワークは,共有潜在空間内の微妙な非支配的な視覚的手がかりを保存することにより,検索性能の向上を図っている。
- 参考スコア(独自算出の注目度): 0.8350105515356159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image retrieval in crowded scenes is particularly challenging due to the salience bias of conventional visual encoders, which tend to focus on dominant objects while neglecting low-attention regions that are often crucial for fine-grained retrieval. We propose LARE (Low-Attention Region Encoding), a framework that explicitly models these overlooked regions. LARE adopts a dual-encoding strategy that encodes low-attention regions of an image and the full image in parallel, leading to more diverse and informative image embeddings. To evaluate image retrieval performance in challenging crowded scenes, we introduce Dense-Set, a challenging subset derived from COCO and Flickr30K. In this subset, images are re-captioned to provide richer descriptions of low-attention or previously overlooked regions. This dataset highlights the limitations of existing retrieval models and enables a more rigorous evaluation under densely crowded scene conditions. Experimental results demonstrate that the proposed framework improves retrieval performance by preserving subtle, non-dominant visual cues within the shared latent space.
- Abstract(参考訳): 密集したシーンにおける画像検索は、しばしば細粒度検索に不可欠な低アテンション領域を無視しながら、支配的な対象に焦点を絞る従来のビジュアルエンコーダのサリエンスバイアスのため、特に困難である。
我々は,これらの見落としている領域を明示的にモデル化するフレームワークであるLARE(Low-Attention Region Encoding)を提案する。
LAREは、イメージとフルイメージの低アテンション領域を並列に符号化するデュアルエンコーディング戦略を採用しており、より多様で情報的なイメージ埋め込みをもたらす。
混み合ったシーンにおける画像検索性能を評価するために,COCOとFlickr30Kから派生した挑戦的なサブセットであるDense-Setを紹介した。
このサブセットでは、イメージは再カプセル化され、低アテンションまたは以前見落とされた領域のよりリッチな記述を提供する。
このデータセットは、既存の検索モデルの限界を強調し、密集したシーン条件下でより厳密な評価を可能にする。
実験により,提案フレームワークは,共有潜在空間内の微妙な非支配的な視覚的手がかりを保存することにより,検索性能の向上を図っている。
関連論文リスト
- Learning to See What You Need: Gaze Attention for Multimodal Large Language Models [96.20985292033465]
本稿では,世代別タスク関連視覚領域へのMLLMの選択的参加を可能にする新しいメカニズムであるGaze Attentionを紹介する。
注意計算では、視線KVエントリが最大90%少ないのに対して、視線アテンションは高密度アテンションベースラインと一致または超過していることが示される。
論文 参考訳(メタデータ) (2026-05-13T06:54:09Z) - RADA: Region-Aware Dual-encoder Auxiliary learning for Barely-supervised Medical Image Segmentation [33.17607546116405]
希少な教師付き学習は,数個のラベル付きスライスをボリューム毎に使用することで,アノテーションの負担を軽減する。
本稿では,新しい領域認識型デュアルエンコーダ補助学習パイプラインであるRADを提案する。
このフレームワークは、画像レベルのきめ細かい視覚特徴とテキストレベルのセマンティックガイダンスを組み合わせることで、地域対応のセマンティックインスペクションを提供する。
論文 参考訳(メタデータ) (2026-04-13T08:26:26Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - Experimental Evaluation of Static Image Sub-Region-Based Search Models Using CLIP [5.732912699831267]
マルチモーダルテキストイメージモデルは、広範な画像コレクションにおいて効果的なテキストベースのクエリを可能にした。
本研究では,不明瞭なテキストクエリを補完する位置ベースのプロンプトを追加することで,検索性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2025-06-07T22:31:24Z) - Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。
本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。