論文の概要: Bridging the Modality Gap in Forensic Image Retrieval
- arxiv url: http://arxiv.org/abs/2606.12294v1
- Date: Wed, 10 Jun 2026 16:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.564778
- Title: Bridging the Modality Gap in Forensic Image Retrieval
- Title(参考訳): 画像検索におけるモダリティギャップのブリッジ化
- Authors: Ricardo González-Gazapo, Annette Morales-González, Yoanna Martínez-Díaz, Heydi Méndez-Vázquez, Milton García-Borroto,
- Abstract要約: マルチモーダル画像検索は 現代の法医学的分析において ますます重要な役割を担っている
本稿では,4つの重要な法医学的タスクに適応した統合検索フレームワークを提案する。
我々は,視覚のみの埋め込み,テキストのみの埋め込み,マルチモーダル融合戦略を用いて検索を評価する。
- 参考スコア(独自算出の注目度): 3.9407739937584094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated image retrieval plays an increasingly critical role in modern forensic analysis, supporting investigative workflows that rely on efficient comparison of visual evidence. While prior work has focused primarily on developing and optimizing multimodal retrieval systems, limited attention has been paid to evaluating the forensic applicability of these technologies across diverse real-world scenarios. In this study, we present a unified retrieval framework adapted to four key forensic tasks: (1) tattoo image retrieval given a tattoo query image; (2) tattoo retrieval guided by human-expert textual descriptions, modelling the common situation where a witness verbally describes a tattoo; (3) tattoo retrieval from hand-drawn sketches; and (4) face retrieval from forensic face sketches. Our system leverages a multimodal large language model (MLLM) to automatically generate structured textual descriptions for all queries and gallery images, followed by sentence-transformer embedding for text-based comparison. We evaluate retrieval using visual-only embeddings, text-only embeddings and a multimodal fusion strategy that combines text- and image-based similarity scores derived from state-of-the-art visual feature extractors relevant to each task. The fusion of modalities consistently improves retrieval precision and robustness, especially in scenarios where visual information is limited or noisy (e.g., sketches, partial tattoos, or fragmented witness statements). This work highlights the forensic value of a unified multimodal retrieval pipeline and demonstrates how modern MLLMs can operationalize challenging forensic tasks that traditionally rely on manual expert analysis. Our results position multimodal retrieval as a promising tool for supporting investigative workflows involving tattoos, facial composites, and witness descriptions.
- Abstract(参考訳): 自動画像検索は、現代の法医学的分析においてますます重要な役割を担い、視覚的証拠の効率的な比較に依存する調査ワークフローをサポートする。
先行研究は主にマルチモーダル検索システムの開発と最適化に焦点を合わせてきたが、これらの技術の様々な現実シナリオにおける法医学的適用性を評価することには、限られた注意が払われている。
本研究では,(1)タトゥー検索を付与したタトゥー画像検索,(2)人手によるテキスト記述によるタトゥー検索,(3)手描きのスケッチからのタトゥー検索,(4)顔のスケッチからの顔検索の4つの主要な法医学的課題に適応した統合型検索フレームワークを提案する。
本システムでは,マルチモーダルな大規模言語モデル(MLLM)を用いて,すべてのクエリやギャラリーイメージに対して構造化されたテキスト記述を自動的に生成し,次いでテキストベース比較のための文変換器の埋め込みを行う。
視覚のみの埋め込み、テキストのみの埋め込み、および各タスクに関連する最先端の視覚特徴抽出器から得られるテキストと画像に基づく類似度スコアを組み合わせたマルチモーダル融合戦略を用いて、検索を評価する。
モダリティの融合は、検索精度とロバスト性を一貫して改善し、特に視覚情報が限定的またはノイズの多いシナリオ(例えば、スケッチ、部分的な入れ墨、または断片化された証人文)においてである。
この研究は、統合マルチモーダル検索パイプラインの法医学的価値を強調し、現代のMLLMが、従来手動の専門家分析に依存していた挑戦的な法医学的タスクをどのように運用するかを示した。
この結果から, タトゥー, 顔の合成, 目撃者の記述を含む調査ワークフローを支援するツールとして, マルチモーダル検索が期待できると考えられた。
関連論文リスト
- Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。
本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。
DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文 参考訳(メタデータ) (2024-12-17T13:26:31Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。