論文の概要: LightSTAR: Efficient Visual Document Retrieval via Lightweight Selection with Vision-Adaptive Refinement
- arxiv url: http://arxiv.org/abs/2606.23539v1
- Date: Mon, 22 Jun 2026 16:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:23:05.52459
- Title: LightSTAR: Efficient Visual Document Retrieval via Lightweight Selection with Vision-Adaptive Refinement
- Title(参考訳): LightSTAR: 視覚適応リファインメントを用いた軽量選択による効率的なビジュアルドキュメント検索
- Authors: Tongkun Guan, Haocheng Wang, Wei Shen, Xiaokang Yang,
- Abstract要約: LightSTARは、視覚的な文書検索をキーワードと意味的にリッチな単語に分解する効率的なフレームワークである。
LightSTARは、エンドツーエンドのレイテンシを複数倍に削減しながら、最先端の検索精度を実現する。
- 参考スコア(独自算出の注目度): 40.36520318905935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual document retrieval requires rapidly locating relevant pages from large multi-modal corpora in response to user queries. While recent methods powered by Multi-modal Large Language Models (MLLMs) show competitive accuracy, they suffer from prohibitive computational costs by applying intensive MLLM encoding to every single page. Meanwhile, we observe that user queries are typically keyword-anchored, containing semantically rich words that are expected to appear directly in the visible text of relevant pages, offering an efficient cue for quickly narrowing down candidate pages. Building on this insight, we propose LightSTAR, an efficient framework that decomposes visual document retrieval into: 1) LLM-free Visual Selection, which utilizes content-grounded query encoding to focus on informative words and employs LLM-free visual embeddings to produce a high-recall candidate set; and 2) Vision-adaptive Semantic Refinement, which further performs fine-grained semantic matching exclusively on these top candidates via adaptive region-wise feature fusion to effectively combine textual and layout cues, optimized through a hardness-aware contrastive objective. Experimental results demonstrate that LightSTAR achieves state-of-the-art retrieval accuracy while reducing end-to-end latency by several-fold, offering a highly practical solution to the accuracy-efficiency trade-off in visual document retrieval. Code is available at https://github.com/bokufa/LightSTAR.
- Abstract(参考訳): ビジュアル文書の検索には、ユーザクエリに応答して、巨大なマルチモーダルコーパスから関連ページを素早く見つけ出す必要がある。
近年,Multi-modal Large Language Models (MLLM) を用いた手法では,各ページに集中的なMLLMエンコーディングを適用することで,計算コストを抑えることができる。
一方,ユーザクエリはキーワードアンコールが一般的であり,関連するページの可視テキストに直接現れることが期待される意味的にリッチな単語が含まれており,候補ページを素早く絞り込むための効率的なキューを提供する。
この知見に基づいて、視覚的文書検索を分割する効率的なフレームワークであるLightSTARを提案する。
1 LLMフリーなビジュアル選択は、コンテンツグラウンドのクエリエンコーディングを利用して情報語に焦点を合わせ、LLMフリーなビジュアル埋め込みを用いてハイリコール候補セットを生成する。
2) 視覚適応型セマンティック・リファインメントは, 適応的領域的特徴融合により, これらの上位候補にのみ, 微粒なセマンティック・マッチングを実行し, テキストとレイアウトを効果的に組み合わせ, 硬度を意識したコントラスト目的により最適化する。
実験結果から、LightSTARは最先端の検索精度を達成しつつ、エンドツーエンドのレイテンシを複数倍に低減し、ビジュアル文書検索における精度効率のトレードオフに対する極めて実用的な解決策を提供することが示された。
コードはhttps://github.com/bokufa/LightSTARで入手できる。
関連論文リスト
- Developing Visual Augmented Q&A System using Scalable Vision Embedding Retrieval & Late Interaction Re-ranker [0.0]
本稿では,視覚検索プロセスのスケーラビリティと効率を向上するための実用的アプローチを,性能品質を損なうことなく検討する。
本稿では,広く採用されているハイブリッド検索(メタメタと埋め込み)と,遅延インタラクションリランカの状態を利用して,最適なマッチングページを検索する多段階カスタム実装を提案する。
論文 参考訳(メタデータ) (2025-07-16T16:27:05Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。