論文の概要: Stellar: Scalable Multimodal Document Retrieval for Natural Language Queries
- arxiv url: http://arxiv.org/abs/2606.19960v1
- Date: Thu, 18 Jun 2026 08:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.750247
- Title: Stellar: Scalable Multimodal Document Retrieval for Natural Language Queries
- Title(参考訳): Stellar: 自然言語クエリのためのスケーラブルなマルチモーダルドキュメント検索
- Authors: Yuxiang Guo, Zhonghao Hu, Yuren Mao, Yuhang Liu, Congcong Ge, Xiaolu Zhang, Jun Zhou, Yunjun Gao,
- Abstract要約: マルチモーダル文書検索は,レトリーバル拡張生成(RAG)システムにおいて重要な役割を担っている。
このようなマルチベクタ表現は、検索中にかなりのメモリオーバーヘッドを発生させ、スケーラビリティが低下し、実際のデプロイメントを妨げます。
我々は、スケーラブルなマルチモーダル文書検索フレームワークであるStellarを紹介し、ディスク上にトークンレベルの文書埋め込みを格納し、遅いインタラクションのために少数の候補埋め込みだけをメモリにロードする。
- 参考スコア(独自算出の注目度): 31.77486898786121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal document retrieval--selecting the most relevant multimodal document from a large corpus to answer a natural language query--plays an essential role in Retrieval-Augmented Generation (RAG) systems. State-of-the-art methods represent each document and query with multiple token-level embeddings and use late interaction to achieve high effectiveness. However, such multi-vector representations incur substantial memory overhead during retrieval, leading to poor scalability and hindering real-world deployment. In this paper, we present Stellar, a scalable multimodal document retrieval framework that stores token-level document embeddings on disk and loads only a small set of candidate embeddings into memory for late interaction. Stellar comprises two key components: (i) Lexical Representation-based Filtering (LRF), which fine-tunes a Multimodal Large Language Model (MLLM) as a sparse encoder to produce high-quality lexical representations, enabling efficient and effective document filtering to significantly reduce the candidate set; (ii) Efficient Disk-backed Late Interaction (DLI), which designs an on-disk token embedding storage layout guided by a balanced clustering algorithm, and dynamically loads only the necessary token embeddings into memory using a simple yet effective cost model. Extensive experiments on four real-world benchmarks and a newly presented large-scale dataset demonstrate that Stellar reduces memory overhead and query latency by 1-2 orders of magnitude compared to existing methods without compromising retrieval effectiveness.
- Abstract(参考訳): 大規模コーパスから最も関連性の高いマルチモーダル文書を選択して自然言語クエリに応答するマルチモーダル文書検索は、検索-拡張生成(RAG)システムにおいて重要な役割を果たす。
State-of-the-artメソッドは、各ドキュメントとクエリを複数のトークンレベルの埋め込みで表現し、遅延インタラクションを使用して高い効率を達成する。
しかし、このようなマルチベクタ表現は、検索中にかなりのメモリオーバーヘッドを発生させ、スケーラビリティが低下し、現実のデプロイメントを妨げます。
本稿では,ディスク上にトークンレベルの文書埋め込みを格納するスケーラブルなマルチモーダル文書検索フレームワークであるStellarについて述べる。
Stellarは2つの重要なコンポーネントから構成される。
一 語彙表現に基づくフィルタリング(LRF)であって、マルチモーダル大言語モデル(MLLM)をスパースエンコーダとして微調整し、高品質な語彙表現を生成し、効率よく効果的な文書フィルタリングを可能にして、候補セットを大幅に削減するものである。
(II) 分散クラスタリングアルゴリズムによって誘導されるオンディスクトークン埋め込みストレージレイアウトを設計し, シンプルで効果的なコストモデルを用いて, 必要なトークン埋め込みのみをメモリに動的にロードするDLI(Dicient Disk-backed Late Interaction)を提案する。
4つの実世界のベンチマークと、新たに発表された大規模データセットに関する大規模な実験により、Stellarは、検索効率を損なうことなく、既存の方法と比較してメモリオーバーヘッドとクエリレイテンシを1~2桁削減することを示した。
関連論文リスト
- LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding [23.227000200423458]
本稿では,ページレベルからブロックレベルまで多モードRAGを進化させる新しいフレームワークLFRAGを提案する。
ブロックレベルの遅延検索により、LFRAGは正確なクエリコンテンツアライメントを可能にし、ダウンストリーム生成のための無関係なコンテンツを削減する。
LFDocQAの実験では、LFRAGは検索タスクにおける最先端のパフォーマンスを達成し、解答精度が7.20%向上し、生成タスクにおけるトークン消費が73.07%減少した。
論文 参考訳(メタデータ) (2026-04-18T05:04:49Z) - Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations [39.98860473310998]
ColParseは、ドキュメント解析モデルを利用して、レイアウトインフォームドされた小さなサブイメージの埋め込みを生成する新しいパラダイムである。
実験により,本手法はストレージ要求を95%以上削減し,同時に性能向上を図っている。
論文 参考訳(メタデータ) (2026-03-02T09:55:00Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - ScaleDoc: Scaling LLM-based Predicates over Large Document Collections [17.985997510845873]
現代のワークロードでは、意味的理解を必要とする非構造化ドキュメントがますます多く含まれている。
textscScaleDocは、述語実行をオフライン表現フェーズと最適化されたオンラインフィルタリングフェーズに分離することで、この問題に対処する新しいシステムである。
textscScaleDocは2$times$のエンドツーエンドのスピードアップを実現し、高価なLCM呼び出しを最大85%削減し、大規模なセマンティック分析を実用的かつ効率的にする。
論文 参考訳(メタデータ) (2025-09-16T03:18:06Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。