論文の概要: miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity
- arxiv url: http://arxiv.org/abs/2606.10759v2
- Date: Tue, 16 Jun 2026 02:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.521111
- Title: miniReranker: Efficient Multimodal Reranking through Visual Cache Reuse and Interaction Sparsity
- Title(参考訳): miniReranker: Visual Cache ReuseとInteraction Sparsityによる効率的なマルチモーダルリグレード
- Authors: Yingqi Fan, Xuan Lu, Anhao Zhao, Junlong Tong, Ping Nie, Kai Zou, Yunpu Ma, Wei Zhang, Xiaoyu Shen,
- Abstract要約: MLLM(Multimodal large language model)は、最近ポイントワイド・リランカとして大きな可能性を示している。
しかし、ポイントワイドリグレードは、クエリーとドキュメントのペア間で大幅に繰り返される計算に悩まされる。
本稿では,キャッシュ再利用の効率化と性能の見直しを両立させる,$textitvision-first$の定式化を提案する。
- 参考スコア(独自算出の注目度): 21.54829080388454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have recently shown strong potential as point-wise rerankers by directly modeling query--document relevance through next-token prediction. However, point-wise reranking suffers from substantial repeated computation across query--document pairs, while the causal structure of transformers allows only prefix segments to be reused via pre-caching. To address the misalignment of existing query-first and document-first formats with both VQA-style prompting and computation-aware reuse, we propose a $\textit{vision-first}$ formulation that improves both cache reuse efficiency and reranking performance. However, the remaining cost is still considerable and stems from three main sources: (1) $\textit{model depth}$, for which we reduce active parameters via early exit; (2) $\textit{cross-segment attention}$, which we restrict to a narrow interaction band across a few layers; and (3) $\textit{visual tokens}$, where we reduce the number of tokens via embedder-guided pruning. Together, these designs form miniReranker, which reduces reranking runtime to <1% of the dense implementation under high-reuse settings for a single query, while preserving >96% of the dense model performance.
- Abstract(参考訳): マルチモーダル・大規模言語モデル (MLLM) は,最近,クエリ-ドキュメント関係を直接モデル化することで,ポイントワイド・リランカとして大きな可能性を秘めている。
しかし、ポイントワイドリグレードは、クエリドキュメントペア間で大幅に繰り返される計算に悩まされる一方、トランスフォーマーの因果構造はプレキャッシュによるプレフィックスセグメントのみの再利用を可能にする。
VQAスタイルのプロンプトと計算対応の再利用によって、既存のクエリファーストおよびドキュメントファーストフォーマットの誤調整に対処するため、キャッシュ再利用効率と性能の再評価の両方を改善する$\textit{vision-first}$の定式化を提案する。
しかし、残りのコストはまだ高く、(1)$\textit{model depth}$、(2)$\textit{cross-segment attention}$、および(3)$\textit{visual tokens}$の3つの主要なソースから来ている。
これらの設計が組み合わさって miniReranker を形成し、単一のクエリに対して高再利用設定で実行時の再ランクを 1% に減らし、高密度モデル性能の 96% を保っている。
関連論文リスト
- Sparse Prefix Caching for Hybrid and Recurrent LLM Serving [0.7284556903703034]
重なり合う深さの分布の下で,スパースプレフィックスキャッシングをチェックポイント配置として定式化する。
リクエストが非自明なプレフィックスを共有する場合、実世界のデータ上で標準非対称性によって追跡されるフロンティアを一貫して改善することを示す。
正確な出力を保持し、リカレント計算自体を変更したり、新しいリカレント更新カーネルを必要としたりしない。
論文 参考訳(メタデータ) (2026-04-17T09:24:58Z) - Rethinking Token Reduction for Large Vision-Language Models [95.48478689025696]
LVLM(Large-Language Models)は、視覚的理解と推論において優れているが、過度の視覚トークンは高い推論コストをもたらす。
一般化設計の限界を克服し,メタコンプレックスと呼ばれる学習に基づくプロンプト非依存型メタコンプレックスを提案する。
論文 参考訳(メタデータ) (2026-03-23T08:40:08Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。