論文の概要: MM-Matryoshka: Towards Budget-Elastic Visual Document Retrieval via a 2D Multimodal Matryoshka Training Framework
- arxiv url: http://arxiv.org/abs/2606.07654v1
- Date: Wed, 03 Jun 2026 02:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.192945
- Title: MM-Matryoshka: Towards Budget-Elastic Visual Document Retrieval via a 2D Multimodal Matryoshka Training Framework
- Title(参考訳): MM-Matryoshka:2次元マルチモーダルマトリルシュカトレーニングフレームワークによる予算弾力性のあるビジュアルドキュメント検索を目指して
- Authors: Haowen Xiang, Yibo Yan, Jiahao Huo, Yu Huang, Yi Cao, Mingdong Ou, Xuming Hu,
- Abstract要約: 予算弾性ビジュアル文書検索(VDR)のための2次元マトリリシカ学習フレームワークMM-Matryoshkaを提案する。
推測時、単一のレトリバーは、異なる予算のための別々のモデルを訓練することなく、2D選択可能な予算を選択することができる。
MM-Matryoshkaは直接トラクションベースラインよりもはるかに高い品質を維持することにより、効率的なVDRのための堅牢な予算弾力性を提供できることを示した。
- 参考スコア(独自算出の注目度): 34.598715618882224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vector visual document retrievers achieve strong fine-grained matching by representing each page with multiple vectors from deep Vision-Language Models (VLMs), but this design makes deployment expensive in both storage and computational overhead. Existing efficiency techniques usually optimize only part of this budget, leaving multimodal retrievers without a unified way to trade accuracy for both vector width and encoder depth. Therefore, we propose MM-Matryoshka, a 2D Matryoshka training framework for budget-elastic Visual Document Retrieval (VDR), enabling ColPali-style multi-vector retrieval elastic along both dimension and layer. At inference time, a single retriever can select a 2D selectable budget without training separate models for different budgets. Through comprehensive experiments across multiple representative backbones, we demonstrate that by retaining significantly higher quality than direct truncation baselines while substantially reducing storage and computational overhead, MM-Matryoshka can offer robust budget elasticity for efficient VDR.
- Abstract(参考訳): 深層視覚言語モデル(VLM)の複数のベクトルで各ページを表現することで,高精細なマッチングを実現するが,この設計により,ストレージと計算オーバーヘッドの両方において,デプロイコストがかかる。
既存の効率技術は、通常、この予算の一部を最適化し、ベクトル幅とエンコーダ深さの両方の精度を交換する統一された方法のないマルチモーダルレトリバーを残している。
そこで我々は,予算弾性ビジュアル文書検索(VDR)のための2次元マトリリシカトレーニングフレームワークMM-Matryoshkaを提案する。
推測時、単一のレトリバーは、異なる予算のための別々のモデルを訓練することなく、2D選択可能な予算を選択することができる。
複数の代表的バックボーンの包括的実験により,直接トラクションベースラインよりもはるかに高い品質を維持しつつ,ストレージと計算オーバーヘッドを大幅に低減することにより,MM-Matryoshkaは効率的なVDRに堅牢な予算弾力性を提供できることを示した。
関連論文リスト
- Different Prompts, Different Ranks: Prompt-aware Dynamic Rank Selection for SVD-based LLM Compression [3.291633155351422]
PARSE は $textbfP$rompt-$textbfA$ware $textbfR$ank $textbfS$election as $textbfE$xperts in SVD-compressed LLMs のトレーニング後のフレームワークである。
LLaMA-7Bの圧縮比0.6で平均タスク精度を最大10%改善し、2.5$times$プリフィルと2.4$times$ネイティブSVD実行によるデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-09T00:02:33Z) - Model Merging: Foundations and Algorithms [4.528573838858818]
この論文はモデルマージを研究し、独立に訓練されたニューラルネットワークを直接重み空間で組み合わせる。
C$2$M$3$は、Frank-Wolfe最適化に基づくサイクル一貫性のマージアルゴリズムである。
マルチタスク設定では、まずタスクベクトルを近似勾配として理論的に記述する。
次に,TSV幾何を用いた入力適応型ルーティング手法であるMASSを提案し,推定時にタスク関連部分空間を選択する。
論文 参考訳(メタデータ) (2026-05-02T19:06:35Z) - Dual-Domain Representation Alignment: Bridging 2D and 3D Vision via Geometry-Aware Architecture Search [34.827159533027036]
EvoNASは多目的進化的アーキテクチャ探索のための効率的な分散フレームワークである。
私たちはVision State SpaceとVision Transformerモジュールを統合するハイブリッドスーパーネットを構築します。
大規模検証のコストを削減するため,分散マルチモデル並列評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-20T02:07:47Z) - Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling [19.731771957197044]
本稿では,3つのコンポーネントを持つマルチアダプタ型MLLM推論フレームワークを提案する。
emphM-CMABは、予算制全体にわたって、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-06T15:45:33Z) - TokaMind: A Multi-Modal Transformer Foundation Model for Tokamak Plasma Dynamics [56.073642366268764]
TokaMindは、核融合プラズマモデリングのためのオープンソースの基礎モデルフレームワークである。
公開されているMASTデータセットから、異種トカマク診断をトレーニングする。
我々は最近発表されたMASTベンチマークのTokaMarkでTokaMindを評価した。
論文 参考訳(メタデータ) (2026-02-16T12:26:07Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Mixture of Nested Experts: Adaptive Processing of Visual Tokens [49.43920770789789]
Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T13:19:31Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。