論文の概要: ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2606.20280v1
- Date: Thu, 18 Jun 2026 14:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.909676
- Title: ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval
- Title(参考訳): ELVA: ランキング駆動のユニバーサルマルチモーダル検索
- Authors: Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin,
- Abstract要約: Grain blindness とは、クエリに含まれる粒度情報を見渡す傾向を指す。
ランキング駆動型MLLMを用いて穀物の目隠しを緩和する新しいルールベースのRLフレームワークであるELVAを紹介する。
- 参考スコア(独自算出の注目度): 32.98798778543091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Multimodal Large Language Models (MLLMs) via contrastive learning has become a mainstream paradigm for improving the performance of Universal Multimodal Retrieval (UMR). However, previous works have ignored the grain blindness when adapting the contrastive paradigm into retrieval tasks. Grain blindness refers to the tendency of the model to overlook grain-level information contained in the query, which is crucial for effectively handling complex queries. This stems from contrastive learning treating samples as a binary classification (positive/negative), while ignoring the different information carried by each negative sample. To address this, we argue that negatives should be treated differently according to their similarity to the positive sample, enabling the model to learn distinct grain information from each negative. In this paper, we introduce a simple but effective framework, called ELVA, a novel rule-based RL framework that mitigates grain blindness through ranking-driven MLLMs. 1) Instead of relying on reward models, we extend Reinforcement Learning with Verifiable Rewards (RLVR) to retrieval tasks, allowing the model to explore new ranking behaviors without explicit ranking labels. 2) By utilizing rule-based rewards, our approach jointly optimizes the ranking of negative samples while enlarging the similarity gap between positive and negative. To more precisely measure grain blindness, we further introduce MRBench, a new benchmark specifically designed for multi-grain query scenarios. ELVA achieves state-of-the-art results across standard retrieval benchmarks, and its notable 13.1% improvement on MRBench further demonstrates its effectiveness in alleviating grain blindness.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の対照的な学習による活用は,UMR(Universal Multimodal Retrieval)の性能向上の主流となっている。
しかし、従来の研究は、検索タスクに対照的なパラダイムを適用する際に、穀物の盲点を無視していた。
Grain blindnessは、複雑なクエリを効果的に扱うのに不可欠であるクエリに含まれる粒度情報を見渡す傾向を示す。
これは、サンプルを二分分類(正/負)として扱い、各負のサンプルが持つ異なる情報を無視することに由来する。
これを解決するために、正のサンプルと類似性に応じて負を別々に扱うべきであると論じ、モデルが各負から異なる粒度情報を学習できるようにする。
本稿では、ランキング駆動型MLLMによる穀物の目隠しを緩和する新しいルールベースのRLフレームワークであるELVAについて紹介する。
1) 報酬モデルに頼る代わりに,RLVR(Reinforcement Learning with Verifiable Rewards)を検索タスクに拡張し,明示的なランキングラベルを使わずに新たなランキング行動の探索を可能にする。
2) ルールに基づく報酬を利用して, 正と負の類似性差を増大させながら, 負のサンプルのランク付けを最適化する。
粒界の盲点をより正確に測定するために,マルチグレーンのクエリシナリオに特化して設計された新しいベンチマークであるMRBenchを導入する。
ELVAは標準のベンチマークで最先端の結果を達成し、MRBenchの13.1%の改善により、穀物の盲点を緩和する効果がさらに示された。
関連論文リスト
- What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - LGAI-EMBEDDING-Preview Technical Report [41.68404082385825]
本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T05:30:35Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification [1.292108130501585]
本稿では,クラスタリング駆動型機能微調整法(HC-FT)を提案する。
提案手法はCAMELYON16とBRACSの両方で評価され,それぞれ97.13%,85.85%のAUCが得られた。
論文 参考訳(メタデータ) (2024-06-02T08:53:45Z) - Automated Multi-level Preference for MLLMs [41.72392895643214]
「現在のマルチモーダル大言語モデル(MLLM)は幻覚に苦しむ」
有望な道の1つは、人間からのフィードバック(RLHF)からの強化学習を利用することである。
二項選好(上等、下等)の一般的な実践を再考し、多水準選好を採用する方が2つの利点があることを示す。
論文 参考訳(メタデータ) (2024-05-18T03:49:37Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。