論文の概要: PRISMR: Overcoming Parse Collapse in Multimodal Listwise Ranking via Parameterized Representation Internalization
- arxiv url: http://arxiv.org/abs/2606.12942v1
- Date: Thu, 11 Jun 2026 06:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.612775
- Title: PRISMR: Overcoming Parse Collapse in Multimodal Listwise Ranking via Parameterized Representation Internalization
- Title(参考訳): PRISMR:パラメータ化表現内部化によるマルチモーダルリスワイズランキングにおけるParseの崩壊を克服する
- Authors: Hao Jiang, Xin Li, Annan Wang, Zhi Yang, Haoxiang Zhang, Yichi Zhang, Weisi Lin,
- Abstract要約: LMM(Large Multimodal Models)を用いたジェネレーティブ・リストワイド・ランキングは,グローバル・リストのコンテキストを単一の前方通過で捉えることを目的としている。
自動回帰デコーダは、無音で候補を省略し、早期に終了することで、流動的で不完全なランク付けを発生させる。
PRISMRは、一貫したコンテキスト内リスト処理をパラメトリックな構造条件に置き換えるフレームワークである。
- 参考スコア(独自算出の注目度): 49.659739762240655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative listwise ranking with Large Multimodal Models (LMMs) aims to capture global list context in a single forward pass, but its effectiveness degrades in long-context multimodal scenarios. We identify a recurring failure mode, parse collapse, where the autoregressive decoder produces fluent yet incomplete rankings by silently omitting candidates and terminating early. This failure stems from limited context utilization rather than simple formatting mistakes, making prompt engineering and constrained decoding insufficient. We propose PRISMR (Parameterized Representation Internalization for Semantic Multimodal Ranking), a framework that replaces transient in-context list processing with parametric structural conditioning. PRISMR uses a lightweight hypernetwork to encode multimodal candidates in parallel and generate item-specific LoRA weights, which are synthesized into an instance-specific adapter for a LMM. This paradigm enables more robust internalization of list structure while preserving the base model. We further introduce a large-scale multimodal review-ranking benchmark for evaluation. Experiments demonstrate that PRISMR substantially reduces parse collapse, improves listwise ranking performance, and transfers effectively across domains and instruction-tuned backbones.
- Abstract(参考訳): LMM(Large Multimodal Models)を用いたジェネレーティブ・リストワイド・ランキングは,グローバル・リストのコンテキストを単一の前方通過で捉えることを目的としている。
自動回帰デコーダは、無音で候補を省略し、早期に終了することで、流動的で不完全なランク付けを発生させる。
この失敗は、単純なフォーマットミスではなく、コンテキスト利用の制限に起因するため、迅速なエンジニアリングと制約付きデコードが不十分になる。
本稿では,PRISMR(Parameterized Representation Internalization for Semantic Multimodal Ranking)を提案する。
PRISMRは軽量なハイパーネットワークを使用してマルチモーダル候補を並列に符号化し、アイテム固有のLoRA重みを生成し、LMMのインスタンス固有のアダプタに合成する。
このパラダイムは、ベースモデルを維持しながらリスト構造のより堅牢な内部化を可能にする。
さらに,評価のための大規模マルチモーダルレビューベンチマークを導入する。
実験により、PRISMRはパース崩壊を大幅に低減し、リストのランク付け性能を向上し、ドメインと命令調整されたバックボーンを効果的に転送することを示した。
関連論文リスト
- F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - A Unified Language Model for Large Scale Search, Recommendation, and Reasoning [29.766824024623336]
我々は,事前学習されたデコーダのみのLLMを,ツールフリーでカタログを基盤としたジェネレータに適応させるフレームワークNEOを紹介する。
NEOは、アイテムをSIDとして表現し、自然言語と型付きアイテム識別子をインターリーブするために単一のモデルを訓練する。
我々は,複数のメディアタイプと発見タスクにまたがる1000万項目以上の実世界のカタログ上で,NEOを大規模に評価する。
論文 参考訳(メタデータ) (2026-03-18T09:42:32Z) - Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。
製品ドメインは、上着と下着、宝石、靴、家具の5つ。
MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-01T12:53:47Z) - DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文 参考訳(メタデータ) (2025-11-24T16:28:49Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。