論文の概要: Closing the Indexing-Decoding Gap in Multimodal Generative Retrieval via Prefix Retention Optimization
- arxiv url: http://arxiv.org/abs/2606.09241v2
- Date: Tue, 09 Jun 2026 08:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.814077
- Title: Closing the Indexing-Decoding Gap in Multimodal Generative Retrieval via Prefix Retention Optimization
- Title(参考訳): プレフィックス保持最適化によるマルチモーダル生成検索におけるインデックスデコードギャップの閉鎖
- Authors: Yufei Chen, Zihan Wang, Yubao Tang, Yukun Zhao, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: マルチモーダル生成検索式は、複数のモーダル検索を離散識別子生成として定義し、外部埋め込みよりも明示的な類似性探索を不要とする。
既存の手法では、残差量子化によって識別子を構築し、トリエ制約ビームサーチでデコードする。
この組み合わせは、インデックス化とデコーディングのギャップを導入している: 識別子学習の目的は、再構成や対照的な損失を含むが、デコーディング中にプレフィックスの識別性を明示的に強制しない。
1)プレフィックスの格付け蒸留は、リストワイドロスを用いた事前量子化埋め込みによって誘導されるプレフィックスと整合する; (ii)語彙スケジューリングは、コードブックを増大させる。
- 参考スコア(独自算出の注目度): 68.48718919047127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal generative retrieval formulates multimodal retrieval as discrete identifier generation, eliminating the need for explicit similarity search over external embeddings. Existing approaches construct identifiers via residual quantization and decode them with trie-constrained beam search. This combination introduces an indexing-decoding gap: identifier learning objectives, including reconstruction and contrastive losses, do not explicitly enforce prefix discriminability during decoding. As a result, even well-optimized identifiers can be irreversibly pruned early in beam search due to low-rank prefixes. We theoretically characterize this gap and derive a survival bound that relates prefix retention to three controllable factors in indexing and decoding. Building on this bound, we propose PRO, prefix retention optimization, a unified framework comprising three mechanisms: (i) prefix ranking distillation aligns quantized prefix rankings with those induced by pre-quantization embeddings using a listwise loss; (ii) vocabulary scheduling increases codebook sizes from shallow to deep residual quantization levels to reduce early competition from non-target prefixes; and (iii) geometric score fusion vectorizes each candidate prefix and incorporates its similarity to the query into beam search scoring, further reducing the indexing-decoding mismatch. Experiments on nine multimodal retrieval tasks show that PRO improves retention of target identifier prefixes and outperforms existing multimodal generative retrieval baselines.
- Abstract(参考訳): マルチモーダル生成検索式は、複数のモーダル検索を離散識別子生成として定義し、外部埋め込みよりも明示的な類似性探索を不要とする。
既存の手法では、残差量子化によって識別子を構築し、トリエ制約ビームサーチでデコードする。
この組み合わせは、インデックス化とデコーディングのギャップを導入している: 識別子学習の目的は、再構成や対照的な損失を含むが、デコーディング中にプレフィックスの識別性を明示的に強制しない。
その結果、最適化された識別子でさえ、低ランクのプレフィックスにより、ビームサーチの早期に不可逆的にプルーニングすることができる。
我々は、このギャップを理論的に特徴づけ、インデックス化と復号化において、プレフィックス保持を3つの制御可能な要因に関連付ける生存境界を導出する。
このバウンダリに基づいて,3つのメカニズムから構成される統一フレームワークであるpremated Retention Optimization(POP)を提案する。
(i)前置格付け蒸留は、リストワイドロスを用いた前置格付けにより誘導される量化前置格付けと整合する。
(二)語彙スケジューリングは、非ターゲットプレフィックスとの早期競争を減らし、コードブックのサイズを浅い残量化レベルから深い残量化レベルに引き上げる。
三 幾何スコア融合は、各候補プレフィックスをベクトル化し、クエリと類似性をビームサーチスコアに組み込み、インデックス化復号ミスマッチをさらに低減させる。
9つのマルチモーダル検索タスクの実験では、ProPはターゲット識別子のプレフィックスの保持を改善し、既存のマルチモーダル生成検索ベースラインを上回っている。
関連論文リスト
- Decoupled Residual Quantization for Robust Semantic IDs in Recommendation [6.85237130729423]
低い品質のトークンライザは、コードブックの未使用、不安定な決定境界、または埋め込み空間の幾何学的歪みから得られる。
本稿では,期待されるコードワード重複と効果的なコードブック能力を通じて,これらの故障を定量的に診断する枠組みを開発する。
概念実証として,連続的幾何再構成と離散分布マッチングを分離する疎結合残留量子化(DRQ)を提案する。
論文 参考訳(メタデータ) (2026-06-01T07:55:21Z) - Efficient Test-Time Inference via Deterministic Exploration of Truncated Decoding Trees [68.04613115686509]
自己整合性は、複数の推論トレースを並列にサンプリングし、投票することで、推論時間のパフォーマンスを向上させる。
そこで本研究では,切り落された標本を伐採木として扱う決定論的復号法であるDLE(Distinct Leafion)を提案する。
DLEは高品質な推論トレースを調査し、数学、コーディング、一般的な推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-22T12:42:03Z) - Randomized Antipodal Search Done Right for Data Pareto Improvement of LLM Unlearning [32.47205256755341]
大規模言語モデル(LLM)は、時には望ましくない知識を記憶するが、デプロイ後に取り除かなければならない。
本稿では,ランダム化された反ポッド探索と置換投影ハッシュを組み合わせた探索アルゴリズムであるRASLIKを提案する。
複数のモデル、データセット、未学習アルゴリズムを通じて、RASLIKは決定論的ベースラインやオラクルサンプリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-04-17T17:43:39Z) - LLaDA-Rec: Discrete Diffusion for Parallel Semantic ID Generation in Generative Recommendation [32.284624021041004]
並列なセマンティックID生成としてレコメンデーションを再構成する離散拡散フレームワークであるLLaDA-Recを提案する。
3つの実世界のデータセットの実験では、LLaDA-RecはIDベースと最先端のジェネレーティブレコメンデータの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-09T07:12:15Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。