論文の概要: Multi-Vector Embeddings are Provably More Expressive than Single Vector Embeddings
- arxiv url: http://arxiv.org/abs/2606.23475v1
- Date: Mon, 22 Jun 2026 15:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:51:26.429231
- Title: Multi-Vector Embeddings are Provably More Expressive than Single Vector Embeddings
- Title(参考訳): 多ベクトル埋め込みは、おそらく単ベクトル埋め込みよりも表現力が高い
- Authors: Rajesh Jayaram,
- Abstract要約: MV埋め込みは1つのベクトル埋め込みで概略表現できない類似性を表現できることを示す。
固定表現サイズでは、複数ベクトル埋め込みは1つのベクトル埋め込みでほぼ表現できない類似性を表現することができる。
- 参考スコア(独自算出の注目度): 5.90432887297327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-vector (MV) embeddings have become a powerful paradigm in neural information retrieval (IR), achieving high retrieval accuracy by representing data with multiple vectors and scoring them via the non-linear Chamfer similarity. Despite their widely perceived superiority over single-vector (SV) embeddings which use inner product similarity, to date there is no formal proof that SV similarities cannot approximate MV similarities with the same representation size. Specifically, we ask the following: for any bounded dataset size $n \leq 2^{poly(m)}$, what is the smallest dimension $D$ so that given any collection of MV embeddings $Q_1,\dots,Q_n,X_1,\dots,X_n \subset \mathbb{R}^d$ containing at most $m$ vectors each, there always exist $q_1,\dots,q_n$, $d_1,\dots,d_n \in \mathbb{R}^{D}$ satisfying $|\langle q_i, d_j \rangle - \texttt{Chamfer}(Q_i,X_j)| \leq ε$ for all $i,j$? Recently, the MUVERA algorithm demonstrated that $D = m^{O(1/ε^2)}$ is possible. If improved to $D = md$, this would imply that MV embeddings are no more expressive than SV embeddings. In this paper, we rule out this scenario. Specifically, we prove the existence of a collection of MV embeddings in $\mathbb{R}^d$, each containing at most $m$ vectors, which require single-vector dimension of $D =(ε^2 m)^{Ω(1/ε)}$ to approximate, establishing a strong separation in representation size between MV and SV embeddings. Our proof leverages the Pattern Matrix Method by constructing a hard instance whose Chamfer similarity matrix encodes the $NAND_k$ boolean function. Our results confirm a long-held belief in the IR community: at a fixed representation size, multi-vector embeddings can express similarities which cannot even be approximately represented by single vector embeddings.
- Abstract(参考訳): マルチベクトル(MV)埋め込みは、ニューラルネットワーク検索(IR)において強力なパラダイムとなり、複数のベクトルでデータを表現し、非線形のチャンファー類似性を通じてそれらをスコアリングすることで高い検索精度を実現している。
内積類似性を用いた単ベクトル埋め込み(SV)よりも広く知覚されているにもかかわらず、SV類似性が同じ表現サイズでMV類似性を近似できないという公式な証明はない。
Q_1,\dots,Q_n,X_1,\dots,X_n \subset \mathbb{R}^d$が少なくとも$m$ベクトルを含むとすると、常に$q_1,\dots,q_n$, $d_1,\dots,d_n \in \mathbb{R}^{D}$が$|\langle q_i, d_j \rangle - \textt{Chamfer}(Q_i,X_j)| \leq ε$i,$j,$j を満たす。
近年、MUVERAアルゴリズムは$D = m^{O(1/ε^2)}$が可能であることを示した。
もし$D = md$に改善されれば、MV埋め込みはSV埋め込みほど表現力がないことを意味する。
本稿では,このシナリオを除外する。
具体的には、 MV 埋め込みの集合が $\mathbb{R}^d$ に存在し、それぞれが少なくとも $m$ のベクトルを含むことを証明し、これは 1-ベクトル次元が $D = (ε^2 m)^{Ω(1/ε)} で近似し、MV と SV の埋め込みの表現サイズを強く分離する。
我々の証明は、Chamfer類似度行列が$NAND_k$ boolean関数をエンコードするハードインスタンスを構築することで、Pattern Matrix Methodを活用する。
固定表現サイズでは、複数ベクトル埋め込みは1つのベクトル埋め込みでほぼ表現できない類似性を表現することができる。
関連論文リスト
- $\mathbb{R}^{2k}$ is Theoretically Large Enough for Embedding-based Top-$k$ Retrieval [99.8640829555514]
本稿では,最小埋め込み次元 (Minimal Embeddable Dimension, MED) で表されるベクトル空間に部分集合 (m$ element, $mchoose k$ subsets of at least $k$ element) を埋め込むために必要な最小次元について検討する。
MEDの密接な境界は理論的に導出され、$ell$メートル法、内積、コサイン類似性を含む「距離」や「類似性」の様々な概念に対して実証的に支持される。
論文 参考訳(メタデータ) (2026-01-28T18:45:43Z) - On the Emergence of Linear Analogies in Word Embeddings [8.981531144549129]
Word2VecやGloVeのようなモデルは、テキストコーパスで$i$と$j$の単語の共起確率$P(i,j)$に基づいて単語埋め込みを構築する。
本稿では、単語を二項意味属性で定義し、共起確率を属性に基づく相互作用から導出する理論生成モデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:42:26Z) - Multi-thresholding Good Arm Identification with Bandit Feedback [1.079960007119637]
我々は,多目的のバンドイット設定において,良好な腕識別問題を考える。
サンプル複雑性境界を持つマルチスレッド UCB (MultiTUCB) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-13T14:04:04Z) - Beyond Worst-Case Dimensionality Reduction for Sparse Vectors [47.927989749887864]
我々は、$s$sparseベクトルの最低ケース次元削減を超越して研究する。
任意の集合 $X$ of $s$-sparse vectors in $mathbbRO(s2)$ に対して、$mathbbRO(s2)$ への線型写像が存在し、任意の $ell_p$ ノルムにおいて$X$の99%のベクトルのノルムを正確に保存する。
我々は、$f$の非線形性と$の非負性の両方を示す。
論文 参考訳(メタデータ) (2025-02-27T08:17:47Z) - On Fast Johnson-Lindernstrauss Embeddings of Compact Submanifolds of
$\mathbb{R}^N$ with Boundary [0.4125187280299246]
mathbbRm × N$ のランダム行列 $A がバイリプシッツ函数 $A: MathcalM rightarrow mathbbRm$ とビリプシッツ定数が 1 に近い確率を考える。
我々は、$mathbbRN$ の十分低次元部分多様体を埋め込むための、高度に構造化された分布の新しいクラスを示す。
論文 参考訳(メタデータ) (2021-10-08T15:27:52Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Vector-Matrix-Vector Queries for Solving Linear Algebra, Statistics, and
Graph Problems [58.83118651518438]
ベクトル行列ベクトルクエリを用いて行列について学習する一般的な問題を考える。
これらのクエリは、固定フィールド上の$boldsymbolumathrmTboldsymbolMboldsymbolv$の値を提供する。
我々は、線形代数、統計、グラフにまたがる様々な問題に対して、新しい上界と下界を提供する。
論文 参考訳(メタデータ) (2020-06-24T19:33:49Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
圧縮センシングにおいて、100万倍のN$センシング行列上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。