論文の概要: Hyperdimensional computing for structured querying on tabular data embeddings
- arxiv url: http://arxiv.org/abs/2606.13871v1
- Date: Thu, 11 Jun 2026 19:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.624651
- Title: Hyperdimensional computing for structured querying on tabular data embeddings
- Title(参考訳): グラフデータ埋め込みにおける構造化クエリのための超次元計算
- Authors: Sebastián Bugedo, Stijn Vansummeren,
- Abstract要約: タブラルデータ埋め込みは、データプロファイリングとデータ統合パイプラインの基盤となっている。
既存のアプローチでは、行、列、またはテーブル全体をベクトル空間に埋め込んで、最も近い隣の検索を使って候補マッチングを検索する。
現在の埋め込み法の基本的な制限は、解釈可能な類似性スコアの欠如である。
- 参考スコア(独自算出の注目度): 2.260258863997296
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data embeddings have become a cornerstone of data profiling and data integration pipelines, enabling tasks such as entity annotation and resolution; schema matching; column type detection; and table search, among others. Existing approaches embed rows, columns, or entire tables into a vector space and rely on nearest-neighbor search to retrieve candidate matches. A fundamental limitation of current embedding methods is the lack of interpretable similarity scores: the concrete similarity value between a query and its nearest neighbour carries no intrinsic meaning, making it impossible to determine whether that neighbour is a true match or simply the least-dissimilar item in a corpus that contains no valid answer. This inability to set principled thresholds for retrieval undermines practical deployment, particularly for zero-match detection. We investigate the use of HyperDimensional Computing (HDC), specifically the Holographic Reduced Representations (HRR) model, as a framework for tabular row embeddings when the retrieval task corresponds to answering structured select-project queries in vector space. Exploiting the algebraic properties of HDC operations, we derive closed-form expected similarity values for both equality and non-equality retrieval predicates, which converge to interpretable values as dimensionality increases, and use these to identify suitable retrieval thresholds. We evaluate HDC against EmbDI, a graph-based baseline, on two real-world datasets across varying table sizes and predicate lengths. Our results show that HDC matches or outperforms EmbDI for row retrieval across all configurations, handles non-equality predicates more robustly, and achieves perfect attribute projection accuracy at sufficient dimensionality -- while uniquely enabling reliable identification of zero-match predicates through its principled thresholds.
- Abstract(参考訳): データプロファイリングやデータ統合パイプラインの基盤となり、エンティティアノテーションや解決、スキーママッチング、列型検出、テーブル検索などのタスクを可能にする。
既存のアプローチでは、行、列、またはテーブル全体をベクトル空間に埋め込んで、最も近い隣の検索を使って候補マッチングを検索する。
現在の埋め込み方法の基本的な制限は、解釈可能な類似度スコアの欠如である: クエリと近隣の具体的な類似度値には本質的な意味がなく、その近傍が真の一致であるか、あるいは有効な答えを持たないコーパス内の最小の類似度項目であるかを判断することは不可能である。
検索のための原則しきい値を設定することができないことは、特にゼロマッチ検出の実践的な展開を損なう。
本稿では,超次元計算(HDC),特にホログラフィック還元表現(HRR)モデルを,検索タスクがベクトル空間における構造化された選択プロジェクトクエリに対応する場合の表列埋め込みのフレームワークとして用いることを検討する。
HDC演算の代数的性質をエクスプロイトすると、等式と非等式検索述語の両方に対する閉形式予測類似性値が導出され、次元が増加するにつれて解釈可能な値に収束し、これらを用いて適切な検索しきい値を特定する。
グラフベースのベースラインであるEmbDIに対して,テーブルサイズや述語長の異なる2つの実世界のデータセット上でHDCを評価する。
以上の結果から,HDCは全構成の行検索においてEmbDIに適合あるいは優れ,不等式予測をより堅牢に処理し,十分な次元で完全な属性予測精度を実現するとともに,ゼロマッチ予測の信頼性を原理的しきい値で一意に保証する。
関連論文リスト
- Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval [37.24586920652237]
クエリアウェア適応次元選択フレームワークを提案する。
まず、教師付きレバレンスラベルを用いて、埋め込み次元よりも重要な次元を構築し、次に、これらのラベルに埋め込まれた重要度スコアにクエリを埋め込むように予測器を訓練する。
推測において、予測子は、擬似関連フィードバックなしで、クエリ埋め込みのみに基づく類似性のために、ディメンションのクエリ対応サブセットを選択する。
論文 参考訳(メタデータ) (2026-02-03T09:32:21Z) - pEBR: A Probabilistic Approach to Embedding Based Retrieval [9.186585413958769]
埋め込みベースの検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
我々は,textbfprobabilistic textbfEmbedding-textbfBased textbfRetrieval (textbfpEBR) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection [2.3814052021083354]
本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。
本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。
本研究では,ソフトマックスに基づく特徴量を用いて,完全探索よりも10倍以上の高速化を実現し,精度を損なわないことを示す。
論文 参考訳(メタデータ) (2023-11-05T06:12:03Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。