論文の概要: Entity Resolution via Batched Oracle Queries
- arxiv url: http://arxiv.org/abs/2606.24407v1
- Date: Tue, 23 Jun 2026 10:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.903462
- Title: Entity Resolution via Batched Oracle Queries
- Title(参考訳): Batched Oracle Queriesによるエンティティの解決
- Authors: Lorenzo Balzotti, Donatella Firmani, Luca Gagliardelli, Giovanni Simonini,
- Abstract要約: 私たちは、一度に限られた数のレコードを処理し、同じ現実世界のエンティティを参照するレコードをクラスタ化するオラクルを考えます。
一つのバッチよりはるかに大きいデータセットのエンティティを解くために、そのような託宣を問う方法を研究する。
われわれは、各ステップで可能な限り最高のリコールを達成しつつ、コスト(オラクルの相談数)を完全にコントロールする、従量制のアプローチを目指している。
- 参考スコア(独自算出の注目度): 3.76286065443629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider an oracle that processes a limited batch of records at a time and clusters those that refer to the same real-world entity. We study how to interrogate such an oracle to resolve entities in a dataset whose size is far larger than a single batch, and where no batch is guaranteed to contain all records of any given entity. We aim at a pay-as-you-go approach, to have full control over the costs (the number of oracle consults), while achieving the highest possible recall at every step. We formally cast this problem as batched entity resolution, prove that selecting optimal batches is NP-hard, and provide an optimal solution under a natural condition on entity sizes. Finally, we evaluate our approach on six datasets and show its superiority over state-of-the-art baselines.
- Abstract(参考訳): 私たちは、一度に限られた数のレコードを処理し、同じ現実世界のエンティティを参照するレコードをクラスタ化するオラクルを考えます。
我々は、一つのバッチよりもサイズがはるかに大きく、任意のエンティティのすべてのレコードを含むことが保証されていないデータセット内のエンティティを解決するために、そのようなオラクルを問う方法を研究する。
われわれは、各ステップで可能な限り最高のリコールを達成しつつ、コスト(託主の数)を完全にコントロールする、従量制のアプローチを目指しています。
我々は、この問題をバッチ化エンティティ解決として正式に論じ、最適バッチの選択がNPハードであることを証明し、エンティティサイズに対する自然条件下での最適解を提供する。
最後に、6つのデータセットに対するアプローチを評価し、最先端のベースラインよりもその優位性を示す。
関連論文リスト
- Oracle problems as communication tasks and optimization of quantum algorithms [0.0]
出力と実値の相互情報を用いたアルゴリズムの性能測定を提案する。
我々は,任意のオラクル分類問題に対して,少なくとも一定数のクエリを使用する最適非適応アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-09-23T21:03:39Z) - Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization [52.80408805368928]
本稿では,バッチ取得のための新しいグリーディ型サブセット選択アルゴリズムを提案する。
赤蛍光タンパク質に関する実験により,提案手法は1.69倍少ないクエリでベースライン性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T05:57:08Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Extracting Process-Aware Decision Models from Object-Centric Process
Data [54.04724730771216]
本稿では,ODDA(Integrated Object-centric Decision Discovery Algorithm)と呼ばれる,オブジェクト中心決定マイニングアルゴリズムを提案する。
IODDAは意思決定の仕組みや意思決定の仕方を知ることができる。
論文 参考訳(メタデータ) (2024-01-26T13:27:35Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - A Framework for Combining Entity Resolution and Query Answering in
Knowledge Bases [13.700646439200423]
本稿では,知識ベースにおけるエンティティ解決と問合せ応答のための新しいフレームワークを提案する。
KBのセマンティクスは、エンティティと値の集合の同値類を含む特別なインスタンスの観点で定義する。
次に、この新しいフレームワークに合わせて、決して失敗しない機能を備えた追跡手順を設計します。
論文 参考訳(メタデータ) (2023-03-13T21:10:57Z) - On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。
我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。
我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文 参考訳(メタデータ) (2022-06-06T18:35:19Z) - PIE: a Parameter and Inference Efficient Solution for Large Scale
Knowledge Graph Embedding Reasoning [24.29409958504209]
PIE, textbfparameter および textbfinference textbfefficient ソリューションを提案する。
テンソル分解法から着想を得た結果, 要素埋め込み行列を低階行列に分解することで, パラメータの半数以上を削減できることがわかった。
モデル推論を高速化するために,よりきめ細かなエンティティタイピングのように見える自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2022-04-29T09:06:56Z) - Multidimensional Assignment Problem for multipartite entity resolution [69.48568967931608]
Multipartiteエンティティ解決は、複数のデータセットから1つのエンティティにレコードを統合することを目的としている。
代入問題を解くために、グリーディアルゴリズムと大規模近傍探索という2つの手順を適用する。
データベースのサイズが大きくなるにつれて、設計ベースのマルチスタートがより効率的であることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:34:55Z) - Greedy k-Center from Noisy Distance Samples [10.363116234985515]
距離空間における頂点の集合上の標準的k中心問題の変種について検討する。
1次元の点間の距離を返す次元サンプリング(dimension Smpling)と、1次元の点間の距離を返す雑音距離サンプリング(noisy Distance Smpling)である。
UCB,Thompson Smpling,Track-and-Stopなどのアイデアをベースとしたアクティブアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。