論文の概要: HAKARI-Bench: A Lightweight Benchmark for Comparing Retrieval Architectures and Efficiency Settings under Unified Conditions
- arxiv url: http://arxiv.org/abs/2606.22778v1
- Date: Mon, 22 Jun 2026 02:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:47:12.244754
- Title: HAKARI-Bench: A Lightweight Benchmark for Comparing Retrieval Architectures and Efficiency Settings under Unified Conditions
- Title(参考訳): Hakari-Bench: 統一条件下での検索アーキテクチャと効率設定を比較する軽量ベンチマーク
- Authors: Yuichi Tateno,
- Abstract要約: 既存の検索スイートを小さなデータセット(Nano-sets)に再構成するベンチマークであるHakaRI-Benchを紹介する。
5つの検索ファミリ(BM25, 密度, スパース, 遅延相互作用, リランカ)とそれらの効率変数の同条件でモデルに依存しない比較を可能にする。
総合ランキングでは、公式のMTEB検索v2、MTEB v2検索、Spearman >0.97の英語BEIR(full)を再現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid spread of retrieval-augmented generation and semantic search, choosing the right embedding and retrieval configuration is increasingly hard. Large retrieval benchmarks are comprehensive but too heavy to rerun during development, and there is little infrastructure for comparing production settings--dimensionality reduction, quantization, reranking--across many models under identical conditions. We present HAKARI-Bench, a lightweight benchmark that reconstructs existing retrieval suites into small datasets (Nano-sets): 35 benchmarks and 551 tasks across 43 languages in a unified format, enabling same-condition, model-agnostic comparison of five retrieval families (BM25, dense, sparse, late interaction, rerankers) and their efficiency variants. Across 55 models, its overall ranking reproduces the official MTEB retrieval v2, MMTEB v2 retrieval, and English BEIR (full) at Spearman >0.97. HAKARI-Bench does not replace full evaluation; it enables rapid model selection, regression detection, and reading the quality-efficiency Pareto frontier. Code, data, and leaderboard are released under the MIT license.
- Abstract(参考訳): 検索強化された生成とセマンティック検索の急速な普及により、適切な埋め込みと検索設定を選択することはますます困難になっている。
大規模な検索ベンチマークは包括的ではあるが、開発中に再実行するには重すぎるため、生産環境を比較するためのインフラはほとんどない - 次元の削減、量子化、再ランク付け - 同一条件下で多くのモデルにまたがる。
既存の検索スイートを小さなデータセット(ナノセット)に再構成する軽量なベンチマークであるHakaRI-Benchについて述べる。35のベンチマークと551のタスクを43言語で統一した形式で実行し、5つの検索ファミリ(BM25, 密度, スパース, 遅延相互作用, リランカ)とそれらの効率変数の同条件, モデルに依存しない比較を可能にする。
55モデル全体では、公式のMTEB検索v2、MTEB v2検索、Spearman >0.97での英語BEIR(full)を再現している。
HakaRI-Benchは完全な評価に取って代わらず、高速なモデル選択、回帰検出、品質効率のParetoフロンティアを読むことができる。
コード、データ、およびリーダーボードはMITライセンス下でリリースされている。
関連論文リスト
- Automating Formal Verification with Agent-Guided Tree Search [0.0]
形式的検証は、ソフトウェアを確実に修正する道を提供するが、検証済みのコードを書くのに十分な費用がかかるため、本番ではほとんど使われない。
最近のベンチマークでは、仕様をコードに変換する能力と、マシンチェックによる正確さの反復を計測している。
この論文は、リーンにおけるLCM駆動による検証コード生成の状況を評価し、パフォーマンスを改善するための検索ベースの手法を開発する。
論文 参考訳(メタデータ) (2026-05-26T14:50:47Z) - MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - A-MapReduce: Executing Wide Search via Agentic MapReduce [29.20827525190302]
A-MapReduceはパラダイムにインスパイアされたマルチエージェント実行フレームワークである。
ワイドサーチを水平構造検索問題として再放送する。
A-MapReduceはハイパフォーマンスで、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-02-01T16:53:29Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。