論文の概要: ClusBench: The Clustering Benchmark Data Resource You've All Been Waiting For (?)
- arxiv url: http://arxiv.org/abs/2606.10673v1
- Date: Tue, 09 Jun 2026 10:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.443147
- Title: ClusBench: The Clustering Benchmark Data Resource You've All Been Waiting For (?)
- Title(参考訳): ClusBench: 誰もが待ち望んでいた(?)ベンチマークデータリソースのクラスタ化
- Authors: David P. Hofmeyr,
- Abstract要約: 本稿では,200以上の公開データセットから得られた3000近い合成データセットの生成とキュレーションについて述べる。
フレキシブルな非パラメトリック分布を各ベースデータセットに合わせることで、実世界のデータに多くのニュアンスを保持することができます。
- 参考スコア(独自算出の注目度): 2.741266294612775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although some very common test beds exist for assessing the performance of clustering methods, large scale benchmarking is typically limited to relatively simplistic simulation set-ups. Here we describe the production and curation of close to 3000 synthetic data sets, derived from more than 200 publicly available data sets; the majority of which arose from real-world applications. By fitting a flexible non-parametric distribution to each base data set we are able to retain much of the nuance in real-world data which is difficult to reproduce in standard simulations, while also producing data sets whose sizes are sometimes substantially greater than the data sets from which they are derived. The synthetic data sets, plus an accompanying R package, are available for download from https://github.com/DavidHofmeyr/ClusBench.
- Abstract(参考訳): クラスタリング手法の性能を評価するために非常に一般的なテストベッドは存在するが、大規模なベンチマークは通常、比較的単純なシミュレーションセットに限られる。
ここでは,200以上の公開データセットから得られた3000近い合成データセットの生成とキュレーションについて述べる。
フレキシブルな非パラメトリック分布を各ベースデータセットに合わせることで、標準的なシミュレーションでは再現が難しい実世界のデータに多くのニュアンスを保持することができ、また、サイズが導出されるデータセットよりもかなり大きいデータセットを生成することができる。
合成データセットとRパッケージはhttps://github.com/DavidHofmeyr/ClusBench.comからダウンロードできる。
関連論文リスト
- MacrOData: New Benchmarks of Thousands of Datasets for Tabular Outlier Detection [25.690005491942884]
表形式のデータの外部検出は、多くの現実世界のアプリケーションを支える。
注目すべきODベンチマークAdBenchは、文献のデファクトスタンダードであるが、57のデータセットのみで構成されている。
我々は3つの注意深くキュレートされたコンポーネントからなる表型ODのための大規模ベンチマークスイートであるMacrODataを紹介した。
スケールと多様性のため、MacrODataはODメソッドの包括的かつ統計的に堅牢な評価を可能にする。
論文 参考訳(メタデータ) (2026-02-10T01:51:41Z) - Anymate: A Dataset and Baselines for Learning 3D Object Rigging [18.973312365787137]
本稿では,230Kの3Dアセットの大規模データセットと,専門家によるリギングとスキン情報の組み合わせについて述べる。
本稿では,関節,接続性,およびスキンウェイト予測のための3つの逐次モジュールを用いた学習ベースの自動リギングフレームワークを提案する。
我々のモデルは既存の手法を著しく上回り、自動化リギングとスキンニングにおける将来の手法を比較する基盤を提供する。
論文 参考訳(メタデータ) (2025-05-09T17:59:33Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Natural Language-Based Synthetic Data Generation for Cluster Analysis [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
本研究では,高レベルシナリオの直接仕様に基づく合成データ生成を提案する。
私たちのオープンソースのPythonパッケージは、このワークフローを実装しています。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。