論文の概要: Recovering the Zipfian Distribution in Unsupervised Term Discovery
- arxiv url: http://arxiv.org/abs/2606.10781v1
- Date: Tue, 09 Jun 2026 12:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.492741
- Title: Recovering the Zipfian Distribution in Unsupervised Term Discovery
- Title(参考訳): 教師なし項発見におけるZipfian分布の復元
- Authors: Danel Slabbert, Simon Malan, Herman Kamper,
- Abstract要約: 教師なしの項発見は、未学習の音声を単語や音節のような単位に分割し、それらを候補の語彙に分類する。
真のレキシコンはZipfian分布に従うが、中心的なクラスタリングアプローチであるK-meansはより均一な分布を生成する。
我々はグラフベースのクラスタリングをボトムアップの代替として再考し、セグメント埋め込みはペアの類似性によって接続される。
- 参考スコア(独自算出の注目度): 15.386356718833555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised term discovery involves segmenting unlabelled speech into word- or syllable-like units and clustering these into a lexicon of candidate types. True lexicons follow a Zipfian distribution, yet the dominant centre-based clustering approach -- K-means -- produces a more uniform distribution due to an inductive bias toward spherical clusters. In this paper we revisit graph-based clustering as a bottom-up alternative, where segment embeddings are connected by pairwise similarity and partitioned using the Leiden algorithm. We show that graph clustering substantially outperforms centre-based approaches (K-means, GMM, BIRCH) in both word- and syllable-level lexicon discovery across three languages, producing more Zipf-like distributions. Another bottom-up approach, agglomerative clustering with average linkage, also performs well, although it is computationally less efficient and allows for less control over the resulting distribution. Our work calls into question the dominance of centre-based clustering for term discovery, and promotes graph clustering as an attractive alternative.
- Abstract(参考訳): 教師なしの項発見は、未学習の音声を単語や音節のような単位に分割し、それらを候補型の語彙に分類する。
真のレキシコンはZipfian分布に従うが、中心的なクラスタリングアプローチであるK平均(K-means)は、球状クラスタに対する帰納的バイアスにより、より均一な分布を生成する。
本稿では,グラフベースのクラスタリングをボトムアップの代替として再検討し,セグメント埋め込みをペアの類似性によって接続し,ライデンアルゴリズムを用いて分割する。
グラフクラスタリングは3言語にまたがる単語レベルと音節レベルの語彙探索において中心的アプローチ(K-means, GMM, BIRCH)を大幅に上回り,Zipfのような分布がより大きくなることを示す。
もうひとつのボトムアップアプローチである、平均リンク付き凝集クラスタリングは、計算効率が低く、結果として生じる分布の制御が少ないにもかかわらず、うまく機能する。
我々の研究は、用語発見における中心的クラスタリングの優位性に疑問を投げかけ、グラフクラスタリングを魅力的な代替手段として推奨する。
関連論文リスト
- Distributionally Robust K-Means Clustering [18.037323759791658]
K平均のクラスタリングは、異常値、分布シフト、サンプルサイズに制限があることで知られている。
我々はそのような病態から保護する分布的に堅牢な変種を開発する。
トラクタブル双対は、ハード割り当てを滑らかに重み付けされたものに置き換えるソフトクラスタリングスキームを得る。
論文 参考訳(メタデータ) (2026-04-13T07:32:36Z) - Rethinking Divisive Hierarchical Clustering from a Distributional Perspective [7.023830532843621]
分割階層クラスタリング(DHC)法は、3つの望ましい性質を持たないデンドログラムを生成する。
この欠点は、セット指向の基準ではなく、分散カーネルを用いて対処できることが示される。
提案手法は,空間トランスクリプトミクスデータセットの生物領域と整合したデンドログラムを生成する。
論文 参考訳(メタデータ) (2026-01-27T15:41:56Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Learning Uniform Clusters on Hypersphere for Deep Graph-level Clustering [25.350054742471816]
我々はUDGC(Uniform Deep Graph Clustering)と呼ばれる新しいディープグラフレベルのクラスタリング手法を提案する。
UDGCはインスタンスを異なるクラスタに均等に割り当て、次にこれらのクラスタをユニットハイパースフィア上に分散させ、より均一なクラスタレベルの分散と、より小さなクラスタ崩壊につながる。
8つのよく知られたデータセットに関する実証研究は、UDGCが最先端のモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-11-23T12:08:20Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
クラスタリングは異常のないデータのグループ化の獲得である。
クラスタリング手法のカーネルは知覚異常検出アルゴリズムである。
半教師付きクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Revisiting Agglomerative Clustering [4.291340656866855]
クラスターのモデルも採用され、遷移によって囲まれた高密度の核が続き、その後は外れ値が続いた。
得られた結果は、多くの手法が単調なデータ中の2つのクラスタを検出することの検証を含む。
単一リンク法は偽陽性に対する耐性が高かった。
論文 参考訳(メタデータ) (2020-05-16T14:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。