論文の概要: Seed-Guided Semi-Supervised Clustering by A-Contrario Anomaly Detection
- arxiv url: http://arxiv.org/abs/2606.18833v1
- Date: Wed, 17 Jun 2026 09:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.078465
- Title: Seed-Guided Semi-Supervised Clustering by A-Contrario Anomaly Detection
- Title(参考訳): A-Contrario 異常検出によるシードガイド半監督クラスタリング
- Authors: Nassir Mohammad,
- Abstract要約: 本稿では,グループ化原理と異常検出の統計的双対性に基づく半教師付きクラスタリングフレームワークを提案する。
我々は、クラスタを、一様ランダム性のヌル仮説に対する異常のないデータポイントの最大部分集合として定義する。
本手法は, 生, 線形再生, 近傍排他的埋め込みによって表現される画像とテキストのデータセットを含む, 合成および実世界のベンチマークで評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a semi-supervised clustering framework grounded in the statistical duality between grouping principles and anomaly detection. We address the challenge of robust cluster definition in noisy environments -- a task where partitioning algorithms often over-assign outliers and density-based methods remain sensitive to heuristic global parameters. Drawing on \textit{a-contrario} statistical reasoning and Gestalt proximity principles, we define a cluster as a maximal subset of data points containing no anomalies relative to a null hypothesis of uniform randomness. Central to this approach is the Perception algorithm, which utilises a principled expectation-based threshold ($\mathbb{E} < 1$) to identify outliers without manual parameter tuning. By treating clustering as the dual of anomaly detection, we employ an iterative ``clustering-by-exclusion'' mechanism. The algorithm is seed-guided, leveraging minimal user-provided labels to initialise robust cluster medians and form initial groups, which are subsequently expanded by admitting non-anomalous points. This approach naturally isolates fringe points, isolated noise, and emerging unknown clusters. We evaluate the method on synthetic and real-world benchmarks, including image and text datasets represented through raw, linear-reduced, and neighbourhood-preserving embeddings. Results demonstrate that with as few as 10--30 seeds per cluster, the proposed method achieves competitive and often very strong performance under a practical low-tuning benchmarking protocol, while maintaining linear scalability with respect to both observations and dimensionality for a fixed number of seeded clusters and iterations.
- Abstract(参考訳): 本稿では,グループ化原理と異常検出の統計的双対性に基づく半教師付きクラスタリングフレームワークを提案する。
ノイズの多い環境では、ロバストなクラスタ定義の課題に対処します -- アルゴリズムのパーティショニングが多くの場合、アウトレーヤを過度に割り当て、密度ベースのメソッドがヒューリスティックなグローバルパラメータに敏感なままである、という課題です。
統計的推論とゲシュタルト近接原理に基づいて、クラスタを一様ランダム性のヌル仮説に対する異常のないデータポイントの最大部分集合として定義する。
このアプローチの中心は知覚アルゴリズム(Perception algorithm)であり、これは手動のパラメータチューニングなしで外れ値を特定するために、原則化された期待ベースのしきい値(\mathbb{E} < 1$)を利用する。
クラスタリングを異常検出の二重性として扱うことにより、反復的な ‘clustering-by-exclusion'' 機構を用いる。
このアルゴリズムはシード誘導され、最小限のユーザ提供ラベルを利用して、ロバストなクラスタ中央値を初期化し、初期群を形成する。
このアプローチは自然にフランジ点、孤立ノイズ、未知のクラスターを分離する。
本手法は, 生, 線形再生, 近傍保存による画像とテキストのデータセットを含む, 合成および実世界のベンチマークで評価する。
提案手法は, 1クラスタ当たり10~30種程度で, 実効的な低チューニングベンチマークプロトコルの下で, 競争力と強靭な性能を達成できると同時に, 一定の数のシードクラスタやイテレーションに対して, 観測と寸法の両面から線形スケーラビリティを維持できることを示した。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Hierarchical Clustering With Confidence [6.479319856992936]
集約的階層的クラスタリングは、データの小さな摂動に非常に敏感である。
階層的クラスタリングのランダム化は,安定性の測定だけでなく,有効な仮説テスト手順の設計にも有用であることを示す。
論文 参考訳(メタデータ) (2025-12-06T18:18:20Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - Dirichlet Process-based Robust Clustering using the Median-of-Means Estimator [16.774378814288806]
本稿では,モデルに基づく手法とセントロイド方式の長所を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
本手法は,クラスタリングの品質に及ぼすノイズの影響を緩和するが,同時にクラスタ数を推定する。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
クラスタリングは異常のないデータのグループ化の獲得である。
クラスタリング手法のカーネルは知覚異常検出アルゴリズムである。
半教師付きクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。