論文の概要: Cluster LOCO: Feature Importance For Interpreting Clusters
- arxiv url: http://arxiv.org/abs/2606.14592v1
- Date: Fri, 12 Jun 2026 16:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.97876
- Title: Cluster LOCO: Feature Importance For Interpreting Clusters
- Title(参考訳): Cluster LOCO: クラスタの解釈に重要な機能
- Authors: Claire M. He, Genevera I. Allen,
- Abstract要約: 本稿では、クラスタリングにおけるモデルに依存しない特徴重要度スコアのファミリーであるCluster LOCOを紹介する。
任意の選択されたクラスタリングアルゴリズムに対して、Cluster LOCOは、その削除が一般化可能性をどの程度低下させるかを測定することで、機能の重要性を定量化する。
本稿では,Cluster LOCOが既存のクラスタリング特徴重要手法よりも情報的特徴をより確実に回復することを示す。
- 参考スコア(独自算出の注目度): 5.6721325104114655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is widely used for exploratory analysis and scientific discovery, driving insights from market segmentation to biological data analysis, but its outputs can be difficult to interpret, audit, and reproduce as modern datasets become increasingly large and complex. Reliable use of clustering requires understanding which features drive the discovered structure, yet feature-level explanations for clustering remain scarce compared with methods in supervised learning. Furthermore, existing clustering feature importance scores are often tied to specific algorithms and data assumptions. To address these challenges, we propose Cluster LOCO (Leave-One-Covariate-Out), a family of model-agnostic feature importance scores for clustering. Cluster LOCO is built on feature occlusion and clustering generalizability, defined as whether cluster labels learned on one subset of the data can be accurately predicted on held-out samples. For any chosen clustering algorithm, Cluster LOCO quantifies a feature's importance by measuring how much its removal degrades generalizability. We first introduce Cluster LOCO-Split, which relies on data splitting, and then extend it to Cluster LOCO-MP, a minipatch ensemble-based version designed for large-scale data. Across synthetic simulations and an application to cell-type discovery in single-cell transcriptomics, we show that Cluster LOCO more reliably recovers informative features than existing clustering feature importance methods.
- Abstract(参考訳): クラスタリングは、探索分析や科学的発見、市場セグメンテーションから生物学的データ分析への洞察を促進するために広く利用されているが、現代のデータセットがますます大きく複雑になるにつれて、そのアウトプットを解釈、監査、再現することは困難である。
クラスタリングの信頼性の高い使用には、発見された構造を駆動する機能を理解することが必要だが、クラスタリングに関する機能レベルの説明は、教師付き学習の手法と比較しても少ないままである。
さらに、既存のクラスタリング機能の重要性スコアは、しばしば特定のアルゴリズムやデータ仮定と結びついている。
これらの課題に対処するために,クラスタリングにおけるモデルに依存しない特徴重要度スコアのファミリーであるCluster LOCO(Leave-One-Covariate-Out)を提案する。
クラスタLOCOは、データの1つのサブセットで学習したクラスタラベルが、保持されたサンプルで正確に予測できるかどうかとして定義される、機能閉塞とクラスタリングの一般化性に基づいて構築されている。
任意の選択されたクラスタリングアルゴリズムに対して、Cluster LOCOは、その削除が一般化可能性をどの程度低下させるかを測定することで、機能の重要性を定量化する。
まず、データ分割に依存したCluster LOCO-Splitを紹介し、次に大規模データ用に設計されたミニパッチアンサンブルベースのCluster LOCO-MPに拡張する。
合成シミュレーションと単細胞転写学における細胞型発見への応用により,Cluster LOCOは既存のクラスタリング機能よりも情報的特徴をより確実に回収できることを示す。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Robust Categorical Data Clustering Guided by Multi-Granular Competitive Learning [47.32771052588132]
ネストされた粒状クラスター効果は、カテゴリーデータの暗黙的な離散距離空間で顕著である。
本稿では,潜在的なクラスタが対話的に自分自身をチューニングできるマルチグラニュラ競合学習アルゴリズムを提案する。
提案手法は,マルチグラニュラクラスタのネスト分布の探索に有効であることを示す。
論文 参考訳(メタデータ) (2026-01-23T06:33:08Z) - ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - Cluster-Level Sparse Multi-Instance Learning for Whole-Slide Images [9.658549716966176]
クラスタレベルのスパースMIL(csMIL)は、グローバルなローカルインスタンスクラスタリング、クラスタ内の注意、クラスタレベルのスパース性誘導を統合する新しいフレームワークである。
当社のcsMILはまず,すべてのバッグに対してグローバルなクラスタリングを実施して$K$クラスタセンターを確立し,続いて各バッグ内のローカルクラスタリングを実施してクラスタラベルを割り当てています。
このアプローチは、ノイズの多いインスタンスに対する堅牢性を高め、臨界領域を特定して解釈可能性を高め、計算複雑性を低減する。
論文 参考訳(メタデータ) (2025-09-14T01:50:51Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A Generalized Framework for Predictive Clustering and Optimization [18.06697544912383]
クラスタリングは強力で広く使われているデータサイエンスツールです。
本稿では,予測クラスタリングのための一般化最適化フレームワークを定義する。
また,大域的最適化のためにMILP(mixed-integer linear programming)を利用する共同最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T19:56:51Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。