論文の概要: The Risk Shadow of Principal Component Analysis: When 99.9999% Variance Preservation Causes Catastrophic Decision Errors
- arxiv url: http://arxiv.org/abs/2606.14533v1
- Date: Fri, 12 Jun 2026 15:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.951953
- Title: The Risk Shadow of Principal Component Analysis: When 99.9999% Variance Preservation Causes Catastrophic Decision Errors
- Title(参考訳): 主成分分析のリスクシャドウ:99.9999%の変動保存が破滅的決定誤差を引き起こす
- Authors: Hamidou Tembine,
- Abstract要約: 主成分分析(PCA)は、まれな破滅的な事象を検出するために必要な情報ではなく、ばらつきを保存している。
この論文は、リスクシャドウの存在を証明している: PCAは、まれで高インパクトな障害に関するすべてのシグナルを消去しながら、全分散の99.999%以上を維持できる。
- 参考スコア(独自算出の注目度): 0.130536490219656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Principal Component Analysis (PCA) preserves variance, not the information needed to detect rare catastrophic events. This paper proves the existence of a {\it Risk Shadow}: PCA can retain over 99.9999 percent of total variance while completely erasing all signal about rare, high-impact failures. When this happens, even the best possible classifier operating on the PCA representation reduces to a constant predictor. The root cause is a fundamental mismatch between variance maximization and tail risk awareness. To break the shadow, we introduce Expectile PCA (ExPCA) and Tail-Preserving PCA (TP-PCA), two methods that reweight the data covariance toward high-impact events. We prove theoretically that ExPCA strictly outperforms PCA in retaining rare-event information, and we validate our claims on synthetic data and a real-world credit card fraud detection benchmark. Our results call for a fundamental rethinking of variance-based dimensionality reduction in high-stakes decisions.
- Abstract(参考訳): 主成分分析(PCA)は、まれな破滅的な事象を検出するために必要な情報ではなく、ばらつきを保存している。
この論文は、リスクシャドウの存在を証明している: PCAは全分散の99.99999%以上を維持でき、希少かつ高影響の故障に関するすべての信号を完全に消去できる。
これが起こると、PCA表現で操作できる最高の分類器でさえ、一定の予測器に還元される。
根本原因は、分散の最大化とテールリスクの認識の基本的なミスマッチである。
そこで本研究では,データ共分散を重畳する2つの手法である,予測PCA(ExPCA)とTail-PreservingPCA(TP-PCA)を紹介する。
理論的には、ExPCAは希少な情報の保持においてPCAより厳密に優れており、我々は合成データと現実のクレジットカード不正検出ベンチマークに関する主張を検証している。
この結果から,高次の意思決定における分散に基づく次元性低下の根本的な再考が求められた。
関連論文リスト
- On Design of Representative Distributionally Robust Formulations for Evaluation of Tail Risk Measures [0.0]
CVaR(Conditional Value-at-Risk)は、極度の損失の影響を定量化するために広く用いられるリスク尺度である。
この感度に対処するため、分散ロバスト最適化(DRO)は、可算データ分布の集合に対して最悪のCVaR値を評価する。
本稿では,DROの定式化に極値理論を活用することを目的とする。
論文 参考訳(メタデータ) (2025-06-19T11:40:02Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - A novel Deep Learning approach for one-step Conformal Prediction
approximation [0.7646713951724009]
Conformal Prediction (CP) は、最小限の制約を与えられた最大エラー率を保証する汎用的なソリューションである。
本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。
論文 参考訳(メタデータ) (2022-07-25T17:46:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - FAST-PCA: A Fast and Exact Algorithm for Distributed Principal Component
Analysis [12.91948651812873]
主成分分析(PCA)は、機械学習の世界における基本的なデータ前処理ツールである。
本稿では,FAST-PCA (Fast and exact distributed PCA) と呼ばれる分散PCAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-27T16:10:59Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - Probabilistic Contrastive Principal Component Analysis [0.5286651840245514]
比較主成分分析(CPCA)のモデルに基づく代替案を提案する。
CPCAに対するPCPCAのアドバンテージは、解釈性の向上、不確実性定量化、原理推論などである。
遺伝子発現、タンパク質発現、画像のデータセットを用いた一連のシミュレーションとケースコントロール実験によりPCPCAの性能を実証します。
論文 参考訳(メタデータ) (2020-12-14T22:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。