論文の概要: Correcting Variable Importance Scored by Random Forests
- arxiv url: http://arxiv.org/abs/2606.10770v1
- Date: Tue, 09 Jun 2026 12:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.485443
- Title: Correcting Variable Importance Scored by Random Forests
- Title(参考訳): ランダム林による重要度の補正
- Authors: Guancheng Zhou, Haiping Xu, Jason Liu, Donghui Yan,
- Abstract要約: ランダムフォレスト(RF)における変数の重要性の計算は,変数間の相関を考慮に入れない。
条件付き相関(応答変数の条件)により群変数を提案する。
実験の結果,両者が変数の重要度に有意な補正をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 2.3690789353712405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variable importance produced by Random Forests (RF) is used widely in statistical data analysis, and has played an important role in a variety of tasks such as assisting model interpretation, model selection and diagnosis, and cost-bounded learning etc. However, the calculation of variable importance in RF does not take into account of the correlations among variables, and variables that are correlated to many other variables tend to receive a lower importance index or being completely masked (i.e., with an importance index near zero) by other strongly correlated variables. To prevent influence from unwanted correlated variables in calculating variable importance, we propose to group variables by their conditional correlations (conditional on the response variable). We explore two computationally efficient options, with one grouping variables individually, and then separates the variable of interest from all correlated variables, while the other uses clustering to group variables according to their pair-wise conditional correlations. Our experiments show that both lead to sensible corrections to the importance of variables.
- Abstract(参考訳): ランダムフォレスト(RF)が生み出す様々な重要性は、統計データ分析において広く利用されており、モデル解釈、モデル選択・診断、コストバウンドラーニングなど、様々なタスクにおいて重要な役割を果たしている。
しかし、RFにおける変数重要性の計算は変数間の相関を考慮せず、他の多くの変数と相関する変数は、より低い重要度指数を受けるか、あるいは完全にマスキングされる傾向にある(すなわち、0に近い重要度指数を持つ)。
変数の重要度を計算する上で,不必要な相関変数の影響を避けるために,条件付き相関(応答変数の条件)を用いてグループ変数を提案する。
1つの変数を個別にグループ化し、次にすべての相関変数から興味の変数を分離し、もう1つの変数はペアの条件付き相関に従ってグループ変数にクラスタリングする。
実験の結果,両者が変数の重要度に有意な補正をもたらすことが明らかとなった。
関連論文リスト
- Temporal Latent Variable Structural Causal Model for Causal Discovery under External Interferences [53.308122815325326]
観測データに影響を与える非観測因子を表現するために潜伏変数を導入する。
具体的には、因果強度と隣接情報を捉えるために、時間変動型因果モデルを提案する。
専門家の知識が特定のシナリオにおける未知の干渉に関する情報を提供することができることを考慮し,パラメータ学習への事前知識の導入を容易にする手法を開発した。
論文 参考訳(メタデータ) (2025-11-13T07:10:10Z) - Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables [17.154150811381907]
非実験データから因果効果を推定することは、科学の多くの分野における根本的な問題である。
非パラメトリック因果効果推定における共変量選択のための新しい局所学習手法を提案する。
我々は、合成データと実世界のデータの両方に関する広範な実験を通じて、アルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-25T12:08:54Z) - Challenges in Variable Importance Ranking Under Correlation [6.718144470265263]
本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T19:02:13Z) - Gower's similarity coefficients with automatic weight selection [0.0]
混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に倣って解決される。
論文 参考訳(メタデータ) (2024-01-30T14:21:56Z) - Identifying Weight-Variant Latent Causal Models [82.14087963690561]
推移性は潜在因果表現の識別性を阻害する重要な役割を担っている。
いくつかの軽微な仮定の下では、潜伏因果表現が自明な置換とスケーリングまで特定可能であることを示すことができる。
本稿では,その間の因果関係や因果関係を直接学習する構造的caUsAl変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2022-08-30T11:12:59Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - VarCLR: Variable Semantic Representation Pre-training via Contrastive
Learning [84.70916463298109]
VarCLRは変数名のセマンティック表現を学ぶための新しいアプローチである。
VarCLRはコントラスト学習に適しており、明示的に類似した入力間の距離を最小化することを目的としている。
VarCLRはBERTのような洗練された汎用言語モデルを効果的に適用できることを示す。
論文 参考訳(メタデータ) (2021-12-05T18:40:32Z) - Obtaining Causal Information by Merging Datasets with MAXENT [12.64433334351049]
我々は,すべての変数を共同で観察することなく,因果的知識の獲得方法について論じる。
共同創設者の存在下での対象変数に対する治療の介入分布と平均因果効果の限界を導出する。
論文 参考訳(メタデータ) (2021-07-15T23:16:36Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。