論文の概要: Are We Lost in the Woods? Detecting Silent Semantic Faults for Random Forest Classifiers with Data-informed Static Analysis
- arxiv url: http://arxiv.org/abs/2606.07709v1
- Date: Fri, 05 Jun 2026 12:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:53:15.298166
- Title: Are We Lost in the Woods? Detecting Silent Semantic Faults for Random Forest Classifiers with Data-informed Static Analysis
- Title(参考訳): 木に失われているか? データインフォームド静的解析によるランダム森林分類器の無意味なセマンティック断層の検出
- Authors: Willem Meijer, Louis Ohl, Kristian Sandahl, Daniel Varro,
- Abstract要約: 機械学習(ML)ソフトウェアにおける静かな意味障害は、明らかな症状のない予測性能を低下させる。
本稿では,データインフォームド静的解析手法を提案する。
- 参考スコア(独自算出の注目度): 0.6796312765173856
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While machine learning (ML) software necessitates effective quality assurance, ML engineers still encounter silent semantic faults, such as imbalanced datasets, that degrade prediction performance without apparent symptoms. These faults are typically detected after expensive training cycles, causing significant resource waste. We propose a data-informed static analysis technique to detect silent semantic faults in ML scripts that use the popular random forest classifier. Our approach extracts ML pipelines into directed acyclic graphs and evaluates them against formalized API contracts to detect structural, data, and hyperparameter faults. Our analysis uses aggregated data properties, enabling fault detection even when datasets are inaccessible due to confidentiality restrictions. We implemented this technique in an open-source tool, dille, and evaluated it on real-world Kaggle notebooks that use the random forest classifier. Our results demonstrate that the tool identifies relevant semantic faults with 91% precision and sub-second runtime overhead, making it suitable for integration into integrated development environments, agentic workflows, and continuous integration pipelines. Our empirical study reveals that 12% to 18% of existing ML notebooks that use the random forest classifier are affected by silent semantic faults, highlighting the immediate practical utility of data-informed static analysis in reducing the burden of ML debugging.
- Abstract(参考訳): 機械学習(ML)ソフトウェアは効果的な品質保証を必要とするが、MLエンジニアは、明らかな症状のない予測性能を低下させる不均衡なデータセットのような静かなセマンティックな障害に直面している。
これらの断層は通常、高価な訓練サイクル後に検出され、かなりの資源の浪費を引き起こす。
本稿では,データインフォームド静的解析手法を提案する。
提案手法は,MLパイプラインを非巡回グラフに抽出し,構造,データ,ハイパーパラメータの故障を検出するための形式化されたAPIコントラクトに対して評価する。
我々の分析では、集約されたデータプロパティを使用し、機密性制限のためにデータセットにアクセスできない場合でも、障害検出を可能にします。
この手法をオープンソースツールであるDilleに実装し、ランダムな森林分類器を用いた実世界のKaggleノート上で評価した。
このツールは91%の精度とサブ秒以下のランタイムオーバーヘッドで関連するセマンティックな障害を特定し、統合開発環境、エージェントワークフロー、継続的インテグレーションパイプラインとの統合に適していることを示す。
実験により,無作為な森林分類器を用いた既存のMLノートの12%から18%が無音な意味障害の影響を受けており,MLデバッグの負担を軽減するためのデータインフォームド静的解析の即時的実用性を強調した。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Towards Compositional Generalization in LLMs for Smart Contract Security: A Case Study on Reentrancy Vulnerabilities [35.39583123277091]
本稿では,原子タスクの分解と融合に基づくポストトレーニングアルゴリズムを提案する。
再帰的脆弱性検出タスクを4つの線形独立原子タスクに分解する。
合成データセットのトレーニングにより、3つのコンパイラ検証データセットを生成する。
次に、Slitherツールを使用して、制御フローグラフとデータフローグラフから構造情報を抽出する。
論文 参考訳(メタデータ) (2026-01-11T13:52:07Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Data-Driven Failure Prediction in Brittle Materials: A Phase-Field Based
Machine Learning Framework [1.3858051019755282]
繰り返しまたは増加する負荷下でマイクロ・マクロ・クラックによって導かれる脆性材料の破壊は、しばしば破滅的である。
等温・線形弾性・等方位相場モデルにおける故障を予測するための教師付き機械学習(ML)フレームワークを開発した。
提案手法は,高い騒音レベルが存在する場合でも,許容精度で故障を予測できることを示す。
論文 参考訳(メタデータ) (2020-03-24T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。