論文の概要: Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics
- arxiv url: http://arxiv.org/abs/2606.09957v1
- Date: Mon, 08 Jun 2026 11:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.088513
- Title: Data-aware Static Analysis: Improving Detection of Semantic Faults in Machine Learning Code Using Data Characteristics
- Title(参考訳): データ認識静的解析:データ特性を用いた機械学習コードの意味的欠陥検出の改善
- Authors: Willem Meijer, Kristian Sandahl, Dániel Varró,
- Abstract要約: 本稿では,機械学習コード中の意味的欠陥を検出するための静的解析手法を提案する。
このアプローチでは、データと制御フロー分析、APIコントラクトを組み合わせています。
実世界の機械学習ノートブックのサンプルを分析することで、ソリューションの可能性を強調します。
- 参考スコア(独自算出の注目度): 2.0835895075632256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic faults specific to the use of machine learning models are a common problem for machine learning developers, causing suboptimal predictions, high computational cost, or incorrect outputs. For example, one may erroneously use unscaled data to train a scale-sensitive model. Machine learning developers detect these faults after training their models and manually analyzing the results, making it an inefficient process. We propose a novel data-aware static analysis approach to detect semantic faults in machine learning code, allowing developers to reveal these bugs while writing code instead of after training the model. Our approach uses combined data and control flow analysis, and API contracts, enabling data-aware reasoning about machine learning code at a high level of abstraction. We highlight the potential of our solution by analyzing a sample of real-world machine learning notebooks, finding that we can detect faults that require a data-aware approach.
- Abstract(参考訳): 機械学習モデルの使用に特有の意味的欠陥は、機械学習開発者にとって共通の問題であり、最適以下の予測、高い計算コスト、誤った出力を引き起こす。
例えば、スケールに敏感なモデルをトレーニングするために、不正なスケールデータを使用する場合もあります。
機械学習の開発者は、モデルをトレーニングし、結果を手動で分析した後、これらの欠陥を検知する。
本稿では,機械学習コード中の意味的欠陥を検出するための,新しいデータ認識静的解析手法を提案する。
このアプローチでは、データと制御フローの分析とAPIコントラクトを組み合わせて、高度な抽象化で機械学習コードに関するデータ認識推論を可能にします。
私たちは、実世界の機械学習ノートブックのサンプルを分析し、データ認識アプローチを必要とする障害を検出することで、ソリューションの可能性を強調します。
関連論文リスト
- Code Vulnerability Detection Across Different Programming Languages with AI Models [0.0]
本稿では,CodeBERTやCodeLlamaのようなトランスフォーマーモデルの実装について述べる。
これは、脆弱で安全なコードフラグメント上でモデルを動的に微調整することで、オフザシェルフモデルがモデル内の予測能力をいかに生み出すかを示している。
実験によると、よく訓練されたCodeBERTは97%以上の精度で既存の静的アナライザに匹敵するか、それ以上に優れている。
論文 参考訳(メタデータ) (2025-08-14T05:41:58Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - How to unlearn a learned Machine Learning model ? [0.0]
機械学習モデルを学習し、その能力を視覚化するためのエレガントなアルゴリズムを提示します。
基礎となる数学的理論を解明し、所望のデータに対する未学習モデルの性能と望ましくないデータに対する無知の両方を評価するための具体的な指標を確立する。
論文 参考訳(メタデータ) (2024-10-13T17:38:09Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection [12.529028629599349]
本稿では,ML4VD技術の真の性能と限界をよりよく評価するための新しいベンチマーク手法を提案する。
6つのML4VD技術と2つのデータセットを使用して、(a)テストデータの脆弱性を予測するために、最先端のモデルが無関係な機能に過度に適合していること、(b)データ拡張によって得られるパフォーマンスが、トレーニング中に適用される特定の拡張を超えて一般化されないことを発見した。
論文 参考訳(メタデータ) (2023-06-28T08:41:39Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Machine Learning to Tackle the Challenges of Transient and Soft Errors
in Complex Circuits [0.16311150636417257]
機械学習モデルは、回路インスタンスの完全なリストに対して、インスタンスごとの正確な関数デレートデータを予測するために使用される。
提案手法を実例に適用し,各種機械学習モデルの評価と比較を行った。
論文 参考訳(メタデータ) (2020-02-18T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。