論文の概要: Training Dynamics of Neural Software Defect Predictors under Coupled Data-Quality Issues
- arxiv url: http://arxiv.org/abs/2606.24968v1
- Date: Tue, 23 Jun 2026 10:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.075338
- Title: Training Dynamics of Neural Software Defect Predictors under Coupled Data-Quality Issues
- Title(参考訳): 結合データ品質問題におけるニューラルソフトウェア欠陥予測器のトレーニングダイナミクス
- Authors: Emmanuel Charleson Dapaah, Philip Makedonski, Jens Grabowski,
- Abstract要約: 本研究では,クラス不均衡,重なり合い,およびそれらの結合から生じるトレーニング・ダイナミックス・パターンが,インタラクション・アウェアな条件下でどのように特徴付けられるかを検討する。
本研究は、メトリックベースのSDPにおいて、データ品質の複合問題に対する対話型経験的プロトコルと、トレーニング力学パターンの候補分類を作成する。
- 参考スコア(独自算出の注目度): 0.34410212782758043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Software defect prediction supports maintenance decisions such as testing prioritization, release-risk assessment, and quality monitoring. However, metric-based SDP datasets often contain coupled data-quality issues, especially class imbalance and class overlap. Prior work has mainly measured their impact through endpoint performance, while recent evidence suggests that such issues may also appear in neural training dynamics (gradients, weights, biases, error trajectories). However, these studies examine issues in isolation, leaving open how internal neural network training patterns manifest when data quality issues are coupled. Objective: We investigate how training-dynamics patterns from class imbalance, overlap, and their coupling can be characterized under interaction-aware conditions in deep learning-based SDP. Method: We conduct a controlled intervention study on class-level UBD datasets, training a fixed MLP under imbalance-only, overlap-only, and joint conditions across five seeds. Training dynamics are logged per epoch; fidelity is monitored via coupling ratios. Patterns are characterized using effect sizes, trajectories, sensitivity analyses, and rule-based classification. Expected contribution: The study will produce an interaction-aware empirical protocol and a candidate taxonomy of training-dynamics patterns for coupled data-quality issues in metric-based SDP.
- Abstract(参考訳): コンテキスト: ソフトウェアの欠陥予測は、テストの優先順位付け、リリースリスク評価、品質監視といったメンテナンス上の決定をサポートする。
しかし、メトリックベースのSDPデータセットには、データ品質の問題、特にクラス不均衡とクラスオーバーラップが混在していることが多い。
以前の研究は主にエンドポイントのパフォーマンスを通じて影響を計測してきたが、最近の証拠は、そのような問題が神経トレーニングのダイナミクス(勾配、重み、バイアス、エラー軌跡)にも現れることを示唆している。
しかしながら、これらの研究は、データ品質の問題が結合された場合、内部のニューラルネットワークトレーニングパターンがどのように現れるかをオープンにして、分離された問題を調べる。
目的: 深層学習に基づくSDPにおいて, クラス不均衡, 重なり合い, およびそれらの結合が相互作用認識条件下でどのように特徴付けられるかを検討する。
方法: クラスレベルのUBDデータセットに対する制御的介入研究を行い, 不均衡, 重複, 結合条件下での固定MLPの訓練を行った。
トレーニングのダイナミクスはエポック毎にログされ、忠実度は結合比によって監視される。
パターンは効果の大きさ、軌道、感度分析、規則に基づく分類によって特徴づけられる。
期待されている貢献: この研究は、メトリックベースのSDPにおけるデータ品質の複合問題に対する、インタラクション対応の実証的プロトコルと、トレーニング力学パターンの候補分類を作成する。
関連論文リスト
- When Data Quality Issues Collide: A Large-Scale Empirical Study of Co-Occurring Data Quality Issues in Software Defect Prediction [0.3867363075280543]
本稿では,SDPにおける5つのデータ品質問題を同時に検討した最初の大規模実験分析について述べる。
最も頻度の低い問題(属性ノイズ)でさえ、データセットの93%以上に他の問題とともに現れる。
クラスオーバーラップで0.20、不均衡で0.65-0.70、無関係で0.94と、ほとんどのモデルが劣化し始める。
論文 参考訳(メタデータ) (2025-12-19T11:21:12Z) - ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Understanding and Improving Transfer Learning of Deep Models via Neural Collapse [37.483109067209504]
分類問題に対する神経崩壊(NC)と伝達学習の関係について検討する。
機能崩壊と下流のパフォーマンスには強い相関関係がある。
提案手法は, 微調整パラメータを90%以上削減しつつ, 優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-23T08:48:34Z) - Analyzing the Effects of Handling Data Imbalance on Learned Features
from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。
ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文 参考訳(メタデータ) (2022-04-04T09:38:38Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。