論文の概要: Beyond Coverage and Kill Scores: Empirically Measuring Test Suite Behavioural Gaps
- arxiv url: http://arxiv.org/abs/2606.10417v1
- Date: Tue, 09 Jun 2026 04:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.990765
- Title: Beyond Coverage and Kill Scores: Empirically Measuring Test Suite Behavioural Gaps
- Title(参考訳): テストスイートのビヘイビアギャップを実証的に測定する
- Authors: Partha Protim Paul, Reid Holmes,
- Abstract要約: 従来のテスト適合度メトリクスは、期待される振る舞いに準拠するかどうかではなく、システムの実装を測定する。
私たちは、コードが何をするのか、実際に何をするのかのギャップを調査するために、概念実証の自動化アプローチを導入します。
8,922のメソッドからなる10の人気のあるオープンソースJavaライブラリに対して,93.1%の精度で20,729の動作を抽出し,アプローチを評価した。
- 参考スコア(独自算出の注目度): 4.434030666628529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional test adequacy metrics measure a system's implementation, not whether it adheres to its expected behaviour. While developers rely heavily on code coverage and mutation testing to assess test suite quality, these metrics are fundamentally implementation-centric and cannot detect gaps between what the code is expected to do and what it actually does. Unfortunately, there has been no way to reliably detect these discrepancies; in this paper we introduce an automated proof-of-concept approach to investigate these gaps. The approach extracts expected method-level behaviours from natural language documentation and source code, maps them to existing test cases, and identifies gaps between expected and validated behaviours. We evaluate the approach across ten popular open-source Java libraries comprising 8,922 methods, extracting 20,729 behaviours with 93.1% precision. Our empirical analysis conservatively estimates that 17.5% of detected expected behaviours remain entirely untested, which we term as the test suite's behavioural gap. To determine if these gaps are merely an artifact of human-driven testing, we evaluate state-of-the-art automated test generators (EVOSUITE / ASTER), finding that they similarly fail to validate at least 20.6% / 27.1% of detected expected behaviours. We further demonstrate that behavioural gaps are not predicted by traditional structural metrics: the majority of untested behaviours occur in methods that already have high line coverage, and over half persist in methods with high mutation kill score. These results suggest behavioural coverage acts as an independent dimension of test suite adequacy that can complement traditional structural metrics.
- Abstract(参考訳): 従来のテスト適合度メトリクスは、期待される振る舞いに準拠するかどうかではなく、システムの実装を測定する。
開発者はテストスイートの品質を評価するためにコードカバレッジと突然変異テストに大きく依存しているが、これらのメトリクスは基本的に実装中心であり、コードが何をするのかと実際に何をするのかのギャップを検出することはできない。
残念ながら、これらの不一致を確実に検出する方法は存在せず、本稿では、これらのギャップを調査するための自動概念実証手法を提案する。
このアプローチは、自然言語のドキュメントとソースコードから期待されるメソッドレベルの振る舞いを抽出し、それらを既存のテストケースにマップし、期待される振る舞いと検証された振る舞いのギャップを特定する。
8,922のメソッドからなる10の人気のあるオープンソースJavaライブラリに対して,93.1%の精度で20,729の動作を抽出し,アプローチを評価した。
私たちの経験分析では、検出された振る舞いの17.5%は完全にテストされていないままであり、テストスイートの動作ギャップと呼ばれていると推定しています。
これらのギャップが単に人間によるテストの成果物であるかどうかを判断するために、最先端の自動テストジェネレータ(EVOSUITE/ASTER)を評価し、検出された振る舞いの少なくとも20.6%/27.1%の検証に失敗している。
テストされていない動作の大部分は、すでに高いラインカバレッジを持つメソッドで発生し、半数以上が高い突然変異致死スコアを持つメソッドで持続する。
これらの結果は、振る舞いカバレッジが、従来の構造的メトリクスを補完できる独立したテストスイートの次元として振る舞うことを示唆している。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。
6つのオープンソースプロジェクトの207バージョンを調査した。
以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-04-06T17:14:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文 参考訳(メタデータ) (2022-08-20T06:18:16Z) - How to Evaluate Uncertainty Estimates in Machine Learning for
Regression? [1.4610038284393165]
両手法とも,不確実性評価の品質評価には深刻な欠陥があることが示唆された。
第一に、どちらのアプローチも、予測の不確実性を共同で生み出す別個のコンポーネントを解き放つことはできない。
第3に、予測間隔を直接テストする現在のアプローチには、さらなる欠陥がある。
論文 参考訳(メタデータ) (2021-06-07T07:47:46Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。