論文の概要: LLM vs. Human Unit Tests: Fault Detection on Real Python Bugs
- arxiv url: http://arxiv.org/abs/2606.08588v1
- Date: Sun, 07 Jun 2026 12:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.280957
- Title: LLM vs. Human Unit Tests: Fault Detection on Real Python Bugs
- Title(参考訳): LLM vs. Human Unit Tests: 実Pythonバグの故障検出
- Authors: Phouvadeth Vathana, Prapti Bhatt, Rishi Patel, Nasir U. Eisty,
- Abstract要約: 大規模言語モデル(LLM)は自動単体テスト生成にかなりの可能性を示している。
LLMと人手によるユニットテストを3つの相補的なPythonベンチマークで比較した。
LLMは69%のケースで検索拡張されたコンテキスト検出障害を持つテストを生成したが、汎用的な人間によるテストでは17.2%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown considerable promise for automated unit test generation, yet their practical effectiveness relative to human-written tests remains poorly understood. Existing evaluations commonly rely on coverage-oriented benchmarks that do not assess fault-detection capability directly. We present an empirical comparison of LLM-generated and human-written unit tests across three complementary Python benchmarks: 29 real historical bugs from BugsInPy, a function-level benchmark drawn from python-slugify and packaging, and a controlled paired benchmark. Our generation pipeline couples Gemini 2.5 Flash with a lightweight lexical retrieval mechanism that supplies bug-relevant context at generation time. Across eight quality dimensions, LLM-generated tests with retrieval-augmented context detect faults in 69% of cases compared to 17.2% for general-purpose human-written tests (Fisher's exact, $p < 0.001$, Cohen's $h = 1.10$). Critically, line and branch coverage are nearly identical between the two approaches (84.8% vs. 88.5% and 75.2% vs. 82.1%), confirming that coverage is an insufficient proxy for fault-detection capability. We discuss the conditions under which each approach excels, characterize their complementary strengths, and identify the critical role of retrieval context and reproducible benchmark construction in meaningful test-quality evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) は自動単体テスト生成にかなり期待されているが、人間の手書きテストに対する実用的効果はよく分かっていない。
既存の評価は一般的に、障害検出能力を直接評価しないカバレッジ指向のベンチマークに依存している。
本稿では,LLM生成と人手による単体テストについて,BugsInPyの29の歴史的バグ,python-slugifyとパッケージングから抽出された関数レベルのベンチマーク,ペア化ベンチマークの3つのベンチマークで比較した。
我々の生成パイプラインは、ジェミニ2.5フラッシュと、発生時にバグ関連コンテキストを提供する軽量な語彙検索メカニズムを結合しています。
8つの品質の次元にわたって、LLM生成テストは、検索拡張コンテキストによる障害を69%のケースで検出し、汎用的なヒューマンライトテストでは17.2%である(Fisher's exact, $p < 0.001$, Cohen's $h = 1.10$)。
臨界的には、2つのアプローチ(84.8%対88.5%、75.2%対82.1%)とほぼ同一であり、カバレッジが障害検出能力の不十分なプロキシであることを確認している。
本稿では,各手法が相補的な強みを抽出し,特徴付けする条件について議論し,有意義なテスト品質評価において,検索コンテキストと再現可能なベンチマーク構築の重要な役割を明らかにする。
関連論文リスト
- Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文 参考訳(メタデータ) (2026-04-02T01:13:40Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Benchmarking LLMs for Unit Test Generation from Real-World Functions [34.70460519870186]
ULT(UnLeakedTestbench)は,実世界のPython関数から関数レベルのユニットテストを生成するために設計された,新しいベンチマークである。
3,909個の関数レベルのタスクを慎重に選択することで、ULTはLLMのテスト生成能力をより現実的で挑戦的な評価を提供する。
以上の結果から,ULTはより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-08-01T08:08:26Z) - Quality Assessment of Python Tests Generated by Large Language Models [1.0845500038686533]
本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。
我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
論文 参考訳(メタデータ) (2025-06-17T08:16:15Z) - Type-aware LLM-based Regression Test Generation for Python Programs [13.631541369653066]
Test4PyはPythonの自動テスト生成における型正しさを高める新しいフレームワークである。
Test4Pyは、生成したテストケースを段階的に洗練してカバレッジを改善する反復的な修復手順を統合する。
実世界のPythonモジュール183の評価において、Test4Pyは平均ステートメントカバレッジ83.0%、ブランチカバレッジ70.8%を達成した。
論文 参考訳(メタデータ) (2025-03-18T08:07:17Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。