論文の概要: An Empirical Study of Gemini 3 for Detecting Natural Language Test Smells in Manual Test Cases
- arxiv url: http://arxiv.org/abs/2606.13804v1
- Date: Thu, 11 Jun 2026 18:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.570233
- Title: An Empirical Study of Gemini 3 for Detecting Natural Language Test Smells in Manual Test Cases
- Title(参考訳): 手動試験における自然言語検査スメル検出のためのジェミニ3の実証的研究
- Authors: Keila Lucas, Rohit Gheyi, Márcio Ribeiro, Fabio Palomba, Luana Martins, Elvys Soares,
- Abstract要約: 本研究では, 現代の大規模言語モデル (GEMINI-3-PRO-PREVIEW) が, 自然言語手動テストケースの匂いを識別できるかどうかを検討する。
我々のアプローチは完全なテストケースを評価し、モデルがテストステップ間の関係や依存関係を考慮できるようにします。
テストの匂いは実際に広まっており、平均して1ステップごとに1つ近いテストの匂いが検出されている。
- 参考スコア(独自算出の注目度): 7.100719635469756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manual testing, in which testers follow natural language instructions to validate system behavior, remains essential for uncovering issues that are difficult to capture with automation. However, manual test cases often contain test smells, quality issues such as ambiguity, redundancy, or missing checks that reduce reliability, maintainability, and reproducibility. Existing detection approaches largely depend on manually engineered rules and thus struggle to generalize and scale across heterogeneous test suites. In our previous work, we assessed the feasibility of using Small Language Models (SLMs) for test smell detection by evaluating GEMMA-3-4B, LLAMA-3.2-3B, and PHI-4-14B on test steps from 143 real-world Ubuntu test cases, covering seven smell types. PHI-4-14B achieved the best performance. In this article, we investigate whether a contemporary Large Language Model (GEMINI-3-PRO-PREVIEW) available at the time of the study can identify test smells in natural language manual test cases using a prompt-based, whole-test-case analysis strategy. Unlike approaches that analyze individual test steps in isolation, our approach evaluates complete test cases, enabling the model to consider relationships and dependencies among test steps. We evaluate the approach on 100 Ubuntu test cases covering seven test smell types and compare its performance against previously evaluated SLMs, including GEMMA-3-4B, LLAMA-3.2-3B, and PHI-4-14B. Our results show that GEMINI-3-PRO-PREVIEW outperforms the SLMs, while producing actionable explanations that can help practitioners revise manual test cases for greater clarity and consistency. We also find that test smells are pervasive in practice, with nearly one detected test smell per step on average, highlighting the need for scalable and automated quality support for manual testing artifacts.
- Abstract(参考訳): テスタがシステムの振る舞いを検証するために自然言語の指示に従う手動テストは、自動化で捉えるのが難しい問題を明らかにする上で、依然として不可欠である。
しかしながら、手動のテストケースには、テストの臭い、曖昧さ、冗長性、信頼性、保守性、再現性の低下といった品質上の問題が含まれていることが多い。
既存の検出アプローチは、手動で設計したルールに大きく依存しているため、異種テストスイートをまたいだ一般化とスケーリングに苦慮している。
GEMMA-3-4B, LLAMA-3.2-3B, PHI-4-14Bを実世界のUbuntuテストケース143のテストステップで評価し, 嗅覚検出に小型言語モデル(SLM)を用いることの可能性を検討した。
PHI-4-14Bは最高の性能を達成した。
本稿では,本研究で利用可能な現代大規模言語モデル(GEMINI-3-PRO-PREVIEW)が,アクシデントベースの全テストケース分析戦略を用いて,自然言語手動テストケースにおけるテスト臭いを識別できるかどうかを検討する。
個別のテストステップを分離して分析するアプローチとは異なり、我々のアプローチは完全なテストケースを評価し、モデルがテストステップ間の関係や依存関係を考慮できるようにします。
GEMMA-3-4B, LLAMA-3.2-3B, PHI-4-14B など, 従来評価されていたSLMとの比較を行った。
この結果から, GEMINI-3-PRO-PREVIEWはSLMよりも優れており, 実践者が手動テストケースをより明確で一貫性のあるものに修正する上で有効な説明が得られている。
また、テストの臭いが実際に広まっており、平均して1ステップごとに1つ近いテストの臭いが検出されており、手動テストのアーティファクトに対してスケーラブルで自動化された品質サポートの必要性を強調しています。
関連論文リスト
- Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases [8.275680062883216]
本研究では,テスト臭を自動的に検出する小言語モデル (SLM) の可能性について検討した。
実世界のUbuntuテストケース143に対して,Gemma3,Llama3.2,Phi-4を評価する。
論文 参考訳(メタデータ) (2025-07-17T12:06:29Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。
本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Manual Tests Do Smell! Cataloging and Identifying Natural Language Test
Smells [1.43994708364763]
テストの臭いは、自動化されたソフトウェアテストの設計と実装における潜在的な問題を示しています。
本研究は,手動テストの匂いのカタログ化に寄与することを目的としている。
論文 参考訳(メタデータ) (2023-08-02T19:05:36Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。