論文の概要: All Smoke, No Alarm: Oracle Signals in Agent-Authored Test Code
- arxiv url: http://arxiv.org/abs/2606.18168v1
- Date: Tue, 16 Jun 2026 17:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.56376
- Title: All Smoke, No Alarm: Oracle Signals in Agent-Authored Test Code
- Title(参考訳): All Smoke, No Alarm: Oracleがエージェント認証テストコードに署名
- Authors: Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim,
- Abstract要約: ソフトウェア実践者は、オープンソースプルリクエスト(PR)でプロダクションコードと並行してテストコードを生成するAIコーディングエージェントをますます使用しています。
最近の研究では、116,000以上のリポジトリで932,000以上のエージェントによるPRが報告されている。
明示的なアサーションを欠いたテストファイルは、振る舞いを検証せずにコードを実行する。
- 参考スコア(独自算出の注目度): 1.0832844764942349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software practitioners increasingly use AI coding agents that generate test code alongside production code in open source pull requests (PRs). Recent studies report more than 932,000 agent-authored PRs across more than 116,000 repositories, yet whether their test files contain meaningful verification logic remains underexplored. Test files lacking explicit assertions execute code without verifying behavior, so quality gates based on test-file presence overestimate verification strength. The goal of this paper is to help practitioners assess the verification strength of agent-authored patches by characterizing oracle signals and their link to merge outcomes and review effort. We conduct an empirical study of 86,156 test-file patches from 33,596 agent-authored PRs across 2,807 GitHub repositories produced by five coding agents: OpenAI Codex, GitHub Copilot, Devin, Cursor, and Claude Code. A qualitative analysis of 384 stratified patches informs a syntactic taxonomy of eight oracle signal categories. Applied at scale, 80.2% of test patches contain weak or no explicit oracle signals. While raw merge rates are lower for strong-oracle PRs, a regression analysis adjusting for agent, PR size, repository popularity, task type, and language shows strong oracles significantly improve merge likelihood (OR = 1.28, p < 0.001). Our findings suggest that test file counts substantially overestimate verification strength and that practitioners can adopt oracle-aware quality checks to more accurately evaluate agent-authored contributions.
- Abstract(参考訳): ソフトウェア実践者は、オープンソースプルリクエスト(PR)で運用コードと並行してテストコードを生成するAIコーディングエージェントをますます使用しています。
最近の研究では、116,000以上のリポジトリに932,000以上のエージェントによるPRが報告されているが、それらのテストファイルに有意義な検証ロジックが含まれているかどうかはまだ不明である。
明示的なアサーションを欠いたテストファイルは、振る舞いを検証せずにコードを実行する。
本研究の目的は、オラクル信号とマージ結果とレビュー作業との関係を特徴付けることにより、エージェント認可パッチの検証強度を評価することである。
私たちは、OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Codeという5つのコーディングエージェントによって生成される2,807のGitHubリポジトリで、33,596のエージェントが認可したPRから86,156のテストファイルパッチを実証調査しました。
384層状パッチの質的分析は、8つのオラクル信号カテゴリの統語分類を通知する。
大規模に適用されたテストパッチの80.2%は、弱いか明示的なオラクル信号を含んでいない。
しかし, エージェント, PRサイズ, リポジトリの人気, タスクタイプ, 言語に対する回帰分析では, マージ確率が有意に向上した(OR = 1.28, p < 0.001)。
以上の結果から,テストファイルの検証能力は著しく過大評価され,実践者はオラクル品質チェックを適用でき,エージェントによるコントリビューションをより正確に評価できる可能性が示唆された。
関連論文リスト
- MASTOR: A Multi-Agent Approach to Semantic Test Oracle Generation for RESTful APIs [8.248920932579876]
既存の自動APIテストアプローチは、単純なチェックに依存している。
実装ソースコードに基づくAPIのためのセマンティックテストオラクルを生成するためのマルチエージェントアプローチであるMASTORを提案する。
論文 参考訳(メタデータ) (2026-06-09T06:35:21Z) - Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - SWE-chat: Coding Agent Interactions From Real Users in the Wild [70.18158706281724]
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
論文 参考訳(メタデータ) (2026-04-22T17:08:19Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests [0.0]
24,014個の統合エージェントPR(440,295個のコミット)と5,081個のヒトPR(23,242個のコミット)を分析した。
エージェントPRはコミットカウントにおいてヒューマンPRと大きく異なる(Cliffの$= 0.5429$)。
これらの発見は、AIコーディングエージェントがオープンソース開発にどのように貢献するかを、大規模な経験的評価を提供する。
論文 参考訳(メタデータ) (2026-01-24T20:27:04Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。