論文の概要: Is Agent Code Less Maintainable Than Human Code?
- arxiv url: http://arxiv.org/abs/2606.21804v1
- Date: Fri, 19 Jun 2026 23:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:05:19.115375
- Title: Is Agent Code Less Maintainable Than Human Code?
- Title(参考訳): エージェントコードは人間のコードよりメンテナンスしにくいか?
- Authors: Shaswat Patel, Betty Li Hou, Arun Purohit, Kai Xu, Jane Pan, He He, Valerie Chen,
- Abstract要約: 保守環境において,エージェントコードがヒューマンコードとどのように比較されるかを検討する。
エージェントは人的コードに比べてエージェントコード構築時のタスクの解決に効果が低いことがわかった。
- 参考スコア(独自算出の注目度): 17.226150835020146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintainability is a core dimension of software engineering, shaping how code is written, reviewed, and developed over time. While coding agents have demonstrated strong performance on single-issue tasks, it remains unclear how maintainable their code is when future agents build on top of it, potentially leading to compounding downstream effects. We investigate how agent code compares to human code in these maintenance settings, presenting CodeThread, a framework to construct controlled experiments from repository-level coding benchmarks. Applying CodeThread to four frontier coding agents and four benchmarks, we find that agents are less effective at resolving tasks when building on agent code compared to human code, with task resolve rate drops of up to 13.1%. Regression analysis reveals that many traditional software engineering maintainability metrics do not explain this difference. Instead, the clearest signals are subtler behavioral differences in agent code, such as changes to input validation and error handling, along with differences in downstream code size and task difficulty. These findings highlight the need to evaluate these systems not only by immediate task resolution but also by code maintainability, and point to potential sources of downstream errors introduced by agent code.
- Abstract(参考訳): 保守性はソフトウェアエンジニアリングの中核的な側面であり、コードの書き方、レビュー、開発を時間をかけて形成する。
コーディングエージェントは単一課題のタスクで強いパフォーマンスを示してきたが、将来のエージェントがその上に構築されるときのコードの保守性は不明確であり、ダウンストリーム効果の複合化につながる可能性がある。
我々は,リポジトリレベルのコーディングベンチマークから制御された実験を構築するためのフレームワークであるCodeThreadを紹介し,これらのメンテナンス設定においてエージェントコードがヒューマンコードとどのように比較するかを検討する。
CodeThreadを4つのフロンティアコーディングエージェントと4つのベンチマークに適用すると、エージェントは、ヒューマンコードよりもエージェントコード構築時のタスク解決の効率が低く、タスク解決率は最大13.1%低下する。
回帰分析は、多くの伝統的なソフトウェア工学の保守性メトリクスがこの違いを説明していないことを示している。
代わりに、最も明確な信号は、下流のコードサイズとタスクの難易度の違いとともに、入力バリデーションやエラー処理の変更など、エージェントコードの微妙な振る舞いの違いである。
これらの知見は、即時タスク解決だけでなく、コードの保守性によってこれらのシステムを評価することの必要性を強調し、エージェントコードによってもたらされる下流エラーの原因を指摘する。
関連論文リスト
- Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。