論文の概要: Mining Architectural Quality Under Agentic AI Adoption: A Causal Study of Java Repositories
- arxiv url: http://arxiv.org/abs/2606.13298v1
- Date: Thu, 11 Jun 2026 12:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.79819
- Title: Mining Architectural Quality Under Agentic AI Adoption: A Causal Study of Java Repositories
- Title(参考訳): エージェントAI導入によるアーキテクチャ品質のマイニング - Javaリポジトリの因果的研究
- Authors: Oliver Aleksander Larsen, Mahyar T. Moghaddam,
- Abstract要約: AIコーディングツールは現在、ほとんどの開発者が使用しており、これらのツールのエージェント的使用は、"バイブコーディング"と呼ばれるプラクティスを広く普及させている。
差分差分設計とBorusyakインプット推定器を用いた建築ニオイ密度(ASD)への導入の因果効果を推定する。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI coding tools are now used by a majority of developers, and agentic use of these tools has popularized the practice colloquially called "vibe coding". Yet causal evidence on their effect on software architecture is scarce. Prior causal work has measured code-level outcomes (complexity, static analysis warnings); whether such degradation propagates to architecture-level outcomes remains unknown. We mine 151 open-source Java repositories, 74 with detectable agentic AI adoption (identified via configuration files and Co-Authored-By commit trailers) and 77 propensity-matched controls, across a 13-month per-repository window yielding 1,811 monthly Arcan snapshots. We estimate the causal effect of adoption on architectural smell density (ASD) with a staggered difference-in-differences design and the Borusyak imputation estimator, applying a causal design recently used for code-level metrics to the architecture level. Total smell counts are essentially unchanged (+1.1%, p = 0.82) while lines of code grow +12.8% (p = 0.003); the resulting 6.7% ASD decline (p = 0.004) is therefore a denominator effect rather than an architectural improvement. Per-type estimates and robustness checks (wild cluster bootstrap, Lee bounds, stale-observation sensitivity) corroborate the pattern; pre-trends are flat (Wald p = 0.90), consistent with parallel trends. Density-normalized outcomes can mislead when treatment affects system size: raw counts and explicit decomposition are required for causal mining studies of AI tool adoption. The complete replication package, including the curated 151-repository monthly panel, is publicly available.
- Abstract(参考訳): AIコーディングツールは現在、ほとんどの開発者が使用しており、これらのツールのエージェント的使用は、"バイブコーディング"と呼ばれるプラクティスを広く普及させている。
しかし、ソフトウェアアーキテクチャに対する彼らの影響に関する因果的証拠は乏しい。
これまでの因果研究は、コードレベルの結果(複雑さ、静的解析の警告)を測定しており、そのような劣化がアーキテクチャレベルの結果に伝播するかどうかは不明だ。
私たちは151のオープンソースJavaレポジトリと74のエージェントAI採用(コンフィギュレーションファイルとCo-Authored-Byコミットトレーラを通じて識別される)、77のプロパシティマッチングコントロールを、13ヶ月毎のレポジトリウィンドウで使用し、1,811のArcanスナップショットを生成しました。
我々は,最近,コードレベルのメトリクスをアーキテクチャレベルに適用した因果設計を適用し,差分差分法設計とBorusyakインプット推定器を用いたアーキテクチャの匂い密度(ASD)への導入の因果効果を推定した。
総臭い数(+1.1%、p = 0.82)は基本的に変化しないが、コード行数は+12.8%(p = 0.003)となり、6.7%のSD減少(p = 0.004)はアーキテクチャの改善というよりは分母効果である。
パータイプ推定とロバストネスチェック (Wild cluster bootstrap, Lee bounds, stale-observation sensitivity) はパターンを相関させる。
密度正規化の結果は、治療がシステムサイズに影響を与えるときに誤解を招く可能性がある。
キュレートされた151リポジトリの月次パネルを含む完全なレプリケーションパッケージが公開されている。
関連論文リスト
- Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning [0.0]
RAGシステムは知識ベース中毒に弱いが、既存の攻撃はほとんどバニラレトリプタン生成パイプラインに対して評価されている。
我々は,921の自然質問QAペアに対して,制御された単一文書中毒の4つのRAGアーキテクチャ(vanilla RAG, agentic RAG, MADAM-RAG, Recursive Language Models)を評価した。
論文 参考訳(メタデータ) (2026-05-07T03:36:14Z) - Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs [2.111646739533638]
畳み込みニューラルネットワーク(CNN)は、翻訳不変であると広く考えられているが、標準的なアーキテクチャは驚くべき脆弱性を示している。
我々は,グローバル平均プール層を様々なネットワーク深度に戦略的に挿入し,軽量な「オンラインアーキテクチャ」戦略を提案する。
この戦略は、トレーニング可能なパラメータ(5.2Mから82Kまで)の98%の大幅な削減と、ネットワークサイズ全体の90%の削減を実現している。
論文 参考訳(メタデータ) (2026-04-30T13:52:42Z) - Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits [3.9532936038777144]
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
論文 参考訳(メタデータ) (2026-03-29T15:56:05Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis [0.0]
TDADはソースコードとテスト間の依存性マップを構築し、パッチをコミットする前に、エージェントはどのテストを検証して自己修正するかを知っている。
本稿では,AI符号化エージェントの事前変更影響分析を行うオープンソースツールであるTDADを提案する。
論文 参考訳(メタデータ) (2026-03-18T17:38:22Z) - AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。
本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文 参考訳(メタデータ) (2026-01-20T04:51:56Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Mind the Backbone: Minimizing Backbone Distortion for Robust Object
Detection [52.355018626115346]
ドメインシフトに対して堅牢なオブジェクト検出器を構築することは、現実世界のアプリケーションにとって重要なことです。
我々は,ゆがみを特徴付けるバックボーンの脆弱性を測定する手段として,相対勾配ノルム(Relative Gradient Norm)を提案する。
両バックボーンのOOD堅牢性を高めるためのレシピを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:50:43Z) - iDARTS: Improving DARTS by Node Normalization and Decorrelation
Discretization [51.489024258966886]
微分可能なArchiTecture Search(DARTS)は、ネットワーク表現の継続的緩和を使用し、GPUデーにおいて、ニューラルネットワークサーチ(NAS)を約数千倍高速化する。
しかし、DARTSの探索過程は不安定であり、訓練の時期が大きくなると著しく劣化する。
そこで本研究では,DARTSの改良版であるiDARTSを提案する。
論文 参考訳(メタデータ) (2021-08-25T02:23:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。