Fugu-MT 論文翻訳(概要): Detecting AI Coding Agents in Open Source: A Validated Multi-Method Census of 180 Million Repositories

論文の概要: Detecting AI Coding Agents in Open Source: A Validated Multi-Method Census of 180 Million Repositories

arxiv url: http://arxiv.org/abs/2606.24429v1
Date: Tue, 23 Jun 2026 11:05:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.912099
Title: Detecting AI Coding Agents in Open Source: A Validated Multi-Method Census of 180 Million Repositories
Title（参考訳）: オープンソースでAIコーディングエージェントを検出する:1億5000万リポジトリの検証されたマルチメソッド国勢調査
Authors: Arsham Khosravani, Audris Mockus,
Abstract要約: ジェネレーティブAIコーディングエージェントが、オープンソースのサプライチェーンに参入している。構成ファイルスキャン,コミットメッセージ解析,著者同一性マッチング,ボット署名検索を統合した多層検出フレームワークを提案する。 1つのメソッドがほんの少しのアクティビティをキャプチャすることはありません。
参考スコア（独自算出の注目度）: 2.36052383261568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI coding agents are entering the open-source supply chain, yet their diverse and often invisible traces leave their prevalence poorly understood. We introduce a multi-layered detection framework that integrates configuration-file scanning, commit-message analysis, author-identity matching, and bot-signature lookup across World of Code (180M+ Git repositories), classifying agent traces into four behavioral types. No single method captures more than a fraction of activity: multi-method detection identifies 850,157 Claude Code commits in one snapshot, of which bot-account lookup_the signal most adoption studies rely on_recovers only 28,154 (3.3%), a 30x relative-recall gap, so single-signal prevalence estimates are biased low by at least this factor. Every detection pattern is hand-validated (495 labels) with per-cell precision and Wilson confidence intervals. Across snapshots from December 2024 to April 2026, commit-attributed agents generate over 320,000 commits per month; Claude Code leads (886,122 commits across 17,295 projects) and dominates silent, configuration-file-only adoption (21,078 projects). Compared against an independent pull-request census (AIDev), the two channels capture nearly disjoint agent populations_a PR census misses 79% of commit-detected Claude Code adopters and essentially all Codex adopters_and different kinds of work: PR-deployed cloud agents (Codex, Cursor) surface as feature work, while commit-deployed in-editor agents (Claude Code, OpenHands, Aider) surface as maintenance. The observed work profile follows deployment and detection mode rather than the tool itself, so no single channel is representative.
Abstract（参考訳）: 生成的AIコーディングエージェントは、オープンソースのサプライチェーンに入るが、その多様でしばしば見えないトレースは、彼らの人気をよく理解していない。我々は、World of Code(180M+ Gitリポジトリ)全体にわたって構成ファイルスキャン、コミットメッセージ分析、著者アイデンティティマッチング、ボット署名検索を統合し、エージェントトレースを4つの行動タイプに分類する多層検出フレームワークを導入する。マルチメソッド検出は、ひとつのスナップショットで850,157個のクロードコードコミットを識別する。ボットアカウントルックアップ_最も多く採用されているシグナルは、30倍の相対的リコールギャップである28,154 (3.3%)にのみ依存する。各検出パターンは、セルごとの精度とウィルソンの自信間隔で手検証(495ラベル)される。 2024年12月から2026年4月までのスナップショットで、コミット対応エージェントは毎月320,000件のコミットを生成し、Claude Codeリード(17,295件のプロジェクトに対して886,122件のコミット)がサイレントで構成ファイルのみの採用(21,078件のプロジェクト)を支配している。独立したプルリクエスト国勢調査(AIDev)と比較すると、この2つのチャネルは、ほぼ非結合なエージェント集団をキャプチャする_a PR世論調査では、コミット検出されたClaude Code採用者の79%と、基本的にすべてのCodex採用者_and異なる種類の作業が欠落している。監視された作業プロファイルは、ツール自体ではなく、デプロイメントと検出モードに従っているため、単一のチャネルが代表的ではない。

関連論文リスト

The Best-Laid SCHEMEs: Coordinated Sabotage and Monitoring in Multi-Agent Systems [0.0]
SCHEMEは7つの設定と8つの実際のオープンソースライブラリにわたる17のタスクインスタンスのベンチマークである。各設定は、エージェントの適切なサブセットが単独で成功しないように設計されている。 GPT 5.1 Codex と Gemini 3.1 Pro ですでに協調サボタージュが実用化されていることを示す。
論文参考訳（メタデータ） (2026-05-27T23:30:21Z)
Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study [4.512751676075442]
本稿では,統合フレームワークによる言語モデルに基づくVFC検出の包括的評価を行う。コードの変更だけで、モデルが転送可能なセキュリティ関連コードを理解する証拠は見つからない。グループ階層評価は、ランダムスプリットに比べて約17%のパフォーマンス低下を露呈する。
論文参考訳（メタデータ） (2026-05-13T08:05:14Z)
WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文参考訳（メタデータ） (2026-05-11T17:49:43Z)
MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。 199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。 9つのプロダクションコーディングエージェントが53～86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文参考訳（メタデータ） (2026-05-05T16:38:23Z)
SWE-chat: Coding Agent Interactions From Real Users in the Wild [70.18158706281724]
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
論文参考訳（メタデータ） (2026-04-22T17:08:19Z)
Detecting Multi-Agent Collusion Through Multi-Agent Interpretability [0.3467226901703539]
NARCBenchは環境分布シフト下での衝突検出のベンチマークである。グループレベルでシナリオを分類するために,エージェントごとの詐欺スコアを集計する5つの探索手法を提案する。単一のプローブ技術が全ての共謀タイプで支配的であり、異なる形の共謀が活性化空間で異なることを示唆している。
論文参考訳（メタデータ） (2026-04-01T17:08:05Z)
SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。 11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文参考訳（メタデータ） (2026-03-25T19:26:44Z)
Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。 Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文参考訳（メタデータ） (2024-10-09T14:45:45Z)
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文参考訳（メタデータ） (2024-02-11T01:51:15Z)
Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文参考訳（メタデータ） (2023-07-21T14:53:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。