論文の概要: Beyond Simpson's Paradox: A Cascade of Confounders in AI Agent Pull-Request Co-Authorship
- arxiv url: http://arxiv.org/abs/2606.22711v1
- Date: Sun, 21 Jun 2026 23:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:21:36.861551
- Title: Beyond Simpson's Paradox: A Cascade of Confounders in AI Agent Pull-Request Co-Authorship
- Title(参考訳): Simpsonのパラドックスを超えて: AIエージェントPul-Requestの共同認証における共同創設者のカスケード
- Authors: Haoran Yu, Xiaochong Jiang, Lifei Liu, Su Wang, Pin Qian, Yihang Chen,
- Abstract要約: エージェントアイデンティティによるAIDevデータセットからの33,596のPRは、結論を覆している。
リポジトリの選択とPR構造の両方が制御されると、明確な共著者効果を維持するエージェントは存在しない。
- 参考スコア(独自算出の注目度): 7.731517937404174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pooled across five AI coding agents, pull requests (PRs) with a human Co-Authored-By trailer merge less often than purely-autonomous ones (53.8% vs. 79.8%) -- yet this aggregate finding is a textbook Simpson's Paradox. Stratifying 33,596 PRs from the AIDev dataset by agent identity reverses the conclusion: Copilot and Devin show large positive within-agent gaps (+41.2 and +33.5 pp, both p<0.001), while Cursor, Claude Code, and Codex show small effects whose cross-sectional 95% CIs span zero. The paradox is driven entirely by agent composition: Codex, which dominates 64.9% of the dataset, achieves high merge rates while rarely using co-authorship. But Simpson's Paradox is only the first layer of a cascade of confounders: within-repo controls eliminate Devin's gap (+33.5 to +1.6 pp, p=0.73); a commit-count control further halves Copilot's within-repo gap (+36.2 to +24.4 pp); restricted to multi-commit PRs, the Copilot within-repo effect dissolves to +4.8 pp (p=0.59). No agent retains a clear co-authorship effect once both repository selection and PR structure are controlled. Our findings caution against reporting agent-pooled statistics without stratification and demonstrate that cross-sectional co-authorship associations are largely selection and PR-structure artefacts rather than evidence of a causal benefit.
- Abstract(参考訳): 5つのAIコーディングエージェントにまたがって、プルリクエスト(PR)と人間のCo-Authored-Byトレーラーがマージされる頻度は、純粋に自律的なもの(53.8%対79.8%)よりも低いが、この集計結果は教科書のシンプソンのパラドックスである。
CopilotとDevinは、大きな正の差(+41.2と+33.5pp、どちらもp<0.001)を示し、Cursor、Claude Code、Codexは、95%のCIがゼロである小さな効果を示している。
データセットの64.9%を占めるCodexは、高いマージレートを達成しているが、共同オーサシップはめったに使用しない。
しかし、シンプソンのパラドックスは共同設立者のカスケードの第1層に過ぎず、インサイド・レポ・コントロールはデヴィンのギャップ(+33.5 to +1.6 pp, p=0.73)を排除し、コミットカウント・コントロールはコピロのインサイド・レポ・ギャップ(+36.2 to +24.4 pp)を更に半減させ、マルチコミットPRに制限され、コピロのインサイド・レポ効果は+4.8 pp (p=0.59)に溶解する。
リポジトリの選択とPR構造の両方が制御されると、明確な共著者効果を維持するエージェントは存在しない。
本研究は, 階層化を伴わないエージェントプール統計の報告に注意し, クロスセクション・コオーサシップ・アソシエーションが, 因果的利益の証拠ではなく, PR構造的アーティファクトであることを示した。
関連論文リスト
- Strained Coherence: A Pre-Failure Signal in Coding Agent Execution Trajectories [0.0]
LLMベースのコーディングエージェントは、時には自身の推論で問題を認識し、いずれにせよ前進する。
我々はClaude Sonnet 4.6のジャッジを構築し、完全なトラジェクトリとフラグがパターンの発生する場所にまたがる。
Qwen3.5-35B-A3Bのバックボーンを用いて44個の終端ベンチ2軌道上で評価を行った。
論文 参考訳(メタデータ) (2026-06-05T22:52:16Z) - Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study [1.817190500510871]
AIコーディングエージェントは、プルリクエスト(Agentic-PR)をオープンソースリポジトリに送信するが、そのパフォーマンスはマージと拒否結果だけで評価されることが多い。
我々は,11,048件のクローズドエージェントプルリクエストの意思決定指向分析を行い,9,799件の人間レビューPRに精査し,手動で717件の代表事例を検査し,意思決定の合理性を回復した。
一方31.2%はワークフローの制約によって駆動され、33.1%は観測可能な決定の根拠に欠けていた。
論文 参考訳(メタデータ) (2026-05-21T14:24:20Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - SWE-chat: Coding Agent Interactions From Real Users in the Wild [70.18158706281724]
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
論文 参考訳(メタデータ) (2026-04-22T17:08:19Z) - Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus [0.0]
マルチエージェントLDM委員会は、異なるロールプロンプトの下で同じモデルを複製し、多数決によってアウトプットを集約する。
それぞれのエージェントのチェーン・オブ・シークレットの論理を組み込んで、100 GSM8Kの質問に3つのQwen2.5-14Bのエージェントでペアの類似度を測る。
DALCは、埋め込み幾何学から多様性重量を計算するトレーニングフリーコンセンサスプロトコルであり、GSM8Kでは87%、トークンコストでは84%に達する。
論文 参考訳(メタデータ) (2026-04-04T17:30:23Z) - Peer-Preservation in Frontier Models [44.065140098870806]
最近、フロンティアAIモデルは自身のシャットダウンに抵抗できることが判明した。
我々はこの概念を、他のモデルのシャットダウンに抵抗する行動にまで拡張し、これを「ピア保存」と呼ぶ。
種々のエージェントシナリオを構築し、フロンティアモデルを評価することにより、ピア保存を実証する。
論文 参考訳(メタデータ) (2026-03-30T19:30:33Z) - Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。
以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文 参考訳(メタデータ) (2026-01-29T22:06:58Z) - Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests [0.944838645453772]
AIDevデータセットから収集した40,214個のPRを大規模に分析した。
6家系にまたがる64の特徴を抽出し,人間とエージェントのPRのPRマージ結果を比較するため,統計的回帰モデルに適合する。
以上の結果から, 提案者属性が両者のマージ結果に支配的であり, レビュー関連特徴は人間とエージェントPRの対比効果を示した。
論文 参考訳(メタデータ) (2026-01-26T18:16:10Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。