論文の概要: Habituation at the Gate: Rising Approval and Declining Scrutiny in Human Review of AI Agent Code
- arxiv url: http://arxiv.org/abs/2606.22721v1
- Date: Sun, 21 Jun 2026 23:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 05:07:14.402861
- Title: Habituation at the Gate: Rising Approval and Declining Scrutiny in Human Review of AI Agent Code
- Title(参考訳): ゲートでの居住:AIエージェントコードの人間レビューにおける承認の高まりと精査の減少
- Authors: Haoran Yu, Lifei Liu, Xiaochong Jiang, Yuwen Jia, Su Wang, Pin Qian, Yihang Chen,
- Abstract要約: 観察期間を7ヶ月に分けて再検討した再検討者について検討した。
住民レベルの承認率は30.1%から36.8%に変化している。
このシフトは、経験駆動(カレンダー時間制御後のパーソナリティ)、エージェント固有のレイテンシ(人間のPR承認率が同じ期間で減少する)、PRの難しさ(中間PRサイズは平坦)によって説明されない。
承認の上昇、コメントの努力の減少、待ち時間の増加の組合せは、合理的な信頼のキャリブレーション単独ではなく、作業負荷の増加下での反射的習慣と最も一致している。
- 参考スコア(独自算出の注目度): 7.362328661065831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI coding agents (e.g., GitHub Copilot, Devin, OpenAI Codex, Cursor) submit pull requests to open-source repositories at scale, a key question arises: do human reviewers gradually lower their scrutiny for AI-generated code over time? We conduct a longitudinal within-reviewer analysis using the AIDev dataset, studying 400 repeat reviewers who collectively submitted 11,429 reviews over a seven-month observation period. Comparing each reviewer's early and late review episodes, we observe a population-level shift in approval rate from 30.1% to 36.8% (Wilcoxon signed-rank p < 10^{-6} on paired shifts). Pooled by within-reviewer experience decile, the cumulative gap reaches +14.5 pp from first to tenth decile. This shift is experience-driven (persists after controlling for calendar time), agent-specific (human PR approval rates decline over the same period), and not explained by PR difficulty (median PR size is flat). However, review latency increases rather than decreases (+3.5x), while inline comment volume decreases (-22%, p=0.0014), suggesting reviewers spend more time in queue but less time actively inspecting code. The combination of rising approval, declining comment effort, and increasing queue time is most consistent with reflexive habituation under growing workload rather than rational trust calibration alone.
- Abstract(参考訳): AIコーディングエージェント(GitHub Copilot、Devin、OpenAI Codex、Cursorなど)が大規模なオープンソースリポジトリにプルリクエストを送信すると、重要な問題が発生する。
AIDevデータセットを用いて,7ヶ月の観察期間に1,429件のレビューをまとめて提出した400人のリピートレビュアーを対象に,縦断的内部リビューア分析を行った。
各レビュアーの早期・後期のレビューエピソードと比較すると、人口レベルの承認率は30.1%から36.8%に変化している(Wilcoxon sign-rank p < 10^{-6})。
視聴者内体験のずれにより、累積ギャップは1回目から10回目まで+14.5ppに達する。
このシフトは経験駆動(暦時制御後のパーソナリティ)、エージェント固有の(ヒトPR承認率は同時期に減少)、PR困難(中期PRサイズは平坦)によって説明されない。
しかし、レビューのレイテンシは減少する(+3.5x)が、インラインコメントのボリュームは減少する(22%、p=0.0014)。
承認の上昇、コメントの努力の減少、待ち時間の増加の組合せは、合理的な信頼のキャリブレーション単独ではなく、作業負荷の増加下での反射的習慣と最も一致している。
関連論文リスト
- Rethinking Code Review in the Age of AI: A Vision for Agentic Code Review [2.2807488730605296]
本稿では,AIを利用したコードレビューワークフローの構想について述べる。
信頼性、バイアス、プライバシー、自動化バイアス、透明性、評価など、責任ある採用に対する大きなオープンな課題を特定します。
論文 参考訳(メタデータ) (2026-05-17T17:04:21Z) - Stop Automating Peer Review Without Rigorous Evaluation [51.53099943385505]
このポジションペーパーは、今日のAIシステムは、論文レビューの作成に使用すべきではない、と論じている。
1)AIレビュアーは、視点の多様性を低下させる論文内および新聞内における過剰な合意の隠れた効果を示す。
ピアレビューの危機に対処するには、ピアレビューの自動化の科学が必要です。
論文 参考訳(メタデータ) (2026-05-04T22:41:04Z) - These Aren't the Reviews You're Looking For How Humans Review AI-Generated Pull Requests [0.0]
AIDevデータセットを使用して、GitHub上のAI生成プルリクエスト(PR)のコードレビューインタラクションを分析する。
ほとんどのAI生成PRはレビューを受けておらず、レビューされると、主に人間ではなくAIエージェントが支配していることがわかった。
論文 参考訳(メタデータ) (2026-05-04T06:32:50Z) - On the Footprints of Reviewer Bots Feedback on Agentic Pull Requests in OSS GitHub Repositories [2.155083987188202]
本研究では,レビュアーボットのフィードバックとPR結果の関係について検討する。
AI_Devデータセットから,4,532のPRに対する7,416のレビュアボットコメントを分析した。
以上の結果から,レビュアボットのコメントは主にバグ修正,テスト,ドキュメンテーションに焦点が当てられている。
論文 参考訳(メタデータ) (2026-04-27T13:17:13Z) - When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - SWE-chat: Coding Agent Interactions From Real Users in the Wild [70.18158706281724]
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
論文 参考訳(メタデータ) (2026-04-22T17:08:19Z) - Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Automated Code Review In Practice [1.6271516689052665]
Qodo、GitHub Copilot、CoderabbitなどのAI支援ツールが、大規模な言語モデル(LLM)を使用して自動レビューを提供する。
本研究では,LLMに基づく自動コードレビューツールが産業環境に与える影響について検討する。
論文 参考訳(メタデータ) (2024-12-24T16:24:45Z) - Automating App Review Response Generation [67.58267006314415]
本稿では,レビューと回答の知識関係を学習することで,レビュー応答を自動的に生成する新しいアプローチRRGenを提案する。
58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4の点で少なくとも67.4%のベースラインを上回っている。
論文 参考訳(メタデータ) (2020-02-10T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。