論文の概要: AI Coding Agents Can Reproduce Social Science Findings
- arxiv url: http://arxiv.org/abs/2606.11447v1
- Date: Tue, 09 Jun 2026 21:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.180958
- Title: AI Coding Agents Can Reproduce Social Science Findings
- Title(参考訳): AIのコーディングエージェントは、社会科学の発見を再現できる
- Authors: Meysam Alizadeh, Mohsen Mosleh, Fabrizio Gilardi, Atoosa Kasirzadeh, Joshua Tucker,
- Abstract要約: 最近の証拠は、AIコーディングエージェントが、元のデータとコードを提供すると、公表された結果を再現できることを示唆している。
SocSci-Repro-Benchは、4つの分野と13の実体ドメインにまたがる221のタスクのベンチマークである。
どちらも社会科学の発見を再現することができ、Claude CodeはCodexを大きく上回っている。
- 参考スコア(独自算出の注目度): 5.410553210073652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent anecdotal evidence suggests that AI coding agents can reproduce published findings when provided with original data and code; yet systematic evaluation across social sciences remains limited. Existing evaluation benchmarks are insufficient, either small or conflate agent performance with problems in the reproduction materials themselves, such as code that fails to execute correctly. Here we introduce SocSci-Repro-Bench, a benchmark of 221 tasks spanning four disciplines and 13 substantive domains, constructed from studies whose results are either fully reproducible with available materials or demonstrably non-reproducible due to missing data, allowing us to isolate agents' reproduction capacity. Evaluating two frontier coding agents, Claude Code and Codex, we find that both can reproduce a large share of social science findings, with Claude Code substantially outperforming Codex. These reproduction rates considerably exceed those previously reported for general-purpose LLM-based agents on comparable reproducibility benchmarks. Both agents also perform strongly on a reasoning task requiring identification of underlying research questions, and additional analyses suggest that results are not primarily driven by memorization. Providing the original paper PDF alongside replication materials modestly improves performance but introduces bias on tasks where reproduction is impossible. We also show that agents can be nudged toward confirmatory specification search through subtle prompt framing. Together, these findings suggest that at least some frontier coding agents can serve as reliable executors of computational workflows while underscoring the need for careful benchmarking and prompt design as AI systems assume larger roles in scientific production.
- Abstract(参考訳): 最近の逸話的証拠は、AIコーディングエージェントがオリジナルのデータとコードを提供すると、公表された結果を再現できることを示しているが、社会科学の体系的評価は限られている。
既存の評価ベンチマークは不十分で、エージェントのパフォーマンスが小さかったり、複製材料自体に問題があったり、正しく実行できないコードなどがあったりしている。
本稿では、4つの分野と13の実体領域にまたがる221のタスクのベンチマークであるSocSci-Repro-Benchについて紹介する。
Claude CodeとCodexの2つのフロンティアコーディングエージェントを評価すると、どちらも大きな社会科学的な発見を再現できることがわかった。
これらの再現率は、同等の再現性ベンチマークにおいて、LLMベースの汎用エージェントに対して以前に報告されたものよりもかなり多い。
どちらのエージェントも、基礎となる研究課題の特定を必要とする推論タスクに強く取り組み、さらなる分析により、結果は主に記憶によって引き起こされるものではないことが示唆された。
元の論文PDFと複製材料を併用することで、パフォーマンスは適度に向上するが、複製が不可能なタスクには偏りが生じる。
また, エージェントは, 微妙なプロンプトフレーミングにより, 確認仕様検索を行なえることを示す。
これらの結果は、少なくとも一部のフロンティアコーディングエージェントが計算ワークフローの信頼性の高い実行者として機能し、AIシステムが科学的な生産においてより大きな役割を担っているため、慎重にベンチマークし、設計を促進する必要性を強調していることを示唆している。
関連論文リスト
- Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文 参考訳(メタデータ) (2026-05-01T17:42:12Z) - Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T13:44:40Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences [19.81372090301296]
ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。
ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。
ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
論文 参考訳(メタデータ) (2026-02-11T20:42:10Z) - PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。