論文の概要: ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
- arxiv url: http://arxiv.org/abs/2606.18237v1
- Date: Tue, 16 Jun 2026 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.593912
- Title: ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
- Title(参考訳): ReproRepo: GitHubリポジトリ問題による再現性のスケーリング監査
- Authors: Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar,
- Abstract要約: ReproRepoは、人為的なGitHub問題を活用するスケーラブルな評価フレームワークで、現実的な再現ブロッカーを自然に監視する。
ReproRepoは、大規模なカンファレンスから1,149件の機械学習論文をインスタンス化し、4つのフロンティアモデルエージェント構成を評価します。
その結果, LLMエージェントは, コードを実行せずにも, 紙とリポジトリのペアから多くの実世界の問題を識別できることがわかった。
- 参考スコア(独自算出の注目度): 54.98461672730087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducing research results from papers and released code is central to scientific progress. Existing works have introduced benchmarks to evaluate whether LLM agents can assist with reproducibility, but they are difficult to scale due to their reliance on substantial manual effort for data curation and evaluation. We introduce ReproRepo, a scalable framework for reproducibility evaluation that leverages human-raised GitHub issues as naturally occurring supervision on realistic reproduction blockers. We instantiate ReproRepo on 1,149 recent machine learning papers from major conferences and evaluate four frontier model-agent configurations. Our results show that LLM agents, even without executing code, can identify many real-world reproducibility problems from paper-repository pairs: the best agent in our study, namely Codex with GPT-5.5, surfaces at least one semantically related human-reported blocker for ~90% of papers in the study. Further analysis shows that agents are particularly effective for surfacing visible failures and identifying the right semantic region, but may still be insufficient in exact localization. ReproRepo can serve as a reusable, scalable framework for future evaluations of LLM agents on real-world reproducibility auditing. Our code is released at https://github.com/LithiumDA/ReproRepo.
- Abstract(参考訳): 論文や公開コードから研究結果を再現することは、科学的な進歩の中心である。
既存の研究は、LLMエージェントが再現性を支援することができるかどうかを評価するためのベンチマークを導入したが、データキュレーションと評価のためのかなりの手作業に依存するため、スケーリングは困難である。
再現性評価のためのスケーラブルなフレームワークであるReproRepoを紹介した。
ReproRepoは、大規模なカンファレンスから1,149件の機械学習論文をインスタンス化し、4つのフロンティアモデルエージェント構成を評価します。
以上の結果から, LLMエージェントは, コードを実行せずにも, 紙リポジトリペアから多くの実世界の再現性問題を識別することが可能であることが示唆された。
さらなる分析により、エージェントは目に見える障害や適切な意味領域を特定するのに特に有効であるが、正確な局所化には不十分であることが示された。
ReproRepoは、実世界の再現性監査におけるLCMエージェントの今後の評価のための、再利用可能なスケーラブルなフレームワークとして機能する。
私たちのコードはhttps://github.com/LithiumDA/ReproRepo.comで公開されています。
関連論文リスト
- From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent [52.42081442204093]
我々は、紙の不審な部分を積極的に調査する柔軟性の欠如が、重要な制限であると主張している。
本稿では,保守的かつ構造化されたレビューログによってガイドされた論文を積極的にレビューする,科学的ピアレビューエージェントであるProReviewerを提案する。
実験の結果,8Bバックボーンを持つProReviewerは教師付き微調整によって訓練され,強化学習によって最適化され,5つの品質次元で最高の平均スコアが得られることがわかった。
論文 参考訳(メタデータ) (2026-06-11T13:38:23Z) - AI Coding Agents Can Reproduce Social Science Findings [5.410553210073652]
最近の証拠は、AIコーディングエージェントが、元のデータとコードを提供すると、公表された結果を再現できることを示唆している。
SocSci-Repro-Benchは、4つの分野と13の実体ドメインにまたがる221のタスクのベンチマークである。
どちらも社会科学の発見を再現することができ、Claude CodeはCodexを大きく上回っている。
論文 参考訳(メタデータ) (2026-06-09T21:00:05Z) - NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code [49.610331036334316]
我々はNeRF研究論文をトレーニング可能なNerfstudioプラグインに確実に変換するフレームワークであるNERFIFYを紹介する。
コード、データ、実装が公開される。
論文 参考訳(メタデータ) (2026-02-28T20:57:32Z) - RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - Large Language Models for Software Engineering: A Reproducibility Crisis [4.730658148470817]
本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
論文 参考訳(メタデータ) (2025-11-29T22:16:47Z) - RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback [87.97664892075811]
研究論文やリポジトリからの102タスクのベンチマークであるRECODE-Hを提案する。
構造化された命令、単体テスト、現実的な研究者とエージェントのコラボレーションを反映する5段階のフィードバック階層が含まれる。
フィードバックを反復的なコード生成に統合するフレームワークであるReCodeAgentも紹介します。
論文 参考訳(メタデータ) (2025-10-07T17:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。