論文の概要: AI Research moves towards open and reproducible science
- arxiv url: http://arxiv.org/abs/2606.16974v2
- Date: Mon, 22 Jun 2026 03:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.210639
- Title: AI Research moves towards open and reproducible science
- Title(参考訳): AI Researchがオープンで再現可能な科学へ
- Authors: Kevin L Coakley, Thijs Snelleman, Holger Hoos, Odd Erik Gundersen,
- Abstract要約: この危機は、AI研究コミュニティをドキュメントプラクティスの改善に導いた。
これに対し、この分野で最も影響力のある会場はチェックリストを導入した。
過去10年間で5つの主要なAIカンファレンスで公開されたすべての論文を評価することで、ドキュメントプラクティスが時間とともに変化したかどうかを評価します。
- 参考スコア(独自算出の注目度): 3.590867023672793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reproducibility crisis has directed the AI research community toward improving documentation practices. Several studies have identified methodological issues, and in response, the most impactful venues in the field have introduced reproducibility checklists. We seek to understand whether documentation practices have changed over time by assessing all published papers at five leading AI conferences over the past decade. Seven reproducibility variables were identified, quality-assured and used to analyse 56 800 publications. Our analysis reveals that in the period 2014 to 2024, documentation practices have improved; papers sharing both code and data increased nearly sixfold, from 11% to 64% Building on empirical reproducibility rates from a prior study, we estimate - inferred from documentation practices, not direct testing - that reproducibility increased from 28% in 2014 to 64% in 2024. Improvements in documentation practices predate the introduction of reproducibility checklists, suggesting these changes reflect a broader movement toward open science rather than a direct response to formal requirements.
- Abstract(参考訳): 再現性の危機は、AI研究コミュニティをドキュメントの実践の改善に向かわせた。
いくつかの研究は方法論的な問題を特定しており、それに対して、この分野で最も影響力のある会場は再現性チェックリストを導入している。
私たちは、過去10年間に5つの主要なAIカンファレンスで公開されたすべての論文を評価することで、ドキュメントのプラクティスが時間とともに変化したかどうかを理解しようとしています。
7つの再現性変数が同定され、品質保証され、56 800の出版物を分析した。
コードとデータを共用するドキュメントは11%から64%に増加し、以前の調査から経験的な再現率に基づいて、直接テストではなくドキュメントのプラクティスから推定して、2014年の28%から2024年には64%に増加したと見積もっています。
ドキュメントの実践の改善は再現性チェックリストの導入に先立ち、これらの変更は形式的な要求に対する直接的な反応ではなく、オープンサイエンスへの幅広い動きを反映していることを示唆している。
関連論文リスト
- ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research [142.29356526274387]
我々は自律的な科学的研究を評価するためのベンチマークであるResearchClawBenchを紹介する。
各タスクは、実際の論文に基づき、関連する文献や生データを提供し、評価中に対象の論文を隠蔽する。
論文 参考訳(メタデータ) (2026-05-28T16:27:40Z) - AI-Assisted Curation of Conference Scholarship: Compiling, Structuring, and Analyzing Two Decades of Presentations at the Society for Social Work and Research [0.0]
本研究では,Society for Social Work and Research (SSWR) Annual Conferenceからプレゼンテーション要約の包括的データベースを開発した。
2005年から2026年にかけて、プレゼンテーションのためのSSWR Confex会議管理システムからWebスクレイピングを使用して抽象メタデータをコンパイルした。
このデータベースには23,793のプレゼンテーションがあり、93か国4,049の機関から20,779人のユニークな研究者を代表する69,924人の著者の記録がある。
論文 参考訳(メタデータ) (2026-03-06T19:19:29Z) - SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - The State of Open Science in Software Engineering Research: A Case Study of ICSE Artifacts [2.5705703401045557]
ソフトウェア工学(SE)研究において、複製パッケージの実行可能性と厳密さを包括的に調査する研究は、著しく欠如している。
過去10年間のICSE手続きの一環として,100個の複製パッケージを評価した。
以上の結果から,評価対象となった人工物100品のうち約40%が実行可能であり,そのうち32.5%(40品中13品)が変更することなく実行可能であった。
論文 参考訳(メタデータ) (2026-01-05T12:47:43Z) - Large Language Models for Software Engineering: A Reproducibility Crisis [4.730658148470817]
本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
論文 参考訳(メタデータ) (2025-11-29T22:16:47Z) - Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing [10.474191156751928]
我々は、SIGIR 2022と2023で発表されたグラフベースのRecommender Systemsの10の論文を分析した。
分析の結果,注意を要するいくつかの重要な点が明らかになった。
これらの問題により、調査・再生を試みた論文のほとんどに記載された主張を裏付けることができない。
論文 参考訳(メタデータ) (2025-03-10T20:09:04Z) - Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD [30.559280110711143]
本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。
本モデルでは,変換器を用いた文書検索とアンサンブル手法をモデルレベルで導入し,HW-SQuADデータセットとBenthamQAデータセットにおいて,Exact Matchスコアが82.02%,69%に達した。
論文 参考訳(メタデータ) (2024-06-25T10:18:50Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。