論文の概要: NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
- arxiv url: http://arxiv.org/abs/2606.24530v1
- Date: Tue, 23 Jun 2026 12:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.961365
- Title: NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
- Title(参考訳): NatureBench: コーディングエージェントは自然論文のSOTAにマッチできるか?
- Authors: Yuru Wang, Lejun Cheng, Yuxin Zuo, Sihang Zeng, Bingxiang He, Che Jiang, Junlin Yang, Yuchong Wang, Kaikai Zhao, Weifeng Huang, Kai Tian, Zhenzhao Yuan, Jincheng Zhong, Weizhi Wang, Ning Ding, Bowen Zhou, Kaiyan Zhang,
- Abstract要約: 我々はNatureBenchを紹介した。NatureBenchは、ピアレビューされたNature- familyの出版物から抽出した90のタスクの横断的なベンチマークである。
g>0.1基準の下では、最強のモデルが17.8%のタスクでSOTAを上回ります。
ベンチマーク、NatureGymパイプライン、メンテナ側の再現を備えた公開リーダボードをリリースしています。
- 参考スコア(独自算出の注目度): 21.911749597008015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NatureBench, a cross-discipline benchmark of 90 tasks distilled from peer-reviewed Nature-family publications, designed to evaluate whether AI coding agents can move beyond reproduction toward discovery on real scientific problems. NatureBench is built on NatureGym, an automated pipeline that constructs a standardized, per-task containerized environment from a source paper, addressing the environment-fragmentation problem that has limited the credibility of prior agent-on-research benchmarks. Evaluating ten frontier agent configurations under a strict web-search-disabled protocol, we find that the strongest model surpasses SOTA on only 17.8% of tasks under the g>0.1 criterion. Analysis of method pathways reveals that agents succeed primarily through methodological translation, converting scientific tasks into familiar supervised prediction problems, rather than through genuine scientific invention. Failures are dominated by wrong method choice and insufficient compute budget, not by task misunderstanding. We release the benchmark, the NatureGym pipeline, and a public leaderboard with maintainer-side reproduction. Code: https://github.com/FrontisAI/NatureBench
- Abstract(参考訳): NatureBenchは、ピアレビューされたNature- familyの出版物から抽出した90のタスクを横断的に比較したベンチマークで、AIコーディングエージェントが再現を超えて実際の科学的問題における発見へと移行できるかどうかを評価する。
NatureBenchはNatureGym上に構築されている。NatureGymは、ソースペーパーからタスクごとのコンテナ環境を標準化した自動パイプラインで、以前のエージェント・オン・リサーチベンチマークの信頼性を制限した環境フラグメンテーションの問題に対処する。
厳格なWeb検索障害プロトコルの下で10のフロンティアエージェント構成を評価すると、最強のモデルは、g>0.1基準の下でのタスクの17.8%でSOTAを上回っていることがわかった。
方法経路の分析により、エージェントは主に方法論の翻訳を通じて成功し、科学的タスクを真の科学的発明ではなく、よく知られた教師付き予測問題に変換することが明らかになった。
失敗は間違った方法の選択と不十分な計算予算によって支配される。
ベンチマーク、NatureGymパイプライン、メンテナ側の再現を備えた公開リーダボードをリリースしています。
コード:https://github.com/FrontisAI/NatureBench
関連論文リスト
- A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline [4.751533658796929]
本研究では,ハエのオプトジェネティックスデータ発見パイプラインにおける汎用コーディングエージェントの実証研究について述べる。
既存のベンチマークよりも大幅に大きいタスクのエージェント、桁違いに大きいデータセット、ドメインエキスパート標準に基づく評価基準について評価する。
エージェントが複数のパイプラインステージを解決できることを示し、ステージレベルの自動化が抽出可能であることを示唆する。
論文 参考訳(メタデータ) (2026-06-05T15:38:18Z) - SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones? [51.154921661608675]
我々は、ICLRの投稿から再構成された1,099の機械学習研究提案のキュレートされたベンチマークであるSoundnessBenchを紹介する。
SoundnessBenchは、完全なレビュー結果の正確な予測よりも、復元可能な提案段階の音質のベンチマークとして解釈されるべきである。
論文 参考訳(メタデータ) (2026-05-28T17:57:37Z) - AI for Auto-Research: Roadmap & User Guide [107.0834449839233]
研究ライフサイクル全体にわたってAIをエンドツーエンドに分析する。
我々は、信頼できる援助と信頼できない自律性の間に、鋭くステージに依存した境界を特定できる。
障害モードを排除するのではなく、より大きな自動化が不明瞭であることが示されています。
論文 参考訳(メタデータ) (2026-05-18T17:08:26Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows [10.078675569996992]
CMBAgentを2つのワークフローパラダイムと18の天体物理タスクで評価した。
One-Shot設定では、ドメイン固有のコンテキストへのアクセスは、およそ6倍のパフォーマンス向上をもたらす。
ディープ・リサーチ・セッティングでは、このシステムはストレステスト全体でサイレント障害をしばしば示し、身体的に矛盾した後部を自己診断なしで生成する。
論文 参考訳(メタデータ) (2026-04-28T08:01:23Z) - Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints [48.80158223838359]
我々は、動的で反復的な物理地上モデル適合タスクに基づいてAIエージェントを評価するスケーラブルな環境であるStargazerを紹介した。
Stargazerは3つの難題にまたがる120のタスクで構成されており、20の実際のアーカイブケースを含んでいる。
8つのフロンティアエージェントを評価した結果,数値最適化と物理的制約への固執のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-17T03:38:50Z) - PRBench: End-to-end Paper Reproduction in Physics Research [32.672534450424386]
PRBenchは、11のサブフィールドにまたがる30の専門家によるタスクのベンチマークである。
エージェントは、タスク命令と紙の内容のみを提供し、サンドボックス実行環境で動作させる。
PRBench上の符号化エージェントのセットを評価し,科学的推論と実行の重要な側面にわたってそれらの能力を分析する。
論文 参考訳(メタデータ) (2026-03-29T11:44:57Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。