Fugu-MT 論文翻訳(概要): ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

論文の概要: ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

arxiv url: http://arxiv.org/abs/2606.07591v2
Date: Wed, 10 Jun 2026 02:02:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 07:09:36.753608
Title: ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research
Title（参考訳）: ResearchClawBench: エンドツーエンドの自律科学研究のためのベンチマーク
Authors: Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang,
Abstract要約: 我々は自律的な科学的研究を評価するためのベンチマークであるResearchClawBenchを紹介する。各タスクは、実際の論文に基づき、関連する文献や生データを提供し、評価中に対象の論文を隠蔽する。
参考スコア（独自算出の注目度）: 142.29356526274387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify. We present ResearchClawBench, a benchmark for evaluating autonomous scientific research across 40 tasks from 10 scientific domains. Each task is grounded in a real published paper, provides related literature and raw data, and hides the target paper during evaluation. Expert-curated multimodal rubrics decompose the target scientific artifacts into weighted criteria, enabling evaluation of target-paper-level re-discovery while leaving room for new discovery. We evaluate seven autonomous research (auto-research) agents under a unified protocol and seventeen native LLMs through the lightweight ResearchHarness. Current systems remain far from reliable re-discovery: the strongest autonomous agent, Claude Code, averages 21.5, and the strongest ResearchHarness LLM, Claude-Opus-4.7, averages 20.7, with an LLM frontier mean of only 26.5. Error analysis shows that failures concentrate in experimental protocol mismatch, evidence mismatch, and missing scientific core. ResearchClawBench provides a reproducible evaluation frontier for measuring progress toward autonomous scientific research.
Abstract（参考訳）: AIコーディングエージェントは、科学研究にますます使われていますが、エンドツーエンドの自律的な研究能力を検証するのは難しいです。 10の科学領域から40のタスクにわたる自律的な科学研究を評価するためのベンチマークであるResearchClawBenchを紹介する。各タスクは、実際の論文に基づき、関連する文献や生データを提供し、評価中に対象の論文を隠蔽する。専門家によるマルチモーダルルーブリックは、対象の科学的アーティファクトを重み付けされた基準に分解し、新たな発見のための余地を残しながら、ターゲットペーパーレベルの再発見の評価を可能にする。我々は,軽量なResearchHarnessを用いて,統一されたプロトコルと17のネイティブLLMの下で,自律的調査(auto-research)エージェントを7つ評価した。最強の自律エージェントであるClaude Codeは平均21.5、最強のResearchHarness LLMであるClaude-Opus-4.7は平均20.7、LLMフロンティア平均は26.5である。エラー分析は、失敗は実験的なプロトコルミスマッチ、証拠ミスマッチ、そして科学的コアの欠如に集中していることを示している。 ResearchClawBenchは、自律的な科学研究に向けた進歩を測定するために再現可能な評価フロンティアを提供する。

論文の概要: ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

関連論文リスト