論文の概要: Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle
- arxiv url: http://arxiv.org/abs/2606.07462v1
- Date: Fri, 05 Jun 2026 17:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.861036
- Title: Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle
- Title(参考訳): 研究者としてのアクト:研究ライフサイクルにおけるフロンティアLSMとエージェントハーネスを評価するベンチマークスイート
- Authors: Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao,
- Abstract要約: AARR(Act as a Real Researcher)ベンチマークシリーズを提案する。
AARRは、エージェントが人間の研究者を特徴づけるプロフェッショナル主義、徹底性、ニュアンスな推論をエミュレートできるかどうかに焦点を当てている。
我々の研究結果は、研究者のようなAIを開発するには、さらなる研究行動の探索が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 16.040691949938203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As foundation models advance and agent scaffolding becomes increasingly sophisticated, agents have demonstrated remarkable proficiency in complex, long-horizon coding tasks and even autonomous experiment execution. Despite their evolution from research assistants into autonomous research agents, these systems still exhibit significant limitations in field sensitivity, research ethics, and nuanced scientific judgment. Consequently, frontier agents remain unable to fully replace human researchers. To bridge this gap, we conceptualize the AARR (Act As a Real Researcher) benchmark series. Unlike existing benchmarks that primarily assess macro-level execution capabilities, AARR focuses on whether agents can emulate the professionalism, thoroughness, and nuanced reasoning that characterize human researchers in granular research scenarios. In this work, we propose AARRI-Bench (Act As a Real Research Intern), the first benchmark in this series. We conduct extensive experiments across frontier models and agentic systems, revealing that even the best-performing configuration (Mini-SWE-Agent with Claude Opus 4.7) achieves only 68.3\% success rate, frequently overlooking subtle yet critical details that are obvious to real human researchers. Our results indicate that developing researcher-like AI requires further exploration of research behavior, rather than merely complex scaffolding. Our data is released at https://github.com/AARR-bench/AARRI-bench.
- Abstract(参考訳): 基礎モデルが進歩し、エージェントの足場が高度化するにつれ、エージェントは複雑で長い水平なコーディングタスクや自律的な実験の実行に顕著な能力を示した。
研究助手から自律的な研究エージェントへと進化したにもかかわらず、これらのシステムは、フィールドの感度、研究倫理、および微妙な科学的判断に重大な制限を課している。
その結果、フロンティア・エージェントは人間の研究者を完全に置き換えることができない。
このギャップを埋めるために、AARR(Act As a Real Researcher)ベンチマークシリーズを概念化した。
マクロレベルの実行能力を主に評価する既存のベンチマークとは異なり、AARRはエージェントが人間の研究シナリオにおいて人間の研究者を特徴づける専門性、徹底性、ニュアンスな推論をエミュレートできるかどうかに焦点を当てている。
本研究では,このシリーズの最初のベンチマークであるAARRI-Bench (Act As a Real Research Intern)を提案する。
我々は、フロンティアモデルとエージェントシステムにわたる広範な実験を行い、最も優れた構成(Claude Opus 4.7とのMini-SWE-Agent)でさえ、68.3\%の成功率しか達成していないことを明らかにした。
我々の研究結果は、研究者のようなAIを開発するには、単に複雑な足場ではなく、さらなる研究行動の探索が必要であることを示唆している。
私たちのデータはhttps://github.com/AARR-bench/AARRI-bench.comで公開されています。
関連論文リスト
- AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。
エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。
最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-04-28T06:05:17Z) - AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。
Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。
本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文 参考訳(メタデータ) (2026-02-06T16:45:02Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models [19.85460397012729]
エージェント型大規模言語モデルに対するエージェンシーの期待は、目標を設定し、何を探索するかを決めるために自主性を必要とする、正しく答える以上のものだ。
我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。
これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
論文 参考訳(メタデータ) (2026-02-02T12:36:57Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth [43.606494515048524]
大規模言語モデル(LLM)は、自動機械学習研究エージェントへの関心が高まっている。
既存のベンチマークは、学術的な厳格さを無視しながら、エンジニアリングの側面を過度に強調する傾向がある。
FML-benchは、機械学習の自動研究エージェントを、多種多様な8つの基礎的な機械学習研究問題に対して評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-12T06:41:05Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文 参考訳(メタデータ) (2023-08-22T13:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。