論文の概要: Benchmarking AI Agents for Addressing Scientific Challenges Across Scales
- arxiv url: http://arxiv.org/abs/2606.12736v1
- Date: Wed, 10 Jun 2026 22:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.49513
- Title: Benchmarking AI Agents for Addressing Scientific Challenges Across Scales
- Title(参考訳): 規模の異なる科学的課題に対処するためのAIエージェントのベンチマーク
- Authors: Tianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao,
- Abstract要約: SciAgentArenaは、現実世界の科学研究シナリオでAIエージェントを評価するための体系的なベンチマークである。
ステップワイズ検証を備えた約200のタスクと、多様なAIエージェントを評価するためのインタラクティブでエージェントに依存しない環境で構成される。
タスク構造や評価基準が明確である場合, 現状のエージェントはデータ分析に効果的に貢献できることがわかった。
- 参考スコア(独自算出の注目度): 118.2204632627895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, whereas benchmarks for scientific tasks often reduce research to static, direct problems and provide limited support for interactive evaluation. Here, we introduce SciAgentArena, a systematic benchmark for evaluating AI agents in real-world scientific research scenarios drawn from emerging needs across multiple domains. SciAgentArena comprises approximately 200 tasks with stepwise verification and an interactive, agent-agnostic environment for assessing diverse AI agents. Using this benchmark, we find that current agents can contribute effectively to well-specified data-analysis workflows, particularly when the task structure and evaluation criteria are clear. However, their performance remains uneven across scientific contexts: agents struggle to generate genuinely novel insights, sustain self-directed exploration, and formulate robust solutions for open-ended research questions. We further characterize common failure modes across agents and identify opportunities for improving their reliability, autonomy, and scientific reasoning. Together, SciAgentArena provides a practical framework for measuring progress in AI agents for science and for guiding the design of future agents capable of addressing complex scientific challenges. Full codes, tasks, and datasets can be accessed via this link: https://sciagentarena.github.io/.
- Abstract(参考訳): AIエージェントは科学的な発見を加速するために開発が進んでいるが、実際の研究環境でのそれらの実用能力はいまだに理解されていない。
既存のAIエージェントのベンチマークは、科学的な作業で必要とされる複雑さ、不均一性、拡張推論をほとんど捉えないが、科学的なタスクのベンチマークは、研究を静的で直接的な問題に還元し、対話的な評価を限定的にサポートする。
本稿では、複数の領域にわたる新たなニーズから引き出された実世界の科学研究シナリオにおいて、AIエージェントを評価するための体系的なベンチマークであるSciAgentArenaを紹介する。
SciAgentArenaは、ステップワイド検証を備えた約200のタスクと、多様なAIエージェントを評価するためのインタラクティブでエージェントに依存しない環境で構成されている。
このベンチマークを用いて、特にタスク構造と評価基準が明確である場合に、現在のエージェントが適切に特定されたデータ分析ワークフローに効果的に寄与できることが判明した。
エージェントは真に新しい洞察を生み出すのに苦労し、自己指向的な探索を継続し、オープンな研究課題に対する堅牢な解決策を定式化します。
さらに、エージェント間で共通の障害モードを特徴付け、信頼性、自律性、科学的推論を改善する機会を特定します。
SciAgentArenaは、科学のためのAIエージェントの進歩を計測し、複雑な科学的課題に対処できる将来のエージェントの設計を導くための実践的なフレームワークを提供する。
完全なコード、タスク、データセットは、このリンクを通じてアクセスすることができる。
関連論文リスト
- SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning [54.194672921128785]
我々は、フロンティア科学データ構築のための完全に自動化されたエージェントフレームワークであるSciResearcherを紹介する。
SciResearcherは、学術的証拠に基づく様々な概念的および計算的なタスクを合成する。
我々は,HLE-Bio/Chem-Goldベンチマークで19.46%を達成できるエージェント基盤モデルであるSciResearcher-8Bを開発した。
論文 参考訳(メタデータ) (2026-05-02T15:26:45Z) - Cross-Disciplinary Knowledge Retrieval and Synthesis: A Compound AI Architecture for Scientific Discovery [1.5143261755366868]
BioSageは、LLMをRAGと統合した新しい複合AIアーキテクチャで、AI、データサイエンス、バイオメディカル、バイオセキュリティドメインにわたる発見を可能にするために、特殊なエージェントとツールを編成した。
本システムでは,クエリ計画と応答合成を備えた検索エージェントを含む,複数の特殊エージェントを特徴とし,引用支援型応答を持つドメイン間の知識検索を実現する。
我々の研究は、チャート、表、構造化された科学データに対するマルチモーダル検索と推論に重点を置いており、また、クロスディシプリナ発見のための総合的なマルチモーダルベンチマークも開発している。
論文 参考訳(メタデータ) (2025-11-23T05:33:11Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。