Fugu-MT 論文翻訳(概要): A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

論文の概要: A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

arxiv url: http://arxiv.org/abs/2606.07718v1
Date: Fri, 05 Jun 2026 15:38:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.362243
Title: A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline
Title（参考訳）: 神経科学データ発見パイプラインにおけるAIエージェントの評価事例
Authors: Kai A. Horstmann, Ethan Lin, Alice A. Robie, Jennifer J. Sun, Kristin Branson,
Abstract要約: 本研究では,ハエのオプトジェネティックスデータ発見パイプラインにおける汎用コーディングエージェントの実証研究について述べる。既存のベンチマークよりも大幅に大きいタスクのエージェント、桁違いに大きいデータセット、ドメインエキスパート標準に基づく評価基準について評価する。エージェントが複数のパイプラインステージを解決できることを示し、ステージレベルの自動化が抽出可能であることを示唆する。
参考スコア（独自算出の注目度）: 4.751533658796929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic AI tools offer a promising path to automating software development bottlenecks in scientific research pipelines, particularly for stages that take domain experts days to months to build, where scientists care about correctness and robustness, not implementation details. We present an empirical study of general-purpose coding agents on a fly optogenetics data-to-discovery pipeline. We assess agents on tasks substantially larger than existing benchmarks, datasets orders of magnitude bigger, and evaluation criteria grounded in domain expert standards. We show that agents can solve several individual pipeline stages, suggesting stage-level automation is tractable. By analyzing agents' code iterations, we show that they struggle most when there is not a pre-defined criterion to iterate on, and they must instead use their scientific judgment to assess their current solution, a key open challenge. Mirroring scientific practice, they sometimes attempt visual inspection of intermediate outputs for self-evaluation, but largely fail to interpret what they see or act on it appropriately. Solving the end-to-end pipeline correctly requires stringing together successes across all pipeline stages, and this is beyond agents' current abilities. We identify challenges largely absent from existing benchmarks, including computational resource management and generalization to large held-out data collections. Finally, we distill principles for constructing scientific tasks and rigorous evaluation criteria for open-ended problems.
Abstract（参考訳）: エージェントAIツールは、科学研究パイプラインにおけるソフトウェア開発のボトルネックを自動化するための、有望な道を提供する。本研究では,ハエのオプトジェネティックスデータ発見パイプラインにおける汎用コーディングエージェントの実証研究について述べる。我々は、既存のベンチマークよりもかなり大きいタスクのエージェント、桁違いに大きいデータセット、ドメインエキスパート標準に基づく評価基準について評価する。エージェントが複数のパイプラインステージを解決できることを示し、ステージレベルの自動化が抽出可能であることを示唆する。エージェントのコードイテレーションを分析することで、事前に定義された基準が満たされていない場合、ほとんどの場合に苦労し、その代わりに、現在のソリューションを評価するために科学的判断を使わなければなりません。科学的な実践を反映して、自己評価のために中間出力を視覚的に検査しようとすることもあるが、自分たちが何を見ているか、あるいはそれに対して適切に行動しているかを理解できなかった。エンドツーエンドのパイプラインを正しく解決するには、すべてのパイプラインステージで成功を紐付ける必要があります。計算資源管理や大規模データ収集への一般化など,既存のベンチマークにほとんど欠落している課題を明らかにした。最後に,オープンエンド問題に対する科学的課題構築の原則と厳密な評価基準を精査する。

関連論文リスト

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction [0.02446672595462589]
我々は,LHC(Large Hadron Collider)から,公開論文とオープンサイエンスソフトウェアのみを用いて,言語モデルエージェントが実験分析を再現できるかどうかを評価するベンチマークであるCollind-Benchを紹介する。したがってエージェントは、これらのギャップを埋めるために、物理的推論、ドメイン知識、試行錯誤に頼らなければならない。以上の結果から, 平均的なエージェントが, ループ内解法を確実に打ち負かすことは不可能であることが示唆された。
論文参考訳（メタデータ） (2026-05-13T18:00:00Z)
LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。 CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文参考訳（メタデータ） (2026-05-02T11:31:33Z)
Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文参考訳（メタデータ） (2026-05-01T17:42:12Z)
Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-03T13:44:40Z)
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文参考訳（メタデータ） (2026-03-15T16:13:58Z)
Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文参考訳（メタデータ） (2025-12-02T18:42:26Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文参考訳（メタデータ） (2025-09-26T02:04:00Z)
TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文参考訳（メタデータ） (2025-05-13T14:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。