論文の概要: EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis
- arxiv url: http://arxiv.org/abs/2606.13602v1
- Date: Thu, 11 Jun 2026 17:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.944097
- Title: EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis
- Title(参考訳): EpiBench: エピゲノミクス分析におけるAIエージェントの検証
- Authors: Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman,
- Abstract要約: EpiBenchは、短期水平エピゲノミクス解析のための検証可能なベンチマークである。
エージェントが現実的なワークフロー状態から明確に定義された分析決定を行い、決定論的に段階的な回答を返すことができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EpiBench, a verifiable benchmark for short-horizon epigenomics analysis. EpiBench evaluates whether agents can make well-defined analysis decisions from realistic workflow states and return deterministically gradable answers. The benchmark includes 106 evaluations across CUT\&Tag/CUT\&RUN, ATAC-seq, ChIP-seq, and DNA methylation workflows. Across 5,088 valid trajectories from 16 model-harness pairs, no system passed a majority of attempts: GPT-5.5 / Pi led at 45.0\% (143/318 attempts; 95\% confidence interval (CI), 36.3--53.7), followed by GPT-5.5 / OpenAI Codex at 39.9\% (127/318 attempts; 95\% CI, 31.6--48.3). Claude Opus 4.8 Max / Pi and GPT-5.4 / Pi each passed 39.0\% (124/318 attempts; 95\% CI, 30.2--47.8 and 31.0--47.0, respectively). Performance varies across assay types, and many failed runs still contain parts of the correct answer. Agents often found the right files and computed useful intermediate results, but failed when the task required deeper, assay-specific scientific judgment.
- Abstract(参考訳): 短時間のエピゲノミクス解析のための検証可能なベンチマークであるEpiBenchを紹介する。
EpiBench氏は、エージェントが現実的なワークフロー状態から明確に定義された分析決定を行い、決定論的に分解可能な回答を返すことができるかどうかを評価する。
ベンチマークには、CUT\&Tag/CUT\&RUN、ATAC-seq、ChIP-seq、DNAメチル化ワークフローに関する106の評価が含まれている。
GPT-5.5 / Pi led at 45.0\% (143/318 attempt; 95\% confidence interval (CI), 36.3-53.7), そして GPT-5.5 / OpenAI Codex at 39.9\% (127/318 attempt; 95\% CI, 31.6-48.3)。
Opus 4.8 Max / Pi と GPT-5.4 / Pi はそれぞれ 39.0\% (124/318回、95\% CI と 30.2--47.8 と 31.0--47.0 )を突破した。
パフォーマンスはアッセイの種類によって異なり、多くのフェールした実行には依然として正しい答えの一部が含まれている。
エージェントはしばしば適切なファイルを見つけ、有用な中間結果を計算したが、そのタスクがより深く、アッセイ固有の科学的判断を必要とすると失敗した。
関連論文リスト
- Evaluating Deep Research Agents on Expert Consulting Work: A Benchmark with Verifiers, Rubrics, and Cognitive Traps [0.0]
Frontier Deep Research Agent(DRA)は、研究タスクを計画し、文書を合成し、必要に応じて構造化された成果を返却する。
既存のベンチマークは、ファクトリコール、シングルホップQA、ジェネリックエージェントスキルを計測する。
私たちは、Web検索を備えたClaude Opus 4.6、OpenAI o3-deep-research、Google Gemini 3.1 Proの3つのフロンティアエージェントを、42の中小企業のプロンプトで評価しています。
論文 参考訳(メタデータ) (2026-05-17T17:32:52Z) - EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents [75.01735520608075]
既存のベンチマークは、直観的信念を問うことで、主にリテラル・オブ・マインド(ToM)をテストする。
EnactToMは, 3D 家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。
ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的なタスク完了時に0.0%のPass3を獲得し、リテラルな信念プローブでは平均45.0%であった。
論文 参考訳(メタデータ) (2026-05-11T00:04:19Z) - TEMPO: Scaling Test-time Training for Large Reasoning Models [87.61789183311856]
テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
論文 参考訳(メタデータ) (2026-04-21T10:01:04Z) - Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits [3.9532936038777144]
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
論文 参考訳(メタデータ) (2026-03-29T15:56:05Z) - CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities [0.0]
CTI-REALMは、AIエージェントがサイバー脅威インテリジェンス(CTI)を解釈し、検出ルールを開発する能力を評価するために設計されたベンチマークである。
この研究は、AIエージェントが検出エンジニアリングの労働集約的な側面をサポートする可能性を実証している。
論文 参考訳(メタデータ) (2026-03-13T18:48:40Z) - AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows [0.0]
AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-03-03T04:59:25Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - A Generic Deep Learning Based Cough Analysis System from Clinically
Validated Samples for Point-of-Need Covid-19 Test and Severity Levels [85.41238731489939]
臨床検体8,380名を対象に,Covid-19の迅速一次スクリーニングツールの検出性能について検討した。
提案手法は,経験的モード分解(EMD)に基づくアルゴリズムであり,その後に音声特徴量に基づく分類を行う。
DeepCoughの2つの異なるバージョン、すなわちDeepCough2DとDeepCough3Dのテンソル次元について検討した。
論文 参考訳(メタデータ) (2021-11-10T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。