論文の概要: ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity
- arxiv url: http://arxiv.org/abs/2606.11150v1
- Date: Tue, 09 Jun 2026 17:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.649245
- Title: ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity
- Title(参考訳): ABC-Bench: バイオセキュリティのためのエージェントバイオ機能ベンチマーク
- Authors: Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe,
- Abstract要約: 大規模言語モデル(LLM)は、生物研究に関連する能力の獲得が急速に進んでいる。
これらの能力は、科学的な発見とバイオメディカルな進歩の新たな機会を提供するが、バイオセキュリティのリスクの展望も変えている。
本稿では,エージェントバイオセキュリティ関連能力を測定するためのエージェントバイオ能力ベンチマーク(ABC-Bench)を紹介する。
- 参考スコア(独自算出の注目度): 0.6157382820537719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly acquiring capabilities relevant to biological research, from literature synthesis to interpretation of experimental data. Increasingly, LLM agents can also perform in silico biology tasks that previously required experienced human biologists. These emerging AI capabilities offer new opportunities for scientific discovery and biomedical advances, but they also shift the landscape of biosecurity risks. To address this, we introduce the Agentic Bio-Capabilities Benchmark (ABC-Bench), a suite of tasks to measure agentic biosecurity-relevant capabilities. ABC-Bench evaluates LLM agents on both benign and dual-use biology tasks: writing code to operate liquid handling robots, designing DNA fragments for in vitro assembly, and evading DNA synthesis screening. These tasks require a combination of biology and software expertise. All tested LLM agents outperformed the median expert human baseliner on all three tasks. Agents performed highly on tasks drawing on published knowledge and well-documented protocols, and more weakly on a task requiring novel bioinformatics reasoning. In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文献合成から実験データの解釈に至るまで、生物研究に関連する能力の獲得が急速に進んでいる。
LLMエージェントは、これまで経験豊富な人間の生物学者を必要としていたサイリコ生物学のタスクでも機能する。
これらの新興AI能力は、科学的な発見とバイオメディカルな進歩のための新たな機会を提供するが、バイオセキュリティリスクの展望も変えている。
これを解決するために,エージェントバイオセキュリティ関連能力を測定するためのタスクスイートであるAgenic Bio-Capabilities Benchmark (ABC-Bench) を紹介した。
ABC-Benchは、液体処理ロボットを操作するためのコードを書くこと、in vitroでの組立のためのDNAフラグメントを設計すること、DNA合成スクリーニングを避けること、良性および二重用途の生物学のタスクにおいてLLMエージェントを評価する。
これらのタスクには、生物学とソフトウェアの専門知識の組み合わせが必要です。
試験された全てのLSMエージェントは、すべての3つのタスクでヒトのベースライナーの中央値を上回った。
エージェントは、出版された知識と十分に文書化されたプロトコルに基づくタスク、さらに新しいバイオインフォマティクスの推論を必要とするタスクにおいて、高い性能を発揮した。
3つのウェットラブ検証実験で、OpenAIのo4-mini-highが生成したスクリプトがOpenTronsの液体処理ロボット上で実行されると、期待されるシーケンスでDNAを組み立てることに成功した。
関連論文リスト
- BioMARS: A Multi-Agent Robotic System for Autonomous Biological Experiments [8.317138109309967]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、自律的な実験を可能にすることによって生物学的研究を変革する可能性がある。
ここでは、LLM、VLM、モジュールロボットを統合し、自律的に設計、計画、実行を行うインテリジェントプラットフォームであるBioMARSを紹介する。
Webインターフェースはリアルタイムの人間とAIのコラボレーションを可能にし、モジュール化されたバックエンドは実験室のハードウェアとのスケーラブルな統合を可能にする。
論文 参考訳(メタデータ) (2025-07-02T08:47:02Z) - BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning [31.739027752007928]
生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
論文 参考訳(メタデータ) (2025-05-11T09:42:24Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Language Model Powered Digital Biology with BRAD [5.309032614374711]
大規模言語モデル(LLM)は構造化されていない統合に適しています。
バイオインフォマティクス検索デジタルアシスタント(BRAD)の試作について紹介する。
論文 参考訳(メタデータ) (2024-09-04T16:43:14Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。