論文の概要: Measuring Biological Capabilities and Risks of AI Agents
- arxiv url: http://arxiv.org/abs/2606.19899v1
- Date: Thu, 18 Jun 2026 07:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.716152
- Title: Measuring Biological Capabilities and Risks of AI Agents
- Title(参考訳): AIエージェントの生物学的能力とリスクの測定
- Authors: Patricia Paskov, Jeffrey Lee, Kyle Brady, Alyssa Worland,
- Abstract要約: 意思決定者は、しばしば暗黙的あるいは文書化されていない設計選択に依存している評価結果に直面している。
我々は,AIによる生物学的リスクに関する現在のエビデンスを合成し,これらのシステムを評価するための,有望だが解釈に敏感な生物学的エージェント評価を導入する。
私たちの中心的なコントリビューションは、定義、設計、実行、スコア付け、評価の文書化に関する選択が、どのような結果をもたらし、リスクを暗示しないかを、実践的で経験的な考察の集まりです。
- 参考スコア(独自算出の注目度): 0.1631115063641726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses a rapidly emerging policy challenge: how to generate and interpret credible evidence about the biological capabilities and risks of AI scientists, or agentic AI systems capable of autonomously or collaboratively performing multi-step scientific tasks. As these systems enter real research workflows, decision-makers increasingly face evaluation results whose meaning depends on underlying design choices that are often implicit or under-documented. We synthesize current evidence on AI-enabled biological risks and introduce biological agentic evaluations as a promising, but interpretation-sensitive, tool for assessing these systems. Our central contribution is a set of practical, experience-grounded considerations -- drawing from our own evaluations -- that show how choices around defining, designing, running, scoring, and documenting evaluations materially shape what results do and do not imply about risk. The analysis is intended to help policymakers interpret biological evaluation outputs with appropriate caution; guide public and private funders toward high-leverage investments in AI-biology evaluation research; and support biosecurity practitioners assessing emerging AI systems. A secondary audience includes researchers designing or conducting agentic evaluations within frontier AI labs, AI providers, scientific institutions, and third-party evaluation organizations.
- Abstract(参考訳): 本稿は、AI科学者の生物学的能力とリスクに関する信頼性のある証拠の生成と解釈、あるいは多段階の科学的タスクを自律的または協調的に実行可能なエージェントAIシステムといった、急速に発展する政策課題に対処する。
これらのシステムが実際の研究ワークフローに入ると、意思決定者は、しばしば暗黙的あるいは文書化されていない設計選択に依存する評価結果に直面します。
我々は,AIによる生物学的リスクに関する現在のエビデンスを合成し,これらのシステムを評価するための,有望だが解釈に敏感な生物学的エージェント評価を導入する。
私たちの中心的なコントリビューションは、実践的で経験に基づく考察のセットです -- 独自の評価から引き出されたもので、定義、設計、実行、スコア付け、文書化に関する選択が、どのような結果をもたらし、リスクを含まないのかを現実的に形作っています。
この分析は、政策立案者が生物学的評価のアウトプットを適切な注意をもって解釈すること、AI-バイオロジー評価研究への高水準投資に向けた公的および民間資金提供者を支援すること、新興AIシステムを評価するバイオセキュリティ実践者を支援することを目的としている。
セカンダリオーディエンスには、フロンティアAIラボ、AIプロバイダ、科学機関、サードパーティ評価組織でエージェント評価を設計または実施する研究者が含まれる。
関連論文リスト
- Benchmarking AI Agents for Addressing Scientific Challenges Across Scales [118.2204632627895]
SciAgentArenaは、現実世界の科学研究シナリオでAIエージェントを評価するための体系的なベンチマークである。
ステップワイズ検証を備えた約200のタスクと、多様なAIエージェントを評価するためのインタラクティブでエージェントに依存しない環境で構成される。
タスク構造や評価基準が明確である場合, 現状のエージェントはデータ分析に効果的に貢献できることがわかった。
論文 参考訳(メタデータ) (2026-06-10T22:55:30Z) - Towards a Medical AI Scientist [73.6056699962416]
私たちは、臨床自律研究に特化した最初の自律的な研究フレームワークである、メディカルAIサイエンティストを紹介します。
このフレームワークは3つの研究モード、すなわち論文ベースの再現、文学にインスパイアされた革新、タスク駆動探索で動作する。
本システムでは,提案手法と実装の密接な整合性を実現するとともに,実行可能実験において極めて高い成功率を示す。
論文 参考訳(メタデータ) (2026-03-30T15:37:25Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper [23.009743151474638]
Jr. AI Scientistは、初心者の学生研究者のコア研究ワークフローを模倣した最先端の自律AI科学者システムである。
実際のNeurIPS、IJCV、ICLRの上に構築された新しい研究論文は、新しい手法を提案し、実装することで動作する。
論文 参考訳(メタデータ) (2025-11-06T17:37:49Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Agentic AI for Scientific Discovery: A Survey of Progress, Challenges, and Future Directions [0.0]
エージェントAIシステムは推論、計画、自律的な意思決定を行うことができる。
彼らは、科学者が文献のレビューを行い、仮説を作成し、実験を行い、結果を分析する方法を変えようとしている。
論文 参考訳(メタデータ) (2025-03-12T01:00:05Z) - Evaluating AI Evaluation: Perils and Prospects [8.086002368038658]
本稿では,これらのシステムに対する評価手法が根本的に不適切であることを主張する。
AIシステムを評価するためには改革が必要であり、インスピレーションを得るために認知科学に目を向けるべきである、と私は主張する。
論文 参考訳(メタデータ) (2024-07-12T12:37:13Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Assessing AI Impact Assessments: A Classroom Study [14.768235460961876]
提案されたAIシステムへの影響を想像するための構造化プロセスを提供するツール群であるAIIA(Artificial Intelligence Impact Assessments)が、AIシステムを管理するための提案としてますます人気が高まっている。
近年、政府や民間団体の取り組みによりAIIAの多様なインスタンス化が提案されている。
我々は,AIの社会的・倫理的意味に焦点をあてた選択科目において,大規模な研究集約大学(R1)で授業研究を行う。
影響評価が参加者の潜在能力に対する認識に影響を及ぼすという予備的証拠を見いだす。
論文 参考訳(メタデータ) (2023-11-19T01:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。