Fugu-MT 論文翻訳(概要): TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

論文の概要: TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology

arxiv url: http://arxiv.org/abs/2606.19245v2
Date: Thu, 18 Jun 2026 02:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 13:55:51.911965
Title: TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical Pharmacology
Title（参考訳）: TxBench-PP:小分子前臨床薬理学におけるAIエージェント性能の解析
Authors: Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman,
Abstract要約: 人工知能(AI)エージェントは、解釈と意思決定ループを圧縮することで、薬物発見を加速することを約束する。 TherapeuticsBench Preclinical Phharmacology (TxBench-PP) を紹介する。 TxBench-PPは、エージェントが文献から記憶された事実ではなく、実世界のアッセイデータから正確な結論を回復できるかどうかをテストする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) agents promise to accelerate drug discovery by compressing interpretation and decision-making loops, but practical deployment requires trusted evaluation on realistic program decisions. We introduce TherapeuticsBench Preclinical Pharmacology (TxBench-PP), a verifiable benchmark for small-molecule preclinical pharmacology and the first focused slice of a broader TherapeuticsBench effort across drug-discovery stages and therapeutic modalities. TxBench-PP tests whether agents can recover accurate conclusions from real-world assay data rather than memorized facts from literature. The benchmark contains 100 evaluations indexed by program stage, assay type, and task structure, spanning mechanism-of-action (MoA) and pharmacodynamic (PD) reasoning, compound-target engagement, causal target validation, developability and safety, and translational efficacy. Agents receive realistic workflow snapshots, inspect files in a coding environment, and return structured answers graded deterministically. Across 16 model-harness configurations, comprising 11 models and 4,800 trajectories, no system reliably recovered preclinical pharmacology decisions. The strongest configuration, Claude Opus 4.8 / Pi, passed 59.3\% of endpoint attempts (178/300; 95\% CI, 51.1-67.6), followed by GPT-5.5 / Pi at 55.3\% (166/300; 47.0-63.6).
Abstract（参考訳）: 人工知能(AI)エージェントは、解釈と意思決定ループを圧縮することで薬物発見を加速することを約束するが、実際的な展開には、現実的なプログラム決定に対する信頼できる評価が必要である。 TherapeuticsBench preclinical pharmacology (TxBench-PP) は、小分子前臨床薬理学の検証可能なベンチマークであり、薬物発見段階と治療の段階をまたいだ、より広範囲なTherapeuticsBenchの取り組みの最初の焦点スライスである。 TxBench-PPは、エージェントが文献から記憶された事実ではなく、実世界のアッセイデータから正確な結論を回復できるかどうかをテストする。このベンチマークは、プログラムステージ、アッセイタイプ、タスク構造、スパンニング機構(MoA)および薬理力学(PD)推論、複合ターゲットエンゲージメント、因果目標検証、開発性と安全性、翻訳効果によってインデックスされた100の評価を含む。エージェントはリアルなワークフロースナップショットを受け取り、コーディング環境でファイルを検査し、構造化された回答を確定的に返却する。 16のモデルハーネス構成は、11のモデルと4,800のトラジェクトリから構成され、システムは確実に前臨床薬理学的な決定を回復することはなかった。最も強力な構成であるClaude Opus 4.8 / Piは、59.3\%のエンドポイント試行(178/300; 95\% CI, 51.1-67.6)をパスし、続いて55.3\%(166/300; 47.0-63.6)でGPT-5.5 / Piをパスした。

関連論文リスト

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases [71.12461204050985]
MedSP1000 (MedSP1000) は、SP由来の臨床エージェント評価のための対話型ベンチマークである。ピアレビューされたSPの授業ケースを、定義されたSPケーススクリプト、臨床環境コンテキスト、人為的な構造化ルーブリックで実行可能なシナリオに変換する。 MedSP1000を多種多様な汎用および医療用LLMに適用すると、静的ベンチマークの性能がそのような教育シナリオに確実に変換されないことが分かる。
論文参考訳（メタデータ） (2026-06-03T17:17:16Z)
Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis [49.83108591873481]
EligMetaはエージェントフレームワークで、自動トライアル発見と、資格を意識したメタ分析を統合する。フレームワークは、目標トライアル間の人口アライメントを反映した類似性に基づく研究重量を計算し、適性基準を構造化する。
論文参考訳（メタデータ） (2026-04-03T03:18:50Z)
Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。 ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文参考訳（メタデータ） (2026-03-18T06:15:35Z)
MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition [6.191248426050678]
臨床医学における治療的意思決定には、信頼できるバイオメディカル知識に基づく堅牢で多段階の推論が必要である。 TxAgentによって実証されたエージェントAI手法は、反復的検索強化生成(RAG)を通じてこれらの課題に対処する。本研究はCURE-Bench NeurIPS 2025 Challengeへの参加から得られた知見を提示する。
論文参考訳（メタデータ） (2025-12-12T16:01:48Z)
Retrieval-Augmented Generation Assistant for Anatomical Pathology Laboratories [2.125786478579275]
本研究は,解剖学(AP)研究室に適合したRAGアシスタントの提案と評価である。ポルトガルの医療機関から99個のAPプロトコルの新たなコーパスを収集し、323個の質問応答ペアを構築した。 Retrieval-Augmented Generationアシスタントは、プロトコル関連のクエリに対するコンテキストグラウンドの回答を提供する。
論文参考訳（メタデータ） (2025-12-08T22:44:57Z)
DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文参考訳（メタデータ） (2025-10-24T08:01:21Z)
MedPAO: A Protocol-Driven Agent for Structuring Medical Reports [0.13029689752120577]
我々は、精度と検証可能な推論を保証する新しいエージェントフレームワークであるMedPAOを紹介する。 MedPAOは、レポート構造化タスクをPlan-Act-Observe (PAO)ループと特殊なツールによって管理される透明なプロセスに分解する。 MedPAOは概念分類の重要なサブタスクに対して0.96のF1スコアを達成する。
論文参考訳（メタデータ） (2025-10-06T09:32:23Z)
From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文参考訳（メタデータ） (2025-09-20T09:10:26Z)
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。 DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文参考訳（メタデータ） (2025-05-20T05:18:15Z)
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools [22.322166889507184]
TxAgentは、薬物相互作用、禁忌、患者固有の治療戦略を分析するAIエージェントである。 ToolUniverseは、1939年以降、FDAが承認したすべての薬物を含む信頼できる情報源から211のツールを統合する。オープンエンドドラッグ推論タスクでは92.1%の精度で、GPT-4oを超え、構造化多段階推論ではDeepSeek-R1(671B)を上回っている。
論文参考訳（メタデータ） (2025-03-14T00:28:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。