論文の概要: The Metric Picks the Winner: Evaluation Choice Flips Model Rankings for Drug-Response Prediction in Unseen Chemistry
- arxiv url: http://arxiv.org/abs/2606.12639v1
- Date: Wed, 10 Jun 2026 20:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.439098
- Title: The Metric Picks the Winner: Evaluation Choice Flips Model Rankings for Drug-Response Prediction in Unseen Chemistry
- Title(参考訳): 勝者を選ぶメトリクス:不審化学における薬物応答予測のための評価選択フリップモデルランキング
- Authors: Dhruv Agarwal, Riya Bisht,
- Abstract要約: 細胞のトランスクリプトームが、これまで見たことのない薬物にどのように反応するかを予測することは、計算細胞生物学における中核的で難しい問題である。
最近のベンチマークでは、テスト化合物が化学によって保持されると、複雑なモデルは自明なベースラインを破ることがしばしば失敗する。
そこで本研究では,非パラメトリック検索,融合ステージなど,フィールドが打ち負かし続け続けるばかげたベースライン,非パラメトリック検索,融合ステージを提案する。
- 参考スコア(独自算出の注目度): 1.1986159241687198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting how a cell's transcriptome responds to a drug it has never seen is a core, hard problem in computational cell biology: recent benchmarks show complex models often fail to beat trivial baselines once test compounds are held out by chemistry. We study one cell line and assay, THP-1 cells profiled by DRUG-seq, scored by the active-compound weighted MSE(wMSE) of the VCPI prediction contest. We propose a staged approach: dumb baselines (untreated control and mean training-compound response) that the field keeps failing to beat; non-parametric retrieval (a Tanimoto-weighted average of a held-out compound's nearest training compounds); and a fusion stage combining a frozen chemistry embedding with retrieval-support features to predict the residual over the mean, with an uncertainty head and gene programs. On the released VCPI THP-1 drug-seq data (14,026 training compounds), under a Bemis-Murcko scaffold split, the model ranking inverts depending on the metric. Under an inverse-variance per-gene proxy, a regularized linear regression on Morgan fingerprints appears to win over the deep models, retrieval, and ChemBERTa -- the textbook "simple baselines win" result. But under the contest's true active-set metric (per-(gene, compound) Mejia weights, validated against the official scorer; mean baseline 0.535 vs the organizers' 0.507 reference), that reverses: the deep models win, our fusion decoder significantly beats the linear fingerprint baseline (-0.012 wMSE, paired bootstrap p < 10^-4), and the proxy's winner becomes the worst chemistry-aware predictor. Picking the metric picks the winner -- to our knowledge the first demonstration on real held-out drug chemistry of the metric-calibration effect established largely on genetic perturbation. We release a reproducible pipeline wired to the official scorer that emits a valid submission over the real 1064 x 12,995 grid.
- Abstract(参考訳): 最近のベンチマークでは、テスト化合物が化学によって保たれると、複雑なモデルは自明なベースラインを破ることに失敗することが多いことが示されています。
本稿では,VCPI予測コンテストの活発な重み付きMSE(wMSE)を用いて,DRUG-seqによりプロファイルされたTHP-1細胞について検討した。
非パラメトリック検索(Tanimoto-weighted average of a held-out compound's closest training compounds)、および凍結した化学を検索支援機能と組み合わせて、平均上の残留量を予測し、不確実な頭部と遺伝子プログラムで予測する融合ステージを提案する。
VCPI THP-1 薬物配列データ (14,026 のトレーニング化合物) では,Bemis-Murcko の足場分割により, モデルランキングが逆転する。
inverse-variance per-gene proxyの下では、Morganの指紋の正規化線形回帰が深層モデル、検索、ChemBERTa -- 教科書の"シンプルなベースラインが勝つ"結果に勝っているように見える。
しかし、コンテストの真のアクティブセットメートル法(per-(gene, compound) Mejia weights, confirmedd against the official scorer; mean baseline 0.535 vs the organizers 0.507 references)では、これは逆である: ディープモデルが勝利し、融合デコーダが線形指紋ベースライン(-0.012 wMSE, paired bootstrap p < 10^-4)を著しく上回り、プロキシの勝者が最悪の化学認識予測者となる。
指標の選択は勝者を選ぶ ― 我々の知る限り、主に遺伝的摂動に基づいて確立された計量校正効果の、実際に保留されている薬物化学の最初の実演だ。
我々は、実際の1064 x 12,995グリッドに対して有効な提案を出力する、公式スコアラーに配線された再現可能なパイプラインをリリースする。
関連論文リスト
- Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback [56.69850045068714]
逐次的2段階プロセスとして方程式発見をフレーム化する方法である textitInfluence-Guided Regression (IGSR) を導入する。
LLM-SRBench, 薬理学的PKPDモデル, 疫学シミュレーション, 実世界のゲノムデータなど, IGSRの有効性を示す。
論文 参考訳(メタデータ) (2026-05-27T23:48:01Z) - From Residuals to Reasons: LLM-Guided Mechanism Inference from Tabular Data [10.795877029195845]
科学的応用のための機械学習における永続的な課題は、予測と理解を共同で達成することである。
マルチエージェント残差文脈学習(MARICL)を導入する。
MARICLは、すべてのデータセットのベースモデルに対して一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-21T15:34:08Z) - Learning Continuous Solvent Effects from Transient Flow Data: A Graph Neural Network Benchmark on Catechol Rearrangement [0.0]
この研究は、高スループットな過渡的フロー化学データセットである textbfCatechol Benchmarkを導入している。
化学環境への一般化を実証するため, 厳密な溶出・溶出プロトコルおよび溶出・溶出プロトコルによる各種アーキテクチャの評価を行った。
本稿では,グラフ注意ネットワーク(GAT)と差動反応フィンガープリント(DRFP)を統合し,混合認識符号化を学習するハイブリッドGNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:19:01Z) - Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning [0.0]
チロシルDNAホスホジエステラーゼ1(TDP1)に対する小分子の作用を予測することは、初期の薬物発見において重要な課題である。
本稿では,ChemBERTaの微調整によるpIC50値の定量的回帰のためのディープラーニングフレームワークを提案する。
提案手法は、回帰精度と仮想スクリーニングユーティリティの両方において、古典的ベースラインのランダム予測よりも優れている。
論文 参考訳(メタデータ) (2025-12-03T20:42:22Z) - A Unified Approach to Inferring Chemical Compounds with the Desired Aqueous Solubility [5.763661159910719]
水溶性(AS)は、医薬品の発見と材料設計において重要な役割を果たす重要な物理化学的性質である。
本稿では,単純な決定論的グラフ理論記述子に基づいて,化学化合物を所望のASで予測し,推定するための新しい統一的アプローチについて報告する。
論文 参考訳(メタデータ) (2024-09-06T14:20:38Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Accelerating Drug Safety Assessment using Bidirectional-LSTM for SMILES Data [0.0]
Bi-Directional Long Short Term Memory (BiLSTM) は、入力分子配列を処理するリカレントニューラルネットワーク(RNN)の変種である。
提案した研究は、SMILES文字列にコードされたシーケンシャルパターンを理解することを目的としており、それによって分子の毒性を予測する。
論文 参考訳(メタデータ) (2024-07-08T18:12:11Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - Retrosynthesis Prediction with Local Template Retrieval [112.23386062396622]
特定の標的分子の反応を予測する再合成は、薬物発見に必須の課題である。
本稿では,局所的な反応テンプレート検索手法であるRetroKNNを紹介する。
我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T03:38:03Z) - RetCL: A Selection-based Approach for Retrosynthesis via Contrastive
Learning [107.64562550844146]
レトロシンセシスは深層学習の新たな研究分野である。
本稿では, 市販分子の候補群から, 反応物質の選択問題へとレトロシンセシスを再構成する新しいアプローチを提案する。
スコア機能を学ぶために、ハードネガティブマイニングを備えた新しいコントラストトレーニングスキームも提案します。
論文 参考訳(メタデータ) (2021-05-03T12:47:57Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。