論文の概要: MassSpecGym in the Wild: Uncovering and Correcting Evaluation Pitfalls in AI-Driven Molecule Discovery
- arxiv url: http://arxiv.org/abs/2606.19624v1
- Date: Wed, 17 Jun 2026 22:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.556241
- Title: MassSpecGym in the Wild: Uncovering and Correcting Evaluation Pitfalls in AI-Driven Molecule Discovery
- Title(参考訳): MassSpecGym in the Wild: AI駆動分子発見における落とし穴の発見と修正
- Authors: Hongxuan Liu, Roman Bushuiev, Ivy Lightheart, Mrunali Manjrekar, Anton Bushuiev, Magdalena Lederbauer, Filip Jozefov, Yinkai Wang, Soha Hassoun, Josef Sivic, James Taylor, Runzhong Wang, David Healey, Tomáš Pluskal, Connor W. Coley,
- Abstract要約: 我々は、最近のMS/MS機械学習文献において、モデル評価問題について徹底的にレビューする。
我々は、MassSpecGymベンチマークの結果を報告した26の論文のうち、少なくとも17の論文で評価問題を発見した。
我々はこれらの問題の影響を定量化し、MassSpecGymが実施するために設計された評価基準をいかに悪用したかを示す。
- 参考スコア(独自算出の注目度): 31.680941154745245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable benchmarking is critical for developing machine learning models for tandem mass spectrometry (MS/MS) based molecule discovery. Subtle issues in experimental design and model evaluation procedures can degrade the trustworthiness of such benchmarks and lead to erroneous conclusions. We conduct a thorough review of model evaluation issues in the recent MS/MS machine learning literature, using the standard MassSpecGym benchmark suite as a case study to illustrate the impact of these issues. We find evaluation issues in at least 17 of 26 papers reporting MassSpecGym benchmark results in the first year of its adoption. We isolate three classes of failures: (i) data leakage, (ii) shortcut learning, and (iii) implementation bugs and metric divergence. Through extensive experimentation and code replication, we quantify the impact of these issues and show how they corrupt the evaluation standards MassSpecGym was designed to enforce. We distill our findings into recommendations generalizable to MS/MS challenges, benchmarks, and custom evaluation setups. We also release MassSpecGym v1.5, an implementation of our recommendations in the MassSpecGym benchmarking suite which addresses the failure modes identified in this audit. MassSpecGym v1.5 is publicly available at https://github.com/pluskal-lab/MassSpecGym.
- Abstract(参考訳): 信頼性ベンチマークはタンデム質量分析(MS/MS)に基づく分子発見のための機械学習モデルを開発する上で重要である。
実験的な設計とモデル評価の手順における課題は、そのようなベンチマークの信頼性を低下させ、誤った結論につながる可能性がある。
本稿では,最新のMS/MS機械学習文献におけるモデル評価問題について,標準的なMassSpecGymベンチマークスイートをケーススタディとして,その影響を概観する。
我々は、M MassSpecGymベンチマークを報告している26の論文のうち、少なくとも17の論文で、採用初年度に評価の問題を発見した。
障害の3つのクラスを分離します。
(i)データ漏洩
(二)ショートカット学習、及び
(iii)実装バグとメトリクスのばらつき。
大規模な実験とコードの複製を通じて、これらの問題の影響を定量化し、MassSpecGymが実施するために設計された評価基準をいかに破壊したかを示す。
我々は,MS/MS課題,ベンチマーク,カスタム評価設定に一般化可能なレコメンデーションに留意する。
我々はまた、この監査で特定された障害モードに対処するMassSpecGymベンチマークスイートで推奨事項の実装であるMassSpecGym v1.5をリリースした。
MassSpecGym v1.5はhttps://github.com/pluskal-lab/MassSpecGymで公開されている。
関連論文リスト
- PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction [17.33669468355787]
PepSpecBenchはペプチドMS/MSスペクトル予測のための統一ベンチマークである。
補完的な公開データセット間でのデータ前処理を標準化する。
また、シークエンスリークをなくすための厳格なバックボーン結合分割戦略も実施している。
論文 参考訳(メタデータ) (2026-05-03T16:11:27Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - MassSpecGym: A benchmark for the discovery and identification of molecules [21.471140898806315]
我々はMS/MSデータから分子の発見と同定のための最初の包括的なベンチマークであるMassSpecGymを提案する。
当社のベンチマークは,MS/MSスペクトルをラベル付けした高品質な画像集としては最大である。
デ・ノボ分子構造生成、分子検索、スペクトルシミュレーションという3つのMS/MSアノテーションの課題を定義している。
論文 参考訳(メタデータ) (2024-10-30T15:08:05Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。