論文の概要: A systematic investigation of molecular encoding methods for drug property predictions across neural network and Transformer encoder-based model
- arxiv url: http://arxiv.org/abs/2606.08973v1
- Date: Mon, 08 Jun 2026 03:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.673048
- Title: A systematic investigation of molecular encoding methods for drug property predictions across neural network and Transformer encoder-based model
- Title(参考訳): ニューラルネットワークおよびトランスフォーマーエンコーダモデルを用いた薬物特性予測のための分子コード法に関する研究
- Authors: Sheng-Ya Chen, Shan-Ju Yeh,
- Abstract要約: 分子特性予測のための最適分子符号化法について検討した。
分子エンコーディング法では,従来のトポロジカルフィンガー,サブストラクチャーベースフィンガー,文字列ベースフィンガーなど,いくつかの種類の指紋について検討した。
本研究は,有効な分子エンコーディング法を選択するための実践的ガイダンスを提供し,薬物発見のための解釈可能な分子情報学手法の開発に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fundamental investigations into how different molecular encoding methods affect molecular property prediction remain relatively limited. In this study, we extensively examined the optimal molecular encoding methods for molecular properties prediction using two prevalent structure designs: a classical neural network model (MLP) and a Transformer encoder-based model (MLP+TL). For molecular encoding methods, we investigated several types of fingerprints, including traditional topological fingerprints, substructure-based fingerprints, and string-based representations. These two models were trained on seven well-known molecular datasets to evaluate different input molecular encoding methods based on evaluation metrics. On several biologically relevant classification tasks, including toxicity, mutagenicity, and side-effect prediction, our models consistently achieved average AUC values above 0.9. Rather than relying on external post-hoc explanation methods such as the local interpretable model-agnostic explanation (LIME) or the Deep SHapley Additive exPlanations (SHAP), we leveraged the model's intrinsic attention weights as an internal interpretability signal for identifying potentially important feature. The MLP+TL model using MACCS and PubChem as input can capture chemically interpretable groups that determined the major blood-brain barrier (BBB) permeability and mutagenicity in Salmonella typhimurium. In particular, a comparison between Morphine and Heroin highlighted the role of hydroxyl-related substructures in BBB permeability prediction, which was consistently reflected in the attention weights. Overall, our findings provide practical guidance for selecting effective molecular encoding methods and contribute to the development of interpretable molecular informatics approaches for drug discovery.
- Abstract(参考訳): 異なる分子エンコーディング法が分子特性予測にどのように影響するかに関する基礎研究は、いまだに限られている。
本研究では,古典的ニューラルネットワークモデル (MLP) とトランスフォーマーエンコーダモデル (MLP+TL) の2つの一般的な構造設計を用いて,分子特性予測のための最適な分子エンコーディング手法を広く検討した。
分子エンコーディング法では,従来のトポロジカルフィンガー,サブストラクチャーベースフィンガー,文字列ベースフィンガーなど,いくつかの種類の指紋について検討した。
これらの2つのモデルは、評価指標に基づいて異なる入力分子符号化法を評価するために、よく知られた7つの分子データセットを用いて訓練された。
毒性, 変異原性, 副作用予測など, 生物学的に関係のあるいくつかの分類課題において, 平均AUC値は0.9。
局所的解釈可能なモデル認識的説明 (LIME) やディープ・シャプレー付加的説明 (SHAP) など,外部のホック後説明法に頼るのではなく,本モデルの本質的な注意重みを,潜在的に重要な特徴を特定するための内部解釈可能性信号として活用した。
MACCSとPubChemを入力として用いたMLP+TLモデルは、サルモネラ菌の主要な血液脳関門(BBB)透過性と変異原性を決定する化学的に解釈可能な群を捉えることができる。
特に、モルヒネとヘロインの比較では、注意重みに一貫して反映されるBBB透過性予測におけるヒドロキシル関連サブ構造の役割を強調した。
本研究は, 分子コード法を効果的に選択するための実践的ガイダンスを提供するとともに, 薬物発見のための分子情報学手法の開発に寄与する。
関連論文リスト
- A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era [57.5440098776759]
分子特性予測は、量子化学、化学情報学、深層学習を統合し、分子構造と生物学的挙動を結びつける。
この調査は、Quantum、Descriptor Machine Learning、Geometric Deep Learning、Foundation Modelsの4つの補完パラダイムをトレースする。
ベンチマーク分析は、広く使われているデータセットと業界的な視点を反映したデータセットの両方からエビデンスを統合する。
論文 参考訳(メタデータ) (2026-04-17T15:16:33Z) - Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Aligned Manifold Property and Topology Point Clouds for Learning Molecular Properties [55.2480439325792]
この研究は、局所量子由来のスカラー場とカスタムトポロジカルディスクリプタを組み合わせた分子表面表現であるAMPTCRを導入する。
分子量については、AMPTCRが物理的に意味のあるデータをコードし、検証R2は0.87であることを確認した。
細菌抑制タスクでは、AMPTCRは大腸菌阻害値の分類と直接回帰の両方を可能にする。
論文 参考訳(メタデータ) (2025-07-22T04:35:50Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - Molecular Fingerprints Are Strong Models for Peptide Function Prediction [0.0]
長距離分子相互作用はしばしば、複雑なグラフニューラルネットワークと事前訓練されたトランスフォーマーのモデリングを必要とすると仮定される。
単純でドメイン特異的な分子指紋がこれらの仮定なしでペプチド機能を捉えることができるかどうかを検討する。
本研究は, 分子指紋をペプチド予測のための効率的, 解釈可能, 計算的に軽量な代替手段として強調し, 長距離相互作用モデルの必要性を推察するものである。
論文 参考訳(メタデータ) (2025-01-29T10:05:27Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Unraveling Key Elements Underlying Molecular Property Prediction: A
Systematic Study [27.56700461408765]
分子特性予測の根底にある重要な要素はほとんど未発見のままである。
我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。
合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
論文 参考訳(メタデータ) (2022-09-26T14:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。