論文の概要: GLACIER: A Multimodal Student-Teacher Foundation Model for Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2606.11382v1
- Date: Tue, 09 Jun 2026 19:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.150253
- Title: GLACIER: A Multimodal Student-Teacher Foundation Model for Molecular Property Prediction
- Title(参考訳): GLACIER:分子特性予測のためのマルチモーダル学生・教員基盤モデル
- Authors: Emily Nguyen, Yongchan Hong, Harsh Toshniwal, Yan Liu, Andreas Luttens,
- Abstract要約: GLACIERは、分子グラフ、SMILES文字列、物理化学記述子を統合し、リッチな分子埋め込みを学ぶためのフレームワークである。
1)分子グラフのためのメッセージパスニューラルネットワーク,SMILES文字列のためのトランスフォーマーベースのエンコーダ,物理化学的記述子のための多層パーセプトロンの3つの段階からなる。
GLACIERは複雑な分子特性予測タスクにおいて高い予測性能と計算効率を実現する頑健なフレームワークであることを示す。
- 参考スコア(独自算出の注目度): 3.5765184795812384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models facilitate the discovery of molecules with tailored properties among billions of candidate compounds. However, the computational burden to develop and deploy state-of-the-art models continuously increases, limiting their scalability. Most large-scale models are unimodal in nature and overlook the potential to leverage complementary molecular data modalities. To address these shortcomings, this paper introduces the Graph-Language Alignment for Chemical Inference and Exploration using Representations (GLACIER) model, a student-teacher framework that integrates molecular graphs, SMILES strings, and physicochemical descriptors to learn rich molecular embeddings. Our framework consists of three stages: (1) we pretrain three student encoders on 100,000 drug-like molecules: a message-passing neural network for molecular graphs, a transformer-based encoder for SMILES strings, and a multilayer perceptron for physicochemical descriptors, (2) we fuse these student modalities using a novel Finsler geometry-aware module, and (3) distill complementary knowledge from large teacher models, including MiniMol and MolFormer, into a single lightweight model via contrastive learning. We demonstrate that GLACIER is a robust framework that delivers high predictive performance and computational efficiency in complex molecular property prediction tasks. Our code is publicly available at https://github.com/eemokey/glacier.
- Abstract(参考訳): 深層学習モデルは、何十億もの候補化合物の間で調整された性質を持つ分子の発見を促進する。
しかし、最先端モデルの開発と展開に対する計算負荷は継続的に増加し、スケーラビリティが制限される。
ほとんどの大規模モデルは自然界において一様であり、相補的な分子データモダリティを活用する可能性を見落としている。
本稿では, 分子グラフ, SMILES文字列, 物理化学記述子を統合し, リッチな分子埋め込みを学習するための学習者向け学習フレームワークであるGLACIERモデルを提案する。
我々は,(1)分子グラフのためのメッセージパッシングニューラルネットワーク,SMILES文字列のためのトランスフォーマーベースのエンコーダ,(2)物理化学記述子のための多層パーセプトロン,(2)新しいフィンスラー幾何認識モジュールを用いてこれらの学生のモダリティを融合させ,(3)MiniMolやMolFormerなどの大規模教師モデルからの補完的知識を,コントラスト学習によって単一の軽量モデルに分解する,という3つの段階から構成される。
GLACIERは複雑な分子特性予測タスクにおいて高い予測性能と計算効率を実現する頑健なフレームワークであることを示す。
私たちのコードはhttps://github.com/eemokey/glacier.comで公開されています。
関連論文リスト
- Unified Molecule Pre-training with Flexible 2D and 3D Modalities: Single and Paired Modality Integration [15.929511077091687]
単一モード入力をサポートしながら統一的な分子表現を学習するフレキシブル分子事前学習フレームワークFlexMolを提案する。
提案手法では,2次元および3次元分子データに対して異なるモデルを用い,パラメータ共有を利用して計算効率を向上し,デコーダを用いて欠落したモダリティの特徴を生成する。
論文 参考訳(メタデータ) (2025-10-08T14:02:51Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks [44.934084652800976]
コンフォーマーアンサンブルを用いた学習の可能性を徹底的に評価するための,最初のMoleculAR Conformer Ensemble Learningベンチマークを導入する。
その結果,コンバータ空間からの直接学習は,様々なタスクやモデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-09-29T20:06:46Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。