論文の概要: What Does a Chemical Language Model Know About Molecules?
- arxiv url: http://arxiv.org/abs/2606.23443v1
- Date: Mon, 22 Jun 2026 14:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:59:23.339026
- Title: What Does a Chemical Language Model Know About Molecules?
- Title(参考訳): 化学言語モデルは分子について何を知っているか?
- Authors: Christian Kenneth, Etowah Adams, Liam Bai, Gerard JP van Westen,
- Abstract要約: 化学言語モデル(cLM)は、意味のある分子意味論を学ぶよりも、表面レベルの構文パターンを学ぶことが広く想定されている。
本稿では, 層間分子表現がどのように構築されているかを機械的に検討するために, 分散オートエンコーダ (SAEs) をエンコーダのみのcLMである MolFormer に適用する。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chemical language models (cLMs) are widely assumed to learn surface-level syntactic patterns rather than learning meaningful molecular semantics. Here, we apply sparse autoencoders (SAEs) to MolFormer, an encoder-only cLM, to mechanistically examine how molecular representations are built across layers. We discover that early layers rely on position-tracking latents to parse molecular grammar, while later layers encode atom-in-substructure and pharmacologically relevant features. Additionally, we show that non-canonical SMILES produce more disruptive representation shifts than invalid SMILES, driven by position-latent disruption propagating across layers. To support further exploration, we develop InterMol, an interactive visualizer for SAE activations on molecular strings and structures.
- Abstract(参考訳): 化学言語モデル(cLM)は、意味のある分子意味論を学ぶよりも、表面レベルの構文パターンを学ぶことが広く想定されている。
本稿では, 層間分子表現がどのように構築されているかを機械的に検討するために, 分散オートエンコーダ (SAEs) をエンコーダのみのcLMである MolFormer に適用する。
初期の層は分子文法を解析するために位置追跡潜伏剤に依存しており、後期層は原子構造と薬理学的に関係のある特徴をコードしている。
さらに、非正準SMILESは、層間を伝播する位置遅延破壊により、無効なSMILESよりも破壊的な表現シフトを生じさせることを示す。
さらなる探索を支援するため,分子文字列と構造上のSAE活性化のための対話型ビジュアライザーであるInterMolを開発した。
関連論文リスト
- MoleCode unlocks structural intelligence in large language models [22.076506020790106]
MoleCodeは、LLMネイティブで、トレーニングなし、グラフ限定の分子言語である。
言語コンテキスト内で分子トポロジーを直接読みやすく、編集可能で、監査可能である。
また、推測の割り当て方法も変更され、暗黙の構造的再構築に費やされた長い推論の痕跡が置き換えられる。
論文 参考訳(メタデータ) (2026-05-15T17:44:27Z) - Beyond Learning on Molecules by Weakly Supervising on Molecules [0.155963096715749]
我々の適応化学埋め込みモデル(ACE-Mol)は、ラベル付き弱いモチーフから学習する。
計算が簡単でスケールしやすい自然言語記述子。
ACE-Molは、解釈可能で化学的に意味のある表現を持つ分子特性予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-04T16:03:20Z) - KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。
また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。
KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-22T11:23:58Z) - Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [52.84455878597969]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - MolMetaLM: a Physicochemical Knowledge-Guided Molecular Meta Language Model [19.458584012046646]
本稿では,分子メタ言語フレームワーク MolMetaLM を提案する。
我々は、同じS(分子)を共有する複数のS,P,O>知識トリプルとしてフォーマットされた分子特化メタ言語パラダイムを設計する。
異なる分子知識とノイズを導入することで、メタ言語パラダイムは数万の事前学習タスクを生成する。
論文 参考訳(メタデータ) (2024-11-23T09:27:38Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
実験の結果, LDMolはテキストから分子生成ベンチマークにおいて, 既存の自己回帰ベースラインよりも優れていた。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Empirical Evidence for the Fragment level Understanding on Drug
Molecular Structure of LLMs [16.508471997999496]
言語モデルが1次元配列から化学空間構造をどう理解するかについて検討する。
その結果,分子断片の観点から,言語モデルで化学構造が理解できることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T12:53:58Z) - SALSA: Semantically-Aware Latent Space Autoencoder [45.39474752148712]
本稿では,分子間のグラフ-グラフ類似性を学習するために,コントラストタスクで修正したトランスフォーマー-オートエンコーダを提案する。
構成した学習目標が,1)構造的認識,2)意味的連続,3)特性的認識といった品質の高い潜伏空間につながることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:34:46Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。