論文の概要: Comprehensive pKa Data Augmentation from Limited Real Data through an Engineered Models-Quantum Framework
- arxiv url: http://arxiv.org/abs/2606.17077v1
- Date: Wed, 10 Jun 2026 16:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.037548
- Title: Comprehensive pKa Data Augmentation from Limited Real Data through an Engineered Models-Quantum Framework
- Title(参考訳): 工学的モデル量子フレームワークによる限定実データからの包括的pKaデータ拡張
- Authors: Wang Rui, Liu Dinghao,
- Abstract要約: プロトン解離定数(pKa)は機能分子の発見と分子モデリングに重要である。
我々は,機械学習に基づく経験的予測や高精度エネルギー計算など,いくつかの手法を開発した。
我々は、広範囲に最適化された機械学習モデルを用いて、ラベル付けされていない分子データセットに対して大規模な回帰に基づくpKa予測を行った。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proton dissociation constants (pKa) are critical for functional molecule discovery and molecular modeling. Building on iBonD, the largest experimental pKa database established, we and other researchers have developed several methods including machine-learning-based empirical prediction and high-accuracy energy calculations. Despite this foundation, the rapid augmentation of high-quality pKa data remains fundamentally constrained. As part of this work, we performed large-scale regression-based pKa prediction on unlabeled molecular datasets using a collection of extensively optimized machine-learning models. The results indicate that, since the feature distributions of unlabeled molecular datasets, the pKa data distribution approximates normality, with extreme scarcity of tail-region samples. Although such augmentation is highly valuable for improving overall data availability and predictive modeling, it remains insufficient for efficiently discovering molecules with broad-spectrum pKa properties. To address this, we explore the targeted generation of molecules with sparse pKa properties from the vast chemical space. Given that traditional continuous latent space VAE-RNN methods for molecular generation suffer from insufficient stability and fail to demonstrate clear advantages in complementing sparse data, we design and implement a quantum-assisted sparse-pKa molecular generation. Feasibility is validated on a simulated quantum annealer, and superior extreme-value sampling is further achieved on physical coherent Ising machines (CIMs). (to be continued)
- Abstract(参考訳): プロトン解離定数(pKa)は機能分子の発見と分子モデリングに重要である。
実験用pKaデータベースとしては最大規模のiBonDをベースとして,機械学習による経験的予測や高精度エネルギー計算など,いくつかの手法を開発した。
この基盤にもかかわらず、高品質のpKaデータの急速な増大は、基本的に制限されている。
この研究の一環として、広範囲に最適化された機械学習モデルを用いて、ラベル付けされていない分子データセットに対して大規模な回帰に基づくpKa予測を行った。
その結果, 未ラベル分子データセットの特徴分布から, pKaデータ分布は正常度に近似し, 尾領域サンプルの極端に不足していることが示唆された。
このような拡張は、全体的なデータ可用性と予測モデリングを改善するために非常に有用であるが、広スペクトルpKa特性を持つ分子を効率的に発見するには不十分である。
これを解決するために、広大な化学空間から疎pKa特性を持つ分子の標的生成を探索する。
分子生成のための従来の連続遅延空間VAE-RNN法は、安定性が不十分であり、スパースデータを補完する明確な利点を示すことができないことを考慮し、量子アシストスパース-pKa分子生成の設計と実装を行う。
シミュレートされた量子アニーラーで実現可能性を確認し、物理コヒーレントイジングマシン(CIM)で優れた極値サンプリングを行う。
(継続)
関連論文リスト
- QT-Net: Rethinking Evaluation of AI Models in Atomic Chemical Space [5.76402440170162]
量子トポロジカルニューラルネットワーク(Quantum Topological Neural Network, QT-Net)は、回転的に拡張された非同変グラフニューラルネットワークである。
QT-Netは、トレーニングセット外のQM9から分子中の原子の性質を推測するために使用できることを示す。
我々はQT-NetのJAX実装を含むすべてのコードとデータをリリースし、原子スケールの分子機械学習のための誘導バイアスとして学習されたQTAプロパティの幅広い利用を支援する。
論文 参考訳(メタデータ) (2026-05-11T12:29:10Z) - Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Analysis of Atom-level pretraining with Quantum Mechanics (QM) data for Graph Neural Networks Molecular property models [0.0]
量子力学(QM)データを用いた原子レベルの事前トレーニングは、トレーニングデータとテストデータ間の分布類似性に関する仮定違反を軽減することができることを示す。
隠れ状態の分子表現を解析し、QMデータに対する分子レベルと原子レベルの事前学習の効果を比較するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-05-23T17:51:05Z) - SE(3)-Invariant Multiparameter Persistent Homology for Chiral-Sensitive
Molecular Property Prediction [1.534667887016089]
多パラメータ持続ホモロジー(MPPH)を用いた新しい分子指紋生成法を提案する。
この技術は、正確な分子特性予測が不可欠である薬物発見と材料科学において、かなりの重要性を持っている。
分子特性の予測における既存の最先端手法よりも優れた性能を示し,MoleculeNetベンチマークで広範囲な評価を行った。
論文 参考訳(メタデータ) (2023-12-12T09:33:54Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。