論文の概要: BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language
- arxiv url: http://arxiv.org/abs/2606.22138v1
- Date: Sat, 20 Jun 2026 16:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:36:31.999087
- Title: BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language
- Title(参考訳): バイオマトリックス: 配列, 構造, 言語のモダリティ行列を表わす包括的生物基盤モデル
- Authors: Qizhi Pei, Zhimeng Zhou, Yi Duan, Yiyang Zhao, Wei Li, Han Guo, Liang He, Chengping Li, Chang-Yu Hsieh, Conghui He, Rui Yan, Lijun Wu,
- Abstract要約: BioMatrixは、分子とタンパク質の両方の配列、構造、自然言語を統合するマルチモーダル基盤モデルである。
Qwen3言語モデルに基づいて構築されたBioMatrixは、一般的なテキストとドメイン固有のテキストにまたがる304億のトークンを継続的に事前訓練している。
BioMatrixは80タスク中77タスクで最先端または競合的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.151057913560074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BioMatrix, the first multimodal foundation model that natively integrates sequences, structures, and natural language for both molecules and proteins within a single decoder-only architecture. Existing biological foundation models pursue native multimodality and broad entity coverage separately: those that fuse multiple modalities under a shared objective remain confined to a single entity type, while those spanning multiple entity types either omit explicit structural modeling or rely on adapter-based designs in which the model cannot natively generate the very modalities it can read. BioMatrix closes this gap by mapping molecular sequences (supporting both SMILES and SELFIES notations), molecular structures, protein sequences, protein structures, and natural language into a shared discrete token space through a unified tokenization scheme, so that all modalities are consumed and produced uniformly under a single next-token prediction objective -- without external encoders, projection adapters, or modality-specific output heads. Built upon the Qwen3 language model (1.7B and 4B), BioMatrix is continually pretrained on 304.4 billion tokens spanning general and domain-specific text, sequence and structure views of molecules and proteins, and cross-modal corpora that interleave biomolecular entities with scientific text and link distinct entities through molecule-protein and protein-protein interaction data. After tuning on a comprehensive suite of downstream applications covering 80 tasks across 6 categories -- encompassing single-entity and multi-entity understanding and generation tasks across and within modalities -- BioMatrix achieves state-of-the-art or competitive performance on 77 out of 80 tasks, demonstrating that a single, natively multimodal generalist model can effectively match or surpass specialized approaches across a wide range of biological tasks.
- Abstract(参考訳): 分子とタンパク質の両方の配列、構造、自然言語を1つのデコーダのみのアーキテクチャでネイティブに統合する、最初のマルチモーダル基盤モデルであるBioMatrixについて述べる。
共有目的の下で複数のモダリティを融合するモデルは単一のエンティティタイプに限られる一方、複数のエンティティタイプにまたがるモデルは明示的な構造モデリングを省略するか、モデルが読むことができる非常にモダリティをネイティブに生成できないアダプタベースの設計に依存している。
BioMatrixはこのギャップを、分子配列(SMILESとSELFIES表記の両方をサポートする)、分子構造、タンパク質配列、タンパク質構造、自然言語を統一されたトークン化スキームを通じて共有されたトークン空間にマッピングすることで埋める。
Qwen3言語モデル(1.7Bと4B)に基づいて、BioMatrixは、一般的なテキストとドメイン固有のテキスト、分子とタンパク質の配列と構造ビュー、および分子の実体を科学的テキストでインターリーブし、分子-タンパク質とタンパク質-タンパク質の相互作用データを通じて異なる実体をリンクするクロスモーダルコーパスなど、304.4億のトークンを継続的に事前訓練している。
6つのカテゴリにまたがる80のタスクをカバーする包括的なダウンストリームアプリケーションのスイートをチューニングした後、BioMatrixは80のタスクのうち77のタスクに対して最先端または競合的なパフォーマンスを達成し、単一のネイティブなマルチモーダル・ジェネラリストモデルが、幅広い生物学的タスクにまたがる特定のアプローチを効果的にマッチまたは超えることを実証した。
関連論文リスト
- Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。
728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。
その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文 参考訳(メタデータ) (2025-11-26T07:15:00Z) - ProtoMol: Enhancing Molecular Property Prediction via Prototype-Guided Multimodal Learning [14.289447310645878]
ProtoMolは、モダリティ間のきめ細かい統合と一貫性のあるセマンティックアライメントを可能にするプロトタイプガイドフレームワークである。
ProtoMolは、さまざまな分子特性予測タスクにおいて、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-19T13:19:37Z) - BioVERSE: Representation Alignment of Biomedical Modalities to LLMs for Multi-Modal Reasoning [0.36855563110245826]
本稿では,事前学習したBioFMをモダリティエンコーダとして適応する2段階のアプローチであるBIOVERSEを提案する。
このアプローチはまず、各モダリティを共有 LLM 空間に整列する。
次に、マルチモーダルデータによる標準的な命令チューニングを適用して、下流の推論のためにそれらをまとめる。
論文 参考訳(メタデータ) (2025-10-01T20:07:36Z) - BioLangFusion: Multimodal Fusion of DNA, mRNA, and Protein Language Models [4.03394966596019]
我々は、事前訓練されたDNA、mRNA、タンパク質言語モデルを統一された分子表現に統合するための簡単なアプローチであるBioLangFusionを提案する。
i)コドンレベルの埋め込み結合、(ii)マルチインスタンス学習にインスパイアされたエントロピー規則化されたアテンションプール、(iii)クロスモーダルマルチヘッドアテンションの3つの融合技術について研究した。
論文 参考訳(メタデータ) (2025-06-10T16:01:11Z) - A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery [32.573496601865465]
構造に基づく薬物発見(Structure-based drug discovery、SBDD)は、標的タンパク質の詳細な物理的構造を利用して新しい薬物を開発する体系的な科学的プロセスである。
生体分子の事前学習モデルの最近の進歩は、様々な生化学的応用において顕著な成功を収めている。
論文 参考訳(メタデータ) (2025-03-06T12:04:56Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.4631438140637248]
MAMMALは多タスク基盤モデルの作成に応用された汎用的手法であり、多様なモダリティにわたる大規模生物学的データセットから学習する。
11の下流タスクで評価され、9つのタスクでSOTA(the new state of the art)に到達し、2つのタスクでSOTAに匹敵する。
抗体-抗原およびナノボディ-抗原複合体上でのαfold 3結合予測能について検討し, 4点中3点においてMAMMALの分類性能は有意に向上した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。