論文の概要: Viral Proteins Reveal Geometry of Protein Language Models
- arxiv url: http://arxiv.org/abs/2606.12609v1
- Date: Wed, 10 Jun 2026 19:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.421542
- Title: Viral Proteins Reveal Geometry of Protein Language Models
- Title(参考訳): ウイルスタンパク質によるタンパク質言語モデルの探索
- Authors: Arthur Bigot, Harmon Bhasin, Core Francisco Park, Eugene Shakhnovich, Dianzhuo Wang,
- Abstract要約: ウイルスタンパク質をESMモデルファミリーのケーススタディとして使用した。
埋め込み空間における支配的なネイティブ性軸を,マスクによる再構成の難易度と整合して同定した。
ウイルスタンパク質は、ゼロショットのパープレキシティや浅い配列の特徴を超えて線形に分離可能である。
- 参考スコア(独自算出の注目度): 6.332610054224282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models are trained on highly imbalanced datasets, raising the question of how they represent underrepresented biological sequences. Using viral proteins as a case study across ESM model families, we identify a dominant nativeness axis in embedding space, aligned with masked reconstruction perplexity, that orders sequences from well-modeled cellular proteins through viral proteins to shuffled and random sequences. Scaling contracts this axis unevenly across viral families. Despite this, protein language model embeddings retain viral-specific signal: viral proteins remain linearly separable beyond zero-shot perplexity and shallow sequence features. Together, these results suggest that pLM representations are structured by a general notion of nativeness while preserving information specific to distinct biological groups.
- Abstract(参考訳): タンパク質言語モデルは、高度に不均衡なデータセットに基づいて訓練されており、それらがどのように表現されていない生物学的配列を表すのかという疑問を提起している。
ウイルスタンパク質をESMモデルファミリー全体にわたるケーススタディとして使用し、よくモデル化された細胞タンパク質から、シャッフルされたランダムな配列に配列を注文する、マスクされた再構成パープレキシティと整合した埋め込み空間における支配的なネイティブ性軸を同定した。
拡大はウイルスの家族間で不均一にこの軸を収縮させる。
これにもかかわらず、タンパク質言語モデル埋め込みはウイルス特異的なシグナルを保持し、ウイルスタンパク質はゼロショットのパープレキシティや浅い配列の特徴を超えて線形に分離可能である。
これらの結果は、pLM表現は、異なる生物学的グループに固有の情報を保持しながら、自然性の一般的な概念によって構成されていることを示唆している。
関連論文リスト
- AMix-2: Establishing Protein as a Native Modality in Large Language Models [88.00237394496698]
大型言語モデル(LLM)において、タンパク質をネイティブなモダリティとして確立するタンパク質-テキスト基盤モデルAMix-2を提案する。
AMix-2は、(1)自然言語とタンパク質配列を共有トークン空間に埋め込む統一されたタンパク質-テキストの定式化、(2)ブロックワイド拡散言語モデリングバックボーンの2つの主要なアイデアに基づいて構築されている。
本稿では,様々な理解・設計タスクにまたがって,時間認識・ホモロジー認識プロトコルを用いた総合ベンチマークであるProteinArenaを紹介する。
論文 参考訳(メタデータ) (2026-05-29T07:58:08Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Diffusion on language model encodings for protein sequence generation [0.5088559194265662]
DiMAは、タンパク質言語モデル表現で動作する潜伏拡散フレームワークである。
新規で高品質で多様なタンパク質配列を生産する。
これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。