論文の概要: Residue-Level Attributions in Protein Language Models Do Not Recover Allergen Epitopes
- arxiv url: http://arxiv.org/abs/2606.22181v1
- Date: Sat, 20 Jun 2026 18:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:15:18.43416
- Title: Residue-Level Attributions in Protein Language Models Do Not Recover Allergen Epitopes
- Title(参考訳): タンパク質言語モデルにおける残基の属性はアレルゲンエピトープを回収しない
- Authors: Jianzhou Yao, Anxiong Song, Katja Baerenfaller, Damir Zhakparov,
- Abstract要約: ディープアレルゲン性は、新しい食品の安全性スクリーニングにますます利用されている。
最近のタンパク質言語モデルでは、タンパク質レベルのアレルゲン性予測が大幅に改善されている。
タンパク質のアレルゲン性モデルにおける属性を定量的に評価するための残基グラウンドベンチマークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep allergenicity classifiers are increasingly used in safety screening of novel foods, and recent protein language models have substantially improved protein-level allergenicity prediction. However, whether their explanations capture biologically meaningful information remains unclear. We introduce an epitope-grounded residue-level benchmark for quantitatively evaluating attribution faithfulness in protein allergenicity models. Across frozen ESM-2, multi-task ESM-2, and DeepPlantAllergy, protein-level classification was robust, yet classification-head explanation signals did not significantly exceed random in their residue-level alignment with annotated epitopes across AUROC, AUPRC, and Precision@k. Integrated Gradients identified residues that were functionally important to the model, but not overlapping annotated epitopes. Saturation mutagenesis further suggested classifiers may rely on physicochemical and compositional sequence features rather than epitope-specific mechanisms. Residue-level importance signals should therefore not be interpreted as immunological explanations for safety screening or hypoallergen design without quantitative validation. Code available: https://github.com/Jeffateth/XAllergen2.0-paper
- Abstract(参考訳): ディープアレルゲン性分類器は、新しい食品の安全性スクリーニングにますます使われており、最近のタンパク質言語モデルでは、タンパク質レベルのアレルゲン性予測を大幅に改善している。
しかし、それらの説明が生物学的に意味のある情報を捉えているかどうかは不明である。
タンパク質アレルゲン性モデルにおける帰属忠実度を定量的に評価するためのエピトープ基底残基レベルベンチマークを導入する。
凍結したESM-2, Multi-task ESM-2, DeepPlantAllergyでは, タンパク質レベルの分類は頑健であったが, AUROC, AUPRC, Precision@kにまたがるアノテートエピトープとの残基レベルのアライメントでは, 有意差は認められなかった。
統合グラディエントはモデルにとって機能的に重要な残基を同定したが、注釈付きエピトープは重複しなかった。
飽和変異は、エピトープ特異的なメカニズムではなく、物理化学的および構成的配列の特徴に依存する可能性があることを示唆している。
したがって、残留レベルの重要信号は、定量的な検証なしに安全スクリーニングや低アレルギー設計の免疫学的説明として解釈するべきではない。
コード提供: https://github.com/Jeffateth/XAllergen 2.0-paper
関連論文リスト
- RXNRECer Enables Fine-grained Enzymatic Function Annotation through Active Learning and Protein Language Models [20.176405299884824]
RXNRECerは変換器をベースとしたアンサンブルフレームワークで、EC番号に依存しない酵素触媒反応を直接予測する。
タンパク質言語モデリングとアクティブラーニングを統合して、高レベルのシーケンスセマンティクスときめ細かい変換パターンの両方をキャプチャする。
論文 参考訳(メタデータ) (2026-03-13T06:20:14Z) - Dynamics-inspired Structure Hallucination for Protein-protein Interaction Modeling [60.57197355431804]
タンパク質とタンパク質の相互作用 (PPI) は生物学の中心的な課題である。
深層学習は、このような変異の影響を予測することは約束されているが、2つの主要な制約によって妨げられている。
本稿では,Refine-PPIという新しいフレームワークについて述べる。
論文 参考訳(メタデータ) (2026-01-08T19:29:04Z) - ABConformer: Physics-inspired Sliding Attention for Antibody-Antigen Interface Prediction [3.947298454012977]
ABCONFORMERは,バイオシーケンスの局所的特徴とグローバル的特徴の両方をキャプチャする,Conformerのバックボーンに基づくモデルである。
ABCONFORMERは、抗体と配列が与えられたパラトープと抗原を正確に予測し、抗体情報なしで抗原上のパンエピトープを予測する。
論文 参考訳(メタデータ) (2025-09-27T11:12:04Z) - Sparse Autoencoders for Low-$N$ Protein Function Prediction and Design [0.0]
アミノ酸配列からのタンパク質機能の予測は、データスカース機構における中心的な課題である。
タンパク質言語モデル(pLM)は進化的インフォームド埋め込みとスパースオートエンコーダ(SAE)を提供することによって分野を進歩させた。
SAEは、24のシーケンスしか持たないが、フィットネス予測において、ESM2ベースラインよりも一貫して優れているか、競争している。
論文 参考訳(メタデータ) (2025-08-25T23:56:39Z) - Driving Accurate Allergen Prediction with Protein Language Models and Generalization-Focused Evaluation [4.578214567090719]
アレルギーは通常、有害な免疫反応を引き起こすタンパク質であり、公衆衛生上の大きな課題である。
本稿では,100ビリオンパラメータxTrimoPGLMタンパク質言語モデルを利用する計算フレームワークであるApplmを紹介する。
Applmは、難易度の高い現実のシナリオによく似たタスクセットにおいて、7つの最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-14T11:30:20Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Lightweight MSA Design Advances Protein Folding From Evolutionary Embeddings [51.731441632457226]
マルチシークエンスアライメント(MSA)は低ホモロジーおよび孤児タンパク質で機能する。
我々は、下流の折り畳みをより良くサポートするMSAを生成する軽量なMSA設計フレームワークPLAMEを紹介する。
AlphaFold2の低ホモロジー/孤児ベンチマークでは、PLAMEは構造精度の最先端の改善を提供する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation [30.2874172276931]
我々はMSA-Augmenterを導入し、データベースに存在しない新規なタンパク質配列を生成する。
CASP14で行った実験では、MSA-Augmenterは、下層のMSAから共進化情報を保持できるde novo配列を生成できることが示されている。
論文 参考訳(メタデータ) (2023-06-02T14:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。