論文の概要: Enhancing Protein Representation Learning via Manifold Restore Mixing
- arxiv url: http://arxiv.org/abs/2606.22307v1
- Date: Sun, 21 Jun 2026 02:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:11:41.129697
- Title: Enhancing Protein Representation Learning via Manifold Restore Mixing
- Title(参考訳): Manifold Restore Mixingによるタンパク質表現学習の強化
- Authors: Yizhou Dang, Chuang Zhao, Lianbo Ma, Guibing Guo, Xingwei Wang, Zhu Sun,
- Abstract要約: データ拡張(DA)は、タンパク質表現学習(PRL)を改善する効果的な手段であることが証明されている。
タンパク質表現学習のための単純で効果的なDA手法であるManifold Restore Mixing (MRM)を提案する。
- 参考スコア(独自算出の注目度): 28.718224875115272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation (DA) has been proven to be an effective means for improving protein representation learning (PRL) by generating additional training samples. Although mainstream perturbation- and sampling-based augmentation methods can produce data containing sufficient variations, they carry the risk of disrupting the protein structure and function. Some crafted protein homology modeling tools can generate conformations, but reduce structural diversity. The above dilemmas lead us to a question: Can we restore the disrupted structure caused by DA operations, providing data with both the original structure and diverse variations? In this work, we first analyze and empirically reveal the structure defect and performance degradation issues of existing DA methods. Based on the findings, we propose a simple yet effective DA method, Manifold Restore Mixing (MRM), for protein representation learning. Specifically, inspired by manifold mixup, we mix the hidden representations of original and augmented protein data to generate new samples that restore structural information lost in DA while introducing diverse variations. Furthermore, we develop a sample difficulty scheduler that adjusts the beta distribution in mixup to provide models with progressively challenging mixed samples during training, which improves the final performance. Comprehensive experiments on various PRL backbones and downstream tasks demonstrate the effectiveness and generalization of our method. The complete code and weights will be released upon acceptance. We provide a implementation at https://github.com/KingGugu/MRM.
- Abstract(参考訳): データ拡張(DA)は、追加のトレーニングサンプルを生成することにより、タンパク質表現学習(PRL)を改善する効果的な手段であることが証明されている。
主流の摂動およびサンプリングに基づく増強法は十分な変動を含むデータを生成することができるが、それらはタンパク質の構造と機能を破壊するリスクを負う。
いくつかの人工タンパク質ホモロジーモデリングツールはコンフォメーションを生成することができるが、構造的多様性を減少させる。
DA操作によって引き起こされる破壊された構造を復元し、元の構造と多様なバリエーションの両方でデータを提供できるか?
本研究では,既存のDA手法の構造欠陥と性能劣化問題を分析し,実証的に明らかにする。
そこで本研究では,タンパク質表現学習のためのシンプルなDA手法であるManifold Restore Mixing (MRM)を提案する。
具体的には、多様体ミックスアップにインスパイアされた、オリジナルおよび拡張タンパク質データの隠された表現を混合して、DAで失われた構造情報を復元し、多様なバリエーションを導入しながら、新しいサンプルを生成する。
さらに,学習中に段階的に難易度の高い混合サンプルをモデルに提供するために,ミックスアップ中のベータ分布を調整したサンプル難易度スケジューラを開発し,最終性能を向上させる。
各種PRLバックボーンおよび下流タスクに関する総合実験により,本手法の有効性と一般化を実証した。
完全なコードと重みは受け入れ次第リリースされます。
実装はhttps://github.com/KingGugu/MRMで提供します。
関連論文リスト
- RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding [32.214133513502205]
タンパク質逆折り畳みは計算タンパク質工学の基本的な問題である。
既存の方法は、外部の知識を活用せずにシーケンスを生成するか、タンパク質言語モデルに依存するかのいずれかである。
本稿では,タンパク質逆フォールディングのための検索拡張デノナイジング拡散(RadDiff)を提案する。
論文 参考訳(メタデータ) (2025-11-28T07:32:15Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Guided Reconstruction with Conditioned Diffusion Models for Unsupervised Anomaly Detection in Brain MRIs [35.46541584018842]
Unsupervised Anomaly Detection (UAD) は、正常なトレーニング分布から異常を外れ値として識別することを目的としている。
生成モデルは、与えられた入力画像に対する健康な脳解剖の再構築を学ぶために使用される。
本稿では,入力画像の潜在表現から得られた付加情報を用いて拡散モデルの復調過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2023-12-07T11:03:42Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [34.12334834099495]
DiffEEGと呼ばれる新しい拡散型DA法を提案する。
データ分散を完全に探索し、多様性の高いサンプルを生成することができる。
DiffEEGの貢献により、マルチスケールCNNは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Retrieved Sequence Augmentation for Protein Representation Learning [40.13920287967866]
本稿では,タンパク質表現学習のための検索シーケンス拡張について,アライメントや前処理を伴わずに導入する。
本モデルでは,新しいタンパク質ドメインに移行し,デノボタンパク質の予測においてMSAトランスフォーマーより優れていることを示す。
我々の研究はタンパク質の予測における大きなギャップを埋め、タンパク質配列を理解するのに必要なドメイン知識の解読に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-24T10:31:45Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。