論文の概要: Integrating gene regulatory priors into Transformer attention with scTransformer for interpretable scRNA-seq analysis
- arxiv url: http://arxiv.org/abs/2606.09558v1
- Date: Mon, 08 Jun 2026 14:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.269168
- Title: Integrating gene regulatory priors into Transformer attention with scTransformer for interpretable scRNA-seq analysis
- Title(参考訳): scRNAシークエンス解析のためのScTransformerとScTransformerへの遺伝子制御前駆体の統合
- Authors: Mikele Milia, Louis Fabrice Tshimanga, Henning Mueller, Manfredo Atzori, Barbara Di Camillo,
- Abstract要約: scTransformerは、バイオメカニズムの事前知識をモデルの注意パターンに組み込む最初のTransformerベースのアプローチである。
標準的なトランスフォーマーと比較して,本手法は分類精度を向上し,埋め込み空間における細胞型の分離を促進し,既知の規制プログラムと整合した注意パターンを生成する。
- 参考スコア(独自算出の注目度): 0.5463550120736066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: Transformer-based models are increasingly applied to large-scale single-cell transcriptomics, showing strong performance through self-supervised learning on millions of cells. However, most existing approaches treat genes as independent features, and largely ignore prior biological knowledge, which limits interpretability and robustness. In this paper, we explore whether explicitly incorporating gene regulatory information can improve both model performance and biological insight. Results: We present scTransformer, the first Transformer-based approach that builds a priori knowledge of biological mechanisms into the model's attention patterns. By constraining information flow according to known regulatory structures, the model learns representations that are more biologically meaningful. We evaluate scTransformer on a disease-relevant single-nucleus RNA-seq dataset using supervised cell-type classification. Compared to standard Transformers, our approach improves classification accuracy, enhances separation of cell types in embedding space, and produces attention patterns consistent with known regulatory programs. Overall, our results demonstrate that embedding biological structure into Transformer models can enhance interpretability without sacrificing performance, offering a principled step toward biologically grounded foundation models for single-cell omics.
- Abstract(参考訳): モチベーション(Motivation):トランスフォーマーベースのモデルは、大規模単一細胞転写学にますます応用され、数百万の細胞で自己教師付き学習を行うことで、高いパフォーマンスを示す。
しかし、既存のほとんどのアプローチは、遺伝子を独立した特徴として扱い、解釈可能性と堅牢性を制限する以前の生物学的知識をほとんど無視している。
本稿では,遺伝子制御情報を明示的に取り入れることで,モデル性能と生物学的知見の両方を向上できるかどうかを考察する。
結果:skTransformerは,生体機構の事前知識をモデルの注意パターンに組み込む最初のトランスフォーマーベースのアプローチである。
既知の規制構造に従って情報の流れを制約することにより、モデルはより生物学的に意味のある表現を学ぶ。
疾患関連RNA-seqデータセット上での scTransformer の評価をセルタイプ分類を用いて行った。
標準的なトランスフォーマーと比較して,本手法は分類精度を向上し,埋め込み空間における細胞型の分離を促進し,既知の規制プログラムと整合した注意パターンを生成する。
以上の結果から,トランスフォーマーモデルに生物学的構造を組み込むことで,性能を犠牲にすることなく解釈性を向上させることが可能であることが示唆された。
関連論文リスト
- Parameter-free representations outperform single-cell foundation models on downstream benchmarks [0.0]
シングルセルRNAシークエンシング(scRNA-seq)データは、強く再現可能な統計構造を示す。
TranscriptFormerのような大規模基盤モデルは、潜在ベクトル空間に遺伝子を埋め込むことで遺伝子発現の生成モデルを学ぶ。
計算集約的な深層学習に基づく表現を使わずに、類似のパフォーマンスが達成できるかどうかを問う。
論文 参考訳(メタデータ) (2026-02-18T18:42:29Z) - DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文 参考訳(メタデータ) (2026-02-02T09:10:09Z) - Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - A scalable gene network model of regulatory dynamics in single cells [88.48246132084441]
本稿では,遺伝子ネットワーク構造を結合微分方程式に組み込んで,遺伝子制御関数をモデル化する機能的学習可能モデルFLeCSを提案する。
FLeCS は (pseudo) 時系列の単一セルデータから, セルの動態を正確に推定する。
論文 参考訳(メタデータ) (2025-03-25T19:19:21Z) - Reconstructing Cell Lineage Trees from Phenotypic Features with Metric Learning [0.0]
発達過程を研究するための重要なアプローチは、細胞系統分類と分化史のツリーグラフを推測することである。
本稿では,木グラフ推論に最適化された幾何学特性を持つ埋め込み空間を学習する新しいディープラーニング手法であるCellTreeQMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T05:41:03Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。