論文の概要: The Dark Regulome: Disentangling Predictability from Regulation in Genomic Foundation Models
- arxiv url: http://arxiv.org/abs/2606.06834v1
- Date: Fri, 05 Jun 2026 02:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.520844
- Title: The Dark Regulome: Disentangling Predictability from Regulation in Genomic Foundation Models
- Title(参考訳): ダークレギュロム:ゲノム基盤モデルの規制から予測可能性を引き離す
- Authors: Chahat Baranwal, Aadtya Baranwal, Lakshya Nitin Tandon,
- Abstract要約: 高次グリオーマはニューロンと機能的なシナプスを介して神経回路に統合される。
ダークゲノムにまたがる規制プログラムは、プローブする天然基質である。
本稿では、予測可能性駆動型RIS分散から分離した残差化・置換診断手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-grade gliomas integrate into neural circuits through functional synapses with neurons, raising the question of which noncoding elements shape synaptogenic gene expression in tumor cells. The regulatory program written across the dark genome, what we call the $\textit{dark regulome}$, is the natural substrate to probe, and sequence foundation models offer a zero-shot route through in-silico mutagenesis (ISM); yet likelihood-based scoring is tautologically coupled to local sequence predictability, leaving the regulatory interpretation underdetermined. Across three architecturally distinct foundation models (Caduceus-Ph, HyenaDNA, Enformer) and 30,448 dark genome elements at 92 glioma-relevant loci, we introduce a residualization-and-permutation diagnostic that separates predictability-driven from regulation-driven RIS variance. A sharp 10kb proximal-regulatory horizon survives every control we apply, but the LM-derived element-class hierarchy does not: a six-feature linear baseline matches Caduceus top-decile membership at AUC $= 0.985$. Cross-architecture decomposition cleanly separates a sequence-predictability layer (the two language models co-rank long well-predicted transposable elements) from a regulatory-output layer (Enformer alone retains residual cCRE-discriminative signal), with literally zero overlap between the two top-100 lists. Conservation, brain cis-eQTL, and STRING-PPI cross-checks then anchor what biology survives: top-100 elements across all three models are $3.3\times$ enriched per model for matching brain eQTLs ($p_\mathrm{emp} < 5\times 10^{-3}$), while a tempting transposable-element regulatory layer and a striking NRXN1+NLGN1 protein-pair convergence both fail proper permutation tests once those tests are constructed. We deliver the diagnostic as a general methodological tool for any ISM-based regulatory study.
- Abstract(参考訳): 高次グリオーマは、神経細胞と機能的シナプスを介して神経回路に統合され、腫瘍細胞においてどの非コード要素がシナプトゲン遺伝子の発現を形成するのかという疑問が提起される。
ダークゲノムにまたがる規制プログラムである$\textit{dark regulome}$は、探索するための自然な基質であり、シーケンス基礎モデルは、in-silico mutagenesis (ISM)を介してゼロショットの経路を提供する。
アーキテクチャ的に異なる3つの基盤モデル(Caduceus-Ph,HyenaDNA,Enformer)と92のグリオーマ関連座位30,448の暗黒ゲノム要素に対して,制御駆動RIS分散から予測可能性駆動を分離する残留化・置換診断を導入する。
シャープな10kb近位規制水平線は適用するすべての制御を生き残るが、LM由来の要素クラス階層はそうではない。
クロスアーキテクチャ分解は、シーケンス予測可能性層(2つの言語モデルが、長い予測可能なトランスポーザブル要素を混在させる)を規制出力層(エンフォーマーのみは、残りのcCRE識別シグナルを保持する)からきれいに分離し、文字通り2つのトップ100リスト間の重複をゼロにする。
保存、脳のcis-eQTL、STRING-PPIの相互チェックは生物学の生き残りを補う:3つのモデルにまたがるトップ100の要素は3.3\times$enriched per model for matching brain eQTLs (p_\mathrm{emp} < 5\times 10^{-3}$)である。
ISMに基づく規制研究のための一般的な方法論ツールとして診断を提供する。
関連論文リスト
- EML-CD: Causal Mechanism Recovery via EML Symbolic Trees in Structure Learning [0.0]
本稿では,演算子(単一バイナリ演算子から関数を構成することができる)を因果構造学習に統合するフレームワークを提案する。
-CDは、各エッジ機構をゲート二分木として表現し、クローズドフォーム因果方程式を自動的に発見する。
解析的ヤコビアンは出力方程式から直接計算することができ、因果効果の定量的理解を可能にする。
論文 参考訳(メタデータ) (2026-06-04T09:45:42Z) - Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback [56.69850045068714]
逐次的2段階プロセスとして方程式発見をフレーム化する方法である textitInfluence-Guided Regression (IGSR) を導入する。
LLM-SRBench, 薬理学的PKPDモデル, 疫学シミュレーション, 実世界のゲノムデータなど, IGSRの有効性を示す。
論文 参考訳(メタデータ) (2026-05-27T23:48:01Z) - Stochastic Estimation of the Layer-wise Hessian Trace for Monitoring Neural-network Training [45.88028371034407]
本稿では,ニューラルネットワークの経験的リスクであるヘッセン行列の対角ブロックの軌跡のパラメータ推定器を提案する。
この手順はハッチンソントレース推定器とパラメータベクトル全体の上の1つのヘッセンベクトル積を組み合わせたものである。
重み分担の下での正しさは,第2次微分の前に階層的にヘッセンを組み立てる必要があることを示す。
論文 参考訳(メタデータ) (2026-05-25T10:24:32Z) - Interpretable DNA Sequence Classification via Dynamic Feature Generation in Decision Trees [48.331026745746776]
DEFTは木構築中に適応的に高レベルなシーケンス特徴を生成する新しいフレームワークである。
そこで本研究では,DEFTが多種多様なゲノムタスクにまたがって,人間の解釈可能かつ高い予測的シーケンスの特徴を発見できることを示す。
論文 参考訳(メタデータ) (2026-04-13T20:58:01Z) - MAT-Cell: A Multi-Agent Tree-Structured Reasoning Framework for Batch-Level Single-Cell Annotation [81.82645086402366]
MAT-Cellは,単細胞解析を構築的で検証可能な証明生成に再構成する,ニューロシンボリック推論フレームワークである。
MAT-Cellは、適応型レトリーバル増強生成(RAG)を通じて、生物学的公理の基底神経推論に象徴的な制約を注入し、転写ノイズを減少させる。
最先端のSOTA(State-of-the-art)モデルを大幅に上回り、挑戦的なシナリオにおいて堅牢なパフォーマンスを維持します。
論文 参考訳(メタデータ) (2026-04-07T04:56:06Z) - What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses [0.0]
52回の反復で141の幾何学的および位相的仮説を提案し,検証し,洗練するAI駆動ブレインストーミングループを提案する。
遺伝子埋め込み近傍は非自明なトポロジーを示し、12層のうち11層に持続的ホモロジーが有意である。
scGPTとGeneformerのCCAアライメントは0.80の正準相関と72%の遺伝子検索精度をもたらすが、19の検査方法が確実に遺伝子レベルの対応を回復することはなかった。
論文 参考訳(メタデータ) (2026-02-25T14:33:24Z) - DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification [0.0]
DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
論文 参考訳(メタデータ) (2025-09-28T16:10:03Z) - Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble [0.0]
抗微生物抵抗性(AMR)は、急速に拡大する世界的な健康危機である。
標準的な機械学習モデルは、ゲノムを秩序のない機能のコレクションとして扱う。
本稿では,シーケンスベースと特徴ベース学習を組み合わせたアンサンブルフレームワークであるAMR-EnsembleNetを提案する。
論文 参考訳(メタデータ) (2025-09-28T01:19:11Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - An Integrated Deep Learning and Dynamic Programming Method for
Predicting Tumor Suppressor Genes, Oncogenes, and Fusion from PDB Structures [0.0]
プロトオンコジーン(ONGO)の変異と腫瘍抑制遺伝子(TSG)の制御機能の欠如は、腫瘍増殖を制御していない一般的なメカニズムである。
計算研究を通じてONGOやTSGに関連する遺伝子機能の可能性を見つけることは、疾患を標的とする薬物の開発に役立てることができる。
本稿では,入力された3dタンパク質構造情報から特徴地図集合を抽出する前処理段階から開始する分類法を提案する。
論文 参考訳(メタデータ) (2021-05-17T18:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。