論文の概要: Biological Reasoning-Informed Regression for Interpretable Regulatory DNA Activity Prediction
- arxiv url: http://arxiv.org/abs/2606.08147v1
- Date: Sat, 06 Jun 2026 12:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.871607
- Title: Biological Reasoning-Informed Regression for Interpretable Regulatory DNA Activity Prediction
- Title(参考訳): 生物学的推論インフォームドレグレッションによるDNA活性予測の解釈
- Authors: Yi Duan, Zhao Yang, Jiwei Zhu, Ying Ba, Chuan Cao, Bing Su,
- Abstract要約: 既存の方法は通常、ブラックボックス方式でシーケンスからアクティビティスコアを回帰する。
R3LMはLLMの推論インフォームドレグレッションを制御DNA上で教えるフレームワークである。
R3LMは3種類の細胞にわたるエンハンサー予測において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 15.79385231366071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNA cis-regulatory elements (CREs) such as enhancers control gene expression levels. Accurately predicting regulatory activity from DNA sequences is valuable but challenging, as it requires understanding complex biological regulatory processes. Existing methods typically regress activity scores from sequences in a black-box manner, limiting both interpretability and regression performance. Meanwhile, large language models (LLMs) benefit from explicit reasoning processes, yet directly applying LLMs to raw DNA sequences performs poorly. In this paper, we bridge this gap by introducing R3LM, a framework that teaches LLMs reasoning-informed regression on regulatory DNA through structured biological knowledge. Specifically, we design a biologically grounded data format that structures DNA's regulatory information for improved LLM understanding, and construct CRE-ReasonBench, the first dataset that associates DNA sequences and activity scores with mechanistic reasoning traces. Through two-stage training that first teaches LLMs reasoning over structured biological information then performs regression, R3LM achieves state-of-the-art performance on enhancer prediction across three cell types, outperforming both LLMs with raw sequence input and specialized DNA models while providing interpretable mechanistic explanations. We expect R3LM as an interpretable reward model that can effectively assist biologists in CRE design. Code is available at https://github.com/DuanYi516/R3LM.
- Abstract(参考訳): エンハンサーなどのDNA cis-regulatory element (CRE) は遺伝子発現のレベルを制御する。
DNA配列から正確な制御活性を予測することは価値があるが、複雑な生物学的制御過程を理解する必要があるため困難である。
既存の方法は通常、ブラックボックス方式でシーケンスからアクティビティスコアを退避させ、解釈可能性と回帰性能の両方を制限する。
一方、大きな言語モデル(LLM)は明示的な推論プロセスの恩恵を受けるが、LLMを生のDNA配列に直接適用するには不十分である。
本稿では,このギャップを,構造的生物学的知識を通じてLLMの推論インフォームドレグレッションを制御DNAに教えるフレームワークであるR3LMを導入することによって橋渡しする。
具体的には、LLM理解を改善するためにDNAの制御情報を構造化する生物学的基盤データフォーマットを設計し、DNA配列とアクティビティスコアを機械的推論トレースに関連付ける最初のデータセットであるCRE-ReasonBenchを構築した。
R3LMは、構造化された生物学的情報に基づいてLSMを推論し、その後レグレッションを実行する2段階の訓練を通じて、3つの細胞タイプにわたるエンハンサー予測における最先端のパフォーマンスを達成する。
R3LMは、CRE設計における生物学者を効果的に支援できる、解釈可能な報酬モデルとして期待されている。
コードはhttps://github.com/DuanYi516/R3LMで公開されている。
関連論文リスト
- D3LM: A Discrete DNA Diffusion Language Model for Bidirectional DNA Understanding and Generation [16.814731997144012]
D3LM(textbfDiscrete textbfDNA textbfDiffusion textbfLanguage textbfModel)は、マスク拡散による双方向表現学習とDNA生成を実現する。
D3LMはNucleotide Transformer (NT) v2アーキテクチャを直接採用しているが、訓練対象を離散DNA空間におけるマスク拡散として再構成する。
論文 参考訳(メタデータ) (2026-03-02T12:05:21Z) - LLM DNA: Tracing Model Evolution via Functional Representations [48.25705499165725]
生物DNAを用いてLLMDNAを機能行動の低次元バイリプシッツ表現として定義する。
大規模言語モデルからDNAを抽出するための、汎用的でスケーラブルで、トレーニング不要なパイプラインを導出する。
論文 参考訳(メタデータ) (2025-09-29T09:09:57Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。
DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文 参考訳(メタデータ) (2024-07-06T15:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。