論文の概要: Contextualizing Biological Language Models across Modalities via Logit-Space Contrastive Alignment
- arxiv url: http://arxiv.org/abs/2606.18703v1
- Date: Wed, 17 Jun 2026 05:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.018562
- Title: Contextualizing Biological Language Models across Modalities via Logit-Space Contrastive Alignment
- Title(参考訳): Logit-Space Contrastive Alignmentによるモダリティ間の生物学的言語モデルの文脈化
- Authors: Yanjun Shao, Yundi Chen, Yashvi Patel, Aurelien Pelissier, María Rodríguez Martínez,
- Abstract要約: LOGICAは文脈条件付き予測のためのフレームワークであり、出力-ログ空間で直接コントラスト学習を行う。
変異局所変種ランキングでは特に有効であり、比較は摂動地における変異トークンの文脈条件による可能性に還元される。
- 参考スコア(独自算出の注目度): 2.249367818885166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained biological language models expose per-token probability distributions through masked-token prediction, providing the likelihood interface central to sequence design, variant scoring, and mechanistic interpretation. Yet these distributions are learned from broad unlabeled corpora and are not naturally conditioned on task-specific biological contexts such as interaction partners, cellular environments, or therapeutic interventions. Existing contextual matching methods often distort this interface through pooled embeddings, contrastive latent spaces, or task-specific prediction heads. We introduce LOGICA (Logit-space Contrastive Alignment), a framework for context-conditioned prediction that performs contrastive learning directly in output-logit space. Using gated cross-modal adapters compatible with each model's native token head, LOGICA preserves the pretrained likelihood interface and converts contextualized token log-likelihoods into matching scores. Alignment is defined through context-sensitive token probabilities rather than proximity in a shared embedding space, enabling learning from sparse paired data across models with distinct vocabularies, without a shared tokenizer or decoder. LOGICA is particularly effective for mutation-local variant ranking, where comparisons reduce to context-conditioned likelihoods of mutant tokens at perturbed sites. Across protein--ligand binding, TCR--peptide activity, and drug-conditioned resistance prediction, LOGICA improves over prior state-of-the-art methods, including matched latent-contrastive and conditional MLM baselines, while retaining a token-level interface for interpretation and generation. On held-out-gene single-mutation drug-resistance prediction, LOGICA improves AUC from near-random latent-space baselines of $\sim$0.55 to $\sim$0.65.
- Abstract(参考訳): 事前訓練された生物学的言語モデルは、マスキングトケン予測を通じて、シーケンス設計の中心となる可能性インターフェース、変分スコアリング、機械的解釈を通じて、トークンごとの確率分布を公開する。
しかし、これらの分布は広くラベルのないコーパスから学習され、相互作用パートナー、細胞環境、治療介入のようなタスク固有の生物学的文脈で自然に条件付けられていない。
既存のコンテキストマッチング手法は、しばしばプール化された埋め込み、対照的な潜在空間、タスク固有の予測ヘッドを通じて、このインターフェースを歪ませる。
本稿では,文脈条件付き予測フレームワークであるLOGICA(Logit-space Contrastive Alignment)を紹介する。
各モデルのネイティブトークンヘッドと互換性のあるゲート型クロスモーダルアダプタを使用することで、LOGICAは事前訓練された可能性インターフェースを保持し、コンテキスト化されたトークンログライジングを一致するスコアに変換する。
アライメントは、共有埋め込み空間に近接するのではなく、文脈に敏感なトークン確率によって定義され、共有トークン化子やデコーダを使わずに、異なる語彙を持つモデル間の疎結合データから学習することができる。
LOGICAは変異局所変種ランキングにおいて特に有効であり、比較は摂動部位における変異トークンの文脈条件による可能性に還元される。
LOGICAは、タンパク質-リガンド結合、TCR-ペプチド活性、および薬物条件付き抵抗予測全体にわたって、解釈と生成のためのトークンレベルインターフェースを維持しながら、マッチした潜在コントラストおよび条件付きMLMベースラインを含む最先端の手法よりも改善されている。
LOGICAは保留された単一突然変異薬耐性予測において、AUCをほぼランダムなラテント空間のベースラインである$\sim$0.55 から$\sim$0.65 に改善する。
関連論文リスト
- Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention [0.0]
Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
論文 参考訳(メタデータ) (2026-01-29T14:17:37Z) - STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model [71.35577462669856]
拡散言語モデル(DLM)を用いた頑健で確実な言語ステガノグラフィーを提案する。
ステガノグラフ抽出中に擬似ランダム誤り訂正や近傍探索補正を含む誤り訂正戦略を導入する。
論文 参考訳(メタデータ) (2026-01-21T08:58:12Z) - Interpretable and Adaptive Node Classification on Heterophilic Graphs via Combinatorial Scoring and Hybrid Learning [1.2691047660244335]
グラフニューラルネットワーク(GNN)は、ホモフィルグラフ上で強い性能を達成するが、隣接するノードがしばしば異なるクラスに属しているため、しばしば過度に苦労する。
本稿では、深いメッセージパッシングではなく、明示的な推論に基づく半教師付きノード分類のための解釈可能かつ適応的なフレームワークを提案する。
ヘテロ親和性および遷移性ベンチマークの実験は、現代のGNNと競合する性能を示し、解釈可能性、マグロ、計算効率の利点を提供する。
論文 参考訳(メタデータ) (2025-12-22T20:50:44Z) - A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - Framework for Machine Evaluation of Reasoning Completeness in Large Language Models For Classification Tasks [0.0]
本稿では、説明の完全性のためのRAS-Reasoning Alignmentを紹介する。
我々は,広く使用されている4つのテキスト分類データセット,WIKI ONTOLOGY, AG NEWS, IMDB, GOEMOTIONSを分析した。
正解予測はサポート特徴のカバレッジが高く,正解予測は矛盾する特徴のカバレッジの増大と関連していることを示す。
論文 参考訳(メタデータ) (2025-10-23T20:22:22Z) - GenAR: Next-Scale Autoregressive Generation for Spatial Gene Expression Prediction [15.143858141542532]
GenARは、粗いものから細かいものまで予測を洗練するマルチスケールの自動回帰フレームワークである。
我々は、粗い予測から細かい予測を洗練するマルチスケール自動回帰フレームワークGenARを紹介する。
GenARは、最先端のパフォーマンスを原則として達成し、精密医療とコスト効率のよい分子プロファイリングに潜在的に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-10-05T18:28:21Z) - Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [84.74716380180428]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - KL-geodesics flow matching with a novel sampling scheme [4.347494885647007]
非自己回帰型言語モデルは全てのトークンを同時に生成し、従来の自己回帰型モデルよりも潜在的に高速である。
テキスト生成のための条件付きフローマッチング手法について検討する。
論文 参考訳(メタデータ) (2024-11-25T17:15:41Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。