論文の概要: Protein contacts are already in the attention: a single-forward-pass alternative to the Categorical Jacobian
- arxiv url: http://arxiv.org/abs/2606.21876v1
- Date: Sat, 20 Jun 2026 04:35:51 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:24:27.034312
- Title: Protein contacts are already in the attention: a single-forward-pass alternative to the Categorical Jacobian
- Title(参考訳): タンパク質接触はすでに注目されている:カテゴリー的ヤコビアンに代わる単一前方通過法
- Authors: Rome Thorstenson,
- Abstract要約: 再建された信号は、すでに注目ヘッドの小さなサブセットに集中していることを示す。
CAMEOスプリットでは、選択も評価データモデルも、暗黙的に記憶されていない。
いずれの手法も、散布前のZhang数からリーククリーン数へ30~36ポイント減少し、事前学習前のかなりの重複と一致している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Categorical Jacobian (CJ) of Zhang et al. (2024) reads protein contacts from a language model by perturbing every residue with every alternative amino acid, about 19L forward passes. We show the signal it reconstructs is already concentrated in a small subset of attention heads: averaging the top-K contact-relevant heads, selected on as few as 10 labeled proteins, recovers contacts in one forward pass and beats CJ on leakage-clean data for every bidirectional model where CJ is defined, and matches or beats it in-distribution (the exceptions being the smallest 8M model and a statistical tie on ESM Cambrian). Ablations localize the gain to labeled head selection, not averaging: at a matched label budget the unweighted mean ties a supervised L1 logistic regression on the same heads, so the parameter-free mean is selection's minimal form, not the source of the advantage. Our primary test is leakage-clean: on a CAMEO split where neither selection nor evaluation touches data the models have plausibly memorized, the head readout beats CJ on ESM-2-650M by +9 pp (N=29, p<0.001), with the within-model margin reproducing across architectures on a wider pretraining-aware set. Both methods fall 30-36 percentage points from their in-distribution Zhang numbers to the leakage-clean numbers, consistent with substantial pretraining overlap inflating prior numbers (a CAMEO-vs-Zhang difficulty shift contributes too, so we read it as an upper bound on the leakage component). We additionally introduce representation-CJ, a hidden-state generalization of the Jacobian for architectures without a masked-LM head; show that the optimal K tracks how diffusely a model spreads its contact heads; and find that both methods lose the contact signal on both causal LMs we test (ProGen2), suggesting attention-encoded pair structure may depend on bidirectional pretraining.
- Abstract(参考訳): Zhang et al (2024) のカテゴリー的ヤコビアン (CJ) は、約19L前方通過の全てのアミノ酸で残基を摂動させることにより、言語モデルからタンパク質の接触を読み取る。
10個のラベル付きタンパク質で選択されたトップK接触関連ヘッドを平均化し、CJが定義されているすべての双方向モデルのリーククリーンデータに対して1つの前方パスで接触を回復し、CJを打ち負かし、それを一致または打ち負かす(例外は8MモデルとESM Cambrianの統計関係)。
ラベル付きヘッド選択の利得は平均ではなく、ラベル付きヘッド選択の利得にローカライズされる:一致ラベル予算では、教師付きL1ロジスティック回帰を同じヘッド上で非重み付き平均と結び付けるため、パラメータフリー平均は選択の最小形であり、利点の源ではない。
CAMEOスプリットでは,モデルが記憶したデータに対して選択も評価もしない場合,ヘッドリードアウトがESM-2-650MのCJを+9 pp (N=29, p<0.001) で上回り, より広範に事前学習したアーキテクチャ上でモデル内マージンを再現する。
CAMEO-vs-Zhangの難易度シフトも寄与するので、リーク成分の上限として読み取ることができる)。
さらに,マスク付きLMヘッドを使わずにヤコビアンを隠蔽状態に一般化した表現-CJを導入し,モデルがいかに拡散するかを最適Kが追跡し,両手法がテストした両因果LMの接触信号を失うこと(ProGen2),注意符号化ペア構造が双方向事前学習に依存することを示唆する。
関連論文リスト
- Average Rankings Mask Per-Subject Optimality: A Friedman-Nemenyi Benchmark of EEG Motor-Imagery BCI Decoders [0.0]
1,056のデコード構成と340,000の主観レベルモデルを評価した。
すべてのモデルは、単一の参加者の1つのセッションで適合し、テストされます。
最も簡単な体制でも、単一のパイプラインが支配的になることはない。
論文 参考訳(メタデータ) (2026-06-23T10:26:27Z) - Closure-Validated Circuit Discovery in Attention Heads: Co-activation Proposes, Ablation Disposes [0.0]
解釈可能性(英: Interpretability)は、個々の単位ではなくコンポーネントのグループを基本対象として扱う傾向にある。
このような安価な信号が実際に注目回路を識別するかどうかを問う。
論文 参考訳(メタデータ) (2026-06-08T15:17:54Z) - PRISM: Differentiable Analysis-by-Synthesis for Fixel Recovery in Diffusion MRI [1.3063136334195184]
この研究は、多部構成のフォワードモデルとエンドツーエンドの脳脊髄モデルに適合する、微分可能な分析バイシンセシスフレームワークを紹介します。
PRISMは高速MSE目標と情報無しで共同で学習するリッチ陰性対数類似度(NLL)をサポートする。
PRISMは、95%のリコールが最良基準線よりも1.9倍低い3.5度の角誤差を達成している。
論文 参考訳(メタデータ) (2026-03-31T21:22:49Z) - Exact Federated Continual Unlearning for Ridge Heads on Frozen Foundation Models [9.98952145483793]
ファンデーションモデルは一般的に、フェデレートされた設定でプライベートなユーザ生成データに適応するために、小さな訓練可能なヘッドを持つフリーズ機能抽出器としてデプロイされる。
我々は,この問題を,リッジ-レグレッションヘッドを用いた凍結基礎モデルとして,実用的には関係があるが未探索の状態で研究する。
論文 参考訳(メタデータ) (2026-03-13T13:24:35Z) - Debiasing LLMs by Masking Unfairness-Driving Attention Heads [47.639403863507965]
DiffHeadsは,大規模言語モデルのための軽量なデバイアス処理フレームワークである。
DiffHeadsは、モデルユーティリティを損なうことなく、それぞれDAとCoTで49.4%、40.3%の不正性を減少させることを示す。
論文 参考訳(メタデータ) (2025-10-11T09:48:31Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [57.11798881492183]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は, 前回のランドマークに基づくアフィンアライメントよりも, 野生の頭部のアスペクト比不変収穫が優れているという観測に基づいている。
提案手法は, 汎用物体回転回帰法や3次元頭部再構成法など, その他の密接に関連する問題を解く上でも有用である。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。