論文の概要: Ablation-Reversible Heads Don't Transfer: A Stress Test for Mechanistic Role Claims in Transformers
- arxiv url: http://arxiv.org/abs/2606.08292v1
- Date: Sat, 06 Jun 2026 18:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.024052
- Title: Ablation-Reversible Heads Don't Transfer: A Stress Test for Mechanistic Role Claims in Transformers
- Title(参考訳): アブレーション可逆頭部は伝達しない:変圧器の機械的役割クレームに対する応力試験
- Authors: Philip Quirke,
- Abstract要約: 我々は,アクティベーションが一致した制御の下で異なるプロンプトにパッチされる場合,アテンションヘッドが演算を転送できないことを示す。
KIDは3段階のパイプラインと組み合わせて,視覚障害者の注意を喚起するためのロールアサインメントレンズである。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In mechanistic interpretability, attention heads are commonly elevated to role claims (e.g., "this head represents addition") when they are necessary for a behavior, encode it linearly, and recover that behavior when restored after ablation. We show this evidence is insufficient: across three 7-8B instruction-tuned models and five computation families, heads passing all three checks routinely fail to transfer the computation when their activations are patched into a different prompt under matched controls. We introduce KID (Knowing / Intent / Doing), a role-assignment lens for attention heads, and pair it with a three-stage pipeline: capability-selective screening (CSS), singular value decomposition (SVD), and activation transduction under matched controls. Our results document a preliminary role taxonomy (including prompt-trajectory stabilizers, answer-side logit-bias heads, and soft computation-pattern carriers) and show that the same-answer control (a transduction target sharing the answer string but not the requested computation) is an underused check that exposes broad state transfer masquerading as semantic specificity.
- Abstract(参考訳): 機械的解釈可能性において、注意頭は一般的に、行動に必要な場合(例えば、この頭は加算を表す)に上昇し、それを線形にエンコードし、アブレーション後に回復するとその振る舞いを回復する。
3つの7-8B命令チューニングモデルと5つの計算ファミリにまたがって、3つのチェックをパスするヘッドは、そのアクティベーションが一致した制御の下で異なるプロンプトにパッチされるとき、通常、計算を転送することができない。
KID (Knowing / Intent / Doing) は、視覚障害者の注意を引くための役割割り当てレンズであり、機能選択スクリーニング(CSS)、特異値分解(SVD)、および一致した制御下でのアクティベーショントランスダクションという3段階のパイプラインと組み合わせる。
以上の結果から,提案手法は,提案手法に準じて,応答文字列を共有せず,要求された計算と共有するトランスダクションターゲット) が,意味的特異性として広義の状態遷移マスクレーディングを露呈する未使用のチェックであることを示す。
関連論文リスト
- Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents [0.0]
出力トークンが出力される前に,アクティベーションプローブがクレデンシャルアクセスを検出できるかどうかを検討する。
第3に,マルチターンフィルタを累積情報フロー問題として扱う。
その結果、クレデンシャル・エミッション・ディフェンスは、事前出力監視、カナリア検出、時間的漏洩会計を併用すべきであることが示唆された。
論文 参考訳(メタデータ) (2026-06-02T18:53:17Z) - Taming CATS: Controllable Automatic Text Simplification through Instruction Fine-Tuning with Control Tokens [2.4713807020542773]
自動テキストの簡易化における制御性は、データと評価によって著しく制限される。
本稿では,個別制御トークンを用いた命令微調整に基づくドメインに依存しないCATSフレームワークを提案する。
標準の単純化と類似度指標は制御の計測に不十分であることを示す。
論文 参考訳(メタデータ) (2026-04-02T08:44:17Z) - Sparse Visual Thought Circuits in Vision-Language Models [2.5754366051855837]
我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
論文 参考訳(メタデータ) (2026-03-26T06:24:36Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM [0.0]
以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
論文 参考訳(メタデータ) (2026-02-22T12:42:38Z) - TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。