論文の概要: Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
- arxiv url: http://arxiv.org/abs/2606.12629v2
- Date: Wed, 17 Jun 2026 04:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.090885
- Title: Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
- Title(参考訳): ディムのバグ:次元レベル符号パターンによる学習不要なメカニスティック解釈
- Authors: Varun Reddy Nalagatla,
- Abstract要約: 我々は、すでにトレーニング不要でアーキテクチャ全般的な機能ベースを提供しているトランスフォーマー隠蔽状態の標準基底を示す。
このBag of Dimsフレームワークを、言語にまたがる7つのモデルで検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs (+/-1) and confidence via their magnitudes, acting as independent binary registers; a feature is a subset of dimensions with a consistent sign pattern, read by counting sign agreements with no learned rotation. We validate this Bag of Dims framework across seven models spanning language (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), vision (DINOv2, ViT-Base), and audio (AST). Signs alone carry predictive content: unit-magnitude sign patterns preserve 60-93% top-5 next-token accuracy through the LM head, and decoder-free Hamming scoring reaches 80-90% top-4096. From a single-token cache (one forward pass per token, no context, no labels), we detect 175 categories at AUC 0.97-0.99 by sign agreement; a trained probe adds only +0.018 AUC and converges to axis-aligned weights. These features are causally operative: they survive the K/V attention projections, trace to the FFN neuron coalitions that write them (random-weight controls never reproduce this), and flipping a feature's signs during the live forward pass suppresses its concept across four language models, magnitude-matched and concept-specific. Dimensions stay independent throughout (pairwise mutual information below 0.006 bits). The structure is not specific to language: the same per-dimension signs appear in self-supervised vision (DINOv2, 9/12 ImageNet superclasses), supervised vision (ViT-Base, 11/12), and audio (AST, 50/50 ESC-50 categories), so it reflects transformer training in general, not the language-modeling objective. The standard basis already suffices for feature reading at one forward pass, no optimization, no GPU-days. The open problem shifts from finding the right rotation to cataloging what each dimension encodes.
- Abstract(参考訳): 我々は、すでにトレーニング不要でアーキテクチャ全般的な機能ベースを提供しているトランスフォーマー隠蔽状態の標準基底を示す。
個々の次元は、記号(+/-1)を介して意味内容をエンコードし、その大きさを通じて信頼度を符号化し、独立したバイナリレジスタとして機能する。
このBag of Dimsフレームワークは,言語にまたがる7つのモデル(Qwen 3.5-4B,Gemma 3-4B,Mistral 7B,Qwen3-32B),ビジョン(DINOv2,ViT-Base),オーディオ(AST)で検証する。
単位マグニチュード符号パターンは、LMヘッドを通して60-93%の次トーケン精度を保持し、デコーダフリーハミングスコアは80-90%のトップ4096に達する。
シングルトークンキャッシュ(トークンごとのフォワードパス、コンテキストなし、ラベルなし)から、サイン契約によりAUC 0.97-0.99で175のカテゴリを検出します。
これらの特徴は因果的操作であり、それらはK/Vの注意投影を生き残り、それらを書くFFNニューロン連帯(ランダム・ウェイト・コントロールはそれを再現しない)に辿り着く。
次元は至る所で独立に維持される(公平な相互情報は0.006ビット以下である)。
DINOv2, 9/12 ImageNet Superclasses)、教師付きビジョン(ViT-Base, 11/12)、オーディオ(AST, 50/50 ESC-50)など、言語モデリングの目的ではなく、一般的にトランスフォーマーのトレーニングを反映している。
標準ベースはすでに、1つのフォワードパスで機能を読み取るのに十分で、最適化なし、GPUの日も無い。
オープンな問題は、正しい回転を見つけることから、各次元がエンコードしたもののカタログ化へと移行する。
関連論文リスト
- Closing the Modality Gap in Zero-Shot HAR: Contrastive Training and Separability-Optimized Prototypes on IMU Data [0.0]
PAMAP2データセット上で,3つの推論手法と2つのトレーニングパイプラインを組み合わせた7つの構成を評価する。
モダリティギャップは,目的によって支配される訓練時間現象であることがわかった。
また、テストセットのクラス分布が不均衡である場合、全体的な精度が誤解を招く一次指標であることを実証する。
論文 参考訳(メタデータ) (2026-06-09T12:39:41Z) - Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models [0.0]
大規模言語モデルは、学習された埋め込みテーブルを通じて全ての入力をルーティングする。
我々はKronecker Embeddingsを紹介した。
入力側のトレーニング可能なパラメータの91~94%をフロンティアスケールで除去する。
論文 参考訳(メタデータ) (2026-05-28T06:53:18Z) - Unextractable Protocol Models: Collaborative Training and Inference without Weight Materialization [58.14514930760722]
参加者が協力して大規模なニューラルネットワークを訓練し、提供する分散セットアップを検討する。
このセットアップでは、フルウェイトセットがどの参加者にも利用できないような、非機械的なウェイトの可能性を探る。
我々は、シャードモデルセットアップを利用するトレーニングおよび推論フレームワーク、Unextractable Protocol Models (UPMs)を紹介する。
論文 参考訳(メタデータ) (2026-05-22T10:24:57Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。