論文の概要: Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
- arxiv url: http://arxiv.org/abs/2606.12629v1
- Date: Wed, 10 Jun 2026 19:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.432349
- Title: Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns
- Title(参考訳): ディムのバグ:次元レベル符号パターンによる学習不要なメカニスティック解釈
- Authors: Varun Reddy Nalagatla,
- Abstract要約: 我々は,変圧器隠蔽状態の標準基底が,すでにトレーニング不要で,アーキテクチャ全般的な特徴ベースを提供していることを示す。
このBag of Dimsフレームワークを3つのモデルファミリーで検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that the standard basis of transformer hidden states already provides a training-free, architecture-general feature basis. Individual dimensions encode semantic content via their signs and confidence via their magnitudes, functioning as independent binary registers. We validate this Bag of Dims framework across three model families (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B) through four progressive experiments. Sign patterns alone carry predictive content: replacing all magnitudes with unity achieves 72-93% top-5 next-token accuracy through the LM head, and pure Hamming scoring without any decoder reaches 80-90% top-4096. These sign patterns organize into semantic features: using a single-token type cache (one forward pass per vocabulary token, no context), we discover 175 categories via per-dimension sign consistency (mean AUC 0.80) from 50 anchors with zero training. A trained probe adds only +0.018 AUC and converges to axis-aligned weights, confirming negligible cross-dimension structure. This structure extends to attention: all 175 categories remain discoverable in K and V projections. On the write side, static FFN weight inspection links 20% of features to individual writer neurons (>0.70 agreement; random controls: 0%), with top-200 neuron coalitions achieving >0.70 agreement on 99.9% of prototypes via majority vote. Fully unsupervised discovery (random seeds, no labels) scales to 1500 features at 100% yield and 99% sparsity across all three models, with pairwise MI of 0.0014 bits confirming low inter-dimension coupling. These results establish that the standard basis already suffices for feature reading throughout the transformer compute pathway, requiring no training, no optimization, and no GPU-days beyond a single forward pass per vocabulary token.
- Abstract(参考訳): 我々は,変圧器隠蔽状態の標準基底が,すでにトレーニング不要で,アーキテクチャ全般的な特徴ベースを提供していることを示す。
個々の次元は、サインや信頼を通じて意味内容をエンコードし、独立したバイナリレジスタとして機能する。
3つのモデルファミリ(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B)にまたがって, このBag of Dimsフレームワークを4つのプログレッシブ実験により検証した。
全ての等級をユニティに置き換えると、LMヘッドで72-93%の次点の精度が達成され、デコーダを使わずに純粋なハミングスコアが80-90%の上位4096に達する。
これらのサインパターンはセマンティックな特徴にまとめられる: シングルトークン型キャッシュ(語彙単位のフォワードパス、文脈なし)を使用することで、ゼロトレーニングの50アンカーから、ディメンション単位のサイン一貫性(平均AUC 0.80)を介して175のカテゴリを発見する。
訓練されたプローブは+0.018 AUCのみを加え、軸方向の重みに収束し、無視できる断面積構造を確認する。
175の圏はすべて、K と V の射影において発見可能である。
書き込み側では、静的FFNウェイトインスペクションは個々のライターニューロン(>0.70、ランダムコントロール:0%)に20%の機能をリンクし、上位200のニューロン連合は99.9%のプロトタイプを多数決で0.70にまとめている。
完全に教師なしな発見(ランダムな種、ラベルなし)は、3つのモデルで100%の収率と99%の間隔で1500の特徴にスケールし、対のMIは0.0014ビットであり、低次元の結合が確認された。
これらの結果は、トランスフォーマーの計算経路全体を通じて、標準ベースで機能読み込みが十分で、トレーニングが不要で、最適化が不要で、語彙単位の1つのフォワードパスを超えるGPUデーが不要であることを証明している。
関連論文リスト
- Closing the Modality Gap in Zero-Shot HAR: Contrastive Training and Separability-Optimized Prototypes on IMU Data [0.0]
PAMAP2データセット上で,3つの推論手法と2つのトレーニングパイプラインを組み合わせた7つの構成を評価する。
モダリティギャップは,目的によって支配される訓練時間現象であることがわかった。
また、テストセットのクラス分布が不均衡である場合、全体的な精度が誤解を招く一次指標であることを実証する。
論文 参考訳(メタデータ) (2026-06-09T12:39:41Z) - Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models [0.0]
大規模言語モデルは、学習された埋め込みテーブルを通じて全ての入力をルーティングする。
我々はKronecker Embeddingsを紹介した。
入力側のトレーニング可能なパラメータの91~94%をフロンティアスケールで除去する。
論文 参考訳(メタデータ) (2026-05-28T06:53:18Z) - Unextractable Protocol Models: Collaborative Training and Inference without Weight Materialization [58.14514930760722]
参加者が協力して大規模なニューラルネットワークを訓練し、提供する分散セットアップを検討する。
このセットアップでは、フルウェイトセットがどの参加者にも利用できないような、非機械的なウェイトの可能性を探る。
我々は、シャードモデルセットアップを利用するトレーニングおよび推論フレームワーク、Unextractable Protocol Models (UPMs)を紹介する。
論文 参考訳(メタデータ) (2026-05-22T10:24:57Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。