論文の概要: ICA Lens: Interpreting Language Models Without Training Another Dictionary
- arxiv url: http://arxiv.org/abs/2606.11722v1
- Date: Wed, 10 Jun 2026 06:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.331623
- Title: ICA Lens: Interpreting Language Models Without Training Another Dictionary
- Title(参考訳): ICA Lens: 他の辞書を訓練せずに言語モデルを解釈する
- Authors: Sida Liu, Feijiang Han,
- Abstract要約: 独立成分分析(ICA)は、言語モデル表現において非ガウス的方向を求める古典的な方法である。
本稿では,言語モデル表現の安定,効率的,監査可能なICA分析のための最初の実践的ワークフローであるICALensを紹介する。
ICAはスパース・プローブで公共のSAEと競争しており、小規模から中小の予算の下でターゲットプローブでそれらを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.
- Abstract(参考訳): 言語モデル表現における解釈可能な方向を見つけることは、モデルの振る舞いを理解し制御するために重要である。
スパースオートエンコーダ(SAE)がこの目的の標準ツールとなっているが、デフォルトのファーストレンズとして使用するには、大規模なオーバーコンプリート辞書のトレーニング、保存、評価が必要となることが多い。
このボトルネックは迅速な探索を制限し、基本的な疑問を提起する。他の神経辞書を訓練する前に、アクティベーション幾何学から解釈可能な構造がすでにどの程度見えているのか?
我々の直観は単純で、多くの解釈可能な方向はトークンに対して選択的であり、これらの方向はランダムな方向よりもガウス的に見える。
そこで我々は,非ガウス的方向を求める古典的手法である独立成分分析(ICA)を,言語モデル解釈性のためのコンパクトレンズとして再検討する。
LLMのアクティベーションが不安定で, 回収方向を検査・評価するための体系的ツールが欠如しているため, ICAはLLMの解釈可能性において過小評価されている。
これらのギャップを埋めるために,我々は,LCM表現の安定,効率的,監査可能なICA解析のための最初の実践的ワークフローであるICALensを紹介した。
最適化されたGPU並列FastICAパイプラインとLLM固有の安定性レシピと、より良い適合診断を組み合わせることで、効率的で信頼性の高いレイヤワイズ分析を実現している。
GPT-2 Small, Gemma 2 2B, Qwen 3.5 2B Base にまたがって、Cicalens は階層ごとの勾配に基づく辞書トレーニングをすることなく、コンパクトで人間の解釈可能な方向を効率的に回復する。
SAEBenchでは、ICAはスパースプローブの公的なSAEと競争し、小規模から中規模予算の下でターゲットプローブの摂動においてそれらを上回ります。
これらの結果はICAを弱いベースラインと見なすべきではなく、言語モデル表現を探索するための効率的かつ補完的な第1レンズと見なすべきであることを示している。
関連論文リスト
- The Regularizing Power of Language-Training Deepfake Detectors [57.529452351298495]
ディープフェイク検出は一般的に、低レベルのドメイン固有のアーティファクトへの過度な適合に悩まされる。
デュアルエンコーダアーキテクチャを使用し、凍結した特殊検出器とLoRA調整されたMLLMエンコーダをペアリングする。
我々は、モデルが分類する前に記述的推論を生成することを奨励する強化学習段階を採用している。
論文 参考訳(メタデータ) (2026-05-29T12:01:17Z) - Language Bias in LVLMs: From In-Depth Analysis to Simple and Effective Mitigation [3.6330067010404705]
LVLM(Large Vision-Language Models)は、視覚的理解によって大きな言語モデルを拡張するが、幻覚に弱いままである。
近年の研究では、LVLMが視覚入力を無視しながらテキストを過度に参照する傾向にある言語バイアスにこの問題を関連付けている。
本稿では,言語バイアスの系統的研究を行い,訓練中のモダリティの相違点の根源を同定する。
論文 参考訳(メタデータ) (2026-05-24T12:23:13Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Predictive Prompt Analysis [18.90591503793723]
大規模言語モデル(LLM)は、以前困難なタスクを扱う能力のために広く採用されている機械学習モデルである。
我々は、自動手法がプロンプトを素早く分析する「予測的プロンプト解析」が有用であると論じている。
SPA(Syntactic Prevalence Analyzer)を提案する。これはスパースオートエンコーダ(SAE)に基づく予測的プロンプト分析手法である。
論文 参考訳(メタデータ) (2025-01-31T04:34:43Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。