論文の概要: A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2606.07007v1
- Date: Fri, 05 Jun 2026 07:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.624444
- Title: A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダにおける概念学習とニューロン解釈の幾何学的視点
- Authors: Chenhao Zhang, Chris Lin, Su-In Lee,
- Abstract要約: 我々は,概念をデータポイントの集合として定式化し,概念学習を人間定義概念とモデル誘導概念のセットアライメント問題として定式化する。
この定式化は、発見、分離、近似という3つの強力な学習概念を区別する。
また、個々のニューロンやマルチニューロン単位によって概念が表現できる場合に、幾何学的条件、誤差境界、容量制限を与える。
- 参考スコア(独自算出の注目度): 17.913861279194663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a unified mathematical framework for a geometric understanding of concept learning and neuron interpretation in sparse autoencoders (SAEs). While SAEs improve interpretability of neural networks by learning sparse feature representations, a principled definition of ''concept'' and ''learning'' remains unclear. We formalize concepts as sets of data points and cast concept learning as a set-alignment problem between human-defined and model-induced concepts. This formulation distinguishes three increasingly strong notions of learning -- detection, separation, and approximation -- and yields geometric conditions, error bounds, and capacity constraints for when concepts can be represented by individual neurons or multi-neuron units. It also provides a set-theoretic account for common SAE phenomena, including feature splitting, feature absorption, feature families, and hierarchical concepts. Finally, we connect concept learning and neuron interpretation through formal concept analysis, showing that the two directions need not agree and that their many-to-many structure can be organized by concept lattices. Experiments on synthetic data with ReLU and Top-$K$ SAEs illustrate the theory and reveal the effects of SAE size and sparsity on concept learning.
- Abstract(参考訳): 本研究では,スパースオートエンコーダ(SAE)における概念学習とニューロン解釈の幾何学的理解のための統一的な数学的枠組みを提案する。
SAEは、スパース特徴表現を学習することでニューラルネットワークの解釈可能性を向上させるが、「概念」と「学習」の原則的定義はいまだに不明である。
我々は,概念をデータポイントの集合として定式化し,概念学習を人間定義概念とモデル誘導概念のセットアライメント問題として定式化する。
この定式化は、検出、分離、近似という3つの強力な学習概念を区別し、個々のニューロンやマルチニューロン単位によって概念が表現できる場合に、幾何学的条件、エラー境界、容量制限をもたらす。
また、特徴分割、特徴吸収、特徴ファミリー、階層的概念を含む、一般的なSAE現象に対する集合論的な説明を提供する。
最後に、形式的概念分析を通じて概念学習とニューロン解釈を結合し、2つの方向が一致せず、その多対多構造が概念格子によって構成可能であることを示す。
ReLU と Top-K$ SAEs による合成データの実験では、SAE のサイズと空間が概念学習に与える影響が示されている。
関連論文リスト
- A Geometric Unification of Concept Learning with Concept Cones [58.70836885177496]
解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
論文 参考訳(メタデータ) (2025-12-08T09:51:46Z) - FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - CLMN: Concept based Language Models via Neural Symbolic Reasoning [27.255064617527328]
概念言語モデルネットワーク(CLMN)は、パフォーマンスと解釈可能性の両方を維持するニューラルシンボリックフレームワークである。
CLMNは、連続的、人間可読な埋め込みとして概念を表現している。
Modelは、概念を意識した表現でオリジナルのテキスト機能を拡張し、解釈可能なロジックルールを自動的に誘導する。
論文 参考訳(メタデータ) (2025-10-11T06:58:44Z) - Nonparametric Identification of Latent Concepts [17.996329262929113]
人間の学習の基本である比較の認知メカニズムは、マシンがデータの基礎となる真の概念を回復する上でも不可欠である、と我々は主張する。
具体的には、複数の観察クラスを持つ概念の識別可能性に関する理論的枠組みを開発することを目的とする。
クラス間で十分な多様性があれば、特定の概念型を仮定せずに隠れた概念を識別できることが示される。
論文 参考訳(メタデータ) (2025-09-30T18:13:53Z) - Neuro-Symbolic Concepts [72.94541757514396]
本稿では、連続的に学習し、柔軟に推論できるエージェントを構築するための概念中心のパラダイムについて述べる。
概念中心のエージェントは、ニューロシンボリックな概念の語彙を利用する。
このフレームワークには、データ効率、構成一般化、連続学習、ゼロショット転送など、いくつかの利点がある。
論文 参考訳(メタデータ) (2025-05-09T17:02:51Z) - Revealing emergent human-like conceptual representations from language prediction [90.73285317321312]
大規模言語モデル(LLMs)は、人間らしい振る舞いを示すテキストの次のトーケン予測によってのみ訓練される。
これらのモデルでは、概念は人間のものと似ていますか?
LLMは、他の概念に関する文脈的手がかりに関連して、言語記述から柔軟に概念を導出できることがわかった。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - LLM-assisted Concept Discovery: Automatically Identifying and Explaining Neuron Functions [15.381209058506078]
以前の研究は、概念の例や事前に定義された概念のセットに基づいて、ニューロンに関連づけられた概念を持っている。
本稿では,マルチモーダルな大規模言語モデルを用いて,自動的かつオープンな概念発見を提案する。
我々は,この新たな画像に対して,サンプルと反例を生成し,ニューロンの反応を評価することにより,それぞれの概念を検証する。
論文 参考訳(メタデータ) (2024-06-12T18:19:37Z) - Do Concept Bottleneck Models Respect Localities? [14.77558378567965]
概念に基づく説明可能性法は、人間の理解可能な仲介者を用いて機械学習モデルの説明を生成する。
我々は、概念予測者が「関連」機能を利用して予測を行うかどうかを評価する。
概念予測器は必ずしも明確な概念を区別できないため、実際には多くの概念ベースモデルは局所性を尊重しない。
論文 参考訳(メタデータ) (2024-01-02T16:05:23Z) - Human-Centered Concept Explanations for Neural Networks [47.71169918421306]
概念活性化ベクトル(Concept Activation Vectors, CAV)のクラスを含む概念的説明を紹介する。
次に、自動的に概念を抽出するアプローチと、それらの注意事項に対処するアプローチについて議論する。
最後に、このような概念に基づく説明が、合成設定や実世界の応用において有用であることを示すケーススタディについて論じる。
論文 参考訳(メタデータ) (2022-02-25T01:27:31Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。