論文の概要: Scalable Circuit Learning for Interpreting Large Language Models
- arxiv url: http://arxiv.org/abs/2606.16939v1
- Date: Mon, 15 Jun 2026 16:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.772001
- Title: Scalable Circuit Learning for Interpreting Large Language Models
- Title(参考訳): 大規模言語モデルの解釈のためのスケーラブル回路学習
- Authors: Naiyu Yin, Dennis Wei, Tian Gao, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy, Yue Yu,
- Abstract要約: スパース線形回帰に基づくスケーラブルな回路学習手法であるCircuitLassoを提案する。
解釈可能性について、CircuitLassoはSAEの特徴間の関係を効率的に発見し、人間の解釈可能な意味的特徴がモデルを通してどのように伝播し、その予測に影響を与えるかを示す。
- 参考スコア(独自算出の注目度): 49.202271807046365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A prominent research direction in mechanistic interpretability is learning sparse circuits over LLM components to reveal how they jointly produce model behavior. However, raw neurons are polysemantic, making learned circuits hard to interpret. Sparse autoencoder (SAE) features alleviate this, but their high dimensionality makes existing intervention-based circuit learning methods computationally prohibitive. We propose CircuitLasso, a scalable circuit-learning approach based on sparse linear regression. CircuitLasso recovers circuits whose structural accuracy matches that of state-of-the-art intervention-based methods on the benchmark data, at a fraction of the computational cost. For interpretability, CircuitLasso efficiently uncovers relationships among SAE features, showing how human-interpretable semantic features propagate through the model and influence its predictions. Finally, we validate the utility of our learned circuits by leveraging their insights to achieve comparable performance at substantially lower cost on a domain-generalization task.
- Abstract(参考訳): 機械的解釈可能性の顕著な研究方向は、LLMコンポーネント上のスパース回路を学習し、モデル動作をいかに共同で生成するかを明らかにすることである。
しかし、生のニューロンは多意味であり、学習回路の解釈が困難である。
スパースオートエンコーダ(SAE)は、これを緩和するが、その高次元性は、既存の介入に基づく回路学習法を計算的に禁止する。
スパース線形回帰に基づくスケーラブルな回路学習手法であるCircuitLassoを提案する。
CircuitLassoは、計算コストのごく一部で、ベンチマークデータ上の最先端の介入に基づく手法と構造精度が一致する回路を復元する。
解釈可能性について、CircuitLassoはSAEの特徴間の関係を効率的に発見し、人間の解釈可能な意味的特徴がモデルを通してどのように伝播し、その予測に影響を与えるかを示す。
最後に,学習回路の有効性を検証し,その知見を活用して,ドメイン一般化タスクにおいて,同等の性能を著しく低コストで達成する。
関連論文リスト
- Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers [54.2202951543048]
視覚変換器の計算グラフから有用なメカニスティック回路を同定できるかどうかを検討する。
分類のためのクラス固有の回路を復元するビジュアル・サーキット・ディスカバリー(Vi-CD)の効果的な手法を提案する。
これらのモデルの内部計算に透明性を加えることで、視覚変換器から洞察に富み、行動可能なエッジベース回路を復元できることが判明した。
論文 参考訳(メタデータ) (2026-04-15T23:25:46Z) - Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models [3.7957452405531265]
PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
論文 参考訳(メタデータ) (2026-02-03T13:27:10Z) - Circuit Insights: Towards Interpretability Beyond Activations [20.178085579725472]
WeightLensとCircuitLensの2つの相補的手法を提案する。
WeightLensは学習したウェイトから直接機能を解釈し、説明モデルやデータセットの必要性を取り除く。
CircuitLensは、コンポーネント間のインタラクションから機能アクティベーションがどのように発生し、回路レベルのダイナミクスを明らかにするのかをキャプチャする。
論文 参考訳(メタデータ) (2025-10-16T17:49:41Z) - The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
本研究は,HDLコードから直接回路品質を推定するための予測ネットワークを用いて,大規模言語モデル(LLM)を拡張することを提案する。
性能を向上させるために、Look-Up Table (LUT)グラフでトレーニングされたグラフニューラルネットワーク(GNN)の埋め込みを使用してモデルを正規化する。
提案手法は,既存のベンチマークOpenABCDにおけるRTLレベルの推定手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-30T04:20:10Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [28.81226181942661]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。