論文の概要: Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability?
- arxiv url: http://arxiv.org/abs/2606.24026v1
- Date: Tue, 23 Jun 2026 00:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.715252
- Title: Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability?
- Title(参考訳): 言語モデルエージェントは機械的解釈可能性において補助的な回路記述器となるか?
- Authors: Ayan Antik Khan, Harsh Kohli, Yuekun Yao, Huan Sun, Ziyu Yao,
- Abstract要約: 本稿では,84個の半合成変圧器回路から構築した回路説明のためのベンチマークであるAgenticInterpBenchを紹介する。
HyVE (Hypothesize, Explain) は,観察,仮説生成,因果検証の反復ループを通じて各コンポーネントを解析するエージェント説明器である。
LMのバックボーンは4つあり、HyVEは有用なコンポーネントレベルの説明とタスクレベルの説明を復元するが、バックボーンが一様でない。
- 参考スコア(独自算出の注目度): 17.61177889205537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability has made substantial progress in automatically localizing circuits, but explaining what localized components do remains labor-intensive and difficult to standardize. In this work, we study whether language model (LM) agents can assist with this explanation problem once a circuit has already been identified. We introduce AgenticInterpBench, a benchmark for circuit explanation built from 84 semi-synthetic transformer circuits with 163 component-level annotations. We propose HyVE (Hypothesize, Validate, Explain), an agentic explainer that analyzes each component through an iterative loop of observation, hypothesis generation, and causal validation, eventually producing a component-level explanation and a circuit-level task description. Across four LM backbones, HyVE recovers useful component- and task-level explanations, but no backbone is uniformly best. Our analysis shows that strong backbones usually form observation-grounded hypotheses, while failures more often arise later in the validation loop, through incomplete validation plans, code execution errors, or unresolved hypotheses. A case study on an arithmetic circuit in Llama-3-8B shows that the same formulation can extend beyond semi-synthetic benchmarks to naturally trained models. Overall, LM agents are promising circuit explainers, but reliable validation remains the key obstacle.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、回路の自動ローカライズにおいてかなりの進歩を遂げてきたが、局所化コンポーネントが何を行うかは、労働集約的で標準化が難しいままである。
本研究では,すでに回路が特定されている場合,言語モデル (LM) エージェントがこの説明問題を解くことができるかどうかを検討する。
本稿では,84個の半合成変圧器回路と163個のコンポーネントレベルのアノテーションを組み合わせた回路説明のためのベンチマークであるAgenticInterpBenchを紹介する。
HyVE(Hypothesize, Validate, Explain)は,観察,仮説生成,因果検証の反復ループを通じて各コンポーネントを解析し,最終的にコンポーネントレベルの説明と回路レベルのタスク記述を生成するエージェント説明器である。
LMのバックボーンは4つあり、HyVEは有用なコンポーネントレベルの説明とタスクレベルの説明を復元するが、バックボーンが一様でない。
我々の分析では、強いバックボーンは通常観察に基づく仮説を形成するが、不完全な検証計画、コード実行エラー、未解決仮説を通じて、検証ループの後半に障害が発生することが多い。
Llama-3-8Bの算術回路のケーススタディでは、同じ定式化が半合成ベンチマークを超えて自然に訓練されたモデルに拡張可能であることが示されている。
全体として、LMエージェントは有望な回路説明器であるが、信頼性の高い検証が重要な障害である。
関連論文リスト
- Demystifying Variance in Circuit Discovery of LLMs [51.97489679448601]
我々は,再サンプリングのばらつきを大幅に軽減する新しい回路探索法を開発した。
テンプレートの異なるプロンプトは、モデル内の異なる回路を活性化する傾向があるため、リフレージングのばらつきが生じることを示す。
我々は、よりコンパクトで解釈可能なタスク回路を形成すると主張されている空間性は、この問題の解決に失敗すると主張している。
論文 参考訳(メタデータ) (2026-06-15T16:25:07Z) - Towards Verifiable Transformers: Solver-Checkable Circuit Explanations [0.23689955632456092]
本稿では,タスクローカライズされたトランスフォーマー回路を有界,ソルバチェック可能なクレームに変換するためのフレームワークであるVerifiable Transformersを紹介する。
署名付きL1 BandNorm、スパースマックスアテンション、LeakyReLUを用いて、GPTスタイルのアーキテクチャで直接検証を行う。
また,タスクローカライズされた回路上でのサロゲートによる検証も行った。
論文 参考訳(メタデータ) (2026-05-21T05:21:40Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT [0.0]
本稿では,分類タスクのために訓練された映像モデルが,最終結果に影響を与えないニュアンスな,隠された意味情報をどう表現するかを考察する。
アクションの結果を表す内部回路は、予め訓練されたビデオビジョン変換器でリバースエンジニアリングされる。
論文 参考訳(メタデータ) (2026-03-11T17:06:07Z) - Finding Highly Interpretable Prompt-Specific Circuits in Language Models [4.768156759829138]
固定タスク内であっても、回路は即時特異的であることを示す。
本稿では,よりクリーンで低次元の因果信号を1つの前方パスから抽出するACC++を提案する。
我々はACC++信号を用いて人間の解釈可能な特徴を抽出する自動解釈可能性パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-13T21:41:17Z) - Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models [3.7957452405531265]
PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
論文 参考訳(メタデータ) (2026-02-03T13:27:10Z) - Measuring Uncertainty in Transformer Circuits with Effective Information Consistency [0.0]
本研究では,トランスフォーマー回路のシャーフ/コホモロジーと因果出現の視点を開発する。
EICSは(i)局所ジャコビアンとアクティベーションから計算された正規化棚の不整合と(ii)回路レベルの因果発生のためのガウスEIプロキシを組み合わせる。
本稿では,スコアの解釈,計算オーバーヘッド(高速かつ高精度なモード),およびおもちゃの健全性チェック分析に関する実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-08T18:54:56Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。