論文の概要: Explaining Attention with Program Synthesis
- arxiv url: http://arxiv.org/abs/2606.19317v1
- Date: Wed, 17 Jun 2026 17:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.297235
- Title: Explaining Attention with Program Synthesis
- Title(参考訳): プログラム合成における留意事項の解説
- Authors: Amiri Hayes, Belinda Li, Jacob Andreas,
- Abstract要約: 解釈可能なディープラーニングの研究の長年の目標は、不透明なニューラルネットワークを人間に意味のある象徴的な記述に置き換えることである。
本稿では,ディープネットワークのコンポーネントの動作を実行可能なプログラムで近似する手法を提案する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A longstanding goal of research on interpretable deep learning is to replace opaque neural computations with human-meaningful symbolic descriptions. In this paper, we propose an approach for approximating the behavior of components of deep networks with executable programs. We focus on attention heads in transformer language models. For a given head, we first compute its associated attention matrices on a collection of randomly selected training examples. Next, we prompt a pre-trained language model with a summary of these matrices, and instruct it to generate a set of Python programs that can reproduce the associated attention patterns given only text from the input sentence. Finally, we re-rank programs according to how well our final set of programs predict behavior on held-out inputs. We demonstrate that a set of fewer than 1,000 such generated programs can reproduce the attention patterns of heads in GPT-2, TinyLlama-1.1B, and Llama-3B, achieving an average Intersection-over-Union similarity above 75% on TinyStories. Moreover, the best-fit programs can replace neural attention heads without substantially affecting model behavior: replacing 25% of attention heads with programmatic surrogates across the three models incurs only a 16% average perplexity increase, while maintaining performance on a variety of downstream question answering benchmarks. This work contributes a scalable pipeline for reverse-engineering attention heads in transformer models using human-readable, executable code, advancing a path toward symbolic transparency in neural models.
- Abstract(参考訳): 解釈可能なディープラーニングの研究の長年の目標は、不透明なニューラルネットワークを人間に意味のある象徴的な記述に置き換えることである。
本稿では,ディープネットワークのコンポーネントの動作を実行可能なプログラムで近似する手法を提案する。
我々は、トランスフォーマー言語モデルにおける注意点に焦点を当てる。
まず、ランダムに選択したトレーニング例のコレクションに基づいて、その関連した注意行列を計算した。
次に、これらの行列を要約した事前学習言語モデルを作成し、入力文からテキストのみに与えられる注意パターンを再現可能なPythonプログラムのセットを生成するように指示する。
最後に、最後のプログラムセットがホールドアウト入力の動作をいかに予測するかに応じて、プログラムを再ランクする。
我々は,GPT-2,TinyLlama-1.1B,Llama-3Bの頭部の注意パターンを再現し,TinyStories上で75%以上のインターセクション・オーバー・ユニオン類似性を達成できることを実証した。
さらに、最も適したプログラムは、モデル行動に大きく影響を及ぼすことなく、ニューラルアテンションヘッドを置き換えることができる: 3つのモデルにわたるプログラム的なサロゲートに、アテンションヘッドの25%を置き換えることによって、さまざまなダウンストリーム質問応答ベンチマークのパフォーマンスを維持しながら、平均パープレキシティが16%向上するのみである。
この研究は、人間可読で実行可能なコードを使用してトランスフォーマーモデルで注目ヘッドをリバースエンジニアリングするためのスケーラブルなパイプラインに寄与し、ニューラルモデルにおける象徴的透明性への道を前進させる。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Learning Program Behavioral Models from Synthesized Input-Output Pairs [70.9524884086882]
本稿では,ニューラルマシン翻訳アルゴリズムを用いて,入力/出力動作からモデルを学習するフレームワークであるModelizerを紹介する。
Modelizerはオリジナルのプログラムをモックし、95.4%の精度でBLEUスコアは0.98で、現実世界のアプリケーションのモックには0.04の標準エラーがある。
プログラムの出力がプログラムの振舞いのあらゆる側面となるため、これらのモデルのいくつかの応用を予想する。
論文 参考訳(メタデータ) (2024-07-11T15:25:02Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Foundation Posteriors for Approximate Probabilistic Inference [11.64841553345271]
我々は確率的プログラムにおいて、推論をマスク付き言語モデリングとして定式化する。
ニューラルネットワークをトレーニングしてランダムな値を解き放ち、近似した後続分布を定義する。
提案手法の有効性をSTANプログラムのベンチマークで示す。
論文 参考訳(メタデータ) (2022-05-19T17:42:37Z) - Towards Neural Functional Program Evaluation [0.5586191108738562]
本稿では,意味論的に等価なプログラムに対して,構文糖を制御できる新しいプログラム生成機構を提案する。
実験によると、神経機能プログラムの評価は驚くほど良く、90%の正確なプログラムマッチスコアを達成している。
論文 参考訳(メタデータ) (2021-12-09T00:20:29Z) - On the Generalizability of Neural Program Models with respect to
Semantic-Preserving Program Transformations [25.96895574298886]
意味保存変換に対するニューラルプログラムモデルの一般化性を評価する。
コードには3つの異なるサイズのJavaデータセットと3つの最先端ニューラルネットワークモデルを使用します。
本結果は,抽象構文木のみに基づくニューラルプログラムモデルよりも,プログラム内のデータおよび制御依存性に基づくニューラルプログラムモデルの方が一般化可能であることを示唆している。
論文 参考訳(メタデータ) (2020-07-31T20:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。