論文の概要: Evaluating the Interpretability of Sparse Autoencoders with Concept Annotations
- arxiv url: http://arxiv.org/abs/2606.24716v1
- Date: Tue, 23 Jun 2026 15:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.041439
- Title: Evaluating the Interpretability of Sparse Autoencoders with Concept Annotations
- Title(参考訳): 概念アノテーションを用いたスパースオートエンコーダの解釈可能性の評価
- Authors: Jonas Klotz, Cassio F. Dantas, Pallavi Jain, Diego Marcos, Begüm Demir,
- Abstract要約: 本研究では,SAE潜伏剤と人間注釈概念のアライメントを定量化する人為的評価フレームワークを提案する。
対象属性の摂動によるマッチングを検証する。
我々のフレームワークは、中程度の辞書サイズが最良のトレードオフをもたらし、最も解釈可能なSAEをもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 12.535445487099393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are increasingly used to extract interpretable concepts from vision and vision language models, yet existing evaluation methods largely rely on proxy metrics or qualitative inspection rather than measuring semantic correspondence. We present a human-grounded evaluation framework that quantifies alignment between SAE latents and human-annotated concepts, without requiring user studies, and validate this matching through targeted attribute perturbations. To enable this intervention-style evaluation in vision, we construct synCUB and synCOCO, synthetic benchmarks of paired images that differ in exactly one attribute. We introduce Fully-Binary Matching Pursuit (FBMP), a coalition-based matching procedure that supports many-to-one mappings between SAE latents and annotated concepts, and consistently outperforms one-to-one baselines. For functional validation, we propose a Targeted Attribute Perturbation Alignment Score (TAPAScore), which tests whether matched concepts respond selectively and in the expected direction under targeted image-level attribute perturbations. Under sanity checks, our matching and TAPAScore are the only evaluated metrics that reliably distinguish trained SAEs from untrained ones. Across SAEs trained on CLIP and DINOv2 embeddings, we find that increased overcompleteness can reduce perturbation alignment, indicating a reduction in interpretability. Our evaluation framework suggests that moderate dictionary sizes provide the best trade-off, yielding the most interpretable SAEs. Code and datasets are available at https://github.com/JonasKlotz/sae-concept-eval.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は視覚言語モデルや視覚言語モデルから解釈可能な概念を抽出するために用いられることが多いが、既存の評価手法は意味的対応を測るよりも、プロキシメトリクスや定性検査に大きく依存している。
本研究では,SAE潜伏者と人間アノテーション概念のアライメントをユーザスタディを必要とせずに定量化し,このマッチングを属性摂動によって検証する人為的評価フレームワークを提案する。
視覚におけるこの介入スタイルの評価を可能にするために、正確に1つの属性が異なるペア画像の合成ベンチマークであるsynCUBとsynCOCOを構築した。
我々は,SAE潜伏者と注釈付き概念の多対一マッピングをサポートする連立型マッチング手法であるFully-Binary Matching Pursuit (FBMP)を導入し,一対一のベースラインを一貫して上回っている。
機能検証のためのTAPAScore(Targeted Attribute Perturbation Alignment Score)を提案する。
衛生チェックの下では、トレーニングされたSAEとトレーニングされていないSAEを確実に区別する唯一の評価指標は、マッチングとTAAAScoreです。
CLIPとDINOv2の埋め込みを訓練したSAE全体で、オーバーコンプリートの増加は摂動アライメントを減少させ、解釈可能性の低下を示唆している。
我々の評価フレームワークは、中程度の辞書サイズが最良のトレードオフをもたらし、最も解釈可能なSAEをもたらすことを示唆している。
コードとデータセットはhttps://github.com/JonasKlotz/sae-concept-eval.comで公開されている。
関連論文リスト
- Interpretable Coreference Resolution Evaluation Using Explicit Semantics [35.71215348826291]
CoNLL-F1のような集約統計量を用いて、参照分解能を評価する。
コア参照解決のためのセマンティック・エンハンスド・アセスメント・フレームワークを提案する。
我々のフレームワークは、集約されたメトリクスによって隠されたままの体系的な弱点を明らかにする。
論文 参考訳(メタデータ) (2026-05-11T14:20:16Z) - SCALE: Semantic- and Confidence-Aware Conditional Variational Autoencoder for Zero-shot Skeleton-based Action Recognition [4.853241666510524]
ゼロショットスケルトンに基づくアクション認識(ZSAR)は、これらのクラスからのトレーニングスケルトンなしでアクションクラスを認識することを目的としている。
本稿では,ZSARをクラス条件エネルギーランキングとして定式化する,軽量で決定論的セマンティックなセマンティック・アンド・信頼を意識したエネルギーベースフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-02T16:12:42Z) - AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - Evaluating SAE interpretability without explanations [0.7234862895932991]
我々は,スパースコーダの解釈可能性を評価するために,既存の手法を適用した。
解釈可能性の指標から得られたスコアと、類似したタスクや様々な設定の人的評価を比較し、これらの手法の評価を改善するためのコミュニティの提案を行う。
論文 参考訳(メタデータ) (2025-07-11T10:31:53Z) - Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval [15.665567982431924]
本稿では,Dense Passage Retrieval(DPR)モデルに対する新しい解釈可能性フレームワークを提案する。
我々は,各潜伏概念の自然言語記述を生成し,DPRモデルの密埋め込みと問合せ文書類似度スコアの両方の人間の解釈を可能にする。
概念レベルスパース検索(CL-SR)は,語彙や意味的ミスマッチ間の堅牢な性能を維持しつつ,高いインデックス空間と計算効率を実現する。
論文 参考訳(メタデータ) (2025-05-28T02:50:17Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。