Fugu-MT 論文翻訳(概要): Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs

論文の概要: Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs

arxiv url: http://arxiv.org/abs/2606.16193v1
Date: Mon, 15 Jun 2026 04:10:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.075219
Title: Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs
Title（参考訳）: マルチモーダルLLMにおけるマルチレベル視覚概念を学習するカスケードスパースオートエンコーダ
Authors: Yusong Zhao, Hengyi Wang, Tanuja Ganu, Akshay Nambi, Hao Wang,
Abstract要約: MLLMの階層的視覚概念を学習するためのカスケードオートエンコーダ(CSAE)を紹介する。 Qwen3-VL、Gemma-3、LLaVAにまたがる複数のビジュアルデータセットによる実験により、CSAEは階層的な概念コヒーレンスの観点から解釈可能性を向上させることが示された。コンセプトステアリングの結果は,学習した概念群がMLLM出力に対する効果的なグループレベルの介入を支援することをさらに証明している。
参考スコア（独自算出の注目度）: 12.597421665142646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong performance on vision-language tasks, yet their internal visual representations remain difficult to interpret. Sparse Autoencoders (SAEs) provide a scalable way to decompose dense model activations into sparse, interpretable features. However, existing SAE architectures primarily recover flat feature dictionaries and are less suited for explicit multi-level concept organization. In this paper, we introduce cascaded sparse autoencoders (CSAEs) for learning hierarchical visual concepts in MLLMs. Rather than nesting or stacking SAE sparse activation codes, CSAEs train a second-level SAE directly on the decoder weights of the first-level SAE, treating learned low-level feature directions as inputs for higher-level abstraction. This design enables CSAEs to learn "concepts of concepts" while avoiding drawbacks from the shared-prefix coupling of nesting, Matryoshka-style hierarchies and the bottlenecks of naively stacked SAEs. Experiments across Qwen3-VL, Gemma-3, and LLaVA on multiple visual datasets show that CSAEs improve interpretability in terms of hierarchical concept coherence over state-of-the-art SAE baselines. Results on concept steering further demonstrate that the learned concept groups support effective group-level interventions in MLLM outputs.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は視覚言語タスクにおいて高い性能を示してきたが、その内部の視覚表現は解釈が難しいままである。スパースオートエンコーダ(SAE)は、高密度モデルのアクティベーションをスパースで解釈可能な機能に分解するスケーラブルな方法を提供する。しかし、既存のSAEアーキテクチャは主にフラットな機能辞書を復元し、明示的なマルチレベルの概念体系には適していない。本稿では,MLLMの階層的視覚概念を学習するためのカスケードスパースオートエンコーダ(CSAE)を紹介する。 CSAEは、SAEスパースアクティベーションコードをネストまたは積み重ねる代わりに、第1レベルのSAEのデコーダ重みに直接第2レベルのSAEを訓練し、学習された低レベルの特徴方向を高レベルの抽象化の入力として扱う。この設計によりCSAEは、ネストやマトリオシカスタイルの階層構造や、ナイーティブに積み重ねられたSAEのボトルネックといった共有プレフィックス結合の欠点を回避しつつ、"概念の概念"を学ぶことができる。 Qwen3-VL, Gemma-3, LLaVAの複数のビジュアルデータセットにおける実験により、CSAEは最先端のSAEベースラインよりも階層的な概念コヒーレンスの観点から解釈可能性を向上させることが示された。コンセプトステアリングの結果は,学習した概念群がMLLM出力に対する効果的なグループレベルの介入を支援することをさらに証明している。

論文の概要: Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs

関連論文リスト