論文の概要: Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2606.16193v1
- Date: Mon, 15 Jun 2026 04:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.075219
- Title: Cascaded Sparse Autoencoders Learn Multi-Level Visual Concepts in Multimodal LLMs
- Title(参考訳): マルチモーダルLLMにおけるマルチレベル視覚概念を学習するカスケードスパースオートエンコーダ
- Authors: Yusong Zhao, Hengyi Wang, Tanuja Ganu, Akshay Nambi, Hao Wang,
- Abstract要約: MLLMの階層的視覚概念を学習するためのカスケードオートエンコーダ(CSAE)を紹介する。
Qwen3-VL、Gemma-3、LLaVAにまたがる複数のビジュアルデータセットによる実験により、CSAEは階層的な概念コヒーレンスの観点から解釈可能性を向上させることが示された。
コンセプトステアリングの結果は,学習した概念群がMLLM出力に対する効果的なグループレベルの介入を支援することをさらに証明している。
- 参考スコア(独自算出の注目度): 12.597421665142646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong performance on vision-language tasks, yet their internal visual representations remain difficult to interpret. Sparse Autoencoders (SAEs) provide a scalable way to decompose dense model activations into sparse, interpretable features. However, existing SAE architectures primarily recover flat feature dictionaries and are less suited for explicit multi-level concept organization. In this paper, we introduce cascaded sparse autoencoders (CSAEs) for learning hierarchical visual concepts in MLLMs. Rather than nesting or stacking SAE sparse activation codes, CSAEs train a second-level SAE directly on the decoder weights of the first-level SAE, treating learned low-level feature directions as inputs for higher-level abstraction. This design enables CSAEs to learn "concepts of concepts" while avoiding drawbacks from the shared-prefix coupling of nesting, Matryoshka-style hierarchies and the bottlenecks of naively stacked SAEs. Experiments across Qwen3-VL, Gemma-3, and LLaVA on multiple visual datasets show that CSAEs improve interpretability in terms of hierarchical concept coherence over state-of-the-art SAE baselines. Results on concept steering further demonstrate that the learned concept groups support effective group-level interventions in MLLM outputs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚言語タスクにおいて高い性能を示してきたが、その内部の視覚表現は解釈が難しいままである。
スパースオートエンコーダ(SAE)は、高密度モデルのアクティベーションをスパースで解釈可能な機能に分解するスケーラブルな方法を提供する。
しかし、既存のSAEアーキテクチャは主にフラットな機能辞書を復元し、明示的なマルチレベルの概念体系には適していない。
本稿では,MLLMの階層的視覚概念を学習するためのカスケードスパースオートエンコーダ(CSAE)を紹介する。
CSAEは、SAEスパースアクティベーションコードをネストまたは積み重ねる代わりに、第1レベルのSAEのデコーダ重みに直接第2レベルのSAEを訓練し、学習された低レベルの特徴方向を高レベルの抽象化の入力として扱う。
この設計によりCSAEは、ネストやマトリオシカスタイルの階層構造や、ナイーティブに積み重ねられたSAEのボトルネックといった共有プレフィックス結合の欠点を回避しつつ、"概念の概念"を学ぶことができる。
Qwen3-VL, Gemma-3, LLaVAの複数のビジュアルデータセットにおける実験により、CSAEは最先端のSAEベースラインよりも階層的な概念コヒーレンスの観点から解釈可能性を向上させることが示された。
コンセプトステアリングの結果は,学習した概念群がMLLM出力に対する効果的なグループレベルの介入を支援することをさらに証明している。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [31.88022265176855]
Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。