Fugu-MT 論文翻訳(概要): Analyzing Visual Aircraft Representations with Sparse Autoencoders

論文の概要: Analyzing Visual Aircraft Representations with Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2606.15468v1
Date: Sat, 13 Jun 2026 20:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:33.640139
Title: Analyzing Visual Aircraft Representations with Sparse Autoencoders
Title（参考訳）: スパースオートエンコーダを用いた視覚航空機表現の解析
Authors: Deepshik Sharma,
Abstract要約: 本研究では,スパースオートエンコーダが視覚モデルの中間表現を解釈可能な特徴に分解できるかどうかを検討する。我々は、FGVC-Aircraftデータセット上のConvNeXt分類器を訓練し、最終的な特徴段階から空間的アクティベーションを抽出し、これらのアクティベーションに対してスパースオートエンコーダを訓練する。学習されたスパース特徴は、トップアクティベーション画像パッチ、アクティベーション強度、クラス選択性を用いて分析される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision models can achieve strong performance on classification tasks, but the internal representations supporting their predictions are often difficult to interpret. This work investigates whether sparse autoencoders can decompose intermediate representations of a vision model into interpretable features. We train a ConvNeXt classifier on the FGVC-Aircraft dataset, extract spatial activations from its final feature stage, and train a sparse autoencoder on these activations. The learned sparse features are analyzed using top-activating image patches, activation strength, and class selectivity. Qualitative visual inspection reveals that several features correspond to recognizable aircraft structures and visual patterns. We evaluate a subset of selected features using input-space and feature-space ablations, measuring how blurring image patches and suppressing sparse features affect class logits, classification margins, and prediction confidence. The results suggest that sparse autoencoders can reveal partially interpretable, class-relevant visual features associated with aircraft recognition, while also exposing limitations such as polysemanticity and coarse spatial localization.
Abstract（参考訳）: 視覚モデルは、分類タスクにおいて強力な性能を達成することができるが、それらの予測をサポートする内部表現は、しばしば解釈するのが困難である。本研究では,スパースオートエンコーダが視覚モデルの中間表現を解釈可能な特徴に分解できるかどうかを検討する。我々は、FGVC-Aircraftデータセット上のConvNeXt分類器を訓練し、最終的な特徴段階から空間的アクティベーションを抽出し、これらのアクティベーションに対してスパースオートエンコーダを訓練する。学習されたスパース特徴は、トップアクティベーション画像パッチ、アクティベーション強度、クラス選択性を用いて分析される。定性的視覚検査は、いくつかの特徴が認識可能な航空機の構造と視覚パターンに対応していることを明らかにする。入力空間と特徴空間の短縮を用いて選択された特徴のサブセットを評価し,画像パッチのぼかしとスパース特性の抑制がクラスロジット,分類マージン,予測信頼度に与える影響を評価する。その結果,スパースオートエンコーダは,航空機の認識に関連する部分的解釈可能なクラス関連視覚的特徴を明らかにするとともに,多面性や粗い空間的局所化などの制約を明らかにすることが可能であることが示唆された。

関連論文リスト

Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.46250297408974]
オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。 ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2025-03-24T21:00:37Z)
Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文参考訳（メタデータ） (2024-10-01T10:42:55Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文参考訳（メタデータ） (2024-02-01T02:13:49Z)
An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning [0.46644955105516456]
ゼロショット学習(ZSL)分類は、トレーニングセットに含まれないクラス(ラベル)を分類または予測する(見えないクラス)。近年の研究では、エンコーダが視覚的特徴空間をセマンティック空間に埋め込み、デコーダが元の視覚的特徴空間を再構成する、異なる意味的オートエンコーダ(SAE)モデルが提案されている。本稿では,意味空間でベクトル化された視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。
論文参考訳（メタデータ） (2023-06-26T12:06:20Z)
Spurious Features Everywhere -- Large-Scale Detection of Harmful Spurious Features in ImageNet [36.48282338829549]
本稿では,ImageNetのような大規模データセットにおいて,突発的特徴を体系的に識別するフレームワークを開発する。我々は,クラス単独で有害な刺激的特徴の存在が,そのクラスの予測を誘発するのに十分であることを示すことによって,その結果を検証する。我々はSpuFixを単純な緩和法として導入し、これまで同定された有害なスプリアス機能に対するImageNet分類器の依存を減らす。
論文参考訳（メタデータ） (2022-12-09T14:23:25Z)
Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文参考訳（メタデータ） (2022-05-21T07:41:27Z)
Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文参考訳（メタデータ） (2020-10-19T12:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。