論文の概要: Multimodal Concept Bottleneck Models
- arxiv url: http://arxiv.org/abs/2606.19882v1
- Date: Thu, 18 Jun 2026 07:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.704599
- Title: Multimodal Concept Bottleneck Models
- Title(参考訳): マルチモーダル概念ボトルネックモデル
- Authors: Tongqing Shi, Ge Yan, Tuomas Oikarinen, Tsui-Wei Weng,
- Abstract要約: 概念ボトルネックモデル(CBM)は、画像から抽出した特徴を自然な概念と整合させることにより、ディープラーニングネットワークの解釈可能性を高める。
これらの問題に対処し,CLIP に CBM を拡張した Multimodal Concept Bottleneck Model (MM-CBM) を提案する。
既存の手法と比較して、MM-CBMは4つの標準ベンチマークで平均51.26%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 19.41992921538502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept Bottleneck Models (CBMs) enhance the interpretability of deep learning networks by aligning the features extracted from images with natural concepts. However, existing CBMs are constrained in their ability to generalize beyond a fixed set of predefined classes and the risk of non-concept information leakage, where predictive signals outside the intended concepts are inadvertently exploited. In this paper, we propose Multimodal Concept Bottleneck Model (MM-CBM) to address these issues and extend CBMs into CLIP. MM-CBM utilizes dual Concept Bottleneck Layers (CBLs) to align both the image and text embeddings into interpretable features. This allows us to perform new vision tasks like zero-shot classification or image retrieval in an interpretable way. Compared to existing methods, MM-CBM achieves up to 51.26% accuracy improvement on average across four standard benchmarks. Our method maintains high accuracy, staying within ~5% of black-box performance while offering greater interpretability.
- Abstract(参考訳): 概念ボトルネックモデル(CBM)は、画像から抽出した特徴を自然な概念と整合させることにより、ディープラーニングネットワークの解釈可能性を高める。
しかし、既存のCBMは、あらかじめ定義されたクラスの固定セットを超えて一般化する能力と、意図された概念外の予測信号が不注意に活用される非概念情報漏洩のリスクに制約されている。
本稿では,Multimodal Concept Bottleneck Model (MM-CBM)を提案する。
MM-CBMは、イメージとテキストの埋め込みの両方を解釈可能な特徴に合わせるために、デュアルコンセプト・ブートネック・レイヤ(CBL)を使用している。
これにより、ゼロショット分類や画像検索といった新しい視覚タスクを解釈可能な方法で実行できます。
既存の手法と比較して、MM-CBMは4つの標準ベンチマークで平均51.26%の精度向上を実現している。
提案手法は高い精度を維持し,ブラックボックス性能の約5%に留まり,高い解釈性を提供する。
関連論文リスト
- Concepts Worth Having: Refining VLM-Guided Concept Bottleneck Models with Minimal Annotations [21.060815865649477]
Vision-plus-Human-Guided CBM (VH-CBM) は、Vision-Language Models (VLM) と少量の高密度アノテーションを利用するハイブリッドアプローチである。
VH-CBMは、データの1%を注釈付けしても、VLM誘導CBMよりも正確な概念を予測できる。
論文 参考訳(メタデータ) (2026-05-13T10:07:11Z) - Explaining CLIP Zero-shot Predictions Through Concepts [54.05282304471016]
EZPCを導入し,CLIPのゼロショット予測を人間に理解可能な概念で説明する。
本手法は,言語記述から学習した概念空間にCLIPの合同画像テキスト埋め込みを投影する。
提案手法は,CLIPの強いゼロショット分類精度を維持しつつ,意味のある概念レベルの説明を提供する。
論文 参考訳(メタデータ) (2026-03-30T09:31:33Z) - Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition [81.2779530670268]
VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-03-09T03:11:11Z) - Learning Concept Bottleneck Models from Mechanistic Explanations [4.071515891039002]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、決定の前に解釈可能な概念を予測するボトルネックレイヤを学習することで、ホットな解釈可能性を目指す。
メカニスティックCBMはブラックボックスモデルの学習概念から直接ボトルネックを構築する。
M-CBMは, 一致した間隔で, 先行のCBMを常に上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-07T21:09:01Z) - Rethinking Concept Bottleneck Models: From Pitfalls to Solutions [53.84388497227224]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念の基底予測である。
CBM-Suiteはこれらの課題に対処するための方法論的なフレームワークである。
論文 参考訳(メタデータ) (2026-03-05T19:37:49Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer [19.177297480709512]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。
最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。
本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
論文 参考訳(メタデータ) (2025-01-09T05:12:38Z) - VLG-CBM: Training Concept Bottleneck Models with Vision-Language Guidance [16.16577751549164]
Concept Bottleneck Models (CBM) は解釈可能な予測を提供する。
CBMは人間の理解可能な概念を符号化し、モデルの判断を説明する。
本稿では,VLG-CBM(Vision-Language-Guided Concept Bottleneck Model)を提案する。
論文 参考訳(メタデータ) (2024-07-18T19:44:44Z) - M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。
画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。
人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文 参考訳(メタデータ) (2023-12-16T11:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。