論文の概要: SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding
- arxiv url: http://arxiv.org/abs/2606.16615v2
- Date: Thu, 18 Jun 2026 11:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.611672
- Title: SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding
- Title(参考訳): SUP-MCRL:脳波視覚復号のための擬似符号型マルチモーダルコントラスト表現学習
- Authors: Shengyu Gong, Weiming Zeng, Yueyang Li, Zijian Kang, Hongjie Yan, Wai Ting Siok, Nizhuan Wang,
- Abstract要約: 非侵襲的な脳-コンピュータインタフェースは、制御された実験室の刺激から現実世界の自然画像に移行する際に顕著な性能劣化を示す。
この劣化は、マルチモーダル・コントラッシブな表現学習モデルが、神経表現と選択的注意における意味的一貫性とオブジェクト間の変動を考慮できないために起こる。
本稿では,これらの制約を克服するための3つの協調機構を統合した統合フレームワークSUP-MCRLを提案する。
- 参考スコア(独自算出の注目度): 4.793866271591739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-invasive brain-computer interfaces exhibit significant performance degradation when moving from controlled laboratory stimuli to real-world natural images. This degradation occurs because conventional multimodal contrastive representation learning models focus exclusively on optimizing geometric distance alignment, thereby failing to account for semantic consistency and inter-subject variability in neural representation and selective attention. As a result, these models are prone to producing spurious zero-shot matches. To address these limitations, we propose SUP-MCRL, a unified framework integrating three collaborative mechanisms: (1) a Semantic-entity Aware Visual Encoder (SAVE) that learns spatial attention to extract semantic content without relying on pre-trained saliency models; (2) a Unified EEG Enhancer (UEE) that employs multi-scale atrous convolutions and inter-band attention for adaptive cross-subject robustness; and (3) a Prototype-based Progressive Augmenter (PPA) that maintains an EMA-updated pseudo-feature pool to prevent representation collapse. Zero-shot experiments on the THINGS-EEG achieve 66.0%/91.9% (Top-1/Top-5) intra-subject and 24.0%/52.9% LOSO accuracy, significantly surpassing state-of-the-art methods and demonstrating that structured alignment supervision is key to overcoming the limitations of cross-modal decoding. Code is available at https://github.com/NZWANG/SUP-MCRL.
- Abstract(参考訳): 非侵襲的な脳-コンピュータインタフェースは、制御された実験室の刺激から現実世界の自然画像に移行する際に顕著な性能劣化を示す。
この劣化は、従来のマルチモーダル・コントラッシブな表現学習モデルが、幾何学的距離アライメントの最適化にのみ焦点を絞っているため、ニューラル表現と選択的注意における意味的一貫性とオブジェクト間の変動を考慮できないためである。
その結果、これらのモデルは急激なゼロショットマッチを生み出す傾向にある。
これらの制約に対処するため,(1)訓練済みサリエンシモデルに頼らずに意味内容を抽出するための空間的注意を学習するセマンティック・アウェア・ビジュアル・エンコーダ(SAVE),(2)適応型クロスオブジェクト・ロバストネスのためのマルチスケールのアトラス・コンボリューションとバンド間注意を用いた統一EEGエンハンサー(UEE),(3)EMAに更新された擬似機能プールの表現破壊を防止するためのプロトタイプベースプログレッシブ・オービメンタ(PPA)という3つの協調メカニズムを統合した統合フレームワークであるSUP-MCRLを提案する。
THINGS-EEGのゼロショット実験は、66.0%/91.9%(Top-1/Top-5)のサブジェクトと24.0%/52.9%のLOSO精度を達成し、最先端の手法を大幅に超え、構造化アライメントの監督がクロスモーダルデコーディングの限界を克服する鍵であることを証明した。
コードはhttps://github.com/NZWANG/SUP-MCRLで入手できる。
関連論文リスト
- Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality Assessment [0.4790056963046066]
MST-CLIPIQAは、明示的な表現分離によって階層的な視覚言語アライメントを実現するマルチスケールの2ストリームフレームワークである。
アーキテクチャは2つのCLIPエンコーダを補完的なパッチの粒度で利用し、グローバルなセマンティックコヒーレンスをキャプチャする。
実験によって新しい最先端の結果が確立され、品質では1.11パーセントのSRCC、テキスト画像対応予測では2.35パーセントのSRCCが平均的に改善された。
論文 参考訳(メタデータ) (2026-06-15T14:40:30Z) - MindAlign: Bridging EEG, Vision, and Language for Zero-Shot Visual Decoding [36.958608375007124]
脳信号からの視覚的復号化は、コンピュータビジョンと神経科学の交差において重要な課題である。
本稿では,脳波,視覚,テキスト表現の整合性を考慮した,脳波に基づく視覚的デコーディングのための3モーダルコントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-23T11:23:21Z) - GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation [6.834321209531585]
本稿では,人間の視覚システムの階層構造を模倣する生物学的にインスパイアされたアーキテクチャであるGRAFNetを提案する。
GRAFNetは,(1)方向調整された皮質ニューロンをポリプ境界に模倣するガイド非対称注意モジュール(GAAM),(2)平行多機能解析のために網膜神経節細胞経路を複製するマルチスケール網膜モジュール(MSRM),(3)反復精製に予測符号化を適用するガイド非対称注意フィードバックモジュール(GCAFM)の3つの重要なモジュールを統合する。
論文 参考訳(メタデータ) (2026-02-15T17:29:37Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。