論文の概要: SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding
- arxiv url: http://arxiv.org/abs/2606.16615v1
- Date: Mon, 15 Jun 2026 12:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.506509
- Title: SUP-MCRL: Subject-aware Unified Pseudo-feature Coded Multimodal Contrastive Representation Learning for EEG Visual Decoding
- Title(参考訳): SUP-MCRL:脳波視覚復号のための擬似符号型マルチモーダルコントラスト表現学習
- Authors: Shengyu Gong, Weiming Zeng, Yueyang Li, Zijian Kang, Hongjie Yan, Wai Ting Siok, Nizhuan Wang,
- Abstract要約: 非侵襲的な脳-コンピュータインタフェースは、自然な視覚体験に一般化する際に、神経視覚デコーディングにおいて深刻な忠実度低下を被る。
3つの協調機構を統合した統合フレームワークSUP-MCRLを提案する。
- 参考スコア(独自算出の注目度): 4.793866271591739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-invasive brain-computer interfaces suffer severe fidelity degradation in neural visual decoding when generalizing to natural visual experiences. Conventional multimodal contrastive representation learning solely optimizes geometric distance alignment, neglecting semantic consistency and subject selectivity, causing spurious zero-shot alignment. We propose SUP-MCRL, a unified framework integrating three collaborative mechanisms: (1) Semantic-entity Aware Visual Encoder (SAVE), learning spatial attention to extract semantic content without pre-trained saliency models; (2 Unified EEG Enhancer (UEE), employing multi-scale atrous convolutions and inter-band attention for adaptive cross-subject robustness; and (3) Prototype-based Progressive Augmenter (PPA), maintaining an EMA-updated pseudo-feature pool to prevent representation collapse. Zero-shot experiments on THINGS-EEG achieve 66.0%/91.9% (Top-1/Top-5) intra-subject and 24.0%/52.9% LOSO accuracy, surpassing state-of-the-art methods. Code is available at https://github.com/NZWANG/SUP-MCRL.
- Abstract(参考訳): 非侵襲的な脳-コンピュータインタフェースは、自然な視覚体験に一般化する際に、神経視覚デコーディングにおいて深刻な忠実度低下を被る。
従来のマルチモーダルコントラスト表現学習は、幾何学的距離アライメントのみを最適化し、意味的一貫性と主観的選択性を無視し、突発的なゼロショットアライメントを引き起こす。
本研究では,(1)セマンティック・エンタテリティー・アウェア・ビジュアル・エンコーダ(SAVE, Semantic-entity Aware Visual Encoder),(2)トレーニング済みサリエンシモデルなしでセマンティックコンテンツを抽出するための空間的注意,(2)適応型クロスオブジェクト・ロバストネスのためのマルチスケールのアトラス・コンボリューションとバンド間注意,(3)EMAを更新した擬似機能プールの維持,という3つの協調メカニズムを統合したSUP-MCRLを提案する。
THINGS-EEGのゼロショット実験は66.0%/91.9%(Top-1/Top-5)のオブジェクト内と24.0%/52.9%のLOSO精度を達成し、最先端の手法を上回った。
コードはhttps://github.com/NZWANG/SUP-MCRLで入手できる。
関連論文リスト
- Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality Assessment [0.4790056963046066]
MST-CLIPIQAは、明示的な表現分離によって階層的な視覚言語アライメントを実現するマルチスケールの2ストリームフレームワークである。
アーキテクチャは2つのCLIPエンコーダを補完的なパッチの粒度で利用し、グローバルなセマンティックコヒーレンスをキャプチャする。
実験によって新しい最先端の結果が確立され、品質では1.11パーセントのSRCC、テキスト画像対応予測では2.35パーセントのSRCCが平均的に改善された。
論文 参考訳(メタデータ) (2026-06-15T14:40:30Z) - MindAlign: Bridging EEG, Vision, and Language for Zero-Shot Visual Decoding [36.958608375007124]
脳信号からの視覚的復号化は、コンピュータビジョンと神経科学の交差において重要な課題である。
本稿では,脳波,視覚,テキスト表現の整合性を考慮した,脳波に基づく視覚的デコーディングのための3モーダルコントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-23T11:23:21Z) - GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation [6.834321209531585]
本稿では,人間の視覚システムの階層構造を模倣する生物学的にインスパイアされたアーキテクチャであるGRAFNetを提案する。
GRAFNetは,(1)方向調整された皮質ニューロンをポリプ境界に模倣するガイド非対称注意モジュール(GAAM),(2)平行多機能解析のために網膜神経節細胞経路を複製するマルチスケール網膜モジュール(MSRM),(3)反復精製に予測符号化を適用するガイド非対称注意フィードバックモジュール(GCAFM)の3つの重要なモジュールを統合する。
論文 参考訳(メタデータ) (2026-02-15T17:29:37Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。