論文の概要: Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals
- arxiv url: http://arxiv.org/abs/2606.15026v1
- Date: Fri, 12 Jun 2026 23:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.655236
- Title: Deep Temporal Modeling and Ensemble Fusion for Multimodal Emotion Recognition from Physiological Signals
- Title(参考訳): 生理信号からのマルチモーダル感情認識のための深部時間モデルとアンサンブル融合
- Authors: Desta Haileselassie Hagos, Saurav Keshari Aryal, Patrick Ymele-Leki, Anietie Andy, Legand L. Burge,
- Abstract要約: マルチモーダル影響認識のための WESAD データセット上で,Long Short-Term Memory (LSTM), Temporal Convolutional Networks (TCN), Transformer などのディープラーニングモデルの包括的評価を行う。
我々は,マルチモーダル入力で訓練された3つのアーキテクチャの予測を組み合わせ,遅延融合型アンサンブル戦略を実装した。
以上の結果から,Transformerモデルはマルチモーダル設定において常に高い精度を達成し,TNモデルは手首のみの設定において最良であることがわかった。
- 参考スコア(独自算出の注目度): 6.265137019897129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physiological stress and emotion recognition are important for health monitoring and affective computing. In this work, we present a comprehensive evaluation of deep learning models such as Long Short-Term Memory (LSTM), Temporal Convolutional Networks (TCN), and Transformer on the WESAD dataset for multimodal affect recognition using wrist and chest sensor signals. We perform ablation studies to assess the individual contributions of each modality by training models on wrist-only and chest-only inputs. In addition, we implement a late-fusion ensemble strategy that combines predictions from all three architectures trained on multimodal input. We also employ early fusion at the sensor level by concatenating wrist and chest signals before feeding them into each model. Our results show that Transformer models consistently achieve the highest accuracy in multimodal settings, while TCN models perform best in the wrist-only configuration. The ensemble method yields the highest overall accuracy (98.91 +/- 0.13%) and macro-F1 score (98.56 +/- 0.17%). These findings demonstrate the effectiveness of sensor fusion and ensemble-based fusion in developing robust systems for physiological emotion recognition.
- Abstract(参考訳): 生理的ストレスと感情認識は、健康モニタリングと感情コンピューティングにとって重要である。
本研究では,長短期記憶(LSTM),時間畳み込みネットワーク(TCN),トランスフォーマーなどのディープラーニングモデルについて,手首・胸部センサ信号を用いたマルチモーダル影響認識のためのWASADデータセット上で包括的な評価を行う。
本研究は,手首のみの入力と胸のみの入力のトレーニングモデルを用いて,各モダリティの個人的寄与を評価するためのアブレーション研究を行う。
さらに,マルチモーダル入力で学習した3つのアーキテクチャの予測を組み合わせ,遅延融合型アンサンブル戦略を実装した。
また,手首と胸部信号を結合して各モデルに供給することにより,センサレベルでの早期融合も行う。
以上の結果から,Transformerモデルはマルチモーダル設定において常に高い精度を達成し,TNモデルは手首のみの設定において最良であることがわかった。
アンサンブル法は高い総合精度(98.91 +/-0.13%)とマクロF1スコア(98.56 +/-0.17%)を得る。
これらの知見は、生理学的感情認識のための堅牢なシステムを開発する上で、センサフュージョンとアンサンブルベースのフュージョンの有効性を示す。
関連論文リスト
- Sense Less, Infer More: Agentic Multimodal Transformers for Edge Medical Intelligence [11.75125432258758]
適応型マルチモーダルインテリジェンス(AMI:Adaptive Multimodal Intelligence)は、いつ、どのように推論するかを共同で学習するエンドツーエンドフレームワークである。
AMIは,(1)Gumbel-Sigmoid Gatingを用いてモデル信頼性とタスク関連性に基づいて動的にアクティブなセンサを選択できる軽量なエージェントモードコントローラ,(2)時間的に冗長なサンプルをスキップするための学習可能なしきい値を持つパッチワイズデルタシグマ演算を適用可能な学習Sigma-Delta Sensingモジュール,(3)非モーダルファウンデーションエンコーダと時間的コンテキストを持つクロスモーダルトランスフォーマーをベースとしたファンデーションベースのマルチモーダル予測モデル,の3つのコンポーネントを統合した。
論文 参考訳(メタデータ) (2026-04-12T01:46:38Z) - Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening [0.7136933021609076]
本研究では,F.A.S.T.アセスメントで収集したデータをもとに,高速かつ非侵襲的な2次脳卒中自動スクリーニングのための多モード深層学習フレームワークを提案する。
提案手法は, 表情, 音声信号, 上体動作からの相補的な情報を統合し, 診断の堅牢性を高める。
論文 参考訳(メタデータ) (2026-01-17T03:35:39Z) - A Novel Data Augmentation Strategy for Robust Deep Learning Classification of Biomedical Time-Series Data: Application to ECG and EEG Analysis [2.355460994057843]
本研究では,様々な信号タイプにまたがる最先端性能を実現する,新しい統合型深層学習フレームワークを提案する。
従来の研究とは異なり、将来予測能力を達成するために信号の複雑さを科学的に増加させ、最高の予測を導いた。
アーキテクチャには130MBのメモリとプロセスが10ミリ秒で必要であり、ローエンドデバイスやウェアラブルデバイスへのデプロイに適していることを示唆している。
論文 参考訳(メタデータ) (2025-07-16T21:38:10Z) - BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [46.121056431476156]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。
既存のアプローチは一般的に、パフォーマンスとクロスドメインのスケーラビリティを制限する、分離、モダリティ、データセット固有のモデルに依存します。
EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文 参考訳(メタデータ) (2025-05-18T14:07:14Z) - Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。