論文の概要: Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach
- arxiv url: http://arxiv.org/abs/2606.07585v1
- Date: Wed, 27 May 2026 16:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.74616
- Title: Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach
- Title(参考訳): プライバシセーフな非個人的アプローチに向けたマルチモーダルグループ感情認識
- Authors: Anderson Augusma,
- Abstract要約: この論文は、プライバシー保護に焦点を当てたグループ感情認識(GER)に対処する。
顔、視線、音声分析のような個々のレベルの手がかりに依存する従来の感情認識法とは異なり、この研究は集団レベルの感情を推測するために集団的な音声信号を使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This thesis addresses group emotion recognition (GER) in-the-wild with a focus on privacy preservation. Unlike traditional emotion recognition methods that rely on individual-level cues such as face, gaze, or voice analysis, this work uses collective audio-video signals to infer emotions at the group level, reducing risks of individual monitoring and surveillance. Two complementary frameworks are proposed. The first is a cross-attention multimodal architecture for audio-video fusion, combined with Frames Attention Pooling (FAP) for temporal aggregation. It is supported by synthetic data augmentation and validated through ablation studies, demonstrating robustness in real-world GER conditions. The second framework, Variational Encoder Multi-Decoder (VE-MD), learns a shared latent space for emotion classification and structural representation prediction, including body and face cues. Two decoding strategies, DETR-based and heatmap-based, are explored to analyze the role of structural representations in group and individual settings. The thesis makes three main contributions: it clarifies the role of multimodality and structural cues in group-level affective computing; introduces two architectures for privacy-preserving multimodal GER; and shows that competitive performance can be achieved without using individual features as input data.
- Abstract(参考訳): この論文は、プライバシー保護に焦点を当てたグループ感情認識(GER)に対処する。
顔、視線、音声分析のような個人レベルの手がかりに依存する従来の感情認識法とは異なり、この研究は集団レベルの感情を推測するために集団的な音声信号を使用して、個別の監視と監視のリスクを低減する。
2つの補完的な枠組みが提案されている。
1つ目は、音声・ビデオ融合のためのクロスアテンション・マルチモーダルアーキテクチャであり、時間アグリゲーションのためのフレームアテンションプール(FAP)と組み合わせている。
合成データの増大に支えられ、アブレーション研究を通じて実証され、現実世界のGER条件における堅牢性を実証している。
第2のフレームワークである変動エンコーダ・マルチデコーダ(VE-MD)は、身体と顔の手がかりを含む感情分類と構造的表現予測のための共有潜在空間を学習する。
グループおよび個別設定における構造表現の役割を分析するために,DeTRとヒートマップの2つのデコード戦略を検討した。
グループレベルの感情コンピューティングにおけるマルチモーダルと構造的手がかりの役割を明らかにすること、プライバシを保存するマルチモーダルGERのための2つのアーキテクチャを導入すること、個々の特徴を入力データとして使用せずに競争的なパフォーマンスを実現すること、である。
関連論文リスト
- Bidirectional Learning of Facial Action Units and Expressions via Structured Semantic Mapping across Heterogeneous Datasets [85.74213192818668]
本研究では,異なるデータ領域下での双方向AU-FE学習のための構造化セマンティックマッピング(SSM)フレームワークを提案する。
SSMは、(1)動的AUとFEビデオから統一された顔表現を学習する共有視覚バックボーン、(2)テキストセマンティックプロトタイプ(TSP)モジュールによるセマンティックメディエーション、(3)顔行動符号化システムから派生した事前知識を組み込んだ動的優先マッピング(DPM)モジュールの3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2026-04-12T09:08:32Z) - Variational Encoder--Multi-Decoder (VE-MD) for Privacy-by-functional-design (Group) Emotion Recognition [0.764671395172401]
本研究では,プライバシを意識した機能設計に基づくグループ感情認識のための変分型マルチデコーダフレームワークVE-MDを提案する。
VE-MDは、正式な匿名化や暗号化プライバシ保証を提供するのではなく、明示的な個人監視を避けるように設計されている。
VE-MDは、感情分類と身体と顔の構造的表現の内部予測に最適化された共有潜在表現を学習する。
論文 参考訳(メタデータ) (2026-04-02T13:38:29Z) - Multi-Track Multimodal Learning on iMiGUE: Micro-Gesture and Emotion Recognition [4.909448578374012]
iMiGUEデータセット上で両方の問題に対処するために設計された2つのフレームワークを提案する。
RGBと3次元ポーズに基づく表現の相補的強みについて検討する。
感情認識のためのフレームワークは、行動に基づく感情予測に拡張する。
論文 参考訳(メタデータ) (2025-12-29T08:22:46Z) - DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation [21.536784761515968]
DFR(Decompose, Fuse, Reconstruct)は、マルチモーダルガイダンスを数発のセグメンテーションで効果的に活用するという課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-22T16:21:32Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文 参考訳(メタデータ) (2022-11-22T06:19:17Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。