論文の概要: A Controlled Study of CLIP-Based Body-Scene Fusion for Emotion Recognition in Context
- arxiv url: http://arxiv.org/abs/2606.22072v2
- Date: Tue, 23 Jun 2026 18:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:29.999372
- Title: A Controlled Study of CLIP-Based Body-Scene Fusion for Emotion Recognition in Context
- Title(参考訳): 文脈における感情認識のためのCLIPベースボディシーンフュージョンの制御に関する研究
- Authors: Zubair Abbas, Muhammad Umair, Muqaddas Hameed,
- Abstract要約: 自然画像の明瞭な感情は、顔だけでは見えないことが多い。
本研究は,EMOTICにおける文脈認識型感情認識を画像のみの2ストリームモデルで研究する。
- 参考スコア(独自算出の注目度): 0.6008132390640294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apparent emotion in natural images is often not visible from the face alone. The face may be small, hidden, or neutral, while posture and scene context carry much of the evidence. This work studies context-aware emotion recognition on EMOTIC with an image-only two-stream model. A ResNet-18 body stream encodes the target-person crop, and a CLIP ViT-B/16 scene stream encodes the full image. The fused feature predicts 26 categorical emotion labels and the continuous valence, arousal, and dominance values. This study examines whether small context-debiasing or rare-class training changes still help after adding a CLIP scene encoder. The clean two-stream model is compared with simplified CCIM-style intervention, CLEF-lite context-bias subtraction, ASL tuning, and class-balanced sampling under the same implementation pipeline. No tested variant improves over the clean two-stream model, which achieves 34.52% mAP on the EMOTIC test split. CLIP gives the model broad scene semantics, but the simplified causal, counterfactual, and rare-class changes do not automatically improve performance. Most remaining errors are in rare and subtle emotion categories, so the next step should focus on label relationships and finer subject-context interaction.
- Abstract(参考訳): 自然画像の明瞭な感情は、顔だけでは見えないことが多い。
顔は小さく、隠れており、中性でもあり、姿勢やシーンの文脈には多くの証拠がある。
本研究は,EMOTICにおける文脈認識型感情認識を画像のみの2ストリームモデルで研究する。
ResNet-18のボディーストリームはターゲットの作物をエンコードし、CLIP ViT-B/16のシーンストリームはフルイメージをエンコードする。
融合した特徴は26のカテゴリーの感情ラベルと連続価、覚醒、支配値を予測する。
本研究は,CLIPシーンエンコーダの追加後,文脈偏りや希少なトレーニング変更が依然として有効かどうかを検討する。
クリーンな2ストリームモデルは、単純化されたCCIMスタイルの介入、CLEFスタイルのコンテキストバイアスサブトラクション、ASLチューニング、同じ実装パイプライン下でのクラスバランスサンプリングと比較される。
EMOTICテストスプリットで34.52%のmAPが得られるクリーンな2ストリームモデルよりも、テストされたバリエーションは改善されていない。
CLIPは、モデルの広いシーンセマンティクスを提供するが、単純化された因果、反ファクト、レアクラスの変更は、自動的にパフォーマンスを改善しない。
残されているほとんどのエラーは稀で微妙な感情カテゴリーにあるため、次のステップはラベルの関係とより詳細な主題とコンテキストの相互作用に焦点を当てるべきである。
関連論文リスト
- Rethinking Prototype-based Similarity Learning for Few-Shot Object Detection [3.405768252883924]
ほとんどショットされていないオブジェクト検出は、少数のラベル付き例から新しいオブジェクトカテゴリを検出し、コストのかかる大規模なアノテーションを避けることを目的としている。
近年のプロトタイプに基づく類似性学習手法により,クエリ機能とクラスプロトタイプとのマッチングによる学習自由な適応が可能となった。
テキスト・アンコレート・セマンティック・マスクとステージ・アラインメント・階層的自己回帰回帰という2つの補完的要素を紹介した。
論文 参考訳(メタデータ) (2026-06-22T09:18:00Z) - HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。
フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文 参考訳(メタデータ) (2025-03-13T14:21:46Z) - Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。
FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-14T23:31:20Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - MisMatch: Calibrated Segmentation via Consistency on Differential
Morphological Feature Perturbations with Limited Labels [5.500466607182699]
半教師付き学習は、医用画像におけるラベル不足の問題に対処する上で有望なパラダイムである。
MisMatchは、ペアの予測間の一貫性に基づいた半教師付きセグメンテーションフレームワークである。
論文 参考訳(メタデータ) (2021-10-23T09:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。