論文の概要: Chehre: An Emoji-Prompted Video Dataset for Perceptually Diverse Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2606.21657v1
- Date: Fri, 19 Jun 2026 18:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:16:28.030153
- Title: Chehre: An Emoji-Prompted Video Dataset for Perceptually Diverse Facial Expression Recognition
- Title(参考訳): Chehre: 顔の表情認識のための絵文字プロンプトビデオデータセット
- Authors: Bita Azari, Zoe Stanley, Avneet Batra, Poorvi Bhatia, Hali Kil, Manolis Savva, Angelica Lim,
- Abstract要約: 動的表情解析のための絵文字プロンプトビデオデータセットであるChehreを紹介する。
チェアでは、参加者は40の顔の絵文字を表現し記録するよう促された。
アノテーションの別のグループは、絵文字とラベルアノテーションを使用して匿名化されたビデオを分析した。
- 参考スコア(独自算出の注目度): 7.609434122324501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expressions are nonverbal social signals used in human interaction, but facial expression recognition datasets often focus on static images, basic emotion categories, or single deterministic annotations. We introduce Chehre, an emoji-prompted video dataset for analyzing dynamic facial expressions across a wide range of expressions for exploring inter-individual perceptual diversity. In Chehre, participants were prompted to express and record 40 facial emojis. Later, their facial motions were transferred onto synthetic faces to preserve privacy. A separate group of annotators analyzed the anonymized videos using emoji and label annotations, resulting in 2,111 high quality videos collected from 203 performers and validated by 902 annotators. We define two benchmark tasks: dominant expression recognition, which tests whether models recover the top human-rated labels, and distributional expression recognition, which tests whether models capture the diversity of human responses. We benchmark recent vision-language models using random sampling and persona prompting to generate multiple predictions per video. Results show that both tasks are challenging: among the models evaluated, the best-performing model achieves only 32.5% Top-1 accuracy on dominant expression recognition and a Spread Ratio well below the human reference on distributional recognition. Chehre provides a benchmark for evaluating diverse, dynamic, and distributional facial expression recognition
- Abstract(参考訳): 表情は人間のインタラクションで使用される非言語的な社会的信号であるが、表情認識データセットは静的画像、基本的な感情カテゴリ、または単一の決定論的アノテーションに焦点をあてることが多い。
絵文字をプロンプトしたビデオデータセットであるChehreを導入し、動的表情を多種多様な表現にわたって分析し、個人間の知覚多様性を探索する。
チェアでは、参加者は40の顔の絵文字を表現し記録するよう促された。
その後、彼らの顔の動きは、プライバシーを守るために合成顔に移された。
アニメーターの別のグループは、絵文字とラベルアノテーションを使って匿名化されたビデオを分析し、その結果、203人のパフォーマーから収集され、902人のアノテーターによって検証された2,111人の高品質なビデオを得た。
モデルが上位の人格ラベルを復元するかどうかを判定する支配的表現認識と、モデルが人間の反応の多様性を捉えているかどうかを判定する分布的表現認識という2つのベンチマークタスクを定義した。
ランダムサンプリングとペルソナを用いた最新の視覚言語モデルのベンチマークを行い、ビデオ毎に複数の予測を生成する。
評価されたモデルの中で、最高のパフォーマンスモデルは、支配的な表現認識において32.5%のTop-1精度と、分布認識に関する人間の基準よりはるかに低いスプレッド比を達成している。
Chehreは多様な、動的、分布的な表情認識を評価するためのベンチマークを提供する
関連論文リスト
- Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。
本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。
ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Facial Expression Re-targeting from a Single Character [0.0]
3Dキャラクタの表情を表現するための標準的な方法は、ブレンドシャッフルである。
私たちは、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結合する独自のディープラーニングアーキテクチャを開発しました。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
論文 参考訳(メタデータ) (2023-06-21T11:35:22Z) - Human Expression Recognition using Facial Shape Based Fourier
Descriptors Fusion [15.063379178217717]
本論文では,顔面筋の変化に基づく新しい表情認識法を提案する。
幾何学的特徴は、口、目、鼻などの顔領域を特定するために用いられる。
7つの人間の表現の分類にマルチクラスサポートベクターマシンが適用される。
論文 参考訳(メタデータ) (2020-12-28T05:01:44Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z) - Real-time Facial Expression Recognition "In The Wild'' by Disentangling
3D Expression from Identity [6.974241731162878]
本稿では,1枚のRGB画像から人間の感情認識を行う新しい手法を提案する。
顔のダイナミックス、アイデンティティ、表情、外観、3Dポーズのバリエーションに富んだ大規模な顔ビデオデータセットを構築した。
提案するフレームワークは毎秒50フレームで動作し、3次元表現変動のパラメータを頑健に推定することができる。
論文 参考訳(メタデータ) (2020-05-12T01:32:55Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。