論文の概要: Facial Expression Recognition in the Deep Learning Era: A Systematic Multi-Criteria Review of Methods, Models, Datasets, Performance, Challenges, and Future Research Directions
- arxiv url: http://arxiv.org/abs/2606.08612v1
- Date: Sun, 07 Jun 2026 12:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.299293
- Title: Facial Expression Recognition in the Deep Learning Era: A Systematic Multi-Criteria Review of Methods, Models, Datasets, Performance, Challenges, and Future Research Directions
- Title(参考訳): 深層学習における表情認識:手法,モデル,データセット,パフォーマンス,課題,今後の研究方向性の多面的レビュー
- Authors: Spyridon Georgiou, Aggelos Psiris, Spyridon Evangelatos, Thomas Lagkas, Vasileios Argyriou, Panagiotis Sarigiannidis, Iraklis Varlamis, Georgios Th. Papadopoulos,
- Abstract要約: 表情認識(FER)はこの10年間で急速に進歩してきた。
ディープラーニングベースのFERランドスケープは、これまで、狭いタスク、アーキテクチャ、あるいはアプリケーション固有の軸でのみレビューされてきた。
この調査は、最近のディープラーニングベースのFERの包括的なレビューとのギャップに対処する。
- 参考スコア(独自算出の注目度): 5.547573358033218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial Expression Recognition (FER) has advanced rapidly over the last decade, driven by the shift from handcrafted descriptors and shallow classifiers to deep convolutional, attention-based, vision-language, and foundation-model architectures, and by the parallel growth of large-scale in-the-wild benchmarks spanning categorical, dimensional, compound, micro-expression, Action Unit (AU), and intensity-estimation tasks. Yet the deep learning-based FER landscape has so far been reviewed only along narrow task-, architecture-, or application-specific axes, leaving a holistic, systematically organized account of its recent advances missing. This survey addresses that gap with a comprehensive review of recent deep learning-based FER, explicitly linked to the wider Facial Affect Recognition (FAR) domain. Its main contributions are: a) A description of FER's evolution into five distinct phases, from handcrafted features and classical machine learning to attention-based, vision-language, and foundation-model approaches, with the key milestone works of each, b) A multi-criteria taxonomy analyzing the literature along seven complementary axes: recognition task, input modality, face pre-processing pipeline, network architecture, learning strategy, acquisition setting, and application domain, c) A per-criterion comparative analysis, with critical insights into the strengths and limitations of each category under in-the-wild conditions, d) A task-organized review of public FER datasets, with their annotation schemes, modalities, and evaluation protocols, e) A compilation of performance metrics and a per-task quantitative comparison of representative state-of-the-art methods on widely adopted benchmarks, and f) A discussion of current challenges and promising future directions.
- Abstract(参考訳): 顔の表情認識(FER)は過去10年間で急速に進歩し、手作りの記述子や浅い分類子から深層畳み込み、注目ベース、視覚言語、基礎モデルアーキテクチャへのシフト、そしてカテゴリ、次元、複合、マイクロ圧縮、アクションユニット(AU)、強度推定タスクにまたがる大規模内在型ベンチマークの並列成長によって実現されている。
しかし、ディープラーニングに基づくFERの展望は、これまでのところ、狭いタスク、アーキテクチャ、あるいはアプリケーション固有の軸についてのみレビューされており、最近の進歩が欠落している全体的かつ体系的な説明を残している。
この調査は、近年の深層学習に基づくFERの包括的レビューと、より広い顔影響認識(FAR)領域とのギャップに対処する。
主な貢献は以下の通りである。
a) FERの5つの異なる段階への進化についての説明。手作りの特徴及び古典的機械学習から注目に基づく、視覚言語及び基礎モデルアプローチに至るまで、それぞれの重要なマイルストーン作品。
b) 認識タスク、入力モダリティ、対面前処理パイプライン、ネットワークアーキテクチャ、学習戦略、取得設定、アプリケーションドメインの7つの相補的な軸に沿って文献を分析する多基準分類法
c) 基準毎の比較分析であって、各カテゴリーの強度及び限界について重要な知見を有するもの。
d) 公開FERデータセットのアノテーションスキーム、モダリティ及び評価プロトコルによるタスク編成レビュー
e) 広く採用されているベンチマークにおいて、パフォーマンス指標のコンパイル及び代表的な最先端手法のタスク毎の定量的比較
f)現在の課題と将来的な方向性に関する議論。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches [6.356364436395916]
CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。
本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。
本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-31T14:47:09Z) - A Survey of Event Causality Identification: Taxonomy, Challenges, Assessment, and Prospects [6.492836595169771]
事象因果同定(ECI)は自然言語処理(NLP)において重要な課題となっている。
この総合的な調査は、基本的な概念とモデルを体系的に調査し、体系的な分類学を開発し、多様なモデルを批判的に評価する。
論文 参考訳(メタデータ) (2024-11-15T17:19:42Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。