論文の概要: A New Multi-Domain Benchmark for Micro-Action Recognition and Detection
- arxiv url: http://arxiv.org/abs/2606.14096v2
- Date: Tue, 16 Jun 2026 08:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.634545
- Title: A New Multi-Domain Benchmark for Micro-Action Recognition and Detection
- Title(参考訳): マイクロアクション認識と検出のための新しいマルチドメインベンチマーク
- Authors: Yanbin Hao, Pengyu Liu, Xing Wei, Xun Yang, Dan Guo, Meng Wang,
- Abstract要約: MMA-82は、マイクロアクション分析のためのMA-52ベンチマークの大規模マルチドメイン拡張である。
MMA-82は、現実的なマイクロアクション分析のための包括的で挑戦的なベンチマークであり、人間中心のAIにとって貴重なリソースである。
- 参考スコア(独自算出の注目度): 48.34038271380391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-actions are short-duration, low-amplitude subtle body movements at the whole-body level that can reveal latent intentions, involuntary reactions, and fine-grained affective changes. Our previous MA-52 benchmark has provided an important foundation for micro-action recognition, but it remains limited in scale, scene diversity, task coverage, and evaluation protocols. To advance micro-action analysis toward more realistic and comprehensive settings, we introduce MMA-82, a large-scale multi-domain extension of MA-52. MMA-82 expands the label space from 52 to 82 fine-grained micro-action categories and covers four distinct domains, including laboratory interviews, street interviews, psychiatric patient interviews, and emotion-rich television videos, resulting in 77,856 annotated instances from 454 subjects. Built upon MMA-82, we establish two core tasks: Micro-Action Recognition and Multi-label Micro-Action Detection. For recognition, we further define in-domain and cross-domain protocols, including few-shot and zero-shot settings, to evaluate model robustness, transferability, and generalization. Extensive experiments show that current methods still struggle with realistic micro-action understanding, especially under domain shift, long-tailed category distributions, and complex temporal localization. Beyond benchmarking, we investigate the relationship between micro-actions and emotion, showing that micro-actions are strongly associated with emotional states and provide complementary cues to facial micro-expressions for improved emotion recognition. These results demonstrate that MMA-82 serves as a comprehensive and challenging benchmark for realistic micro-action analysis and a valuable resource for human-centered AI. MMA-82 is available at https://lpynow.github.io/MMA-82-AIM/.
- Abstract(参考訳): マイクロアクションは、短調、低振幅の微妙な体の動きで、潜在意図、不随意反応、きめ細かい情緒的変化を明らかにすることができる。
これまでのMA-52ベンチマークは、マイクロアクション認識の重要な基盤となったが、スケール、シーンの多様性、タスクカバレッジ、評価プロトコルに制限されている。
そこで我々は,MA-52の大規模マルチドメイン拡張であるMMA-82を導入する。
MMA-82は、ラベル空間を52から82に拡大し、研究室インタビュー、ストリートインタビュー、精神科患者インタビュー、感情豊かなテレビビデオを含む4つの異なるドメインをカバーする。
MMA-82をベースとして,マイクロアクション認識とマルチラベルマイクロアクション検出という2つのコアタスクを確立する。
認識のために、モデルの堅牢性、転送可能性、一般化を評価するために、少数ショットおよびゼロショット設定を含むドメイン内およびクロスドメインプロトコルをさらに定義する。
大規模な実験により、現在の手法は、特にドメインシフト、長い尾のカテゴリー分布、複雑な時間的局所化において、現実的なマイクロアクション理解に苦慮していることが明らかとなった。
ベンチマークの他に、マイクロアクションと感情の関係について検討し、マイクロアクションが感情状態と強く結びついていることを示し、顔のマイクロ表現に補完的な手がかりを提供することにより、感情認識の改善を図っている。
これらの結果は、MMA-82が現実的なマイクロアクション分析のための包括的で挑戦的なベンチマークであり、人間中心のAIにとって貴重なリソースであることを示している。
MMA-82はhttps://lpynow.github.io/MMA-82-AIM/で入手できる。
関連論文リスト
- MMAE: A Massive Multitask Audio Editing Benchmark [66.74229858407413]
MMAEは汎用的な命令ベースの音声編集のために設計された最初の総合的な評価テストベッドである。
2,000個の高忠実度サンプルを、先駆的なルーリック評価フレームワークと組み合わせて構成する。
評価の結果,既存のシステムは信頼性の高い編集には程遠いことが判明した。
論文 参考訳(メタデータ) (2026-06-05T12:52:41Z) - MMAD: Multi-label Micro-Action Detection in Videos [37.02734647950794]
本稿では、微妙で低強度な身体運動であるマイクロアクションとして知られる身体動作のサブセットに焦点を当てる。
現実のシナリオでは、人間のマイクロアクションはしばしば時間的に共起し、複数のマイクロアクションが時間内に重複する。
本稿では,ビデオ中のすべてのマイクロアクションを識別する,MMAD(Multi-label Micro-Action Detection)というタスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T09:45:14Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Benchmarking Micro-action Recognition: Dataset, Methods, and Applications [26.090557725760934]
マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。
本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。
MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
論文 参考訳(メタデータ) (2024-03-08T11:48:44Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。