論文の概要: Motion Reinforces Appearance: RGB-Skeleton Gated Residual Fusion for Micro-Gesture Online Recognition
- arxiv url: http://arxiv.org/abs/2606.11645v1
- Date: Wed, 10 Jun 2026 04:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.288857
- Title: Motion Reinforces Appearance: RGB-Skeleton Gated Residual Fusion for Micro-Gesture Online Recognition
- Title(参考訳): RGB-Skeleton Gated Residual Fusion for Micro-Gesture Online Recognition
- Authors: Jialin Liu, Xinwen He, Pengyu Liu, Jiale Shi, Huaijuan Zang, Yanbin Hao,
- Abstract要約: 我々はDyFADetをデュアルストリームRGB-スケルトンフレームワークに拡張するDyFADet+を提案する。
SMGデータセットでは,F1スコアが40.88であり,マイクロジェスチャオンライン認識トラックでは2位である。
- 参考スコア(独自算出の注目度): 18.736764781779208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-gesture analysis attracts increasing attention for inferring spontaneous emotion from subtle body movements. Micro-gesture online recognition, which localizes and classifies each gesture instance in untrimmed videos, is a core task in the 4th EI-MiGA-IJCAI Challenge. Compared with typical temporal action detection, MGR emphasizes the localization and classification of actions, requiring the model to output the start time, end time, and category of each micro-gesture. Moreover, since micro-gestures are highly spontaneous, relying solely on a single modality makes it difficult to capture the complete and accurate multi-modal cues. In this work, we propose DyFADet+, which extends DyFADet into a dual-stream RGB-skeleton framework. In our model, both modalities are projected into shared multi-scale temporal embeddings and fused through a gated residual module, which adaptively injects skeleton motion into the RGB representation rather than using naive concatenation. Finally, these fused features are decoded by a Dynamic TAD head for online classification and boundary regression. On the SMG dataset, our method achieves an F1 score of 40.88, ranking 2nd in the Micro-gesture Online Recognition track.
- Abstract(参考訳): 微小体温分析は、微妙な身体の動きから自然の感情を推定するために注意を惹きつける。
第4回EI-MiGA-IJCAIチャレンジでは、各ジェスチャーインスタンスを未トリミングビデオにローカライズし、分類するマイクロジェスチャーオンライン認識が中核となる。
典型的な時間的行動検出と比較すると、MGRはアクションの局所化と分類を強調し、モデルが各マイクロジェスチャの開始時間、終了時間、カテゴリを出力する必要がある。
さらに, 単一モードのみに依存するため, 完全かつ高精度なマルチモーダルキューの取得が困難である。
本研究では,DyFADetをデュアルストリームRGB-スケルトンフレームワークに拡張したDyFADet+を提案する。
本モデルでは, 両モードを多スケールの時間的埋め込みに投影し, ゲート状残留モジュールを通して融合することにより, 単純な結合ではなく, RGB表現にスケルトンの動きを適応的に注入する。
最後に、これらの融合機能は、オンライン分類と境界回帰のためにDynamic TADヘッドによってデコードされる。
SMGデータセットでは,F1スコアが40.88であり,マイクロジェスチャオンライン認識トラックでは2位である。
関連論文リスト
- Micro-DualNet: Dual-Path Spatio-Temporal Network for Micro-Action Recognition [4.60357552784923]
マイクロアクションは、空間的構成によって定義されるものや、時間的ダイナミクスを通して現れるものなど、様々な特徴を示す。
単一時間分解にコミットする既存の方法は、この多様性に対応できない。
本稿では,Multual Action (MAC) の損失を補足して,各部位が最適な処理選択を学習するエンティティレベルの適応ルーティングを導入する。
論文 参考訳(メタデータ) (2026-04-22T19:00:05Z) - OMG-Bench: A New Challenging Benchmark for Skeleton-based Online Micro Hand Gesture Recognition [15.24938776679168]
OMG-Benchは骨格ベースのオンラインマイクロジェスチャー認識のための最初の大規模ベンチマークである。
HMATrは、階層型メモリバンクを活用することでジェスチャー検出と分類を統一するエンドツーエンドフレームワークである。
実験では、HMATrは最先端の手法を7.6%上回っている。
論文 参考訳(メタデータ) (2025-12-18T16:27:31Z) - X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification [79.37768038337971]
本稿では,VVI-ReIDのためのX-ReIDという新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には、まずクロスモダリティプロトタイプコラボレーション(CPC)を提案する。
次に, 隣接フレームからの短期的相互作用, 長期的クロスフレーム情報融合, クロスモダリティ特徴アライメントを組み込んだMII(Multi-granularity Information Interaction)を設計する。
論文 参考訳(メタデータ) (2025-11-22T07:57:15Z) - FMANet: A Novel Dual-Phase Optical Flow Approach with Fusion Motion Attention Network for Robust Micro-expression Recognition [0.0]
微妙な顔の動きを捉えるのが難しいため、微小な表情認識は困難である。
本稿では,マイクロ圧縮相とマイクロ圧縮相の運動力学を統合記述子に統合した総合的な動き表現を提案する。
次に、二相解析と等級変調を学習可能なモジュールに内部化する、新しいエンドツーエンドニューラルネットワークアーキテクチャであるFMANetを提案する。
論文 参考訳(メタデータ) (2025-10-09T05:36:40Z) - Micro-Expression Recognition via Fine-Grained Dynamic Perception [64.26947471761916]
顔マイクロ圧縮認識(MER)のためのFDPフレームワークを開発した。
時系列の原フレーム列のフレームレベルの特徴をランク付けし、ランク付けプロセスはMEの出現と動きの両方の動的情報をエンコードする。
提案手法は最先端のMER法よりも優れており,動的画像構築に有効である。
論文 参考訳(メタデータ) (2025-09-07T11:13:50Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。