Fugu-MT 論文翻訳(概要): Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition

論文の概要: Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition

arxiv url: http://arxiv.org/abs/2606.09261v1
Date: Mon, 08 Jun 2026 09:32:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.900148
Title: Self-supervised Learning Matters: A Simple Ensemble Solution for Micro-Gesture Recognition
Title（参考訳）: 自己教師型学習課題:マイクロジェスチャ認識のための簡単なアンサンブルソリューション
Authors: Tingyi Liu, Kun Li, Fei Wang, Junjie Chen, Zhiliang Wu, Jihao Gu, Haixu Liu, Dan Guo,
Abstract要約: 我々は,IJCAI 2026の第4回MiGAチャレンジのマイクロゲイン分類トラックにXInsight Labのソリューションを提示する。本稿では,自己教師付きRGBモデルと教師付きマルチストリームモデルを統合したマルチモーダルアンサンブルフレームワークを提案する。
参考スコア（独自算出の注目度）: 27.279471685826874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present XInsight Lab's solution to the micro-gesture classification track of the 4th MiGA Challenge at IJCAI 2026, in which our solution ranked first and achieved a new state-of-the-art result. We propose a multimodal ensemble framework that integrates a self-supervised RGB-based model with supervised multi-stream models from previous solutions. The self-supervised RGB model is pretrained on 120K unlabeled clips via masked video modeling and then fine-tuned on iMiGUE. This simple yet effective RGB baseline achieves 69.224% top-1 accuracy on the iMiGUE test set, demonstrating the benefit of learning transferable representations from unlabeled in-domain videos. By incorporating this model as a complementary branch, the final ensemble reaches 74.419% top-1 accuracy, surpassing the previous state of the art by 1.206 percentage points. Experimental results on iMiGUE, including ablation studies on the ensemble strategy, validate the effectiveness of self-supervised RGB representation learning for micro-gesture recognition.
Abstract（参考訳）: 本稿では,IJCAI 2026における第4回MiGAチャレンジのマイクロジェスチャ分類トラックに対するXInsight Labのソリューションについて述べる。本稿では,自己教師付きRGBモデルと教師付きマルチストリームモデルを統合したマルチモーダルアンサンブルフレームワークを提案する。自己教師付きRGBモデルは、マスク付きビデオモデリングにより120Kの未ラベルクリップで事前訓練され、iMiGUEで微調整される。この単純で効果的なRGBベースラインは、iMiGUEテストセットで69.224%のトップ-1の精度を実現し、未ラベルのドメイン内ビデオから転送可能な表現を学習する利点を示している。このモデルを補完分岐として組み込むことで、最終アンサンブルは74.419%のトップ-1の精度に達し、前回の最先端を1.206ポイント上回る。アンサンブル戦略に関するアブレーション研究を含むiMiGUEの実験結果から,マイクロジェスチャー認識における自己教師付きRGB表現学習の有効性が検証された。

関連論文リスト

Towards UAV Detection in the Real World: A New Multispectral Dataset UAVNet-MS and a New Method [80.50361258830928]
UAVNet-MSは、微小UAV検出のための最初のマルチスペクトルデータセットである。本稿では、アレイ誘起パララックスと空間-スペクトル融合に対処するデュアルストリームベースラインであるMFDNetを提案する。この研究は、基礎的なデータセット、強力なベースライン、マルチスペクトルUAV監視研究のためのベンチマークを提供する。
論文参考訳（メタデータ） (2026-05-20T09:49:04Z)
AGOP as Explanation: From Feature Learning to Per-Sample Attribution in Image Classifiers [0.0]
サンプルごとの勾配を sqrt(diag(M) / max diag(M) で乗算する新しい属性法 AGOP-Weighted を導入する。我々は,AGOP属性を統合グラディエント(IG),SmoothGrad,GradCAM,VanillaGradに対して厳密に比較した。 AGOP-Global は IG よりも 44% 高い mIoU を達成する; AGOP-Global は IG よりも 7倍高い mIoU を達成する。
論文参考訳（メタデータ） (2026-05-12T23:15:47Z)
MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion [20.82678629321509]
MM-Gestureは微妙で短期的なマイクロジェスチャー(MG)を認識するためのフレームワークである関節、手足、RGBビデオ、テイラーシリーズビデオ、オプティカルフロービデオ、深度ビデオモダリティの補完的手がかりを統合している。 MM-Gestureは、IJCAI 2025で第3回MiGAチャレンジの微地形分類トラックで1位にランクインした。
論文参考訳（メタデータ） (2025-07-11T06:45:42Z)
Action Recognition Using Temporal Shift Module and Ensemble Learning [0.0]
本稿では,aclICPR 2024におけるマルチモーダル視覚パターン認識ワークショップの一環として,マルチモーダル行動認識チャレンジ(Multi-Modal Action Recognition Challenge)のファーストランクソリューションを提案する。このコンペティションは、マルチモーダルソースから収集された20のアクションクラスの多様なデータセットを使用して、人間の行動を認識することを目的としている。提案手法は,20クラスにまたがる人的行動の認識において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-01-29T10:36:55Z)
EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文参考訳（メタデータ） (2024-10-30T12:16:35Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。 MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文参考訳（メタデータ） (2023-02-13T07:09:45Z)
Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。 WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文参考訳（メタデータ） (2021-10-10T12:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。