論文の概要: Exploring Adaptive Masked Reconstruction for Self-Supervised Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2606.11450v1
- Date: Tue, 09 Jun 2026 21:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.181856
- Title: Exploring Adaptive Masked Reconstruction for Self-Supervised Skeleton-Based Action Recognition
- Title(参考訳): 自己教師付き骨格に基づく行動認識のための適応的マスケッド再構成の探索
- Authors: Shengkai Sun, Zhiyong Cheng, Zefan Zhang, Jianfeng Dong, Zhihui Li, Meng Wang,
- Abstract要約: より高速で強力な事前学習フレームワークであるAdaptive Masked Reconstructionを提案する。
まず、デコーダをエンコーダから切り離し、より大きなパッチの柔軟な予測を可能にする。
このモジュールは、高い動作情報性の領域を特定し、各パッチの最も識別性の高い部分にフォーカスするようモデルに誘導する。
- 参考スコア(独自算出の注目度): 24.247178113455536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, masked skeleton reconstruction models have emerged as strong action representation learners, driving significant progress in self-supervised skeleton-based action recognition. However, existing state-of-the-art methods must predict an exceedingly large number of spatiotemporal patches, significantly prolonging training time. Besides, by treating all spatiotemporal regions equally during reconstruction, these models are distracted from learning the critical motion patterns that underlie action semantics. To address these challenges, we propose Adaptive Masked Reconstruction (AMR), a faster and stronger pre-training framework. We first decouple the decoder from the encoder, enabling flexible prediction of larger spatiotemporal patches and dramatically reducing reconstruction complexity. Given that larger patches contain more complex information, which is challenging to predict and consequently degrades performance, we accordingly introduce an adaptive guidance module. This module identifies regions of high motion informativeness, guiding the model to focus on the most discriminative parts of each patch and alleviating reconstruction difficulty. Experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets demonstrate that AMR not only accelerates pre-training substantially but also improves downstream recognition accuracy, surpassing current state-of-the-art approaches.
- Abstract(参考訳): 近年,マスク付き骨格再構築モデルが強力な行動表現学習者として登場し,自己監督型骨格に基づく行動認識の進歩に寄与している。
しかし、既存の最先端の手法では、非常に多くの時空間パッチを予測し、トレーニング時間を著しく延長する必要がある。
さらに、再建期間中に全ての時空間領域を均等に扱うことで、これらのモデルが行動意味論の根底にある臨界運動パターンを学習することを妨げる。
これらの課題に対処するため,より高速で強力な事前学習フレームワークであるAdaptive Masked Reconstruction (AMR)を提案する。
まず、デコーダをエンコーダから切り離し、より大きな時空間パッチのフレキシブルな予測を可能にし、再構築の複雑さを劇的に低減する。
より大きなパッチがより複雑な情報を含んでいることを考えると、パフォーマンスを予測し、結果として劣化させるのが難しいので、適応的なガイダンスモジュールを導入します。
このモジュールは、高い動作情報性の領域を特定し、各パッチの最も識別性の高い部分に焦点を合わせ、再構築の難しさを軽減する。
NTU RGB+D 60, NTU RGB+D 120, PKU-MMDデータセットの実験は、AMRが事前学習を著しく加速するだけでなく、下流認識の精度も向上し、現在の最先端のアプローチを上回ることを示した。
関連論文リスト
- Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction [52.32112533846212]
MRI再建は本質的に不完全な逆問題である。
この制限は、再構成を離散的なマルチスケールの潜在空間に移動させ、自己回帰的次加速スケールの予測として機能させることによって解決する。
提案手法は,過度のアンサンプ下での多種多様なサンプリングパターンの再構成性能の向上を図っている。
論文 参考訳(メタデータ) (2026-05-19T04:40:50Z) - Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning [28.87004127483584]
骨格に基づく行動表現学習は、コントラスト学習(CL)からマスケッドオートエンコーダ(MAE)へと進化した
本稿では,共有エンコーダによるコントラスト学習とマスクモデリングを調和させる新しい統合フレームワークであるSLiMを提案する。
我々は、SLiMが、すべてのダウンストリームプロトコルにおける最先端のパフォーマンスを一貫して達成していることを示します。
論文 参考訳(メタデータ) (2026-03-11T11:09:16Z) - Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation [7.101824215756715]
本稿では,拡散型生成再構成フレームワークであるMasked Motion Diffusion Model (MMDM)を紹介する。
MMDMは、Masked Autoencoderアーキテクチャ内で部分的に利用可能な高品質な再構成を用いて、不完全または低信頼な動作データを強化する。
我々は,同じ再利用可能なアーキテクチャによって抽出された,文脈適応型動作先行学習,特別な構造的特徴と時間的特徴に着目した。
論文 参考訳(メタデータ) (2026-03-08T15:53:29Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion [64.10689934231165]
ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T06:59:55Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Sparsity-Driven Parallel Imaging Consistency for Improved Self-Supervised MRI Reconstruction [2.8237889121096034]
本稿では,PD-DLネットワークを慎重に設計した摂動を用いてトレーニングする方法を提案する。
提案手法は,アーティファクトのエイリアスを効果的に低減し,高加速速度での雑音増幅を緩和することを示す。
論文 参考訳(メタデータ) (2025-05-30T02:11:25Z) - Towards performant and reliable undersampled MR reconstruction via
diffusion model sampling [67.73698021297022]
DiffuseReconは拡散モデルに基づく新しいMR再構成法である。
観測された信号に基づいて生成過程を導出する。
特定の加速因子に関する追加の訓練は必要としない。
論文 参考訳(メタデータ) (2022-03-08T02:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。