Fugu-MT 論文翻訳(概要): T-MOR: Learning Motion-Aware Skeleton Representations for Human Action Recognition

論文の概要: T-MOR: Learning Motion-Aware Skeleton Representations for Human Action Recognition

arxiv url: http://arxiv.org/abs/2606.21607v1
Date: Fri, 19 Jun 2026 17:09:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 04:36:45.705993
Title: T-MOR: Learning Motion-Aware Skeleton Representations for Human Action Recognition
Title（参考訳）: T-MOR:人間の行動認識のための動きを考慮した骨格表現の学習
Authors: Di Yang, Mahmoud Ali, Quan Kong, Gianpiero Francesca, Francois Bremond,
Abstract要約: Transferable skeleton Motion Representation (T-MOR)は、骨格配列から転写可能なアクション表現を学習する動き認識フレームワークである。我々は,行動分類やフレーム単位の時間的検出を含む,人間中心の行動認識ベンチマークを用いて,T-MORを評価する。
参考スコア（独自算出の注目度）: 19.704188623749538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models such as CLIP have recently achieved strong performance on a wide range of visual understanding tasks. However, most existing models rely primarily on appearance-level supervision from images or videos, and do not explicitly model human motion, which is essential for fine-grained and human-centric action recognition task as actions are defined by temporally structured and physically grounded body movements. To address this problem, we propose Transferable skeleton MOtion Representation (T-MOR), a motion-aware framework that learns transferable action representations from skeleton sequences with the aid of video and language supervision during training. T-MOR adopts a multi-modal contrastive learning scheme that aligns skeleton motion with visual and textual representations, while performing inference using only lightweight skeleton inputs. To support large-scale pre-training, we construct PoseCap-1M, a new dataset that contains over one million synchronized video, skeleton, and text triplets covering diverse human activities. We evaluate T-MOR on a range of human-centric action recognition benchmarks, including action classification and frame-wise temporal detection. Experimental results show that T-MOR consistently improves performance across multiple datasets, such as Toyota Smarthome, Penn Action, UAV-Human, TSU, and Charades. In addition, T-MOR demonstrates strong generalization ability in few-shot and zero-shot settings, highlighting the effectiveness of motion-centric and embodied representations for transferable action understanding.
Abstract（参考訳）: CLIPのような視覚言語モデルは、最近、広範囲の視覚的理解タスクで強力なパフォーマンスを達成した。しかし、既存のほとんどのモデルは、主に画像やビデオからの外観レベルの監視に依存しており、人間の動きを明示的にモデル化していない。この問題に対処するために,ビデオや言語指導の助けを借りて,骨格配列から移動可能な動作表現を学習する動き認識フレームワークであるTransferable skeleton Motion Representation (T-MOR)を提案する。 T-MORは、スケルトンの動きを視覚的およびテキスト的表現と整列するマルチモーダルコントラスト学習方式を採用し、軽量スケルトン入力のみを用いて推論を行う。大規模な事前トレーニングをサポートするために,PoseCap-1Mを構築した。PoseCap-1Mは,100万以上の同期ビデオ,スケルトン,テキストトリプレットを含む新しいデータセットで,さまざまな人間の活動をカバーする。我々は,行動分類やフレーム単位の時間的検出を含む,人間中心の行動認識ベンチマークを用いてT-MORを評価する。実験結果から、T-MORはToyota Smarthome、Penn Action、UAV-Human、TSU、Charadesといった複数のデータセットのパフォーマンスを継続的に改善することが示された。さらに、T-MORは、少数のショットとゼロショットの設定において強力な一般化能力を示し、移動可能な動作理解のための動き中心およびエンボディド表現の有効性を強調している。

関連論文リスト

Fine-grained Human Motion Understanding with Language Models [11.539750714535773]
Methodnameは、各ポーズに対して明示的なタイムスタンプを持つ骨格ポーズのシーケンスとして動きを表す。我々は,ポーズキャプション,ポーズ質問応答,モーションキャプション,モーション質問応答にまたがる訓練混合物を構築した。提案手法は2次元および3次元の骨格運動表現を統一されたポーズエンコーダにより支援する。
論文参考訳（メタデータ） (2026-06-18T19:31:56Z)
From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文参考訳（メタデータ） (2026-05-18T06:19:16Z)
Superman: Unifying Skeleton and Vision for Human Motion Perception and Generation [32.57062686780495]
Supermanは、視覚知覚を時間的、骨格に基づくモーション生成にブリッジする統合フレームワークである。このモジュールは、多種多様な時間的入力を柔軟に処理し、ビデオ(知覚)からスケルトンに基づく動き予測とin-betweening(世代)による3Dスケルトンポーズを推定する。
論文参考訳（メタデータ） (2026-02-02T17:59:01Z)
PALUM: Part-based Attention Learning for Unified Motion Retargeting [53.17113525688095]
異なる骨格構造を持つキャラクター間の反発は、コンピュータアニメーションの基本的な課題である。多様な骨格トポロジーにまたがる共通の動き表現を学習する新しいアプローチを提案する。実験は、運動リアリズムと意味的忠実性を維持しながら、多様な骨格構造を扱う上で優れた性能を示す。
論文参考訳（メタデータ） (2026-01-12T07:29:44Z)
Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。 USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文参考訳（メタデータ） (2025-08-18T02:42:16Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。 2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文参考訳（メタデータ） (2024-05-08T02:42:27Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
ViA: View-invariant Skeleton Action Representation Learning via Motion Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文参考訳（メタデータ） (2022-08-31T18:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。