論文の概要: MotionVLA: Vision-Language-Action Model for Humanoid Motion
- arxiv url: http://arxiv.org/abs/2606.15142v1
- Date: Sat, 13 Jun 2026 06:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.87359
- Title: MotionVLA: Vision-Language-Action Model for Humanoid Motion
- Title(参考訳): MotionVLA:ヒューマノイド運動の視覚言語行動モデル
- Authors: Nonghai Zhang, Siyu Zhai, Yanjun Li, Zeyu Zhang, Zhihan Yin, Yandong Guo, Boxin Shi, Hao Tang,
- Abstract要約: 動作をベースストリームと物理ストリームに分離するデュアルストリーム周波数トークンであるDSFTを提案する。
また、ベースおよび物理トークンを統一シーケンスに配置するQwen3.5ベースのモデルであるMotionVLAを提案する。
- 参考スコア(独自算出の注目度): 54.785960777274276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.
- Abstract(参考訳): シーン画像とテキストからリアルなヒューマノイドの動きを生成するには、低頻度ポーズセマンティクスと高周波物理力学の両方が含まれる。
しかし、既存の多くの方法は単一の共有コードブックで動きをトークン化し、不均一な動き信号を同じ量子化空間に強制する。
5つのDCT係数はジョイントポジションエネルギーの93%を占めるが、ジョイント速度エネルギーの37%しか得られない。
第2の課題は、モーションシーケンス内の高周波物理信号を効果的にモデル化するために、標準自己回帰モデルを適用することである。
そこで本研究では,動作をベースストリームと物理ストリームに分離し,DCTトランケーションとBPEと独立に圧縮するデュアルストリーム周波数トークンであるDSFTを提案する。
さらに、ベーストークンと物理トークンを統一シーケンスに配置するQwen3.5ベースのモデルであるMotionVLAを提案し、そこでPhysトークンはベーストークンの後に予測される。
HumanML3DとMBenchの実験では、軽量な2Bバックボーンを使用しても、MotionVLAはHumanML3Dで50%以上の実際のデータへのダイバーシティギャップを減らし、MBenchで3.8%のモーションコンディション一貫性を改善し、自己回帰運動生成の効果的な定式化として周波数対応のデュアルストリームデカップリングをサポートする。
コード:https://github.com/AIGeeksGroup/MotionVLA。
ウェブサイト:https://aigeeksgroup.github.io/MotionVLA
関連論文リスト
- UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - GGMotion: Group Graph Dynamics-Kinematics Networks for Human Motion Prediction [0.0]
GGMotionはグループグラフのダイナミックス・キネマティクスネットワークで、人間のトポロジをグループでモデル化し、ダイナミックスやキネマティクスの事前利用を改善する。
グループ間およびグループ間相互作用モジュールは、異なるスケールで関節の依存関係をキャプチャするために使用される。
本手法は,短期動作予測において有意な性能差を達成している。
論文 参考訳(メタデータ) (2025-07-10T08:02:01Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。