論文の概要: MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction
- arxiv url: http://arxiv.org/abs/2606.18558v1
- Date: Wed, 17 Jun 2026 00:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.941671
- Title: MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction
- Title(参考訳): MolmoMotion: 言語指導による3次元の点軌跡予測
- Authors: Jianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna,
- Abstract要約: MolmoMotionは、自動回帰座標予測とフローマッチングに基づく軌道生成の両方をサポートする一般的な動き予測モデルである。
言語命令の異なる多様な動作パターンを正確に予測し、PointMotionBenchの既存の動作予測ベースラインを大幅に上回る。
ロボット操作のトレーニング効率と一般化を改善し、予測された軌道は、よりリアルな物体の動きで映像を合成する生成モデルに効果的なモーションガイダンスを提供する。
- 参考スコア(独自算出の注目度): 48.93378286720386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion forecasting is central to visual intelligence: agents must anticipate how objects will move in order to plan actions, reason about physical interactions, and synthesize realistic futures. We argue that 3D points in world coordinates provide a general representation that is class-agnostic, view-stable, compact, and directly useful for downstream tasks. We formalize the task of goal-conditioned 3D point motion forecasting: given a short visual history, a set of 3D query points on an object of interest, and a language description of the intended goal, the model predicts the future 3D trajectory of each point. We introduce a full stack to study this task at scale: (1) MolmoMotion-1M is a large corpus of action-described, object-grounded 3D point trajectories annotated from 1.16M unconstrained videos; (2) PointMotionBench is a human-verified benchmark spanning 111 object categories and 61 motion types; and (3) MolmoMotion is a general motion forecasting model that supports both autoregressive coordinate prediction and flow-matching-based trajectory generation. MolmoMotion accurately predicts diverse motion patterns with different language instructions, and significantly outperforms existing motion prediction baselines on PointMotionBench. Finally, we show that the learned 3D motion prior transfers well to downstream applications: it improves training efficiency and generalization for robot manipulation, and its predicted trajectories provide effective motion guidance for generative models to synthesize videos with more realistic object motion.
- Abstract(参考訳): エージェントは、アクションを計画し、物理的相互作用を推論し、現実的な未来を合成するために、オブジェクトがどのように動くかを予測する必要があります。
我々は、世界座標の3Dポイントが、クラスに依存しない、ビューが安定で、コンパクトで、下流のタスクに直接有用な一般的な表現を提供すると論じている。
目標条件付き3D点運動予測のタスクを形式化する: 短い視覚的履歴、関心対象の3D問合せポイントのセット、目的とする目標の言語記述を与えられた場合、モデルは各点の将来の3D軌道を予測する。
1)MomoMotion-1Mは1.16Mビデオから注釈付けされたアクション記述・オブジェクトグラウンド3D点軌跡の大きなコーパスであり、(2)PointMotionBenchは111のオブジェクトカテゴリと61のモーションタイプにまたがる人間認証ベンチマークであり、(3)MomoMotionは自動回帰座標予測とフローマッチングに基づく軌道生成の両方をサポートする一般的な動き予測モデルである。
MolmoMotionは、言語命令の異なる多様な動きパターンを正確に予測し、PointMotionBench上で既存の動き予測ベースラインを大幅に上回る。
最後に,学習した3Dモーションの先行処理は,ロボット操作の訓練効率の向上と一般化,そして予測された軌道は,よりリアルな物体の動きで映像を合成する生成モデルに効果的な動作ガイダンスを提供する。
関連論文リスト
- ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos [48.24897274501108]
本研究では,3次元オブジェクト中心のダイナミックスモデルを導入し,短い自我中心の映像シーケンスから剛体物体の将来の6-DoFのポーズと軌跡を予測する。
ピクセルまたは潜在空間で動作する従来の世界やダイナミクスモデルとは異なり、ObjectForesightはオブジェクトレベルで3Dで明示的に世界を表現する。
我々は、ObjectForesightが、未確認のオブジェクトやシーンへの精度、幾何整合性、一般化において、大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-08T18:58:08Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation [11.233768932957771]
3次元流れは、シーン内の3次元粒子の動きの傾向を表す。
ManiTrendは3D粒子、視覚観察、操作動作のダイナミクスをモデル化する統合フレームワークである。
提案手法は最先端の性能を高い効率で達成する。
論文 参考訳(メタデータ) (2025-02-14T09:13:57Z) - Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [12.944411575346528]
ATOP(Articulate That Object Part)は、テキストプロンプトに規定された部分とその動きについて静的な3Dオブジェクトを記述するための、モーションパーソナライゼーションに基づく新規な数ショット方式である。
提案手法は,より高精度なリアルな動作サンプルを生成でき,より一般化可能な3次元動作予測を実現する。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文 参考訳(メタデータ) (2024-10-09T08:38:21Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。