論文の概要: $μ_0$: A Scalable 3D Interaction-Trace World Model
- arxiv url: http://arxiv.org/abs/2606.13769v2
- Date: Mon, 15 Jun 2026 06:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.902021
- Title: $μ_0$: A Scalable 3D Interaction-Trace World Model
- Title(参考訳): $μ_0$: スケーラブルな3Dインタラクショントレースワールドモデル
- Authors: Seungjae Lee, Yoonkyo Jung, Jusuk Lee, Jonghun Shin, Amir Hossein Shahidzadeh, Yao-Chih Lee, H. Jin Kim, Jia-Bin Huang, Furong Huang,
- Abstract要約: 3次元トレースに基づくスケーラブルな世界モデルを提案する。
我々のTraceExtractシステムは自動的に3Dの監視を抽出する。
これらの結果から,3次元トレーサを拡張性および移動性のあるクロスボデーメント操作の表現として確立した。
- 参考スコア(独自算出の注目度): 54.38434730157622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct action models require embodiment-specific labels that hinder scalability. We present $μ_0$, a scalable world model based on 3D traces. Rather than predicting dense pixels or directly modeling actions, $μ_0$ forecasts smooth 3D trajectories for salient interaction points such as objects, tools, hands, and contact regions, yielding a compact, embodiment-agnostic motion interface. To enable training from diverse video sources, our TraceExtract system automatically extracts 3D supervision by selecting keypoints, constructing globally aligned traces, and associating motion segments with hierarchical language captions. This TraceExtract supervision pretrains $μ_0$ by combining a pretrained vision-language backbone with a modular trace expert, which represents each query via B-spline control points and predicts future traces. Experiments show that $μ_0$ outperforms baselines in both 2D and 3D trace prediction, including trace prediction models and tokenized VLM methods. Because $μ_0$ is frozen and reusable, it can be paired with action experts for downstream robot embodiments. Despite action-free pretraining, the resulting trace-conditioned policies achieve performance competitive with VLA models pretrained with action supervision, such as $π_0$. These results establish 3D traces as a scalable and transferable representation for cross-embodiment manipulation.
- Abstract(参考訳): アクションがどのように物理的変化を誘発するかを捉えた世界モデルは、エンボディメント固有のアクションラベルに頼ることなく、スケーラブルなロボット学習を可能にする。
ピクセル空間ビデオモデルは、広範に視覚的な先行性を提供するが、密度の高い外観再構成においてモデル容量を拡大する一方、ダイレクトアクションモデルはスケーラビリティを阻害するエンボディメント固有のラベルを必要とする。
3次元トレースに基づくスケーラブルな世界モデルであるμ_0$を提示する。
密度の高いピクセルを予測したり、直接モデリングする代わりに、$μ_0$はオブジェクト、ツール、手、接触領域などの健全な相互作用点のための滑らかな3次元軌跡を予測し、コンパクトでエンボディメントに依存しないモーションインターフェースを生成する。
多様なビデオソースからのトレーニングを可能にするため,キーポイントを選択し,グローバルに整列したトレースを構築し,動作セグメントを階層的な言語キャプションに関連付けることで,TraceExtractシステムは3Dの監視を自動的に抽出する。
このTraceExtract監督は、事前訓練された視覚言語バックボーンとモジュールトレース専門家を組み合わせることで、B-スプライン制御ポイントを介して各クエリを表現し、将来のトレースを予測することで、$μ_0$を事前トレーニングする。
実験によると、$μ_0$は、トレース予測モデルやトークン化されたVLMメソッドを含む、2次元および3次元のトレース予測において、ベースラインを上回っている。
$μ_0$は冷凍再利用可能なため、下流ロボットの動作の専門家と組み合わせることができる。
アクションフリーの事前トレーニングにもかかわらず、結果として生じるトレース条件付きポリシーは、アクション監視によって事前訓練されたVLAモデル(例えば$π_0$)と性能を競合させる。
これらの結果から,3次元トレーサを拡張性および移動性のあるクロスボデーメント操作の表現として確立した。
関連論文リスト
- Instruct-Particulate: Scaling Feed-Forward 3D Object Articulation with Kinematic Control [86.64250947574749]
合成された3Dオブジェクトの再構成は、アニメーション、ゲーム、ロボットシミュレーションにおいて重要である。
最近のニューラルネットワークは、3Dオブジェクトの明瞭な構造を推定できるが、その一般化は注釈付きデータの不足によって制限されている。
Instruct-Particulateは、3Dメッシュとターゲットキネマティック仕様を併用するモデルである。
論文 参考訳(メタデータ) (2026-06-12T17:59:36Z) - AFUN: Towards an Affordance Foundation Model for Functionality Understanding [12.890216832485647]
我々は,機能理解のための手頃な基礎モデルに向けたステップとして,我々のモデルを提示する。
我々は、異種ロボット、人間、シミュレーション、現実世界のスキャンデータを共有価格スキーマに変換する大規模な標準化データパイプラインを構築します。
私たちのモデルは、4つのベンチマークから8つのテストセットにまたがる大きなマージンで、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-06-01T17:50:16Z) - From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes [55.32681167870698]
Video-informed Pose Spaces (ViPS)は、自動リップメッシュのための有効な調律の潜時分布を検出するフィードフォワードフレームワークである。
ViPSは生成ビデオの先行値を所定のリグパラメータ化上の普遍分布に転送する。
評価の結果,VPSは,合成アーティストが作成した4Dデータに基づいて訓練した最先端の手法の性能と,妥当性と多様性の両面で一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-19T21:21:11Z) - Which Reconstruction Model Should a Robot Use? Routing Image-to-3D Models for Cost-Aware Robotic Manipulation [14.047294299357352]
複数の再構築手法は、異なるコスト品質のトレードオフを提供する。
本稿では、再構成スコアを2つのコンポーネントに分割する新しいルーティングフレームワークSCOUTを提案する。
SCOUTは推論時に任意のコスト制約をサポートし、ロボット工学で一般的な多次元コスト制約を調節する。
論文 参考訳(メタデータ) (2026-03-29T18:23:28Z) - CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning [43.7594705101778]
CLAPと呼ばれる画像と点雲の教師なし微分レンダリングに基づく事前学習手法を提案する。
本手法は、事前学習のためのより情報性の高い点/画素を選択するために、曲率サンプリングによる計算ハードルを克服する。
CLAPは従来のSOTA事前学習法と比較して最大100%性能向上を達成した。
論文 参考訳(メタデータ) (2024-12-04T06:26:12Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。