論文の概要: ManiSplat: Manipulation Trajectory Synthesis from Monocular Video via Decoupled 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2606.10645v1
- Date: Tue, 09 Jun 2026 09:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.426322
- Title: ManiSplat: Manipulation Trajectory Synthesis from Monocular Video via Decoupled 3D Gaussian Splatting
- Title(参考訳): ManiSplat: Decoupled 3D Gaussian Splattingによる単眼ビデオからの操作軌道合成
- Authors: Wenhao Hu, Haonan Zhou, Liu Liu, Yun Du, Xinjie Wang, Ziang Li, Zhizhong Su, Gaoang Wang,
- Abstract要約: 現実の観察から動的でインタラクティブな3Dシーンを再構築することは、コンピュータビジョンとロボティクスの基本的な課題である。
ロボットビデオから直接ガウスのデジタル双生児を制御可能で分離する統合フレームワークであるManiSplatを紹介した。
提案手法は,対話駆動型動的シーンを高忠実度かつ制御性で再構築し,下流ロボットタスクとポリシー学習を効果的に支援する。
- 参考スコア(独自算出の注目度): 28.256286705954846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic and interactive 3D scenes from real-world observations remains a fundamental challenge in computer vision and robotics. While recent advances in 3D Gaussian Splatting have enabled high-fidelity static reconstruction, extending it to interactive environments with articulated robots and manipulable objects remains difficult due to complex contact interactions and abrupt pose changes. To address these challenges, we introduce ManiSplat, a unified framework that reconstructs controllable and decoupled Gaussian digital twins directly from monocular ego-view robotic videos. Our method introduces a Graph-Structured Disentangled Representation that separates the robot, objects, and background into independently optimizable Gaussian subfields organized within a scene graph. To ensure stability, we propose a Task-Oriented Spatio-Temporal Alignment module that leverages the inherent logic of manipulation tasks-alternating between Motion and Skill phases-to construct accurate pseudo-ground-truth trajectories. Finally, a joint photometric-geometric optimization ensures the reconstructed scenes are temporally coherent, physically consistent, and simulation-ready. Extensive experiments demonstrate that our approach reconstructs interaction-driven dynamic scenes with high fidelity and controllability, effectively supporting downstream robotic tasks and policy learning.
- Abstract(参考訳): 現実の観察から動的でインタラクティブな3Dシーンを再構築することは、コンピュータビジョンとロボティクスの基本的な課題である。
近年の3Dガウス・スプレイティングの進歩により、高忠実度な静的再構成が可能となったが、複雑な接触相互作用や突然のポーズの変化により、ロボットや操作可能な物体と対話的な環境に拡張することは困難である。
これらの課題に対処するため,モノクラーエゴビューロボットビデオから直接ガウスのデジタル双生児を再構成し,分離する統合フレームワークであるManiSplatを紹介した。
本手法では,ロボット,オブジェクト,背景を独立に最適化可能なガウス部分フィールドに分割し,シーングラフ内に配置するグラフ構造化ディスタングル表現を提案する。
安定性を確保するために,動作とスキルの相を交互に操作するタスクの固有ロジックを活用するタスク指向時空間アライメントモジュールを提案する。
最後に、共同測光幾何最適化により、再構成されたシーンが時間的に一貫性があり、物理的に整合性があり、シミュレーション可能なことが保証される。
大規模な実験により,本手法は対話駆動型動的シーンを高忠実度・制御性で再構築し,下流ロボットタスクとポリシー学習を効果的に支援することを示した。
関連論文リスト
- QuadVerse: An Integrated Framework Aligning Visual-Physical Reality for Quadruped Simulation [31.92788136725977]
映像認識,物理インタラクション,アクチュエータダイナミクスを調整するための校正基板として,再構成シーンを利用する統合フレームワークであるQuadVerseを紹介した。
ここでは,QuadVerseが関連するベースライン上での復元品質と移動追跡を改善したことを示す。
論文 参考訳(メタデータ) (2026-06-05T10:18:24Z) - Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes [25.939318593012484]
動的駆動シーンの再構築は、センサ・リアリスティック・シミュレーションによる自律システム開発に不可欠である。
我々は,動的シーンを明示的なインスタンス分解と学習可能なモーショントラジェクトリで再構成する,自己教師型3次元ガウススティングフレームワークIDSplatを提案する。
本手法は, インスタンスレベルの分解を維持しつつ, 競合する再構成品質を実現し, 再トレーニングを伴わずに, 多様なシーケンスやビュー密度を一般化する。
論文 参考訳(メタデータ) (2025-11-24T15:48:08Z) - DynaSplat: Dynamic-Static Gaussian Splatting with Hierarchical Motion Decomposition for Scene Reconstruction [9.391616497099422]
我々は,ガウススプラッティングをダイナミックなシーンに拡張するアプローチであるDynaSplatを提案する。
我々は、変形オフセット統計と2次元運動流の整合性の融合により、シーン要素を静的または動的に分類する。
次に、粗い大域変換ときめ細かい局所運動の両方を捉える階層的な動きモデリング戦略を導入する。
論文 参考訳(メタデータ) (2025-06-11T15:13:35Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。