論文の概要: R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies
- arxiv url: http://arxiv.org/abs/2606.17040v1
- Date: Mon, 15 Jun 2026 17:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.185184
- Title: R2RDreamer: 3D-aware Data Augmentation for Spatially-generalized 2D Manipulation Policies
- Title(参考訳): R2RDreamer:空間一般化2次元マニピュレーションポリシのための3D対応データ拡張
- Authors: Xiuwei Xu, Haowen Sun, Angyuan Ma, Yiwei Zhang, Zhenyu Wu, Xiaofeng Wang, Bingyao Yu, Zheng Zhu, Jie Zhou, Jiwen Lu,
- Abstract要約: R2RDreamerは実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
視覚的補完を2次元ビデオ空間に移動させながら、3次元のアクション・オブザーブレーション編集の幾何的整合性を維持する。
- 参考スコア(独自算出の注目度): 86.2249156068836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial generalization is critical for imitation-learned manipulation policies, but achieving it typically requires scaling demonstrations across diverse object poses, robot configurations, and camera viewpoints. Data augmentation from a few source demonstrations offers a practical alternative to costly real-world collection. Simulation-based augmentation can create controllable variation, but requires complex environment and object setup and may introduce a sim-to-real gap. Recent real-to-real methods avoid these issues by jointly editing 3D observations and action trajectories from real demonstrations, yet they still rely on strong 3D scene parsing and geometry completion, and often produce observations tailored to 3D pointcloud policies rather than RGB-based 2D policies. We propose R2RDreamer, a real-to-real demonstration augmentation framework that preserves the geometric consistency of 3D action-observation editing while moving visual completion to 2D video space. Specifically, R2RDreamer first performs lightweight 3D augmentation by editing incomplete object pointclouds and end-effector trajectories in a shared 3D frame; it then projects the edited scene into masked image-space control videos with occlusion-aware reasoning and uses a dense-control image-to-video model to complete temporally coherent RGB observations. Experiments on spatially shifted manipulation tasks with both 2D diffusion-style policies and vision-language-action policies show that R2RDreamer improves spatial generalization from limited source demonstrations, with analyses validating the contributions of 3D editing, occlusion-aware projection, and video completion.
- Abstract(参考訳): 空間的一般化は、模倣学習された操作ポリシーにとって重要であるが、それを達成するには、様々なオブジェクトのポーズ、ロボットの設定、カメラの視点にまたがるデモをスケールする必要がある。
いくつかの情報源によるデータ拡張は、コストのかかる現実世界のコレクションに代わる実用的な代替手段を提供する。
シミュレーションベースの拡張は制御可能なバリエーションを生み出すことができるが、複雑な環境とオブジェクトの設定が必要であり、sim-to-realギャップを導入する可能性がある。
近年のリアル・トゥ・リアルな手法は、実演から3Dの観察とアクション・トラジェクトリを共同編集することでこれらの問題を回避しているが、それでも強力な3Dシーン解析と幾何学的完備化に依存しており、RGBベースの2Dポリシーではなく、3Dポイントクラウド・ポリシーに適合した観察を生成することが多い。
R2RDreamerは,視覚的補完を2次元ビデオ空間に移動させながら,3次元動作・観測編集の幾何的整合性を保った実演拡張フレームワークである。
具体的には、R2RDreamerはまず、未完成のオブジェクトポイントクラウドとエンドエフェクタトラジェクトリを共有3Dフレームで編集して軽量な3D拡張を行う。
R2RDreamerは3次元編集,オクルージョン・アウェア・プロジェクション,ビデオ補完の寄与を検証し,空間的一般化を改善することを示す。
関連論文リスト
- Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning [51.799524981291235]
エンドツーエンドの操作ポリシーは、汎用的で巧妙なロボット操作を約束することを示している。
2Dファンデーションモデルから2つの重要な制限を継承する。
これらの問題に対処するために、一連のコントリビューションを提示します。
論文 参考訳(メタデータ) (2026-06-01T14:01:11Z) - 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model [18.407923160013404]
本稿では,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。
3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。
きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
論文 参考訳(メタデータ) (2026-03-19T06:14:05Z) - Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface [17.378883024907648]
本稿では,3次元制御インタフェースを通じて2次元視覚データで3次元編集可能性をブリッジすることで,新しいデモを生成するフレームワークであるReal2Edit2Realを紹介する。
提案手法はまず,マルチビューRGB観測から3次元再現モデルを用いてシーン形状を再構成する。
本稿では,空間的に拡張されたマルチビュー操作映像を合成するために,主制御信号として奥行きで案内される多条件映像生成モデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T13:53:25Z) - Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions [23.080971732537886]
Mimic2DMはビデオから抽出した2Dキーポイント軌跡から直接制御ポリシーを学習する新しい動作模倣フレームワークである。
提案手法は多目的であり,様々な領域にわたる物理的に可塑性かつ多様な動作を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2025-12-09T11:30:56Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。