論文の概要: Sparse2Act: Learning Action-Aligned Sparse 3D Representations for Cross-Domain Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.12759v1
- Date: Wed, 10 Jun 2026 23:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.5055
- Title: Sparse2Act: Learning Action-Aligned Sparse 3D Representations for Cross-Domain Robot Manipulation
- Title(参考訳): スパース2Act:クロスドメインロボットマニピュレーションのための動作適応スパース3次元表現学習
- Authors: Yu Guo, Chang Yu, Siyu Ma, Yunuo Chen, Yin Yang, Ying Nian Wu, Chenfanfu Jiang,
- Abstract要約: Sparse2Actは、スパースポイントクラウドエンコーダの事前学習のための観測・動作アライメントフレームワークである。
マスク付きスパース3Dトークンは、観察と組み合わせたワークスペース運動の周囲のシーン特徴を整理するために訓練される。
LIBERO-10ベンチマークでは,500ステップの微調整を行い,平均86.9%の成功を達成した。
- 参考スコア(独自算出の注目度): 52.00134393320209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explicit 3D representations are attractive for manipulation because they expose object shape, workspace geometry, and robot-object relations in metric coordinates. However, sparse 3D encoders are often learned through downstream task objectives, tying the representation to a particular data distribution, policy architecture, and action parameterization. We introduce Sparse2Act, an observation-action alignment framework for pretraining sparse point-cloud encoders. The key idea is to use task-space end-effector actions as geometric supervision: masked sparse 3D tokens are trained to organize scene features around the workspace motion paired with the observation. After pretraining, only the encoder initialization is reused by downstream policies, allowing them to retain their own architectures and action spaces, including joint-space commands. On the LIBERO-10 benchmark, our method achieves 86.9% average success after 500 fine-tuning steps. The same pretrained encoder supports LIBERO-to-Meta-World cross-domain transfer, achieving 73.4% average success on the Meta-World-5 benchmark. Ablations on the objective and decoder capacity show that the gains come from the masked action-alignment signal and remain useful across downstream action decoders. In real-world experiments, simulation pretraining followed by limited real-data fine-tuning achieves an average success rate of 72.5% across four tasks, demonstrating effective sim-to-real transfer. These results suggest that robot actions can provide compact geometric supervision for reusable sparse 3D representations.
- Abstract(参考訳): 露骨な3D表現は、オブジェクトの形状、ワークスペースの幾何学、および計量座標におけるロボットとオブジェクトの関係を明らかにするため、操作には魅力的である。
しかし、スパース3Dエンコーダはしばしば下流のタスクの目的を通じて学習され、特定のデータ分散、ポリシーアーキテクチャ、アクションパラメータ化に表現を結び付ける。
Sparse2Actは、スパースポイントクラウドエンコーダの事前学習のための観測・動作アライメントフレームワークである。
マスク付きスパース3Dトークンは、観察と組み合わせたワークスペース運動の周囲のシーン特徴を整理するために訓練される。
事前トレーニング後、エンコーダの初期化はダウンストリームポリシーによって再利用され、共同スペースコマンドを含む独自のアーキテクチャとアクションスペースを保持することができる。
LIBERO-10ベンチマークでは,500ステップの微調整を行い,平均86.9%の成功を達成した。
同じ事前訓練されたエンコーダはLIBERO-to-Meta-Worldクロスドメイン転送をサポートし、Meta-World-5ベンチマークで73.4%の平均的な成功を達成した。
目的とデコーダ容量に関するアブレーションは、マスクされたアクションアライメント信号から得られるゲインが、下流のアクションデコーダ全体で有用であることを示しています。
実世界の実験では、シミュレーション事前訓練と、制限された実データの微調整により、4つのタスクで平均72.5%の成功率が達成され、効果的なシミュレート・トゥ・リアル・トランスファーが実証される。
これらの結果から, ロボット行動は, 再利用可能なスパース3次元表現に対して, コンパクトな幾何学的監督を提供することができることが示唆された。
関連論文リスト
- GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation [54.671815855499034]
視覚言語アクション(VLA)ポリシーは、セマンティック先行をアクション生成に転送することで、言語条件のロボット操作を進化させた。
標準的な行動模倣学習は、しばしば明示的な3次元空間情報、密集した幾何学的監督、将来の環境進化の十分なモデリングを欠いている。
フィードフォワード3Dガウス世界モデルプラグインである textbfGaussianDream を提案する。
論文 参考訳(メタデータ) (2026-05-20T05:51:30Z) - VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning [29.62906091681386]
VolumeDPは空間アライメントを3Dで明示的に推論することで復元するポリシーアーキテクチャである。
LIBEROシミュレーションベンチマークでは、最先端の平均成功率は88.8%に達する。
論文 参考訳(メタデータ) (2026-03-18T13:40:24Z) - Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining [4.039082584778385]
3次元多視点動作記述型ロボットマニピュレーション事前学習(CLAMP)のコントラスト学習について紹介する。
RGB-D画像とカメラ外部画像から計算した統合点雲から、深度と3次元座標によるマルチビュー4チャンネル画像観察を再レンダリングした。
事前訓練されたエンコーダは、オブジェクトの幾何学的および位置的情報とロボットのアクションパターンを関連付けることを学習する。
論文 参考訳(メタデータ) (2026-01-31T23:32:54Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation [29.01984677695523]
本稿では6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。
シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。
代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。
論文 参考訳(メタデータ) (2023-05-06T05:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。