論文の概要: One Demo is Worth a Thousand Trajectories: Action-View Augmentation for Visuomotor Policies
- arxiv url: http://arxiv.org/abs/2606.19586v1
- Date: Wed, 17 Jun 2026 20:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.530419
- Title: One Demo is Worth a Thousand Trajectories: Action-View Augmentation for Visuomotor Policies
- Title(参考訳): 1つのデモは、何千ものトラジェクトリの価値がある: バイスモータ政策のアクションビュー強化
- Authors: Chuer Pan, Litian Liang, Dominik Bauer, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Shuran Song,
- Abstract要約: 操作に対する視覚的ポリシーは、複雑なロボット行動のモデル化において顕著な可能性を示している。
ロボットの初期構成と目に見えない障害物の小さな変更は、容易に分布外観察に繋がる。
本稿では、視覚的にリアルな魚眼画像シーケンスとそれに対応する身体的実現可能な行動軌跡を生成する効果的なデータ拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.150827284122403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visuomotor policies for manipulation have demonstrated remarkable potential in modeling complex robotic behaviors, yet minor alterations in the robot's initial configuration and unseen obstacles easily lead to out-of-distribution observations. Without extensive data collection effort, these result in catastrophic execution failures. In this work, we introduce an effective data augmentation framework that generates visually realistic fisheye image sequences and corresponding physically feasible action trajectories from real-world eye-in-hand demonstrations, captured with a portable parallel gripper with a single fisheye camera. We introduce a novel Gaussian Splatting formulation, adapted to wide FoV fisheye cameras, to reconstruct and edit the 3D scene with unseen objects. We utilize trajectory optimization to generate smooth, collision-free, view-rendering-friendly action trajectories and render visual observations from corresponding novel views. Comprehensive experiments in simulation and the real world show that our augmentation framework improves the success rate for various manipulation tasks in both the same scene and the augmented scene with obstacles requiring collision avoidance.
- Abstract(参考訳): 操作のための視覚的ポリシーは、複雑なロボットの挙動をモデル化する際、顕著な可能性を示しているが、ロボットの初期構成や目に見えない障害物の小さな変更は、容易に分布外観察に繋がる。
大規模なデータ収集がなければ、破滅的な実行障害が発生します。
本研究では,魚眼カメラを装着した携帯型パラレルグリップでキャプチャした実世界の眼球運動から,視覚的にリアルな魚眼画像シーケンスとそれに対応する身体的実現可能な行動軌跡を生成する効果的なデータ拡張フレームワークを提案する。
広視野のFoV魚眼カメラに適応した新しいガウス・スプラッティング・フォーミュレーションを導入し, 見えない物体で3Dシーンを再構成・編集する。
我々は、軌道最適化を利用して、スムーズで、衝突のない、ビューレンダリングフレンドリーなアクショントラジェクトリを生成し、対応する新しいビューから視覚的な観察を行う。
シミュレーションと実世界における総合的な実験により,我々は,衝突回避を必要とする障害物のある同一シーンと拡張シーンの両方において,様々な操作タスクの成功率の向上を図っている。
関連論文リスト
- ManiSplat: Manipulation Trajectory Synthesis from Monocular Video via Decoupled 3D Gaussian Splatting [28.256286705954846]
現実の観察から動的でインタラクティブな3Dシーンを再構築することは、コンピュータビジョンとロボティクスの基本的な課題である。
ロボットビデオから直接ガウスのデジタル双生児を制御可能で分離する統合フレームワークであるManiSplatを紹介した。
提案手法は,対話駆動型動的シーンを高忠実度かつ制御性で再構築し,下流ロボットタスクとポリシー学習を効果的に支援する。
論文 参考訳(メタデータ) (2026-06-09T09:55:58Z) - iMaC: Translating Actions into Motion and Contact Images for Embodied World Models [77.395425755122]
身体的世界モデルは、視覚ロボットによる意思決定と対話型環境シミュレーションのための重要なパラダイムとして登場した。
本稿では,実画像を実世界モデルのためのネイティブアクション表現として扱う,新しい統一制御パラダイムである「イメージ・アズ・アクション・コントロール」を提案する。
論文 参考訳(メタデータ) (2026-06-08T17:55:41Z) - Point Tracking Improves World Action Models [29.784606797453662]
ピクセルレベルの予測は、照明やテクスチャなどの不快な要素と動的に絡み合うため、学習された表現はタスク非関連の視覚的変動に弱い。
JOPAT(Joint Pixel-And-Track World-Action Model)を提案する。
論文 参考訳(メタデータ) (2026-05-22T17:08:37Z) - From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning [55.272458304179025]
GS-Playgroundは、エンド・ツー・エンドの知覚学習を促進するために設計されたマルチモーダル・シミュレーション・フレームワークである。
このシステムは640x480の解像度で104 FPSのスループットを達成し、大規模な視覚的RLの障壁を著しく低減する。
論文 参考訳(メタデータ) (2026-04-28T10:05:39Z) - Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning [57.88781687419521]
複数の同期カメラパースペクティブを使用して、各専門家軌跡から擬似演示を生成する。
シミュレーションと実世界の操作タスクの実験は、データ効率と一般化の著しい向上を示している。
以上の結果から,カメラビューのスケーリングは,模倣学習のための実用的でスケーラブルなソリューションであることが示唆された。
論文 参考訳(メタデータ) (2026-04-01T07:00:44Z) - UNDREAM: Bridging Differentiable Rendering and Photorealistic Simulation for End-to-end Adversarial Attacks [29.901185670999595]
私たちは、フォトリアリスティックシミュレータと微分可能機器のギャップを埋める最初のソフトウェアフレームワークであるUNDREAMを紹介します。
UNDREAMは、天気、照明、背景、カメラアングル、軌道、現実的な人間と物体の動きを完全に制御することで、環境の操作を可能にする。
我々は、UNDREAMによって研究者が様々な環境で迅速に探索できる、様々な物理的に可視な対向物体を紹介した。
論文 参考訳(メタデータ) (2025-10-19T16:38:03Z) - Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations [8.133207162076877]
本稿では,LfD(Learning-from-Demonstration)パラダイムに基づくポーズ生成とオブジェクトの軌道模倣を把握するためのフレームワークを提案する。
人間の手の動きを直接模倣するのではなく,実演を対象中心のガイドとして扱う。
我々は,様々な実世界の操作タスクにおけるシミュレーションと実世界の実験の両方において,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-09-25T03:11:07Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。