論文の概要: Pose6DAug: Physically Plausible Multi-view Object Swapping for Robot Data Augmentation
- arxiv url: http://arxiv.org/abs/2606.20118v2
- Date: Fri, 19 Jun 2026 06:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.034841
- Title: Pose6DAug: Physically Plausible Multi-view Object Swapping for Robot Data Augmentation
- Title(参考訳): Pose6DAug:ロボットデータ拡張のための物理的にプラズブルな多視点オブジェクトスワッピング
- Authors: Jonghoon Lee, Seong Hyeon Park, Byungwoo Jeon, Minha Lee, Jinwoo Shin,
- Abstract要約: 障害駆動型データ拡張フレームワークであるPose6DAugを紹介します。
我々は、ポリシーの成功エピソードを、障害モードのターゲットとなるデモに変換する。
提案手法は,時間的コヒーレントな6次元ポーズ軌道によって駆動される明示的なメッシュで対象物体を固定し,直接3次元で動作させる。
- 参考スコア(独自算出の注目度): 52.61098793949261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) policies have shown strong potential for general-purpose manipulation, yet they often fail on novel, out-of-distribution objects whose appearance or geometry deviates from the training distribution. The standard remedy is to collect multi-view teleoperation data for every failure case, but this scales poorly in both cost and time. We introduce Pose6DAug, a failure-driven data augmentation framework that turns a policy's own successful episodes into targeted demonstrations for its failure modes, without any new data collection. Our key insight is that each successful episode already encodes a physically valid action trajectory together with calibrated multi-view observations. By swapping only the manipulated object while preserving this trajectory, we obtain new and physically grounded demonstrations. However, naive 2D video editing breaks multi-view consistency and physical plausibility, particularly under heavy occlusion and egocentric viewpoints. Our method instead operates directly in 3D, anchoring the target object with an explicit mesh driven by a temporally coherent 6D pose trajectory, ensuring geometrically consistent renderings across all camera views. Fine-tuning a VLA on data augmented by our method improves success rates by 16.5% relative to the state-of-the-art baseline on novel objects, while preserving in-distribution performance. These results show that multi-view and physically consistent augmentation is a practical path to scalable VLA generalization.
- Abstract(参考訳): VLA(Vision-Language-action)ポリシーは、汎用的な操作の強い可能性を示しているが、しばしば、外観や幾何学がトレーニング分布から逸脱した、新しい分布外オブジェクトで失敗する。
標準的な対策は、障害ケース毎に複数のビューの遠隔操作データを収集することだが、これはコストと時間の両方で不十分にスケールする。
フェールドリブンなデータ拡張フレームワークであるPose6DAugを紹介します。これは、ポリシーが成功したエピソードを、新たなデータ収集なしに、フェールモードのターゲットとなるデモに変換するものです。
我々の重要な洞察は、それぞれの成功エピソードは、校正された多視点観察とともに、すでに物理的に有効な行動軌跡を符号化しているということである。
この軌道を保ちながら操作対象のみを交換することにより、新しい、物理的に接地された実演が得られる。
しかし、単純2Dビデオ編集は多視点の一貫性と物理的妥当性を損なう。
提案手法は直接3Dで動作し、時間的コヒーレントな6Dポーズ軌道によって駆動される明示的なメッシュで対象オブジェクトを固定し、幾何学的に一貫したレンダリングを全カメラビューにわたって確保する。
本手法により強化されたデータ上でのVLAの微調整により,新規なオブジェクトに対する最先端のベースラインと比較して16.5%の精度向上を実現し,分散性能を保っている。
これらの結果は、多視点および物理的に一貫した拡張がスケーラブルなVLA一般化への実践的な道であることを示している。
関連論文リスト
- From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation [67.16145181790522]
本稿では,視覚・言語・行動モデル(VLA)における空間認識と操作の課題に取り組む。
幾何学的ガイダンスに基づいて多視点特徴を整列する幾何誘導型ゲート変換器(G3T)を提案する。
動作学習効率を向上させるために,有効な動作多様体上での動作を直接予測するアクション・マニフォールド・ラーニング(AML)を導入する。
論文 参考訳(メタデータ) (2026-05-12T09:21:29Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。
中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。
この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文 参考訳(メタデータ) (2025-09-29T10:55:48Z) - One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs [8.872100864022675]
我々は,Sybolicized Abstraction Graphs (PSAG) によるビデオデモの解釈を提案する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を示す。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
論文 参考訳(メタデータ) (2024-08-22T18:26:47Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。