論文の概要: Cloak: Zero-Shot Cross-Embodiment Manipulation by Masking the End-Effector from the VLA
- arxiv url: http://arxiv.org/abs/2606.22836v1
- Date: Mon, 22 Jun 2026 04:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:17:27.782734
- Title: Cloak: Zero-Shot Cross-Embodiment Manipulation by Masking the End-Effector from the VLA
- Title(参考訳): クローク: 終端エフェクターをVLAからマスキングするゼロショットクロスエボディメントマニピュレーション
- Authors: Michael Piseno, Guy Tevet, C. Karen Liu,
- Abstract要約: 本稿では、ゼロショットのクロスボデーメントトランスファーを備えたビジョン・ランゲージ・アクション(VLA)モデルを実現するためのトレーニングレシピを提案する。
エンドエフェクターは、手首のビューとマスキングの大きな一貫した領域を占めており、エンボディディメントに依存しない視覚的推論を可能にしている。
このレシピは、Cloakで訓練されたVLAであるCloak-VLAで、単一のパラレルジャウグリッパーデータセットで実証する。
- 参考スコア(独自算出の注目度): 19.88331510486756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Cloak, a training recipe that endows a Vision-Language-Action (VLA) model with zero-shot cross-embodiment transfer by cloaking the end-effector from its own wrist camera. The end-effector occupies a large and consistent region of the wrist view and masking it allows for embodiment-agnostic visual reasoning. Cloak renders a mask in simulation from the robot's known geometry, accurately and in real time, with no segmentation or generative models. During training, we augment the mask so the model generalizes to embodiments unseen at training time. We demonstrate the recipe with Cloak-VLA, a VLA trained with Cloak on a single parallel-jaw gripper dataset. No data of new embodiments is ever collected. Cloak-VLA transfers zero-shot to various unseen embodiments, including another gripper, another arm, and a five-fingered hand, while preserving the source embodiment's performance. By decoupling the wrist view from its own embodiment, Cloak allows data to outlive the hardware it was collected on.
- Abstract(参考訳): そこで我々は,手首カメラからエンドエフェクターをクローズすることで,ゼロショットのクロスボデーメントトランスファーを備えたビジョン・ランゲージ・アクション(VLA)モデルを実現するトレーニングレシピであるClarkを提案する。
エンドエフェクターは、手首のビューとマスキングの大きな一貫した領域を占めており、エンボディディメントに依存しない視覚的推論を可能にしている。
Cloakは、ロボットの既知の幾何から、正確にかつリアルタイムで、セグメンテーションや生成モデルなしでシミュレーションでマスクを描画する。
トレーニング中にマスクを増強し、トレーニング時に見えない実施形態を一般化する。
このレシピは、Cloakで訓練されたVLAであるCloak-VLAで、単一のパラレルジャウグリッパーデータセットで実証する。
新たな実施形態のデータは収集されていない。
Cloak-VLAは、ゼロショットを別のグリップパー、別のアーム、そして5本指のハンドを含む様々な目に見えないエボディメントに転送し、ソースのエボディメントのパフォーマンスを保っている。
手首のビューを自身の実施形態から切り離すことで、Clarkは収集したハードウェアをデータで上回ることができる。
関連論文リスト
- RealDexUMI: A Wearable Universal Manipulation Interface for Dexterous Robot Learning [21.875676616617838]
本稿では,共有デキスタラスエンドエフェクタモジュールを中心に構築されたウェアラブルユニバーサル操作インタフェースであるRealDexUMIを紹介する。
手のひら側は、人間の指の入力をロボットハンドのコマンドにマッピングし、リアルタイム、手袋なし、直感的で正確な手操作を可能にする。
論文 参考訳(メタデータ) (2026-06-04T11:28:23Z) - LEGS: Fine-Tuning Teleop-Free VLAs for Humanoid Loco-manipulation in an Embodied Gaussian Splatting World [14.534355249709371]
LEGS (Loco-Manipulation via Embodied Gaussian Splatting) は、手持ちのシーンキャプチャから再構築された、フォトリアリスティックな3Dガウスの背景の上にメッシュ前景(ロボット、オブジェクト、プロップ)を合成するハイブリッドシミュレータである。
ユニツリーG1のヒューマノイドロボットでは、3つのタスクにまたがって、LEGSのデータマッチングに純粋に訓練されたポリシーが、あらゆる実験で人間の遠隔操作デモで訓練されたポリシーを上回っている。
また、3DGSの背景効果を非難するメッシュのみのシミュレーションベースラインを上回り、フォトリアリスティックレンダリングが合成データ転送の鍵となることを示している。
論文 参考訳(メタデータ) (2026-05-31T21:36:02Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Cloning Outfits from Real-World Images to 3D Characters for
Generalizable Person Re-Identification [32.85048692231159]
本研究は,現実世界の人物画像から仮想3Dキャラクタへの衣服全体のクローン化を自動で行う手法を提案する。
Unity3Dシーンでクローンされた文字をレンダリングすることで、ClonedPersonと呼ばれるより現実的な仮想データセットが作成される。
実験結果から、ClonedPersonでトレーニングされたモデルは、他の人気のある実世界および合成人物再識別データセットでトレーニングされたモデルよりも、より優れた一般化性能を有することが示された。
論文 参考訳(メタデータ) (2022-04-06T06:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。