論文の概要: Contrastive Action-Image Pre-training for Visuomotor Control
- arxiv url: http://arxiv.org/abs/2606.17256v1
- Date: Mon, 15 Jun 2026 20:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.127775
- Title: Contrastive Action-Image Pre-training for Visuomotor Control
- Title(参考訳): ビジュモータ制御のためのコントラスト行動画像事前学習
- Authors: Yuvan Sharma, Dantong Niu, Anirudh Pai, Zekai Wang, Zhuoyang Liu, Baifeng Shi, Stefano Saravalle, Boning Shao, Ruijie Zheng, Jing Wang, Konstantinos Kallidromitis, Yusuke Kato, Fabio Galasso, Yuke Zhu, Danfei Xu, Linxi "Jim" Fan, Jitendra Malik, Trevor Darrell, Roei Herzig,
- Abstract要約: エンドエフェクタアクションのプロキシとして,大規模なエゴセントリックビデオからの人間の手ポーズを取り扱う視覚エンコーダであるCAIPを紹介する。
人間のビデオは32,041時間、ロボット操作のデータは88時間しかなく、CAIPは最先端の視覚エンコーダより優れています。
- 参考スコア(独自算出の注目度): 91.5630572541332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision encoders for robotics face a fundamental bottleneck: robotic datasets lack the scale necessary for large-scale pre-training. Prior work circumvents this data scarcity by turning to internet-scale image and language data or egocentric human video. While these models show promise, neither paradigm learns from paired vision and action data, which downstream visuomotor control policies require. However, robot trajectories, the most direct source of this paired signal, are not available at pre-training scale, motivating us to extract action signals from abundant human video instead. To this end, we introduce CAIP (Contrastive Action-Image Pre-training), a vision encoder that treats human hand poses from large-scale egocentric video as a proxy for end-effector actions. By extracting 3D hand keypoints, a representation that aligns naturally with downstream robot action spaces, CAIP learns a unified action-image representation through a contrastive objective. Leveraging 32,041 hours of egocentric human video and only 88 hours of robotic manipulation data, CAIP outperforms state-of-the-art vision encoders including DINOv2, SigLIP, MVP, and R3M. Evaluated on a challenging real-world dexterous manipulation setup using Dexmate Vega and Sharpa Wave hands, CAIP yields performance gains of more than 30% on tasks involving folding, pouring, and fine-grained manipulation. Our results show that our method of contrastive action-centric pre-training yields a scalable path to achieving robust visual representations better suited for physical interaction.
- Abstract(参考訳): ロボットのための既存のビジョンエンコーダは、基本的なボトルネックに直面している。
以前の作業では、インターネット規模の画像や言語データ、あるいはエゴセントリックな人間のビデオに転換することで、このデータ不足を回避している。
これらのモデルは将来性を示すが、どちらのパラダイムもペア化されたビジョンとアクションデータから学習しない。
しかし、このペア信号の最も直接的な源泉であるロボット軌道は、事前学習の規模では利用できないため、代わりに豊富な人間のビデオから行動信号を抽出する動機となっている。
この目的のために我々は,大規模なエゴセントリックビデオからの人間の手ポーズをエンドエフェクタアクションのプロキシとして扱う視覚エンコーダであるCAIP(Contrastive Action- Image Pre-training)を紹介した。
下流ロボットのアクション空間と自然に整合する表現である3D手指キーポイントを抽出することにより、CAIPは対照的な目的を通じて統一されたアクションイメージ表現を学習する。
DINOv2、SigLIP、MVP、R3Mといった最先端のビジョンエンコーダよりも優れています。
Dexmate Vega と Sharpa Wave を使って、現実的に困難な操作のセットアップを評価すると、CAIP は折り畳み、注ぐ、きめ細かい操作を含むタスクで30%以上のパフォーマンス向上を達成している。
提案手法は, 身体的相互作用に適した頑健な視覚表現を実現するために, 提案手法がスケーラブルな経路を導出することを示す。
関連論文リスト
- HARP-VLA: Human-Robot Aligned Representation Learning for Vision-Language-Action Model [13.153130497047043]
大規模な人間のビデオから一般化可能な視覚-言語-アクションモデルを学ぶことは有望だが、断熱的不一致のため難しい。
本稿では,人間のビデオからより効果的なVLA事前学習のための人間ロボット協調表現学習フレームワークであるHARPを提案する。
特徴可視化、シミュレーション、実世界の操作実験は、人間ロボットのアライメントと下流ポリシーのパフォーマンスを改善した。
論文 参考訳(メタデータ) (2026-05-29T12:36:30Z) - PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos [90.4816165292854]
既存の学習ベースの手法は、高品質な3Dデータと手動アノテーションによる教師付きトレーニングに大きく依存している。
そこで本研究では,手動物体間相互作用からオブジェクトの調音を直接抽出する手法であるPAWSを提案する。
提案手法は,HD-EPICやArti4Dを含む公開データセット上で評価し,ベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2026-03-26T15:16:51Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。