論文の概要: Supervise What Survives: Geometry-Guided VLA Adaptation from Synthetic Robot Videos
- arxiv url: http://arxiv.org/abs/2606.24448v1
- Date: Tue, 23 Jun 2026 11:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.917837
- Title: Supervise What Survives: Geometry-Guided VLA Adaptation from Synthetic Robot Videos
- Title(参考訳): 生き残るものを監督する:合成ロボットビデオによる幾何学誘導型VLA適応
- Authors: Danze Chen, Yanzhe Chen, Qiming Huang, Zhijun Cao, Chen Gao, Mike Zheng Shou,
- Abstract要約: 生成した視覚から低レベル制御を導出することは、ミスマッチした抽象化である、と我々は主張する。
我々は、将来の2次元エンドエフェクタ・ウェイポイントとして幾何学的コンテンツを抽出するtextbfGRAを提案する。
実際のロボットタスクでは、GRAは一致したデータ予算の下で擬似アクションベースラインを上回ります。
- 参考スコア(独自算出の注目度): 43.32573764638152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models require large-scale video-action pairs, yet real teleoperation remains scarce. While generated robot videos offer a scalable alternative, existing methods treat them as real robot data by recovering pseudo-actions from synthesized pixels. We argue that deriving low-level control from generated visuals is a mismatched abstraction. A video captures only \emph{geometry}: the spatial trajectory representing the \emph{where} of a task. A real demonstration captures \emph{control}: the exact motor commands representing the \emph{how}. Human-to-robot video generation preserves these unequally: the visible geometry survives the generation process, while the underlying control signals are lost. This \textbf{Asymmetric Preservation Principle} dictates a clean rule: this surviving geometry should solely supervise visual perception, leaving control to real demonstrations. Following this principle, we propose \textbf{GRA} (\textbf{G}eometry-guided \textbf{R}epresentation \textbf{A}lignment), which extracts the geometric content as future 2D end-effector waypoints, computed from the source human video through pose estimation, retargeting, simulation, and calibrated projection, and routes them to the VLA vision backbone via an auxiliary 2D head. The action head is trained on real demonstrations only. During fine-tuning, the waypoint loss persists as a \textbf{spatial representation anchor} that prevents the backbone from losing its geometric grounding. On real-robot tasks, GRA outperforms pseudo-action baselines under matched data budgets and narrows the gap to policies trained with substantially more real demonstrations, suggesting that correctly routed geometry bridges generated videos to robot policies more reliably than recovered actions.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは大規模なビデオアクション・ペアを必要とするが、実際の遠隔操作は少ない。
生成されたロボットビデオはスケーラブルな代替手段を提供するが、既存の方法では、合成されたピクセルから擬似アクションを回収することで、実際のロボットデータとして扱う。
生成した視覚から低レベル制御を導出することは、ミスマッチした抽象化である、と我々は主張する。
ビデオは、タスクの \emph{where} を表す空間的軌跡である \emph{geometry} のみをキャプチャする。
実演は \emph{control}: \emph{how} を表す正確なモーターコマンドをキャプチャする。
可視的幾何学は生成過程を生き残り、基礎となる制御信号は失われる。
この『textbf{Asymmetric Preservation Principle} 』はクリーンな規則を定めている。
この原理に従うと、将来の2Dエンドエフェクタ・ウェイポイントとして幾何学的コンテンツを抽出し、ポーズ推定、再ターゲティング、シミュレーション、キャリブレーションにより、ソース映像から計算し、補助的な2Dヘッドを介してVLAビジョンバックボーンにルーティングする。
アクションヘッドは実際のデモのみにトレーニングされています。
微調整の間、ウェイポイントの損失は‘textbf{spatial representation anchor}’として持続し、背骨が幾何学的な接地を失うのを防ぐ。
実際のロボットタスクでは、GRAは一致したデータ予算の下で擬似アクションベースラインを上回り、実際の実演で訓練されたポリシーとのギャップを狭める。
関連論文リスト
- GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors [113.71148915419246]
GRAILは3Dアセット、シミュレーター対応シーン、およびビデオファンデーションモデル(VFM)の先行データで構成され、物理的環境を再構築したりロボットを遠隔操作したりすることなく対話を合成するデジタル生成パイプラインである。
GRAILは、オブジェクト形状、カメラパラメータ、メートル法スケール、環境深度、ロボットが提案する文字がビデオ生成の前に知られ、再構成中に再利用される、完全に定義された3D構成から始まる。
我々は、回復した動作をヒューマノイドロボットに再ターゲティングし、補完的なタスク・ジェネラル・モルフォロジー・トラッカーを訓練する。
GRAILは、ピックアップ、オブジェクト操作、着座にまたがる2万以上のシーケンスを生成する
論文 参考訳(メタデータ) (2026-06-03T17:57:45Z) - Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors [51.096845970243855]
高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
論文 参考訳(メタデータ) (2026-05-21T10:15:39Z) - GEM-4D: Geometry-Enhanced Video World Models for Robot Manipulation [72.52773248997929]
ビデオワールドモデルは、1つの命令から現実的な未来を生成できるが、時間とともに一貫したポイントレベルの動きを維持できないことが多い。
GEM-4Dは、トレーニング中にビデオ生成バックボーンに高密度な4D対応制御を注入する幾何学的地上ビデオワールドモデルである。
Inverse dynamicsモジュールは、対応性のあるビデオロールアウトを実行可能なロボットトラジェクトリに変換し、現実世界とシミュレーション操作の両方で直接デプロイできる。
論文 参考訳(メタデータ) (2026-05-20T21:36:44Z) - Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models [65.05130114320734]
一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと我々は主張する。
本研究では,事前訓練されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション・モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、シームレスな視覚と幾何学のマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-14T15:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。