論文の概要: G$^3$VLA: Geometric inductive bias for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.24472v1
- Date: Tue, 23 Jun 2026 12:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.937212
- Title: G$^3$VLA: Geometric inductive bias for Vision-Language-Action Models
- Title(参考訳): G$^3$VLA:ビジョン・ランゲージ・アクションモデルに対する幾何学的帰納バイアス
- Authors: Yue Peng, Yongzhe Zhao, Artur Habuda, Khuyen Pham, Yanheng Zhu, Tran Nguyen Le, Fares Abu-Dakka, Li Guo,
- Abstract要約: 視覚言語アクション(VLA)モデルは、汎用ロボット操作において急速に進歩した。
それらの視覚トークンは、ロボットのカメラのキャリブレーションされた形状ではなく、2D画像座標に基づいている。
予め訓練されたVLAの視覚的ストリームに校正された構造を注入するカメラ対応幾何モジュールであるG$3$VLAを提案する。
- 参考スコア(独自算出の注目度): 3.704517635293094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models have made rapid progress in generalist robot manipulation by harnessing semantic knowledge from pretrained vision-language backbones, but their visual tokens remain grounded in 2D image coordinates rather than the calibrated geometry of the robot's cameras -- a mismatch especially pronounced in multi-camera setups, where views are coupled by known intrinsics and extrinsics yet processed as independent images. We propose G$^3$VLA, a camera-aware geometric module that injects calibrated structure into the visual-token stream of a pretrained VLA without altering its action space or imitation objective, combining intrinsic-conditioned ray embeddings, projective positional encoding (PRoPE), and bidirectional cross-view fusion. Geometric supervision is provided either from ground-truth point maps when available, or from confidence-gated $π^3$X teacher predictions, requiring no depth sensors or manual annotations. Instantiated on $π_0$, G$^3$VLA yields consistent gains across the LIBERO suites, RoboCasa24, RoboTwin2.0, and real-robot settings, with the largest improvements on spatially and object-sensitive tasks. We further validate on $π_{0.5}$ and GR00T 1.5, with results suggesting that geometric transfer is most effective when geometry-aware tokens have direct access to the action generation pathway. Our project page is at https://sites.google.com/view/g3vla
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、事前訓練された視覚言語バックボーンからのセマンティック知識を活用することで、一般的なロボット操作を急速に進歩させたが、それらの視覚トークンは、ロボットのカメラのキャリブレーションされた幾何学ではなく、2D画像座標に基礎を置いている。
G$^3$VLA, カメラ対応幾何モジュール, キャリブレーションされた構造を予め訓練したVLAの視覚的流れに注入し, 動作空間や模倣目的を変更することなく, 固有条件の光線埋め込み, 射影位置符号化(PRoPE), 双方向視野融合を組み合わせて提案する。
幾何的監督は、利用可能な地平線点図から、あるいは、深度センサーや手動のアノテーションを必要とせず、自信に満ちた$π^3$Xの教師予測から提供される。
π_0$に設定されたG$^3$VLAは、LIBEROスイート、RoboCasa24、RoboTwin2.0、および実ロボット設定で一貫した利得を得る。
我々はさらに$π_{0.5}$とGR00T 1.5を検証し、幾何学的トークンがアクション生成経路に直接アクセスする場合、幾何移動が最も効果的であることが示唆された。
私たちのプロジェクトページはhttps://sites.google.com/view/g3vlaです。
関連論文リスト
- Geometric Action Model for Robot Policy Learning [68.6657929619782]
汎用ロボットポリシーは、オブジェクト、カメラ、ロボットアクションが3D物理世界でどのように相互作用するかを推論しながら、ユーザーの指示に従う必要がある。
最近の視覚言語行動モデル(VLA)とビデオ世界行動モデル(WAM)は、大規模基盤モデルから強い意味や時間的先行を継承する。
本稿では,言語条件の操作ポリシーであるGeometric Action Model (GAM)を提案する。
論文 参考訳(メタデータ) (2026-06-15T17:58:03Z) - Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning [51.799524981291235]
エンドツーエンドの操作ポリシーは、汎用的で巧妙なロボット操作を約束することを示している。
2Dファンデーションモデルから2つの重要な制限を継承する。
これらの問題に対処するために、一連のコントリビューションを提示します。
論文 参考訳(メタデータ) (2026-06-01T14:01:11Z) - Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation [67.16145181790522]
本稿では,視覚・言語・行動モデル(VLA)における空間認識と操作の課題に取り組む。
幾何学的ガイダンスに基づいて多視点特徴を整列する幾何誘導型ゲート変換器(G3T)を提案する。
動作学習効率を向上させるために,有効な動作多様体上での動作を直接予測するアクション・マニフォールド・ラーニング(AML)を導入する。
論文 参考訳(メタデータ) (2026-05-12T09:21:29Z) - Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models [65.05130114320734]
一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと我々は主張する。
本研究では,事前訓練されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション・モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、シームレスな視覚と幾何学のマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-14T15:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。