論文の概要: GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.08530v2
- Date: Wed, 10 Jun 2026 13:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.355158
- Title: GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation
- Title(参考訳): GEAR-VLA:汎用ロボットマニピュレーションのための幾何学的学習行動表現
- Authors: Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan,
- Abstract要約: VLA(Vision-Language-Action)モデルは、強力なベンチマークパフォーマンスを実現するが、目に見えないオブジェクトによる現実世界のデプロイに苦労する。
これは、統合幾何認識の操作表現が欠如していることに起因していると我々は主張する。
一般化可能なロボット操作のための統合幾何認識行動表現を学習するためのVLAフレームワークであるGEAR-VLAを提案する。
- 参考スコア(独自算出の注目度): 49.16739604572808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models achieve strong benchmark performance but still struggle in real-world deployment with unseen objects, background shifts, and different robot embodiments. We argue that this stems from the lack of a unified geometry-aware manipulation representation, leaving existing VLAs vulnerable to low-level trajectory supervision, misaligned 3D features, and embodiment differences. To address this, we propose GEAR-VLA, a VLA framework for learning unified geometry-aware action representations for generalizable robotic manipulation. GEAR-VLA adopts coarse-to-fine action learning, where multi-source embodied pretraining equips the VLM with embodied reasoning and discrete action understanding before latent action tokens connect action semantics to a gradient-decoupled DiT continuous action expert. It further performs semantic-aligned 3D integration by aligning a trainable 3D spatial backbone with the VLA representation while freezing the original VLM-aligned visual pathway. To share this representation across robots, GEAR-VLA uses embodiment canonicalization, where embodiment-aware states and embodiment-invariant actions confine robot differences to the low-level interface. Extensive simulation and real-world experiments demonstrate strong generalization: GEAR-VLA achieves state-of-the-art performance on LIBERO, zero-shot LIBERO-Plus, and RoboTwin 2.0, reaches 85.9% success on AgileX and 81.0% on the pretraining-unseen LDT-01 embodiment, and obtains 90.1% success on a 6,360-trial universal grasping benchmark with 212 unseen objects. Code and models will be released at https://github.com/babynabeauty/GEAR-VLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、強力なベンチマークパフォーマンスを実現するが、まだ見えないオブジェクト、バックグラウンドシフト、異なるロボットの実施で現実のデプロイメントに苦戦している。
既存のVLAは,低レベルの軌道監視,3次元特徴の不整合,具体的差異に弱いままである。
そこで本研究では,汎用ロボット操作のための統合幾何認識行動表現を学習するためのVLAフレームワークであるGEAR-VLAを提案する。
GEAR-VLAは粗大なアクション学習を採用しており、マルチソースの具体化された事前訓練は、潜伏アクショントークンが動作セマンティクスと勾配分離されたDiT連続アクションエキスパートを結びつける前に、VLMに具体的推論と離散的なアクション理解を具体化する。
さらに、トレーニング可能な3次元空間バックボーンをVLA表現と整列させ、元のVLM対応の視覚経路を凍結することにより、セマンティックアラインな3D統合を行う。
この表現をロボット間で共有するために、GEAR-VLAはエンボディメントの正準化を使用しており、そこではエンボディメントの認識状態とエンボディメントの不変な動作がロボットの低レベルインターフェースとの差異を限定する。
GEAR-VLAはLIBERO、ゼロショットLIBERO-Plus、RoboTwin 2.0の最先端性能を達成し、212個の未確認物体を持つ6,360のユニバーサル・グリーディング・ベンチマークで8.9%、AgileXで85.9%、LDT-01の実施で81.0%を達成し、90.1%の成功を収めた。
コードとモデルはhttps://github.com/babynabeauty/GEAR-VLA.comでリリースされる。
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。