論文の概要: ActionMap: Robot Policy Learning via Voxel Action Heatmap
- arxiv url: http://arxiv.org/abs/2606.06904v2
- Date: Wed, 10 Jun 2026 11:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.334995
- Title: ActionMap: Robot Policy Learning via Voxel Action Heatmap
- Title(参考訳): ActionMap: Voxel Action Heatmapによるロボットポリシー学習
- Authors: Pei Yang, Hai Ci, Yanzhe Chen, Qi Lv, Han Cai, Mike Zheng Shou,
- Abstract要約: ActionMapは、ネイティブアクションデコーダの代わりに既存のVLAにドロップする。
Heatmapヘッドは、マッチしたトレーニングステップで、2つのアーキテクチャ的に異なるバックボーンを越えます。
クロスバックボーン一貫性は、アクション表現がVLAパフォーマンスの真のレバーであることを示している。
- 参考スコア(独自算出の注目度): 61.10410508218428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language-action (VLA) models have advanced rapidly across backbones, training recipes, and data scale, yet the action decoder, which converts the backbone's hidden state into a continuous control signal, has barely changed and remains a single-point predictor across the majority of current VLAs. Whether implemented via autoregressive token bins, L1 regression, or flow-matching denoising, the resulting decoder treats the action space as unstructured, leaving the geometric proximity of neighboring actions unexploited during training. To advance this, we introduce ActionMap, a voxel heatmap action head that drops into an existing VLA in place of its native action decoder. For each new action, the head predicts a voxel heatmap over the action space, where each voxel directly stores the probability of the corresponding action. Across LIBERO simulation and real-world Franka manipulation, our heatmap head surpasses two architecturally distinct backbones at matched training steps (e.g., +8.2% over OpenVLA-OFT's L1 regression head on the LIBERO four-suite average), converges at comparable or faster rates on both backbones, and remains markedly more data-efficient at low training data. The cross-backbone consistency indicates that action representation is a real lever for VLA performance, distinct from further backbone or recipe scaling. Project Page: https://showlab.github.io/ActionMap/.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、バックボーン、トレーニングレシピ、データスケールにわたって急速に進歩しているが、バックボーンの隠れた状態を連続的な制御信号に変換するアクションデコーダは、ほとんど変化せず、現在のVLAの大部分でシングルポイント予測器として残っている。
自己回帰トークンビン、L1レグレッション、フローマッチングデノイングによって実装されるかに関わらず、結果として生じるデコーダは、アクション空間を非構造化として扱い、トレーニング中に近隣のアクションの幾何学的近接を未発見のまま残す。
これを進めるために、ネイティブなアクションデコーダの代わりに既存のVLAにドロップする、ボクセルのヒートマップアクションヘッドであるActionMapを紹介した。
新しいアクションごとに、ヘッドはアクション空間上のボクセルヒートマップを予測し、各ボクセルは対応するアクションの確率を直接記憶する。
LIBEROシミュレーションと実世界のFranka操作を通して、私たちのヒートマップヘッドは、一致したトレーニングステップで2つのアーキテクチャ的に異なるバックボーン(例えば、OpenVLA-OFTのL1回帰ヘッドのLIBERO 4-suite平均よりも8.2%)を超越し、両バックボーンにおいて同等またはより高速なレートで収束し、低トレーニングデータにおいて顕著にデータ効率が向上している。
クロスバックボーン一貫性は、アクション表現が、さらなるバックボーンやレシピスケーリングとは異なる、VLAパフォーマンスの真のレバーであることを示している。
Project Page: https://showlab.github.io/ActionMap/.com
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild [37.43820830488286]
JALAは,協調型潜在行動学習のための事前学習フレームワークである。
We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。
実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
論文 参考訳(メタデータ) (2026-02-25T09:46:42Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。