論文の概要: PhysVLA: Towards Physically-Grounded VLA for Embodied Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.13886v1
- Date: Thu, 11 Jun 2026 20:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.639172
- Title: PhysVLA: Towards Physically-Grounded VLA for Embodied Robotic Manipulation
- Title(参考訳): PhysVLA:ロボットマニピュレーションのための物理グラウンドVLAを目指して
- Authors: Namai Chandra, Shriram Damodaran, Lin Wang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、視覚入力と自然言語命令を直接ロボット制御ポリシーにマッピングする。
主に行動実証データに適合するように訓練されているため、剛体力学や接触制約といった基本的な物理原則を明示的に強制していない。
単一ステップまたはチャンクされたVLAの上に適用される標準的な時間的平滑化は、短期記憶が解決できない追加の障害に対して軌道品質を交換する。
我々は、凍結したVLAバックボーンをリトレーニングせずにラップするように設計されたプラグイン・アンド・プレイの推論時フレームワークであるPhysVLAを紹介します。
- 参考スコア(独自算出の注目度): 2.7921261962314237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models excel at mapping visual inputs and natural language instructions directly to robotic control policies. However, because they are trained primarily to fit behavioural demonstration data, they do not explicitly enforce fundamental physical principles such as rigid-body dynamics or contact constraints. This exposes a critical physics gap: standard temporal smoothing applied on top of single-step or chunked VLAs trades trajectory quality for added failures that short-term memory cannot resolve. To bridge this gap, we introduce PhysVLA (Physics-VLA), a plug-and-play, inference-time framework designed to wrap any frozen VLA backbone without retraining, fine-tuning, or weight access, with less than 1 ms of overhead per control step. PhysVLA intercepts the predicted control action, captures only the simulator or system state, and applies a dual-layered correction: (i) a phase-aware finite-state machine that structures discrete task segments (approach, grasp, transport, and place), and (ii) a selective Euler-Lagrange gate that activates only when a dynamics oracle detects kinodynamic inconsistency. Evaluated across OpenVLA, OpenVLA-OFT, Force-VLA, and Generalist-VLA on LIBERO-Spatial with a 7-DoF Franka Panda, the framework delivers absolute success rate increases of up to 17% and stability increases of up to 19% with no per-task regressions, improves trajectory efficiency by up to 15% across all four backbones, and shows up to a 10x improvement in trajectory jerk robustness on a Robosuite Lift cross-simulator sweep. We further validate the framework on a real Agilex Piper arm with a pick-and-place task, confirming that PhysVLA transfers to physical hardware without retraining, with success-rate improvements of up to 50%, establishing physical awareness as a composable, backbone-agnostic runtime module.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚入力と自然言語命令を直接ロボット制御ポリシーにマッピングする。
しかし、それらは主に行動実証データに適合するように訓練されているため、剛体力学や接触制約のような基本的な物理原理を明示的に強制していない。
単一ステップまたはチャンクされたVLAの上に適用される標準的な時間的平滑化は、短期記憶が解決できない追加の障害に対して軌道品質を交換する。
このギャップを埋めるために、我々はPhysVLA(Physics-VLA)というプラグイン・アンド・プレイの推論時フレームワークを導入しました。
PhysVLAは予測された制御動作をインターセプトし、シミュレータまたはシステム状態のみをキャプチャし、二重層補正を適用します。
一 個別タスクセグメント(着手、把握、輸送及び場所)を構成する位相対応有限状態機械
(ii) 動的オラクルがキノダイナミック不整合を検出する場合にのみ活性化する選択的オイラー・ラグランジュゲート。
OpenVLA, OpenVLA-OFT, Force-VLA, Generalist-VLA on LIBERO-Spatial with a 7-DoF Franka Pandaで評価されたこのフレームワークは、絶対成功率17%、安定性が19%まで向上する。
さらに我々は、PhysVLAが再トレーニングせずに物理ハードウェアに移行することを確認し、最大50%の改善を達成し、構成可能でバックボーンに依存しないランタイムモジュールとしての物理的認識を確立しました。
関連論文リスト
- AttenA+: Rectifying Action Inequality in Robotic Foundation Models [38.61160855341111]
本稿では,速度駆動型アクションアテンションを通じて,運動学的に重要なセグメントを優先するアーキテクチャに依存しないフレームワークであるAttenA+を紹介する。
我々の研究は、本質的な行動列の構造的前提をマイニングすることが、標準的なスケーリング法則に非常に効率的で物理学的な補完をもたらすことを示唆している。
論文 参考訳(メタデータ) (2026-05-13T13:55:37Z) - SmoothVLA: Aligning Vision-Language-Action Models with Physical Constraints via Intrinsic Smoothness Optimization [11.680753432998358]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
SmoothVLAは,タスク性能と動作のスムーズさを相乗的に最適化する,新しい強化学習ファインチューニングフレームワークである。
我々の研究は、本質的な報酬最適化を通じて、VLAモデルと物理世界の制約を整合させるスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2026-03-14T12:47:04Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。