論文の概要: ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation
- arxiv url: http://arxiv.org/abs/2606.14255v1
- Date: Fri, 12 Jun 2026 08:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.834232
- Title: ReactVLA: Fast and Lightweight Reactive Robot Manipulation via Improved Mean Flow Action Generation
- Title(参考訳): ReactVLA: 改良された平均フローアクション生成による高速で軽量なリアクティブロボット操作
- Authors: Yanzhao Guo, Wenkai Chen, Jianwei Zhang,
- Abstract要約: textttReactVLAは、リアルタイムロボット操作のための軽量で低レイテンシなVLAフレームワークである。
textttReactVLAは、同じサイズのVLAベースラインを一貫して上回る。
現実世界のポリシーのレイテンシを38.6ミリ秒以下に短縮し、物理ロボットプラットフォームでの高速な反応性制御を可能にする。
- 参考スコア(独自算出の注目度): 6.976481623762446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based Vision-Language-Action (VLA) policies have demonstrated strong capability in modeling expressive and multimodal action distributions. However, their reliance on iterative sampling introduces substantial inference latency, which limits their applicability to reactive closed-loop robot manipulation. To address this limitation, we propose \texttt{ReactVLA}, a lightweight and low-latency VLA framework for real-time robotic manipulation. \texttt{ReactVLA} combines two complementary designs: (1) an improved Mean Flow (iMF) action generator that reduces expensive multi-step diffusion sampling to one-to-few-step action generation, and (2) Attention Residuals (AttnRes), a dynamic depth-wise feature routing mechanism that replaces uniform residual accumulation to better preserve task-relevant multimodal representations. We evaluate \texttt{ReactVLA} on large-scale simulation benchmarks, including LIBERO and RoboIMI, as well as real-world robotic manipulation tasks. Experimental results show that \texttt{ReactVLA} consistently outperforms similarly sized VLA baselines, including SmolVLA and $π_0$. On challenging precision manipulation tasks, \texttt{ReactVLA} achieves up to a 1.65$\times$ improvement in task performance while providing more than a 4$\times$ increase in inference speed compared with leading VLA models. Finally, it reduces real-world policy latency to below 38.6 ms, enabling fast reactive control on physical robot platforms. Please check out our project website at: https://game-loader.github.io/ReactVLA/.
- Abstract(参考訳): 拡散に基づくVLA(Vision-Language-Action)ポリシーは、表現的およびマルチモーダルな行動分布をモデル化する上で強力な能力を示している。
しかし、反復サンプリングへの依存は、かなりの推論遅延をもたらし、反応的なクローズドループロボット操作の適用性を制限する。
この制限に対処するために,リアルタイムロボット操作のための軽量かつ低レイテンシなVLAフレームワークである‘texttt{ReactVLA} を提案する。
改良された平均フロー(iMF)アクションジェネレータは、高価な多段階拡散サンプリングを1ステップから2ステップのアクション生成に還元する。
我々は,LIBERO や RoboIMI などの大規模シミュレーションベンチマークや実世界のロボット操作タスクにおいて,‘texttt{ReactVLA} の評価を行った。
実験の結果, SmolVLA や $π_0$ など, ほぼ同じ大きさの VLA ベースラインよりも優れていた。
挑戦的な精度操作タスクに関して、 \texttt{ReactVLA} はタスク性能を最大1.65$\times$改善し、主要なVLAモデルと比較して推論速度を4$\times$増加させる。
最後に、現実世界のポリシーのレイテンシを38.6ミリ秒以下に短縮し、物理ロボットプラットフォームでの高速なリアクティブ制御を可能にする。
プロジェクトのWebサイトは、https://game-loader.github.io/ReactVLA/でご覧ください。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots [5.308743386891208]
VLA(Vision-Language-Action)モデルは、ロボット工学において画期的な進歩を遂げた。
連続したアクションチャンクのキューを融合する戦略は、VLAモデル全体のパフォーマンスに大きな影響を与える。
既存の方法は、ロボットアクションの実行時にジッタ、ストール、あるいは停止に悩まされる。
本稿では,モデル推論とロボット動作制御を非同期に行うように設計された新しいフレームワークであるVLA-RAILを紹介する。
論文 参考訳(メタデータ) (2025-12-31T06:59:42Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation [27.007611140797852]
既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
論文 参考訳(メタデータ) (2025-09-26T09:13:02Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers [12.373320641721344]
大型ビジョンランゲージ・アクション(VLA)モデルは、その印象的な一般化能力のためにロボット制御において有望であることが示されている。
数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと遅延推定につながる。
本稿では,柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。
論文 参考訳(メタデータ) (2024-09-12T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。