論文の概要: Flow Control: Steering Vision-Language-Action Models with Simple Real-Time Inputs
- arxiv url: http://arxiv.org/abs/2606.10180v1
- Date: Mon, 08 Jun 2026 21:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.195095
- Title: Flow Control: Steering Vision-Language-Action Models with Simple Real-Time Inputs
- Title(参考訳): フロー制御:簡易実時間入力を用いたステアリング・ビジョン・ランゲージ・アクションモデル
- Authors: Jonathan C. Kao, Jason Chan, Andy Wang,
- Abstract要約: 本稿では,キーボードなどの汎用入力を通じて,VLAアクションをリアルタイムに操る簡便かつ効果的な方法として,視覚言語アクション(VLA)モデルのフロー制御を導入する。
比較的粗いユーザ入力により、VLAをユーザの意図に合わせることができる。
- 参考スコア(独自算出の注目度): 4.38616347977332
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce flow control of vision-language-action (VLA) models, a simple and effective way to steer VLA actions in real-time through generic inputs, such as a keyboard. This method can be used out-of-the-box and does not require retraining or fine-tuning VLAs. It enables relatively crude user inputs to steer a VLA to align with user intent. The VLA transforms these inputs into action samples drawn from the VLA expert action distribution learned during training, so that the generated actions are high quality (conformity to the action expert distribution) and high fidelity (reflecting the user's intent). We demonstrate that flow control has many desirable properties: (1) flow control accurately and responsively steers robot actions with user inputs, (2) it is robust to suboptimal user inputs, (3) it enables users to steer VLAs to achieve significantly higher success rates and faster task completion, and (4) fine-tuning a VLA on flow control trajectories improves the autonomous policy. Together, these results provide a simple and intuitive way for users to help steer VLA actions, increasing task performance.
- Abstract(参考訳): 本稿では,キーボードなどの汎用入力を通じて,VLAアクションをリアルタイムに操る簡便かつ効果的な方法として,視覚言語アクション(VLA)モデルのフロー制御を導入する。
この方法はアウト・オブ・ザ・ボックスで使用することができ、再トレーニングや微調整のVLAを必要としない。
比較的粗いユーザ入力により、VLAをユーザの意図に合わせることができる。
VLAは、これらの入力をトレーニング中に学習したVLA専門家行動分布から引き出されたアクションサンプルに変換し、生成したアクションが高品質(アクション専門家分布に適合)で忠実(ユーザの意図を反映)であるようにする。
フロー制御には,(1) フロー制御の精度, 応答性, (2) ユーザ入力によるロボット動作の制御, (2) 最適なユーザ入力に対する堅牢性,(3) ユーザがVLAをステアリングすることで,より高い成功率とタスク完了を達成できること,(4) フロー制御トラジェクトリにおけるVLAの微調整により自律的なポリシーが向上すること,など,多くの望ましい特性が示されている。
これらの結果は、ユーザがVLAアクションを操り、タスクパフォーマンスを向上させるための、シンプルで直感的な方法を提供する。
関連論文リスト
- Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation [30.881585159777714]
視覚言語アクション(VLA)モデルは、自然言語による知覚と制御において例外的な性能を示した。
VLAモデルの高い計算コストは、大きな効率上の課題をもたらす。
本稿では,VLAステージ間で非同期並列化が可能なVLAを実現することを提案する。
論文 参考訳(メタデータ) (2026-03-30T15:23:27Z) - Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。