Fugu-MT 論文翻訳(概要): vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

論文の概要: vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2606.08094v1
Date: Sat, 06 Jun 2026 10:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.775788
Title: vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models
Title（参考訳）: vla.cpp: Vision-Language-Actionモデルのための統一推論ランタイム
Authors: Khanh D. Nguyen, Hung T. Ho, Chinh T. Nguyen, Thanh Q. Duong, Linh D. Le, Duy M. H. Nguyen, Vien A. Ngo, An T. Le,
Abstract要約: llama上に構築されたポータブルなC++推論ランタイムであるvlaを紹介します。これは、フローマッチングと拡散VLA推論パターンを提供する最初のggmlクラスエンジンである。 LIBERO-Objectでは、エンジンは200回中1回で最先端のチェックポイントと一致し、1.3GBBのメモリで100%成功してBitVLAを実行する。
参考スコア（独自算出の注目度）: 1.8512656289778031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation-class GPU, a mismatch for the hardware on which robots actually run. We present vla.cpp, a portable C++ inference runtime built on llama.cpp. To our knowledge, it is the first ggml-class engine to natively serve the flow-matching and diffusion VLA inference pattern, in which a cached vision-language prefix is consumed by a cross-attending action expert integrated over several solver steps. A single runtime serves seven architectures spanning five backbone and four action-head families behind one request/response protocol, with each model packaged as a self-contained bundle. On LIBERO-Object, the engine matches a state-of-the-art checkpoint to within one episode out of 200, and runs BitVLA at 100% success in 1.3 GiB of memory. The same bundle runs unchanged across three hardware tiers, from a consumer GPU down to an 8 GB embedded module. A cross-hardware roofline analysis shows that batch-1 VLA inference is compute-bound, so utilization rather than bandwidth is the deployment lever; an IMMA ladder GEMM derived from this analysis cuts BitVLA per-step latency by 4.5x. We then frame an on-robot stress test on an ALOHA arm that isolates the latency constraint under which a learned VLA must replan against a moving target on the hardware it was trained for. Code, demo videos, and the reproducible benchmark scaffold are available at https://fai-modelopt-tech.github.io/vla-cpp.github.io/.
Abstract（参考訳）: VLA(Vision-Language-Action)ポリシは一般的に,ロボットが実際に実行するハードウェアのミスマッチであるワークステーションクラスのGPUを前提としたPython/PyTorchスタックとして出荷される。 llama.cpp上に構築されたポータブルなC++推論ランタイムであるvla.cppを紹介します。我々の知る限り、このエンジンはフローマッチングと拡散VLA推論パターンをネイティブに提供する最初のggmlクラスエンジンであり、キャッシュされた視覚言語プレフィックスは、複数の解決ステップで統合された横断的アクションエキスパートによって消費される。 1つのランタイムは、1つのリクエスト/レスポンスプロトコルの背後にある5つのバックボーンと4つのアクションヘッドファミリーにまたがる7つのアーキテクチャを提供します。 LIBERO-Objectでは、エンジンは最先端のチェックポイントを200回中1回以内にマッチさせ、1.3GBBのメモリで100%成功してBitVLAを実行する。同じバンドルは、コンシューマGPUから8GBの組み込みモジュールに至るまで、3つのハードウェア層で動作しない。クロスハードウエアの屋根線解析では,バッチ-1 VLA推論が計算バウンドであることから,帯域幅よりも利用が配置レバーであることが確認され,この解析から得られたIMMAラグGEMMにより,ステップ毎の遅延を4.5倍削減する。次に、ALOHAアーム上でロボット上でのストレステストを行い、学習したVLAがトレーニングしたハードウェア上の移動ターゲットに対して再計画しなければならない遅延制約を分離する。コード、デモビデオ、再現可能なベンチマークはhttps://fai-modelopt-tech.github.io/vla-cpp.github.io/で公開されている。

関連論文リスト

MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文参考訳（メタデータ） (2026-05-12T18:09:42Z)
VLA Foundry: A Unified Framework for Training Vision-Language-Action Models [11.774960393195052]
我々は、単一のスタックでLLM、VLM、VLAトレーニングを統合するオープンソースのフレームワークであるVLA Foundryを紹介します。 VLA Foundryは、Hugging Faceからのストロースクラッチトレーニングと事前トレーニングバックボーンの両方をサポートする。オープンソースシミュレータである LBM Eval 上で, 両モデルのクローズドループポリシ性能を評価した。
論文参考訳（メタデータ） (2026-04-21T17:51:51Z)
StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing [0.0]
ジェネラリストの具体化エージェントを構築するには、知覚、言語理解、行動の統合が必要である。本稿では、Vision-Language-Action ResearchのオープンソースであるStarVLAを紹介する。
論文参考訳（メタデータ） (2026-04-06T17:59:21Z)
vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models [58.633451339058986]
VLAモデルは一般的に、各モデルリポジトリによって独立して維持されるベンチマークスクリプト毎に評価される。本稿では、ベンチマーク実行からモデル推論を分離するオープンソースの評価ハーネスであるvla evalを紹介する。完全な評価では、vla eval serveとvla eval runの2つのコマンドしか必要としない。
論文参考訳（メタデータ） (2026-03-14T14:38:53Z)
LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics [0.6119773373677944]
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
論文参考訳（メタデータ） (2026-03-03T03:20:52Z)
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文参考訳（メタデータ） (2026-01-21T19:29:00Z)
VLAgents: A Policy Server for Efficient VLA Inference [10.731074886477515]
我々は,統一されたGymnasiumスタイルのプロトコルの背後にあるVLA推論を抽象化するモジュール型ポリシーサーバであるVLAgentsを紹介する。その通信層は、高速シミュレーションのためのゼロコピー共有メモリとリモートハードウェアのための圧縮ストリーミングの両方をサポートすることにより、コンテキストに透過的に適応する。ローカル通信とリモート通信の両方のベンチマークでは、OpenVLA、OpenPi、LeRobotが提供するデフォルトのポリシーサーバよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2026-01-16T12:58:59Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文参考訳（メタデータ） (2023-09-07T17:59:41Z)
TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文参考訳（メタデータ） (2023-01-06T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。