論文の概要: RhinoVLA Technical Report
- arxiv url: http://arxiv.org/abs/2606.07383v1
- Date: Fri, 05 Jun 2026 15:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.822106
- Title: RhinoVLA Technical Report
- Title(参考訳): RhinoVLA技術報告
- Authors: Huixi Intelligence, :, Chen Zhang, Chenyang Zhou, Guanglei Ding, Guanghui He, Haibin Gao, Jiajia Chen, Jianyong Zhang, Lianyi Yu, Ningyi Xu, Ping Xu, Qingchen Li, Yingjun Hu, Yijia Zhang, Yuxi Liu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作の強力な可能性を示しているが、エッジハードウェアへのリアルタイムデプロイメントは依然として困難である。
We propose RhinoVLA, a deployment-oriented VLA model with the Huixi R1 edge chip。
RhinoVLAはトークン効率のよいQwen3-VLバックボーンと継続的アクションエキスパートを採用しており、VLM側のトークンと計算負荷を低減している。
- 参考スコア(独自算出の注目度): 21.184649039103572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong potential for robotic manipulation, but real-time deployment on edge hardware remains challenging. In this work, we identify VLM visual and context tokens as a major source of deployment latency: for GEMM-dominated projection operators, computation grows linearly with the number of input tokens when model dimensions are fixed. Motivated by this observation, we propose RhinoVLA, a deployment-oriented VLA model co-designed with the Huixi R1 edge SoC. RhinoVLA adopts a token-efficient Qwen3-VL backbone and a continuous Action Expert, reducing the VLM-side token and computation burden while preserving pretrained multimodal capability. To support cross-robot learning, RhinoVLA further introduces a unified interface that combines View Registry, 72D physical state-action slot space, and robotinstance LoRA, allowing heterogeneous robot observations and action schemas to be aligned under a shared policy. On the deployment side, RhinoVLA is optimized through hardware-aware compilation, mixed-precision execution, and parallel visual encoding. Experiments show that RhinoVLA achieves downstream performance comparable to π0.5 at a similar parameter scale, while reaching 11.69 Hz end-to-end inference on Huixi R1, meeting the 10 Hz real-time closedloop control target. The project will be open-sourced at https://github.com/HuixiAI/RhinoVLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作の強力な可能性を示しているが、エッジハードウェアへのリアルタイムデプロイメントは依然として困難である。
本研究では,GEMMが支配するプロジェクション演算子に対して,モデル次元が固定された場合の入力トークン数とともに,計算量は線形に増加する。
本稿では,Huixi R1 edge SoCと共同設計したデプロイメント指向VLAモデルであるRhinoVLAを提案する。
RhinoVLAはトークン効率のよいQwen3-VLバックボーンと連続アクションエキスパートを採用し、事前訓練されたマルチモーダル能力を保ちながらVLM側のトークンと計算負荷を低減する。
クロスロボット学習をサポートするために、RhinoVLAはさらに、ビューレジストリ、72D物理状態アクションスロットスペース、ロボットインスタンスLoRAを組み合わせた統一インターフェースを導入し、異種ロボットの観察とアクションスキーマを共有ポリシの下で整列できるようにする。
デプロイメント側では、RhinoVLAはハードウェア対応のコンパイル、混合精度実行、並列ビジュアルエンコーディングによって最適化されている。
実験により、RhinoVLAは同様のパラメータスケールでπ0.5に匹敵するダウンストリーム性能を達成し、Huixi R1上では11.69Hzのエンド・ツー・エンド推論に達し、10Hzのリアルタイムクローズドループ制御ターゲットに到達した。
プロジェクトはhttps://github.com/HuixiAI/RhinoVLA.comでオープンソース化される。
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation [68.7948300643741]
ロボットの異常検出と介入をリアルタイムに監視するロボット・コンディションド・ノーマライゼーション・フロー(RC-NF)を提案する。
RC-NFは、正規化フロー内のタスク認識ロボットとオブジェクト状態の処理を分離する。
従来のロボットタスクの監視方法と比較して、あらゆる異常なタイプで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-11T10:14:37Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models [16.321608201919474]
大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
タスク性能を維持しながらVLA推論を高速化する訓練不要なトークン圧縮フレームワークであるExpand Token-and-Merge-VLAを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:59:24Z) - VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。