論文の概要: UniFS: Unified Fast-to-Slow Hierarchical Architecture for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.22794v1
- Date: Mon, 22 Jun 2026 03:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:34:52.058035
- Title: UniFS: Unified Fast-to-Slow Hierarchical Architecture for Vision-Language-Action Models
- Title(参考訳): UniFS:ビジョン・ランゲージ・アクションモデルのための統合高速・低速階層型アーキテクチャ
- Authors: Lin Sun, Zhiwei Guan, Conglin Wang, Zihong Chen, Jianhai Yu, Zongsheng Li, Boyong He, Tao Sun, Jiale Cao, Lige Liu,
- Abstract要約: 視覚言語モデルのための統合型高速・低速アーキテクチャUniFSを紹介する。
VLA-Adapterベースラインを2.5%上回る平均成功率は98.3%)。
LIBEROの実験では、UniFSは最先端のパフォーマンスを達成する(平均成功率98.3%、VLA-Adapterベースラインよりも2.5%)。
- 参考スコア(独自算出の注目度): 15.95393143175101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mainstream Fast-Slow dual system vision-language-action models decouple a high-frequency action expert from a low-frequency vision-language model for efficiency, yet they face a fundamental frequency dilemma: large update gaps cause semantic drift from stale context, while small gaps erode the intended computational savings. Moreover, because the action expert receives only the VLM's final-layer representation at a single fixed frequency, rich intermediate features are discarded, limiting both information coupling and manipulation precision. Inspired by multi-timescale neural processing in the human brain, we introduce UniFS, a unified fast-to-slow architecture that resolves these challenges through three key designs. First, we stratify the VLM layers into groups with progressively decreasing update frequencies, enabling shallow layers to capture fast-changing dynamics while deeper layers cache stable semantic context. Second, a latent vector inversion mechanism re-routes the interaction order between multi-scale VLM features and the action expert, aligning fast-varying representations with fine-grained action decoding and slow-varying ones with coarse planning. Third, a multi-level supervision strategy enforces a coarse-to-fine learning hierarchy across temporal scales. Together, these designs enable richer cross-frequency information transfer within a single backbone, while the low-frequency pathways additionally preserve temporal context across steps. Experiments on LIBERO show that UniFS achieves state-of-the-art performance (98.3\% average success rate, a 2.5\% gain over VLA-Adapter baseline) while reducing average inference latency from 36.5~ms to 17.8~ms (2.1$\times$ speedup). Real-robot experiments on a Franka platform further validate its practical applicability. Code is opensourced at https://github.com/linsun449/UniFS.
- Abstract(参考訳): Mainstream Fast-Slow dual system vision-Language-action modelは、高頻度のアクションエキスパートを低周波のビジョン言語モデルから分離するが、それらは基本的な周波数ジレンマに直面している。
さらに、アクションエキスパートは、単一の固定周波数でVLMの最終層表現のみを受信するため、豊富な中間特徴は破棄され、情報結合と操作精度の両方が制限される。
人間の脳におけるマルチスケールニューラル処理に触発されて、我々は3つの重要な設計を通じてこれらの課題を解決する統合された高速・低速アーキテクチャUniFSを紹介した。
まず、VLM層をグループに階層化し、更新頻度を徐々に減少させ、浅い層が高速に変化するダイナミクスをキャプチャし、深い層が安定したセマンティックコンテキストをキャッシュする。
第二に、潜伏ベクトル反転機構は、マルチスケールのVLM特徴とアクションエキスパートとの相互作用順序を再計算し、高速変動表現をきめ細かなアクションデコーディング、低変動表現を粗い計画で整列する。
第3に、多段階の監視戦略は、時間スケールにわたる粗大な学習階層を強制する。
これらの設計により、単一のバックボーン内でよりリッチなクロス周波数情報転送が可能となり、低周波経路はステップ間の時間的コンテキストを保存できる。
LIBEROの実験では、UniFSは最先端のパフォーマンス(平均成功率98.3\%、VLA-Adapterベースラインよりも2.5\%)を達成し、平均推論遅延を36.5〜msから17.8〜ms(2.1$\times$ speedup)に下げている。
フランカプラットフォームにおける実ロボット実験は、その実用性をさらに検証する。
コードはhttps://github.com/linsun449/UniFSで公開されている。
関連論文リスト
- FATE: Pillar Encoding and Frequency-Aware Training for Event-Based Object Detection [0.0]
イベントカメラは、高速かつ高ダイナミックレンジのシナリオに固有の利点を提供する。
現在のアプローチでは、蓄積ウィンドウを固定時間サブビンに分割する。
本稿では,新しい空間的枠組みを基盤とした統合フレームワークであるFATEを提案する。
論文 参考訳(メタデータ) (2026-06-15T22:32:09Z) - Kwai Keye-VL-2.0 Technical Report [53.82434681649277]
Keye-VL-2.0は、長期ビデオ理解とエージェントインテリジェンスを促進するために設計されたマルチモーダル基盤モデルである。
DeepSeek Sparse Attention (DSA)をGQAベースのマルチモーダルアーキテクチャに適応したのは,これが初めてである。
コンテクスト-RLとビデオ-RLを併用したMOPD(Cross-Modal Multi-Teacher On-Policy Distillation)は破滅的忘れのアルゴリズム的ジレンマを克服する。
論文 参考訳(メタデータ) (2026-06-09T09:58:08Z) - Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。