論文の概要: Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
- arxiv url: http://arxiv.org/abs/2606.20246v2
- Date: Sat, 20 Jun 2026 12:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.942264
- Title: Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
- Title(参考訳): ファインチュニング・ビジョン・ランゲージ・アクション・モデル(動画)
- Authors: Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tung M. Luu, Tuan Dam, Vu Duong, Trung Le, Nghi D. Q. Bui, Minh Vu, Tran Nguyen Le, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien,
- Abstract要約: 巨大なビデオロボットデータセットで事前訓練されたビジョンランゲージ・アクション(VLA)モデルは、ロボット操作に革命をもたらした。
様々な物理的軌道で訓練されているにもかかわらず、それらは重層的な表現の冗長性を示す。
完全にトレーニング不要な構造圧縮パイプラインを導入します。
この合理化されたアーキテクチャの下流での微調整により、トレーニング時間が40~50%削減され、最大30%高速なリアルタイム推論が可能になる。
- 参考スコア(独自算出の注目度): 43.01990826833761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models pre-trained on massive video-robot datasets have revolutionized robotic manipulation, yet their multi-billion parameter architectures impose prohibitive computational burdens during downstream fine-tuning and real-time inference. In this work, we reveal a highly non-trivial architectural characteristic of these continuous control foundation policies (e.g., pi_0, GR00T-N1.5): despite being trained on diverse physical trajectories, they exhibit severe layer-wise representational redundancy. To exploit this, we introduce a structural compression pipeline that is entirely training-free, bypassing the need of existing methods to load full-scale models to learn optimized token reductions or dynamic layer selectors. Instead, using only a single forward pass via Centered Kernel Alignment to identify redundant layer features, we remove twin layers to permanently compress the model depth by up to 50% across both the VLM backbone and the continuous control policy head. Downstream fine-tuning of this streamlined architecture yields a dual acceleration benefit: a 40-50% reduction in training time and up to 30% faster real-time inference, while matching or exceeding full-scale base model performance. We comprehensively validate our method across three simulation benchmarks (LIBERO, RoboCasa, SimplerEnv) and 10 diverse real-world manipulation tasks across 4 unique robotic embodiments. These results prove that advanced VLAs require significantly fewer layers than previously assumed, offering a highly compute-efficient paradigm for scalable robot learning.
- Abstract(参考訳): 大規模なビデオロボットデータセットで事前トレーニングされたVLA(Vision-Language-Action)モデルは、ロボット操作に革命をもたらしたが、そのマルチビリオンパラメータアーキテクチャは、下流の微調整とリアルタイムの推論において、不当な計算負担を課している。
本研究では,これらの連続制御基盤方針(例えば, pi_0, GR00T-N1.5)の非自明なアーキテクチャ特性を明らかにする。
これを活用するために、最適化トークン削減や動的層セレクタを学習するために、フルスケールモデルをロードする既存の手法を回避し、完全にトレーニング不要な構造的圧縮パイプラインを導入する。
代わりに、Centered Kernel Alignment経由の1つのフォワードパスのみを使用して冗長層の特徴を識別し、VLMバックボーンと連続制御ポリシーヘッドの両方でモデル深さを最大50%圧縮するツイン層を除去する。
トレーニング時間を40-50%削減し、リアルタイム推論を最大30%高速化すると同時に、フルスケールのベースモデルのパフォーマンスをマッチングまたは超過する。
我々は,3つのシミュレーションベンチマーク(LIBERO,RoboCasa,SimplerEnv)と,4つのユニークなロボットエボディメントにまたがる10の現実世界操作タスクを総合的に検証した。
これらの結果は、先進的なVLAが以前想定していたよりもはるかに少ないレイヤーを必要とすることを証明し、スケーラブルなロボット学習に高い計算効率のパラダイムを提供する。
関連論文リスト
- Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning [49.751529745537546]
我々はDualOptを提案する。DualOptは、スクラッチからトレーニングに適した最適化技術を分離する新しいアプローチである。
スクラッチからのトレーニングでは、収束と一般化の両面を強化するために設計されたリアルタイムな層ワイド・ウェイト・デポジットを導入する。
我々は、異なる下流タスクの様々な要求に適応して、レイヤ単位の重量減衰を拡張して、レイヤ間のロールバックレベルを動的に調整する。
論文 参考訳(メタデータ) (2026-04-21T06:27:18Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining [28.30092786035367]
DeFIはビジュアルフォワードと逆ダイナミクスを分離し、各データソースを利用するための新しいフレームワークである。
今後の予測のために,多種多様な人・ロボットビデオで事前訓練された一般フォワード・ダイナミクス・モデル(GFDM)と,ラベルなしビデオ遷移から潜伏行動を予測するための自己教師付き学習によって訓練された一般逆ダイナミクス・モデル(GIDM)を紹介する。
CALVIN ABC-D と SimplerEnv の実験では、DeFI は CALVIN の平均タスク長 4.51 に達し、SimplerEnv-Frac は 51.2% 成功した。
論文 参考訳(メタデータ) (2026-03-27T17:20:10Z) - DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。
これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文 参考訳(メタデータ) (2026-03-11T06:03:53Z) - DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching [25.295588774254952]
我々は、学習可能なポリシー最適化問題として推論加速度を再構成する。
本稿では,タスク認識による意思決定プロセスを直接Vision-Language-Actionモデルに統合する新しいフレームワークを提案する。
提案手法は, 平均成功率を同時に向上させながら, 1.76倍のウォールクロック推定速度向上を実現する。
論文 参考訳(メタデータ) (2026-01-31T12:12:51Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。