論文の概要: Scaling by Diversified Experience for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.09009v1
- Date: Mon, 08 Jun 2026 04:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.694321
- Title: Scaling by Diversified Experience for Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクション・モデルのための多様な経験によるスケーリング
- Authors: Leiyu Wang, Zhaofengnian Wang, Xueqi Li, Luoyi Fan, Cewu Lu, Nanyang Ye,
- Abstract要約: 多様な体験で訓練された堅牢なVLAモデルであるSyVLAを紹介する。
本稿では,制御関連特徴を推論コンテキストから分離する意図デカップリングアルゴリズムを提案する。
実世界のロボットタスクとマルチモーダルベンチマークの実験は、SyVLAが優れたタスク成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 42.05618635021853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action models face significant challenges in real-world deployment due to the entanglement of high-level reasoning with low-level control, and the instability of policy optimization. In this paper, we introduce SyVLA, a robust VLA model trained with diversified experiences. We propose an Intention Decoupling algorithm to isolate control-relevant features from reasoning contexts and a similar-sample guided RL pipeline to stabilize policy updates and mitigate distribution shift. Extensive experiments on real-world robotic tasks and multi-modal benchmarks demonstrate that SyVLA achieves superior task success rates and stronger out-of-distribution generalization compared to existing methods, while effectively preserving core vision-language capabilities. Codes and Datasets is released on \href{https://sy-vla.github.io/}{project page}.
- Abstract(参考訳): ビジョン・ランゲージ・アクションモデルは、低レベル制御による高レベル推論の絡み合いと、ポリシー最適化の不安定さにより、現実世界の展開において重大な課題に直面している。
本稿では,多種多様な経験を訓練した頑健なVLAモデルであるSyVLAを紹介する。
Intention Decoupling algorithm to isolated control-relevant features from reasoning contexts and a similar-sample guided RL pipeline to stable policy update and mitigate distribution shift。
実世界のロボットタスクとマルチモーダル・ベンチマークに関する大規模な実験は、SyVLAが既存の手法に比べて優れたタスク成功率と配布外一般化を実現し、コアビジョン言語機能を効果的に保存することを示した。
Codes and Datasets は \href{https://sy-vla.github.io/}{project page} で公開されている。
関連論文リスト
- SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model [16.077387927185917]
VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:34:19Z) - OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL [1.880672844596704]
VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。
既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。
提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-20T01:36:58Z) - STRONG-VLA: Decoupled Robustness Learning for Vision-Language-Action Models under Multimodal Perturbations [26.063335767640083]
本稿では、VLA(Vision-Language-Action)モデルのための切り離された微調整フレームワークSTRONG-VLAを提案する。
ステージIでは、モデルは困難が増す多モーダル摂動のカリキュラムに晒される。
ステージIIでは、モデルはクリーンなタスク分布と整合して、堅牢性を維持しながら実行の忠実さを回復します。
LIBEROベンチマークの実験では、STRONG-VLAは複数のVLAアーキテクチャにおけるタスク成功率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-11T06:37:47Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。