論文の概要: dVLA-RL: Reinforcement Learning over Denoising Trajectories for Discrete Diffusion Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.23623v1
- Date: Mon, 22 Jun 2026 17:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:40:38.764333
- Title: dVLA-RL: Reinforcement Learning over Denoising Trajectories for Discrete Diffusion Vision-Language-Action Models
- Title(参考訳): dVLA-RL:離散拡散ビジョン・ランゲージ・アクションモデルのためのデノイング軌道上の強化学習
- Authors: Yuhao Wu, Yitian Liu, Weijie Shen, Mishuo Han, Wenjie Xu, Haotian Liang, Zhongshan Liu, Yinan Mao, Lei Xu, Xinping Guan, Ru Ying, Ran Zheng, Wei Sui, Xiaokang Yang, Wenbo Ding, Yao Mu,
- Abstract要約: 我々は,学習目標を限界行動確率からサンプル生成経路の結合確率にシフトするtextbfdVLA-RLを提案する。
本手法は, LIBEROにおける textbf99.7% の成功率を達成する。
また、SFTベースラインに対してtextbf30.6%の改善を提供することで、RoboTwin 2.0上でのVLAベースの強力な結果も確立している。
- 参考スコア(独自算出の注目度): 49.497309561043004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have established a powerful paradigm for generalist robotic manipulation by grounding control into the semantic reasoning of VLMs. Prevailing architectures typically model actions continuously via diffusion or flow processes, or discretely through either autoregressive generation or parallel decoding. Recently, Discrete Diffusion VLAs (dVLAs) have emerged as a distinct alternative, unifying vision, language, and action into a single discrete token space via masked generative modeling. While combining iterative refinement with unified representations, its training has thus far been restricted to Supervised Fine-Tuning (SFT), leaving the potential of Reinforcement Learning (RL) for further policy refinement largely unexplored. A fundamental challenge in RL for dVLAs is that the marginal probability of the final action generated by dVLAs remains intractable. To solve this problem, we propose \textbf{dVLA-RL}, shifting the learning objective from the marginal action probability to the joint probability of the sampled generation path. Specifically, by modeling the denoising process as a Markov Decision Process (MDP), we mathematically formulate this path probability as a product of step-wise transitions. This trajectory-level objective provides a unified formulation that natively accommodates variable denoising steps. Leveraging this intrinsic fexibility, we introduce a unified step scheduling approach for complex multi-task learning, tailoring denoising steps to specific task complexities to maximize both success rates and computational effciency. Extensive evaluations demonstrate that our approach achieves a success rate of \textbf{99.7\%} on LIBERO. Furthermore, it establishes strong VLA-based results on RoboTwin 2.0 by delivering a \textbf{30.6\%} improvement over the SFT baseline, remaining competitive with strong World-Action Model baselines.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、VLMのセマンティック推論に制御を基盤として、汎用的なロボット操作のための強力なパラダイムを確立している。
一般的なアーキテクチャは、拡散またはフロープロセスを介して、または自己回帰生成または並列復号のいずれかを通じて、アクションを連続的にモデル化する。
近年、離散拡散VLA(dVLA)は、視覚、言語、アクションをマスク付き生成モデルにより単一の離散トークン空間に統一する、明確な代替手段として出現している。
反復的な改良と統一された表現を組み合わせる一方で、その訓練はこれまでのところスーパーバイザード・ファイン・チューニング(SFT)に限られており、さらなる政策改善のための強化学習(RL)の可能性はほとんど探索されていない。
dVLA に対する RL の基本的な課題は、dVLA が生成する最終作用の限界確率が難解であることである。
そこで本研究では,学習目標を限界動作確率からサンプル生成経路の結合確率にシフトする,‘textbf{dVLA-RL}’を提案する。
具体的には、偏極過程をマルコフ決定過程(MDP)としてモデル化することにより、この経路確率をステップワイズ遷移の積として数学的に定式化する。
この軌道レベルの目的は、変数の分解ステップをネイティブに許容する統一的な定式化を提供する。
この本質的なフィージビリティを活用することで、複雑なマルチタスク学習のための統一的なステップスケジューリングアプローチを導入し、成功率と計算効率の両方を最大化するために、特定のタスク複雑度へのステップの調整を行う。
その結果,LIBERO 上での textbf{99.7\%} の成功率が得られた。
さらに、SFTベースラインに対してtextbf{30.6\%}の改善を提供し、強力なWorld-Action Modelベースラインと競合し続けることで、RoboTwin 2.0上で強力なVLAベースの結果を確立する。
関連論文リスト
- Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models [3.4519796338615225]
観測不能な潜伏変数の列として推論をモデル化する新しいVision-Language-Action(VLA)フレームワークを提案する。
本稿では,遅延状態生成を逐次決定プロセスとして扱う強化学習に基づくデノゲーション機構を提案する。
具体化決定ベンチマークの実験により、AVA-VLAは明示的なCoT法よりも6倍の速度アップを達成することが示された。
論文 参考訳(メタデータ) (2026-06-13T04:16:18Z) - LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL [1.880672844596704]
VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。
既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。
提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-20T01:36:58Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。