論文の概要: Elastic Queries Reinforcement Learning: Self-Aware Policy Execution for VLA Models
- arxiv url: http://arxiv.org/abs/2606.14375v1
- Date: Fri, 12 Jun 2026 12:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.886254
- Title: Elastic Queries Reinforcement Learning: Self-Aware Policy Execution for VLA Models
- Title(参考訳): 弾力性のあるクエリ強化学習:VLAモデルの自己認識ポリシー実行
- Authors: Ge Wang, Xinyu Tan, Xiang Li, Man Luo, Chengsi Yao, Shenhao Yan, Jiahao Yang, Fan Feng, Honghao Cai, Xiangyuan Wang, Zhixin Mai, Yiming Zhao, Yatong Han, Zhen Li,
- Abstract要約: 視覚言語アクションモデル(VLAモデル)は、ロボット操作のための強力なアクションジェネレータである。
それらは通常、固定された推論とスケジュールの再計画で実行される。
本稿では、各VLAポリシークエリを弾力的にするために、Elastic Queries Reinforcement Learning (EQRL)を提案する。
- 参考スコア(独自算出の注目度): 29.586817761572373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models are powerful action generators for robot manipulation, but they are typically executed with fixed inference and replanning schedules. This rigidity ignores the uneven difficulty of robot control: contact-rich or uncertain states may need more computation and fresher feedback, while easier states can often be handled with fewer inference steps and longer open-loop execution. We propose Elastic Queries Reinforcement Learning (EQRL), a framework that makes each VLA policy query elastic. A lightweight latent-schedule adaptor jointly selects the latent input, denoising budget, and action chunk length, without fine-tuning the underlying VLA model. To make scheduling difficulty-aware, EQRL trains a critic over the joint latent-schedule action and derives a state difficulty signal from critic ensemble disagreement. This signal guides compute toward difficult states, while a learned residual allows task-driven correction. We formulate variable chunk execution as query-level macro-action RL with chunk-dependent discounting and an amortized number-of-function-evaluations (NFE) budget. Across simulation and real-robot manipulation, EQRL reduces amortized inference cost while preserving or improving task success.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルはロボット操作のための強力なアクションジェネレータである。
この剛性は、ロボット制御の不均一な難しさを無視している: 接触豊富な状態や不確実な状態は、より多くの計算とより新しいフィードバックを必要とするが、より簡単な状態は、推論ステップを少なくして、より長いオープンループ実行で扱うことができる。
本稿では,各VLAポリシークエリを弾力的にするフレームワークであるElastic Queries Reinforcement Learning (EQRL)を提案する。
軽量潜水器は、基礎となるVLAモデルを微調整することなく、潜水入力、除音予算、アクションチャンク長を共同で選択する。
スケジューリングの難しさに気付くために、EQRLは、共同潜伏動作に対して批評家を訓練し、批判アンサンブルの不一致から状態困難信号を導出する。
この信号は計算を困難な状態に導くが、学習された残差はタスク駆動の補正を可能にする。
クエリレベルのマクロアクションRLとして可変チャンク実行を定式化し,チャンク依存性の割引と,NFE予算の償却を行う。
シミュレーションとリアルタイムロボット操作を通じて、EQRLはタスクの成功を保存または改善しながら、償却推論コストを削減する。
関連論文リスト
- VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model [54.35791816657227]
適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
論文 参考訳(メタデータ) (2026-05-02T02:13:11Z) - Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference [7.690958366125321]
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2025-10-10T09:59:36Z) - VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。
制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。
400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文 参考訳(メタデータ) (2025-10-01T01:33:10Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。