論文の概要: Real-Time Execution with Autoregressive Policies
- arxiv url: http://arxiv.org/abs/2606.13355v1
- Date: Thu, 11 Jun 2026 13:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.82702
- Title: Real-Time Execution with Autoregressive Policies
- Title(参考訳): 自己回帰政策によるリアルタイム実行
- Authors: Sangkyu Lee, Seohyeon Park, Tackgeun You, Avi Caciularu, Idan Szpektor, Hwasup Lim, Youngjae Yu,
- Abstract要約: トークン化の地平線を調整し,制約付きデコードを適用することで,自己回帰ポリシーがリアルタイムに実行可能であることを示す。
自己回帰政策は、同等レベルのフローマッチングポリシーよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 36.63507144872728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time execution, enabled by asynchronous inference that ensures both smooth action trajectories and fast reactivity, is critical for realistic deployments of large-scale Vision-Language-Action models. However, recent work on real-time execution primarily focuses on variants of diffusion policies, even though it is more critical for autoregressive policies given their slower rollout speed in synchronous inference. In contrast, we demonstrate that autoregressive policies can achieve real-time execution by adjusting the tokenization horizon and applying constrained decoding, thereby guaranteeing strict latency bounds that enable multi-trajectory decoding to maximize performance. Across simulated and real-world environments, we find that the autoregressive policy consistently outperforms its equivalent-level flow-matching policy counterpart while achieving significantly improved task completion speeds from synchronous inference. Coupled with the inherent advantages of autoregressive policies, such as faster convergence and better generalizability in instruction-following, these results confirm that autoregressive policies can remain a competitive policy type supporting real-time execution.
- Abstract(参考訳): 非同期推論によって実現されたリアルタイム実行は、スムーズなアクショントラジェクトリと高速な反応性の両方を保証する。
しかし、リアルタイム実行に関する最近の研究は、同期推論におけるロールアウト速度が遅いことを考えると、自己回帰ポリシーにとってより重要であるにもかかわらず、主に拡散ポリシーの変種に焦点を当てている。
対照的に、自己回帰ポリシーはトークン化水平線を調整し、制約付き復号を施すことでリアルタイムに実行できることを示し、これにより、多軌道復号化による性能の最大化を可能にする厳密なレイテンシ境界を保証する。
シミュレーションおよび実世界の環境全体にわたって、自己回帰ポリシーは、同期推論によるタスク完了速度を大幅に向上させながら、同等レベルのフローマッチングポリシーを一貫して上回っていることがわかった。
これらの結果から, 自己回帰政策が, リアルタイム実行をサポートする競争的政策タイプのままであることを示す。
関連論文リスト
- DiscreteRTC: Discrete Diffusion Policies are Natural Asynchronous Executors [57.944744187489185]
外部修正をネイティブなアンマスクに置き換えるDiscreteRTCを提案する。
DiscreteRTCは、非同期のインペインティングのために0行のコードを実装するのが簡単で、スクラッチから生成したアクションに比べてわずか0.7倍の計算速度で推論が高速で、フローベースのRTCに比べて実世界の動的ピックタスクの成功率が50%向上した。
論文 参考訳(メタデータ) (2026-04-27T23:04:03Z) - F2F-AP: Flow-to-Future Asynchronous Policy for Real-time Dynamic Manipulation [62.06267255986041]
非同期推論はロボット操作における主要なパラダイムとして現れている。
本稿では,予測対象の流れを利用して将来の観測を合成する新しい枠組みを提案する。
本手法は複雑な動的操作タスクにおける応答性と成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-02T17:57:15Z) - Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation [4.726851899243877]
LG-Flow Policyは、連続的な潜在アクション空間でフローマッチングを実行する軌道レベルの模倣学習フレームワークである。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離する。
論文 参考訳(メタデータ) (2026-01-30T15:36:43Z) - Real-Time Robot Execution with Masked Action Chunking [38.37108371991901]
ロボットのようなサイバー物理システムにはリアルタイム実行が不可欠である。
近年,リアルタイムロボット操作のためのシステムレベルのパラダイムとして,非同期推論が登場している。
本稿では,マスクされたアクションチャンキングによって事前訓練されたポリシーの修正を学習するREMACを提案する。
論文 参考訳(メタデータ) (2026-01-27T23:48:32Z) - SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning [52.29534291796025]
強化学習(Reinforcement learning)は、より高速な実行のためにポリシーを適用する、有望なアプローチである。
タスク実行の高速化のために事前学習されたポリシーを効率的に適応するRLベースのポリシーアクセラレーションフレームワークであるSpeedAugを提案する。
論文 参考訳(メタデータ) (2025-11-24T04:25:47Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。