論文の概要: QPILOTS: Efficient Test-Time Q-Steering for Flow Policies
- arxiv url: http://arxiv.org/abs/2606.14801v1
- Date: Thu, 11 Jun 2026 18:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.240407
- Title: QPILOTS: Efficient Test-Time Q-Steering for Flow Policies
- Title(参考訳): QPILOTS: フローポリシのための効率的なテスト時間Q-Steering
- Authors: Yifan Ruan, Chenyang Cao, Andreas Burger, Ali Pesaranghader, Kaveh Kamali, Jaehong Kim, Nandita Vijaykumar, Alan Aspuru-Guzik, Igor Gilitschenski, Nicholas Rhinehart,
- Abstract要約: QPILOTSは、元のポリシーを変更せずに、推論時にデノナイジングプロセスを操る方法である。
標準のオフライン-オンラインRLベンチマークでは、QPILOTSが最高の集計性能を達成し、50タスクで平均90%の成功率に達する。
- 参考スコア(独自算出の注目度): 20.217020870532686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow-matching and diffusion policies are expressive action generators, but optimizing them with temporal-difference reinforcement learning (RL) remains difficult. Effective policy extraction requires exploiting the critic's action gradient, yet directly backpropagating this signal through a multi-step denoising process can be numerically unstable. Existing methods work around this either by discarding gradient information, distilling the policy into a simpler one-step actor, or repeatedly fine-tuning the denoising policy as the critic improves. We propose QPILOTS, a method that leaves the original policy unmodified and steers the denoising process at inference time. At each denoising step, instead of evaluating the critic on the noisy intermediate action where critic predictions are unreliable, we first project that intermediate state to an estimate of the final clean action and compute the critic gradient there. We introduce two variants: QPILOTS-U uses a fast single-point approximation, while QPILOTS-M draws differentiable posterior samples via a learned auxiliary network. On a standard offline-to-online RL benchmark, QPILOTS achieves the best aggregate performance, reaching an average success rate of 90% across 50 tasks. We also apply QPILOTS to steer a large, frozen, pretrained Vision-Language Action (VLA) foundation model, outperforming or matching prior inference-time approaches across six manipulation tasks in simulation.
- Abstract(参考訳): フローマッチングと拡散ポリシは表現力のあるアクションジェネレータであるが,時間差強化学習(RL)でそれらを最適化することは依然として困難である。
効果的なポリシー抽出には、批評家の行動勾配を利用する必要があるが、この信号を多段階のデノナイジングプロセスで直接バックプロパゲートすることは、数値的に不安定である。
既存の手法は、勾配情報を捨て、より単純なワンステップアクターにポリシーを蒸留するか、あるいは批判が改善するにつれて、装飾ポリシーを何度も微調整する。
提案するQPILOTS(QPILOTS)は,当初の方針を変更せずに,推論時にデノナイズ処理を行う手法である。
各段階において、批判的予測が信頼できないノイズのある中間動作について、批判者を評価する代わりに、まず、最終的な清潔な行動の推定を中間状態にし、そこでの批判的勾配を計算することを計画する。
QPILOTS-Uは高速な単一点近似を用いており、QPILOTS-Mは学習補助ネットワークを介して異なる後部サンプルを描画する。
標準のオフライン-オンラインRLベンチマークでは、QPILOTSは最高の集計性能を達成し、50タスクで平均90%の成功率に達する。
また、QPILOTSを用いて、シミュレーション中の6つの操作タスクにまたがる事前推論時間アプローチよりも優れた、凍結、事前訓練されたビジョンランゲージアクション(VLA)の基礎モデルを操る。
関連論文リスト
- Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning [50.738952715864116]
表現的連続制御ポリシは、シミュレーションされた実ロボット制御のための模倣学習のスケーリングにおける進歩のバックボーンを形成する。
テスト時に完全にポリシー最適化を行うRLアルゴリズムであるQGF(Q-Guided Flow)を提案する。
実証的には、QGFはシングルタスクおよびゴール条件のオフラインRLベンチマークにおいて、以前のテスト時間RLメソッドよりも優れている。
論文 参考訳(メタデータ) (2026-06-09T16:45:57Z) - Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies [14.519898493996891]
本稿では,Q-Guided Value-Gradient Matching (Q-VGM) を法外強化学習(RL)法として提案する。
Q-VGMは、生成モデルにおけるフローアライメントの値勾配ビューであるVGG-Flowを活用することで問題を回避している。
LIBEROでは、Q-VGMが75.0%から92.5%に、RoboTwin 2.0では76.4%から87.2%に、実際の2つのテーブルトップタスクでは40.0%から67.5%に上昇している。
論文 参考訳(メタデータ) (2026-06-06T07:10:25Z) - FASTER: Value-Guided Sampling for Fast RL [103.55398181003262]
FASTERは、計算コストを伴わずに拡散ベースのポリシーのサンプリングベースのテストタイムスケーリングの利点を得る方法である。
FASTERは、トレーニングと推論の計算要求を大幅に削減しながら、同じパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-21T17:52:17Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。