論文の概要: Improving Robotic Generalist Policies via Flow Reversal Steering
- arxiv url: http://arxiv.org/abs/2606.13675v1
- Date: Thu, 11 Jun 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.983916
- Title: Improving Robotic Generalist Policies via Flow Reversal Steering
- Title(参考訳): フローリバーサルステアリングによるロボット一般政策の改善
- Authors: Andy Tang, William Chen, Andrew Wagenmaker, Chelsea Finn, Sergey Levine,
- Abstract要約: 汎用ポリシーは多様なロボットデータセットから幅広いスキルを学ぶことができる。
課題のあるニュースタスクを解き、改善するためには、ポリシーのリッチな行動から適切なアクションを推論し、呼び出す方法が必要です。
本稿では,フローリバーサルステアリング (FRS) を提案し,フローポリシーを逆に通すことで,最適だが合理的な動作をとる手法を提案し,それらを一般の動作モードにマッピングする。
- 参考スコア(独自算出の注目度): 92.97477771370428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist policies can learn a wide range of skills from diverse robot datasets. In order to solve or improve on challenging news tasks, we need a way to infer and invoke the appropriate actions from the policy's rich behavioral prior, especially when directly commanding the policy fails. We focus on flow matching generalists and propose Flow Reversal Steering (FRS): a method that takes suboptimal but ``reasonable'' actions, finds their latent noises by passing them through the flow policy in reverse, and maps them to nearby generalist action modes. We evaluate FRS across many simulated and real-world manipulation settings. First, FRS can turn coarse semantic guidance from humans or vision-language models (VLMs) into corresponding good robot actions, improving zero-shot control. These gains can be distilled with behavioral cloning by training an auxiliary policy to output noises that the generalist maps to good actions -- showing up to 95% absolute task success rate boosts in under a minute of training. Finally, FRS enables policy improvement by bootstrapping reinforcement learning with semantic knowledge, improving on several tasks that standard RL fails to improve on.
- Abstract(参考訳): 汎用ポリシーは多様なロボットデータセットから幅広いスキルを学ぶことができる。
課題のあるニュースタスクを解決または改善するためには、ポリシーのリッチな行動から適切なアクションを推論し、実行する方法が必要です。
本稿では,フローマッチングジェネラリストに着目し,フローリバーサルステアリング(FRS)を提案する。フローマッチングジェネラリスト(フローマッチングジェネラリスト)の動作を最適だが「合理的」な動作とし,フローポリシーを逆に通すことで遅延雑音を検知し,近傍のジェネラリスト動作モードにマップする手法である。
シミュレーションおよび実世界の操作設定におけるFRSの評価を行った。
まず、FRSは人間や視覚言語モデル(VLM)からの粗いセマンティックガイダンスを適切なロボット動作に変換することで、ゼロショット制御を改善する。
これらの利得は、ジェネリストが良い行動にマップするノイズを出力するための補助的なポリシーを訓練することで、行動のクローンで蒸留することができる。
最後に、FRSは、強化学習を意味知識でブートストラップすることで、ポリシーの改善を可能にし、標準のRLが改善に失敗するいくつかのタスクを改善する。
関連論文リスト
- Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning [42.74142065376427]
本稿では,Z-Perturbation Reinforcement Learning (ZPRL)を提案する。
現実世界では、ZPRLは模倣ベースポリシーよりも4つのタスクの平均成功率を33.7%向上させる。
論文 参考訳(メタデータ) (2026-05-19T14:43:26Z) - Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-12-03T17:05:58Z) - Reinforcement Learning for Flow-Matching Policies [9.308313682356285]
フローマッチングポリシーは、ジェネラリストロボティクスの強力なパラダイムとして登場した。
本研究は, 強化学習による流路整合政策の訓練を行い, 当初の実演政策を超越するものである。
論文 参考訳(メタデータ) (2025-07-20T18:15:18Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。