論文の概要: SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2606.10305v1
- Date: Tue, 09 Jun 2026 01:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.976686
- Title: SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation
- Title(参考訳): SARM2: 自己改善型ロボットマニピュレーションのためのマルチタスクステージアウェア・リワードモデリング
- Authors: Qianzhong Chen, Hau Zheng, Justin Yu, Suning Huang, Jiankai Sun, Ken Goldberg, Chuan Wen, Pieter Abbeel, Yide Shentu, Philipp Wu, Mac Schwager,
- Abstract要約: ロングホライゾン操作のための微調整視覚言語アクション(VLA)ポリシーは、依然として行動クローニングに大きく依存している。
本稿では,MMOE(Multi-gate Mixture-of-Experts)値ヘッドとアクションプリミティブベースのステージ推定器を組み合わせたマルチタスクステージ認識報酬モデルRMを紹介する。
RM 上に構築した SPIRAL は,安価で自律的なロールアウトから VLA ポリシーを改善する,政治上の報酬誘導型フレームワークである。
- 参考スコア(独自算出の注目度): 57.131411215593744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning vision-language-action (VLA) policies for long-horizon manipulation still relies heavily on behavior cloning, which requires costly high-quality demonstrations and keeps policies near the demonstration distribution. Reward models can reduce this dependence by reweighting demonstrations and providing dense supervision for on-robot reinforcement learning (RL), but they must be dense, accurate, and general. Existing methods fall short: task-specific stage-aware models are accurate but require per-task annotations, while general vision-language-model (VLM) reward models are broadly applicable but too coarse for fine-grained long-horizon progress. We introduce RM, a multi-task stage-aware reward model that combines an action-primitive-based stage estimator with a multi-gate Mixture-of-Experts (MMoE) value head to produce dense per-step rewards across manipulation tasks. Building on RM, we further propose SPIRAL (Self-Policy Improvement via Reward-Aligned Learning), an on-policy reward-guided framework that improves VLA policies from cheap autonomous rollouts. On a 10-task benchmark, RM reduces value-estimation MSE by 80% over the strongest baselines; when used in SPIRAL, it improves task success from around 50% to near-perfect performance on Folding Shorts (58% to 100%) and Cleaning Whiteboard (50% to 90%), showing that high-quality dense rewards are key to a stable robot data flywheel. Project website: https://qianzhong-chen.github.io/sarm2.github.io/.
- Abstract(参考訳): ロングホライゾン操作のための微調整視覚言語アクション(VLA)ポリシーは、依然として行動クローニングに大きく依存している。
リワードモデルは、デモンストレーションを再重み付けし、ロボット上での強化学習(RL)の厳密な監督を提供することによって、この依存を減らすことができるが、それらは密度が高く、正確で、一般には必要である。
タスク固有のステージ認識モデルは正確だが、タスクごとのアノテーションを必要とするのに対し、一般的な視覚言語モデル(VLM)の報酬モデルは広く適用可能であるが、細粒度のロングホライゾン進行には大きすぎる。
本稿では,MMOE(Multi-gate Mixture-of-Experts)値ヘッドとアクションプライミティブベースステージ推定器を組み合わせたマルチタスクステージ認識報酬モデルであるRMを紹介する。
RM 上に構築した SPIRAL (Self-Policy Improvement via Reward-Aligned Learning) は,安価で自律的なロールアウトから VLA ポリシーを改善するオンライン報酬誘導フレームワークである。
SPIRALでは、Folding Shorts(58%から100%)とCirninging Whiteboard(50%から90%)のタスク成功率を50%からほぼ完璧なパフォーマンスに向上させ、高品質の高密度報酬が安定したロボットデータフライホイールの鍵であることを示している。
プロジェクトサイト:https://qianzhong-chen.github.io/sarm2.github.io/。
関連論文リスト
- Generalizable Dense Reward for Long-Horizon Robotic Tasks [10.301325532021218]
VLM(Vision-Language Models)は、タスクを検証可能なサブタスクに分解する。
自己確実性は、PPOファインタニング全体を通じてステップごとの本質的なガイダンスを提供する。
CHORESベンチマークでは、VLLRは事前訓練されたポリシーよりも最大56%の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2026-03-31T02:05:07Z) - TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。
130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。
我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文 参考訳(メタデータ) (2026-02-22T19:25:48Z) - RoboReward: General-Purpose Vision-Language Reward Models for Robotics [124.34685604054312]
視覚言語モデル(VLM)は、自動報酬モデルとして期待されているが、実際のロボットタスクにおけるそれらの効果は理解されていない。
大規模な実ロボットコーパス上に構築されたロボティクス報酬データセットとベンチマークであるRoboRewardを導入することで、このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2026-01-02T12:47:34Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。