論文の概要: Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes
- arxiv url: http://arxiv.org/abs/2606.17043v1
- Date: Mon, 15 Jun 2026 17:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.187745
- Title: Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes
- Title(参考訳): Sparse Episode OutcomesにおけるオンラインRLファインチューニングのための階層的アドバンテージウェイトリング
- Authors: Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li,
- Abstract要約: 事前トレーニングされたVLAポリシーがオンラインRLを介して微調整されると、各ロールアウトエピソードは単一のバイナリ結果のみを生成する。
階層的アドバンテージ・重み付き行動クローン (HABC) を提案する。
HABCは教師付き微調整(SFT)ベースラインを36%、44%、12%から92%、88%、38%で成功している。
- 参考スコア(独自算出の注目度): 40.20394793623452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate $g_t$ merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.
- Abstract(参考訳): 事前トレーニングされたVLAポリシーがオンラインRLを介して微調整された場合、各ロールアウトエピソードは単一のバイナリ結果(成功または失敗)しか生成しないが、アクター更新には移行毎の監視が必要である。
既存のアプローチでは、このスパースの結果を単一のスカラー報酬や有利な信号に還元するのが一般的であり、これは移行レベルのフィードバックの異なる形態を混在させ、基本的なタスク成功が達成可能になった場合に限定的なガイダンスを提供する。
まず、単一のスカラー信号は、生存性と効率性の2つの目的を融合させる。
第二に、現実のロールアウトは、自律性と介入セグメントを混合する。
これらの問題に対処するため、我々は階層的アドバンテージ・重み付き行動クローン(HABC)を提案し、異なるデータサブセット上でこれらの2つの目的に対して異なる批判ヘッドを訓練し、それらの出力を状態適応バランスと組み合わせる。
状態適応ゲート$g_t$は、成功が不確かであるときの生存度を優先し、生存度が高いときのみ効率にシフトして、その一段階のアドバンテージをマージし、その結果をアクター損失の遷移重みに変換する。
インターベンション・アウェア・クレジットの割り当ては、結果ラベルを現在のポリシーによって実行されるセグメントに制限し、介入境界を越えて監督が漏洩することを防ぐ。
3つのコンタクトリッチなバイマニュアルタスクのリアルタイム実験において、HABCは教師付き微調整(SFT)ベースラインの36%、44%、そして12%から92%、88%、そして38%で成功している。
関連論文リスト
- PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment [35.978805768172656]
ロングホライゾンのエージェントタスクは、結果ベース強化学習の基本的なクレジット割り当て課題となる。
PBSD (Privileged Bayesian Self-Distillation) はベイズが校正した自己蒸留法である。
論文 参考訳(メタデータ) (2026-06-08T11:20:58Z) - Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation [40.17737666526493]
PACT(Preference-calibrated Actor-Critic Training framework)を提案する。
まず、人間の実演から学習し、信用補正のための最適部分を特定するプログレスモデルを設計する。
次に、選好ペアを構築して、同定された準最適セグメントのベルマン目標をペナルティ化する反ファクト的優位性を定義する。
論文 参考訳(メタデータ) (2026-06-02T17:38:25Z) - Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning [6.365332042924078]
本稿では,ロールアウト後の自己蒸留フレームワークであるStepOPSDについて紹介する。
StepOPSDは、軌跡をアクション中心のステップセグメントに分解し、後見豊かな教師コンテキスト下でそれらを再構成する。
より小さい_clipは広範囲に安定化された局所信頼領域として作用するが、最適な大域混合強度_mixはタスク依存のままである。
論文 参考訳(メタデータ) (2026-05-26T15:07:03Z) - Failing Forward: Adaptive Failure-Informed Learning for Vision-Language-Action Models [32.87104367896446]
本稿では,拡散型および流路型VLAポリシーに対する適応的負のガイダンスとして,障害軌跡を利用するエンドツーエンドフレームワークを提案する。
AFILはトレーニング済みのVLAを使用して、オンラインの障害ロールアウトを生成する。
その後、デュアルアクションジェネレータ(DAG)を共同で訓練し、共通の視覚言語バックボーンを共有しながら、動作が成功し失敗する。
論文 参考訳(メタデータ) (2026-05-08T19:57:11Z) - Hierarchical Vision Language Action Model Using Success and Failure Demonstrations [60.82332413442677]
階層型視覚-言語-アクションモデルであるVINEを導入し,高レベル推論を低レベル制御から分離する。
システム2は、2Dシーングラフの抽象化を介して、実現可能性誘導木探索を行う。
システム1はエージェントのコアスキルを変更することなく、低レベルのアクションを実行する。
論文 参考訳(メタデータ) (2025-12-03T15:58:38Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。