論文の概要: Horizon Adaptive Offline Policy Learning via Value Stitching
- arxiv url: http://arxiv.org/abs/2606.21136v1
- Date: Fri, 19 Jun 2026 06:20:45 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:18:15.237156
- Title: Horizon Adaptive Offline Policy Learning via Value Stitching
- Title(参考訳): 水平適応型オフライン政策学習
- Authors: Kexin Zheng, Xianyuan Zhan, Xintao Yan,
- Abstract要約: 正確な値関数の学習は、長期にわたる複雑なタスクを解決するための強化学習(RL)エージェントにとって決定的な役割を果たす。
本稿では,動的地平線構成による値更新の実現により,強力なオフラインポリシ学習方式が実現可能であることを示す。
- 参考スコア(独自算出の注目度): 19.32031487321911
- License:
- Abstract: Learning accurate value functions plays a decisive role for reinforcement learning (RL) agents to solve long-horizon, complex tasks. Conventional temporal-difference (TD) learning objectives suffer from value-estimation bias that accumulates over the horizon, while extended-horizon modeling methods, such as n-step TD backups and Q-chunking, adopt a rigid, fixed-horizon value-modeling recipe that is often not flexible enough to capture complex value structures in long-horizon, multi-stage tasks. In this paper, we show that enabling value updates with dynamic horizon composition can yield a strong offline policy learning scheme. Our method, Horizon Adaptive Offline Policy Learning via VAlue STitching (VAST), replaces fixed-horizon backups with recursive, horizon-adaptive value composition. Its key ingredient is to couple value optimization with a future state- and horizon-length-conditioned auxiliary value function that is learned through direct data supervision, and a stitching policy that optimally selects the reward-maximizing horizon length and future sub-goal to achieve horizon-adaptive value stitching. This design enables direct estimation and compositional "stitching" of variable-length returns grounded in actionable sub-goal states, providing an accurate and greedily exploitable value-supervision signal for offline policy optimization. Across 50 tasks on OGBench, VAST outperforms fixed-step, extended-horizon methods, and generative-value offline RL baselines, achieving strong performance particularly in high-complexity, long-horizon decision-making tasks.
- Abstract(参考訳): 正確な値関数の学習は、長期にわたる複雑なタスクを解決するための強化学習(RL)エージェントにとって決定的な役割を果たす。
従来の時間差学習目標(TD)は水平線上に蓄積する値推定バイアスに悩まされる一方、nステップのTDバックアップやQチャンキングのような拡張水平モデリング手法では、長い水平・多段階タスクにおいて複雑な値構造を捉えるのに十分な柔軟性のない厳密な固定水平値モデリングレシピを採用する。
本稿では,動的地平線構成による値更新の実現により,強力なオフラインポリシ学習方式が実現可能であることを示す。
Value STitching (VAST) による水平適応オフライン政策学習は, 固定水平バックアップを再帰的, 水平適応的値合成に置き換える。
その鍵となる要素は、直接データ監督によって学習される将来状態および地平線条件付き補助値関数と、報奨最大地平線長と将来のサブゴールを最適に選択して地平線適応値縫合を実現する縫合ポリシーとを結合することである。
この設計により、動作可能なサブゴール状態にある変数長の戻り値の直接推定と構成"スティッチ"が可能となり、オフラインポリシー最適化のための正確で厳密に活用可能な値スーパービジョン信号を提供する。
OGBench上の50以上のタスクにおいて、VASTは固定ステップ、拡張水平法、生成値のオフラインRLベースラインよりも優れ、特に複雑で長期の意思決定タスクにおいて高いパフォーマンスを達成する。
関連論文リスト
- Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - Latent Policy Steering through One-Step Flow Policies [34.06099184809882]
オフライン強化学習(RL)により、ロボットはリスクを伴わないオフラインデータセットから学習することができる。
遅延ポリシーステアリング(LPS)は、一段階のMeanFlowポリシを通じて、原アクション空間のQ段階をバックプロパゲートすることで、高忠実な遅延ポリシーの改善を可能にする。
OGBenchと現実世界のロボットタスク全体で、LPSは最先端のパフォーマンスを達成し、行動的クローン化と強力な潜在的ステアリングベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-03-05T15:38:08Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts [22.46606397400043]
本稿では,データ拡張フレームワークASTROを提案する。
ASTROはまず時間距離の表現を学習し、区別され、到達可能な縫合ターゲットを特定する。
次に、動的誘導型縫合プランナを用い、ロールアウト偏差フィードバックを介して接続動作シーケンスを適応的に生成する。
論文 参考訳(メタデータ) (2025-11-28T18:35:37Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - State-Covering Trajectory Stitching for Diffusion Planners [29.89423911968709]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning [19.341894845618445]
オフライン目標条件強化学習(GCRL)は、豊富な状態行動軌跡データセットから目標達成ポリシーをトレーニングする実践的な学習パラダイムを提供する。
本稿では、時間差学習プロセスに時間的抽象化を組み込んだOTAと呼ばれる、オプション対応の時間的抽象価値学習を提案する。
我々は、最近提案されたオフラインGCRLベンチマークであるOGBenchから、OTAを用いて学習した高レベルポリシーが、複雑なタスクに対して高い性能を達成することを実験的に示す。
論文 参考訳(メタデータ) (2025-05-19T05:51:11Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。