論文の概要: Counterfactual Transport Flows for Offline Conservative Trajectory Refinement
- arxiv url: http://arxiv.org/abs/2606.09115v1
- Date: Mon, 08 Jun 2026 07:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.784075
- Title: Counterfactual Transport Flows for Offline Conservative Trajectory Refinement
- Title(参考訳): オフライン保守軌道微細化のための逆輸送流
- Authors: Lena Krieger, Xuan Zhao, Zhuo Cao, Qin Wang, Hanno Scharr, Ira Assent,
- Abstract要約: 本稿では,世界フィードバックによるオフライン意思決定のためのソース条件付き軌道修正フレームワークを提案する。
AntMaze や MuJoCo タスクを含む D4RL ベンチマークの実験では,世界からのフィードバックとして過去のリターンから行動を改善する方法が示されている。
- 参考スコア(独自算出の注目度): 9.60771580834445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) offers a path to policy improvement from logged data alone, using historical returns or other measurable outcomes as world feedback. A key difficulty is improving observed behavior without extrapolating beyond what the offline data supports. We propose \emph{counterfactual transport flows}, a source-conditioned trajectory refinement framework for offline decision-making guided by world feedback. Given a low-feedback candidate trajectory, we construct local preference pairs from offline data by retrieving nearby trajectories in latent trajectory space with higher task-specific feedback, and use them as weak supervision for conservative refinement. The framework learns instance-specific refinement directions: at inference time, a refinement strength parameter controls how far the candidate trajectory is transported, enabling a trade-off between preserving the original behavior and applying stronger improvement. Experiments on D4RL benchmarks, including AntMaze and MuJoCo tasks, show that our method improves behavior from historical returns as world feedback, while providing interpretable trajectory-level refinement paths.
- Abstract(参考訳): オフライン強化学習(RL)は、過去のリターンやその他の測定可能な成果を世界フィードバックとして利用して、ログデータのみから政策改善への道筋を提供する。
重要な課題は、オフラインデータがサポートしているもの以外を外挿することなく、観察された振る舞いを改善することである。
本研究では,世界フィードバックによるオフライン意思決定のためのソース条件付き軌道改良フレームワークであるemph{counterfactual transport flow}を提案する。
低フィードバックの候補軌道が与えられた場合、より高いタスク依存フィードバックで近接した軌道を追従することで、オフラインデータから局所的な選好ペアを構築し、保守的な改善のための弱い監督力として利用する。
このフレームワークは、インスタンス固有の精錬方向を学習し、推論時に、精錬強度パラメータが、候補軌道の輸送距離を制御し、元の振舞いを保ち、より強力な改善を施すためのトレードオフを可能にする。
AntMaze や MuJoCo タスクを含む D4RL ベンチマーク実験により,本手法は,解釈可能な軌道レベルの改善パスを提供しながら,過去のリターンから世界フィードバックとして振舞いを改善することを示す。
関連論文リスト
- In-Context Reinforcement Learning From Suboptimal Historical Data [56.60512975858003]
トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
本稿では,アクタ・クリティカルなアルゴリズムを文脈内でエミュレートする決定重要度変換フレームワークを提案する。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-27T23:13:06Z) - ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts [22.46606397400043]
本稿では,データ拡張フレームワークASTROを提案する。
ASTROはまず時間距離の表現を学習し、区別され、到達可能な縫合ターゲットを特定する。
次に、動的誘導型縫合プランナを用い、ロールアウト偏差フィードバックを介して接続動作シーケンスを適応的に生成する。
論文 参考訳(メタデータ) (2025-11-28T18:35:37Z) - Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文 参考訳(メタデータ) (2024-07-05T12:05:37Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Contrastive Diffuser: Planning Towards High Return States via Contrastive Learning [24.654686581207343]
オフライン強化学習(RL)の性能は、オフラインデータセットにおけるハイリターン軌道の割合に敏感である。
本稿では,低リターントラジェクトリをフル活用し,オフラインRLアルゴリズムの性能を向上させるために,Contrastive diffuser (CDiffuser)を提案する。
論文 参考訳(メタデータ) (2024-02-05T07:12:02Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [68.02988959934498]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。