論文の概要: UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.07592v1
- Date: Thu, 28 May 2026 17:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.755254
- Title: UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning
- Title(参考訳): UNIQ:オフライン強化学習における適応的保守性のためのコンフォーマル校正
- Authors: Aditya Upadhyay,
- Abstract要約: UNIQ (Uncertainty-Informed Quantile) は、正則に校正された不確実性推定を通じて状態適応保守性を導入するオフラインRL法である。
Implicit Q-Learning (IQL) バックボーン上に構築されたUNIQは、多変量値アンサンブルを訓練し、分割共形予測を用いて分布のない不確実性推定を計算し、その結果の信号を状態依存の期待値にマッピングする。
D4RL MuJoCoベンチマークでは、UNIQは一貫してIQLよりも改善されている。
- 参考スコア(独自算出の注目度): 0.324890820102255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning requires careful conservatism to mitigate distribution shift, yet most existing methods apply a fixed penalty uniformly across all states regardless of local data coverage. We present UNIQ (Uncertainty-Informed Quantile), an offline RL method that introduces state-adaptive conservatism through conformally calibrated uncertainty estimation. Built on the Implicit Q-Learning (IQL) backbone, UNIQ trains a multi-expectile value ensemble, computes distribution-free uncertainty estimates using split conformal prediction, and maps the resulting signal to a state-dependent expectile that relaxes conservatism in well-covered regions while strengthening it in uncertain regions near the data frontier. On D4RL MuJoCo benchmarks, UNIQ consistently improves over IQL, with the largest gains observed on Walker2d and replay-heavy tasks. At the same time, UNIQ operates at near-IQL memory cost (approximately 250 MB peak VRAM), providing roughly a 10x reduction compared to EDAC. Rather than pursuing overall state-of-the-art performance, we position UNIQ as a practical mechanism contribution that improves the performance-efficiency trade-off in offline reinforcement learning.
- Abstract(参考訳): オフライン強化学習は、分散シフトを緩和するために注意深い保守性を必要とするが、既存のほとんどの方法は、ローカルなデータカバレッジに関係なく、すべての州で一様に罰則を適用している。
整合的不確実性推定により状態適応型保存性を導入するオフラインRL法であるUNIQを提案する。
Implicit Q-Learning (IQL) のバックボーン上に構築されたUNIQは、多変量値アンサンブルを訓練し、分割整合予測を用いて分布のない不確実性推定を計算し、結果の信号を、データフロンティア近くの不確かさ領域で保存性を緩和する状態依存期待値にマッピングする。
D4RL MuJoCoベンチマークでは、UNIQは一貫してIQLよりも改善されている。
同時にUNIQは、ほぼIQLメモリコスト(約250MBのピークVRAM)で動作し、EDACに比べて約10倍の削減を実現している。
我々は、最先端のパフォーマンスを追求する代わりに、UNIQをオフライン強化学習におけるパフォーマンス効率トレードオフを改善するための実践的なメカニズムとして位置付ける。
関連論文リスト
- Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning [32.6459755506093]
オフライン強化学習のためのMIMO(Uncertainty-Aware Rank-One Multi-Input Multi-Output)Q Networkフレームワークを提案する。
このフレームワークは、データ不確実性を定量化し、トレーニング損失に利用し、対応するQ関数の低信頼境界を最大化するポリシーをトレーニングすることを目的とする。
論文 参考訳(メタデータ) (2026-02-23T14:57:52Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Mildly Conservative Regularized Evaluation for Offline Reinforcement Learning [4.657497798824256]
オフライン強化学習は、さらなる環境相互作用を伴わずに、静的データセットから最適なポリシーを学習しようとする。
過大評価を防ぐために、値関数は保守的でなければならない。
本稿では保守主義と性能のバランスをとる軽度に保守的な正規化評価(MCRE)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-08T02:48:26Z) - ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。
ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。
理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文 参考訳(メタデータ) (2024-12-22T04:18:02Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。