論文の概要: Wasserstein Policy Learning for Distributional Outcomes
- arxiv url: http://arxiv.org/abs/2606.19117v1
- Date: Wed, 17 Jun 2026 14:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.203004
- Title: Wasserstein Policy Learning for Distributional Outcomes
- Title(参考訳): 分散アウトカムのためのワッサーシュタイン政策学習
- Authors: Yiyan Huang, Cheuk Hang Leung, Qi Wu, Zhiheng Zhang,
- Abstract要約: 分布評価結果を用いたオフライン政策学習について検討する。
政策学習フレームワークの統計的保証を確立する。
我々は、$N および $mathrmNtext-dim()/N への先行依存の鋭さを確立するミニマックス下界を提供する。
- 参考スコア(独自算出の注目度): 19.98190660365478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline policy learning has received growing attention in causal inference. The primary objective is to learn a policy (individualized treatment rule) as a mapping from covariates to treatment that maximizes the empirical welfare defined as the mean of scalar-valued potential outcomes. In this paper, we study offline policy learning with distribution-valued outcomes, where each potential outcome is a probability measure on $\mathbb{R}$ and the reward is defined through a utility functional applied to the Wasserstein barycenter of induced outcome distributions. We establish statistical guarantees for the policy learning framework based on both Inverse Probability Weighting (IPW) and Doubly Robust (DR) estimators. By handling the challenging uniform deviation over the product of the combinatorial policy class and the infinite-dimensional quantile domain, we prove that the finite-sample regret has leading dependence $\widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(Π)/N})$. In the one-dimensional Wasserstein setting and under the stated regularity conditions, the leading regret rate is still governed by the policy-class complexity. Moreover, we provide a minimax lower bound establishing the sharpness of the leading dependence on $N$ and $\mathrm{N\text{-}dim}(Π)$.
- Abstract(参考訳): オフライン政策学習は因果推論において注目を集めている。
主な目的は、共変量から治療へのマッピングとしてポリシー(個別化された治療規則)を学習することであり、これはスカラー評価された潜在的な結果の平均として定義された経験的福祉を最大化する。
本稿では、分布評価結果を用いたオフライン政策学習について検討し、各確率結果が$\mathbb{R}$の確率測度であり、その報酬は誘導結果分布のワッサーシュタインバリセンタに適用される実用関数によって定義される。
Inverse Probability Weighting (IPW) および Doubly Robust (DR) 推定器に基づく政策学習フレームワークの統計的保証を確立する。
組合せポリシークラスと無限次元の量子領域の積に対する挑戦的な一様偏差に対処することにより、有限サンプルの後悔が $\widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}( )/N})$ を導いたことを証明できる。
1次元のワッサーシュタインの設定と、記述された規則性条件の下では、主要な後悔率は、いまだにポリシークラスの複雑さによって支配されている。
さらに、$N$ および $\mathrm{N\text{-}dim}(\)$ への先行依存の鋭さを確立するミニマックス下界を提供する。
関連論文リスト
- On the Sample Complexity of Discounted Reinforcement Learning with Optimized Certainty Equivalents [2.4145441422386464]
有限割引MDPにおけるリスク感応性強化学習について検討した。
我々は、最適化確実性等価(OCE)と呼ばれる家族またはリスク対策を考える。
論文 参考訳(メタデータ) (2026-05-20T21:53:51Z) - Statistical analysis of Inverse Entropy-regularized Reinforcement Learning [15.054399128586232]
逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。
多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。
Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
論文 参考訳(メタデータ) (2025-12-07T18:26:19Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。