論文の概要: Inverting the Bellman Equation: From $Q$-Values to World Models
- arxiv url: http://arxiv.org/abs/2606.21173v1
- Date: Fri, 19 Jun 2026 07:26:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:20:49.420502
- Title: Inverting the Bellman Equation: From $Q$-Values to World Models
- Title(参考訳): ベルマン方程式の逆転:$Q$-Valuesから世界モデルへ
- Authors: Alistair Letcher, Mattie Fellows, Alexander D. Goldie, Jonathan Richens, Jakob N. Foerster, Oliver Richardson,
- Abstract要約: 我々は、十分に豊富な報酬関数のセットで訓練された価値に基づくエージェントが、ユニークで正確な世界モデルを暗黙的にエンコードしていることを証明した。
ttReacherエージェントの暗黙の世界モデルにのみ訓練されたポリシーは、位置のみのトレーニングにもかかわらず、分布外、速度に基づく目標に準最適であることがわかった。
- 参考スコア(独自算出の注目度): 57.827849584133425
- License:
- Abstract: Model-based and model-free reinforcement learning are traditionally viewed as separate paradigms: instead of learning a model of the transition kernel $P$, model-free agents typically estimate value functions tied to a specific policy and reward. In this paper, we challenge this dichotomy by proving that value-based agents trained on a sufficiently rich set of reward functions, e.g. using goal-conditioned RL, implicitly encode a unique and accurate world model. To extract this model in practice, we introduce \textit{$P$-learning}, an inverse analogue to $Q$-learning that samples from an agent's $Q$-values, policies and rewards to decode its internal model of the environment. We then provide sufficient conditions on the type and number of goals for which agents encode the true kernel $P$, covering both stochastic and deterministic MDPs over finite or continuous state spaces. Even when our assumptions are violated, we empirically demonstrate that agents trained on a handful of reward functions encode accurate dynamics in $\texttt{Reacher}$, $\texttt{MountainCar}$ and stochastic variants of $\texttt{FourRooms}$. Surprisingly, we find that policies trained exclusively on a \texttt{Reacher} agent's implicit world model are quasi-optimal on out-of-distribution, velocity-based goals despite position-only training -- suggesting that agents contain hidden generalisation capabilities and providing a new lens into the connection between model-based, model-free, and goal-conditioned RL.
- Abstract(参考訳): モデルベースおよびモデルフリー強化学習は、伝統的に別のパラダイムと見なされている: 移行カーネルのモデルを学習する代わりに、モデルフリーエージェントは通常、特定のポリシーと報酬に結びついた値関数を推定する。
本稿では、ゴール条件付きRLを用いて十分にリッチな報酬関数のセットで訓練された価値ベースエージェントが、ユニークで正確な世界モデルに暗黙的にエンコードされていることを証明することによって、この二分法に挑戦する。
このモデルを実際に抽出するために、エージェントの$Q$-values、ポリシー、報酬からサンプリングした$Q$-learningの逆類似である \textit{$P$-learning} を導入し、環境の内部モデルをデコードする。
次に、エージェントが真のカーネル$P$をエンコードし、有限あるいは連続状態空間上の確率的および決定論的 MDP の両方をカバーするような目的のタイプと数について十分な条件を提供する。
私たちの仮定に違反しても、いくつかの報酬関数で訓練されたエージェントが$\texttt{Reacher}$, $\texttt{MountainCar}$と$\texttt{FourRooms}$の確率的変種をエンコードしていることを実証的に示します。
驚いたことに、エージェントの暗黙の世界モデルに特化して訓練されたポリシーは、位置のみのトレーニングにもかかわらず、分布外、速度に基づく目標に準最適である。
関連論文リスト
- Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Certifiably Robust Model Evaluation in Federated Learning under Meta-Distributional Shifts [8.700087812420687]
異なるネットワーク "B" 上でモデルの性能を保証する。
我々は、原則付きバニラDKWバウンダリが、同じ(ソース)ネットワーク内の未確認クライアント上で、モデルの真のパフォーマンスの認証を可能にする方法を示す。
論文 参考訳(メタデータ) (2024-10-26T18:45:15Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。