論文の概要: An Introduction to Causal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.24160v1
- Date: Tue, 23 Jun 2026 05:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.790793
- Title: An Introduction to Causal Reinforcement Learning
- Title(参考訳): 因果強化学習入門
- Authors: Elias Bareinboim, Junzhe Zhang, Sanghack Lee,
- Abstract要約: 因果推論と強化学習は、同じビルディングブロックの異なる側面、すなわち反実的関係で機能する。
私たちは、オンライン、オフ政治、因果計算学習など、さまざまな学習方法の統一的な治療を受けました。
具体的には、政策学習を一般化した因果レンズを用いて、介入すべき場所、模倣学習、反事実学習を紹介し、議論する。
- 参考スコア(独自算出の注目度): 58.680653905480284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal inference provides a set of principles and tools that allow one to combine data and knowledge about an environment to reason with questions of counterfactual nature, i.e., what would have happened had reality been different, even when no data of this unrealized reality is currently available. Reinforcement learning provides methods to learn a policy that optimizes a specific measure (e.g., reward, regret) when the agent is deployed in an environment and pursues an exploratory, trial-and-error approach. These two disciplines have evolved independently and with virtually no interaction between them. We note that they operate over different aspects of the same building block, counterfactual relations, which makes them umbilically connected. Based on these observations, novel learning opportunities arise when this connection is explicitly acknowledged and mathematized. To realize this potential, we note that any environment where the RL agent is deployed can be decomposed as a collection of autonomous mechanisms with different causal invariances, parsimoniously modeled as a structural causal model; any standard RL setting implicitly encodes such a model. This formalization allows us to put under a unifying treatment different modes of learning, including online, off-policy, and causal calculus learning, which appear unrelated in the literature. However, these modalities are not exhaustive: we introduce several natural and pervasive classes of learning settings that entail novel dimensions of analysis. Specifically, we introduce and discuss through causal lenses generalized policy learning, where to intervene, imitation learning, and counterfactual learning. These tasks lead to a broader view of counterfactual learning and suggest great potential for studying causal inference and reinforcement learning side by side, which we call causal reinforcement learning (CRL).
- Abstract(参考訳): 因果推論(英: Causal inference)は、ある環境に関するデータと知識を組み合わせて、反現実的な性質の疑問、すなわち、この非現実的な現実のデータが現在利用可能である場合でも、何が起こったかが異なっていたかどうかを推論するための原則とツールのセットを提供する。
強化学習は、エージェントが環境にデプロイされたときに特定の尺度(例えば報酬、後悔)を最適化し、探索的で試行錯誤的なアプローチを追求するポリシーを学ぶ方法を提供する。
これら2つの分野は独立して進化し、両者の相互作用はほとんどない。
それらが同じビルディングブロックの異なる側面、反ファクト関係で動作していることに注意してください。
これらの観察に基づいて、この関係が明確に認識され、数学的に認識されると、新しい学習機会が生まれる。
この可能性を実現するために、RLエージェントがデプロイされる環境は、異なる因果的不変性を持つ自律的なメカニズムの集合として分解でき、構造因果モデルとしてパロモニカルにモデル化され、任意の標準RL設定は、そのようなモデルを暗黙的にエンコードする。
この形式化によって、オンライン、オフ政治、因果計算学習など、さまざまな学習方法の統一化が可能になります。
しかし、これらのモダリティは徹底的ではない。我々は、新しい分析の次元を包含する、自然で広範に広がる学習環境のクラスをいくつか導入する。
具体的には、政策学習を一般化した因果レンズを用いて、介入すべき場所、模倣学習、反事実学習を紹介し、議論する。
これらの課題から, 因果推論と強化学習を並べて研究する大きな可能性を示唆し, 因果強化学習(CRL)と呼ぶ。
関連論文リスト
- Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies [50.30741668990102]
我々は、強化学習政策の行動を説明するための因果的視点を採っている。
我々はこれらの関係を説明する単純化された高レベルの因果関係モデルを学ぶ。
非線形因果モデルのクラスに対して、一意の解が存在することを証明する。
論文 参考訳(メタデータ) (2025-07-20T10:25:24Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Identifiable Causal Representation Learning: Unsupervised, Multi-View, and Multi-Environment [10.814585613336778]
因果表現学習は、機械学習のコアとなる強みと因果性を組み合わせることを目的としている。
この論文は、CRLが直接の監督なしに何が可能であるかを調査し、理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-06-19T09:14:40Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Why Online Reinforcement Learning is Causal [31.59766909722592]
強化学習(RL)と因果モデリングは自然に相互に補完する。
本稿では、因果モデリングのメリットを期待できる強化学習設定について検討する。
論文 参考訳(メタデータ) (2024-03-07T04:49:48Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Learning Relational Rules from Rewards [0.0]
リレーショナル・リレーショナル・リレーショナル・ラーニング(RRL)で開発された関数近似器に基づくリレーショナル・ポリシー・ラーニングの簡易モデルを構築した。
私たちはAtariの3つのゲームで、Breakout、Pong、Demon Attackといった潜在的な関係を考慮し、モデルをトレーニングし、テストしました。
各ゲームにおいて,我々のモデルは適切なリレーショナル表現を選択し,段階的にリレーショナルポリシーを構築することができた。
論文 参考訳(メタデータ) (2022-03-25T11:57:43Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。