論文の概要: A Unified Causal-Origin Taxonomy of Distributional Shifts in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.16933v1
- Date: Mon, 15 Jun 2026 16:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.769787
- Title: A Unified Causal-Origin Taxonomy of Distributional Shifts in Reinforcement Learning
- Title(参考訳): 強化学習における分布変化の統一因果オリーギン分類法
- Authors: Ardianto Wibowo, Paulo E Santos, Amer Baghdadi, Matthew Stephenson, Karl Sammut, Jean-Philippe Diguet,
- Abstract要約: 動作条件が異なる場合、強化学習システムは劣化する。
この研究は、RLの分布シフトの原因を特徴づける統一された因果オリジン分類法を開発する。
本研究は,RLの因果オリジン構造における分布シフトを基礎として,分布シフト下でのロバストネスの系統的解析を支援する。
- 参考スコア(独自算出の注目度): 2.641077416952072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) systems often degrade when operating conditions differ from those previously encountered, reflecting distributional shifts in the underlying data-generating process. Such shifts may occur between training and evaluation, as in In-Distribution (ID) and Out-of-Distribution (OOD) generalization, or within non-stationary settings where environment dynamics evolve over time. However, the formal relationship between these views remains unclear, and existing work mainly focuses on mitigation rather than the causal origin of shift within the agent-environment interaction. This work develops a unified causal-origin taxonomy that characterizes sources of distributional shift in RL and relates ID/OOD generalization to non-stationary settings. We transfer the classical dataset-shift principle from supervised learning to RL by reformulating distributional shift in terms of the generative interaction process. Using a Partially Observable Markov Decision Process (POMDP), we decompose the interaction into structural components, including the state distribution, observation process, policy, reward, and transition dynamics, together with the shifted-time boundary. The proposed taxonomy distinguishes internal, agent-driven, and external, environment-driven, distributional shifts. The shifted-time boundary perspective further characterizes explicit, implicit, and hybrid shifts. This formulation unifies ID/OOD generalization and non-stationarity as structured changes in the underlying process. We also introduce an evaluation framework for measuring shift impact and adaptation through performance degradation and recovery metrics. By grounding distributional shift in the causal-origin structure of RL, this work supports systematic analysis of robustness under distributional shift.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) システムは、動作条件が以前遭遇したものと異なるときにしばしば劣化し、基礎となるデータ生成プロセスにおける分散シフトを反映する。
このような変化は、In-Distribution (ID) や Out-of-Distribution (OOD) の一般化のように、トレーニングと評価の間に起こりうる。
しかし、これらの見解の正式な関係ははっきりしないままであり、既存の研究は主にエージェントと環境の相互作用におけるシフトの因果的起源よりも緩和に焦点を当てている。
本研究は、RLにおける分布シフトの源泉を特徴づけ、ID/OODの一般化と非定常的な設定を関連付ける統一因果関係分類法を開発する。
我々は,従来のデータセットシフト原理を教師付き学習からRLへ変換し,生成的相互作用プロセスの観点で分布シフトを再構成する。
部分観測可能なマルコフ決定プロセス(POMDP)を用いて、状態分布、観測過程、ポリシー、報酬、遷移ダイナミクスを含む構造成分とシフト時間境界との相互作用を分解する。
提案された分類学は、内部、エージェント駆動、外部、環境駆動、分布シフトを区別する。
シフト時間境界の観点は、明示的、暗黙的、ハイブリッドなシフトをさらに特徴付ける。
この定式化は、基礎となるプロセスの構造変化として、ID/OODの一般化と非定常性を統一する。
また、性能劣化と回復指標による変化の影響と適応を測定するための評価フレームワークも導入する。
本研究は,RLの因果オリジン構造における分布シフトを基礎として,分布シフト下でのロバストネスの系統的解析を支援する。
関連論文リスト
- Large Vision-Language Models Get Lost in Attention [51.851592109135716]
本稿では,情報理論と幾何に基づく統合フレームワークを提案し,残差更新の幾何的およびエントロピー的性質を定量化する。
注意は再設定に焦点を当てたサブスペース言語演算子として機能し、FFNはセマンティックイノベーションを駆動するサブスペース言語演算子として機能します。
論文 参考訳(メタデータ) (2026-05-07T04:45:52Z) - Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs [65.76530158565903]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)における推論を大幅に改善した。
本研究は,RLVRの分布効果に関する系統的研究である。
RLファインチューニングは, 基数とRLポリシーの間に有意なばらつきを示すトークン分布のごく一部で, 高度にスパースかつ目標となる変化を誘発することがわかった。
論文 参考訳(メタデータ) (2026-03-23T18:17:15Z) - Causal invariant geographic network representations with feature and structural distribution shifts [5.237838679495733]
ディープグラフニューラルネットワーク(GNN)を通して地理的ネットワーク表現を、i.d.仮定に基づいて学習する。
特徴分布シフトと構造分布シフトの両方を考慮した特徴構造混合不変表現学習(FSM-IRL)モデルを提案する。
実験により、FSM-IRLはOODシナリオにおける地理的および社会的ネットワークデータセットに強力な学習能力を示すことが示された。
論文 参考訳(メタデータ) (2025-03-25T06:21:57Z) - Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。
この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。
本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文 参考訳(メタデータ) (2024-09-05T00:38:27Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Strategic Distribution Shift of Interacting Agents via Coupled Gradient
Flows [6.064702468344376]
実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。
より単純なモデルでは捉えられない偏極や異なる影響といった、よく文書化された形態の分布シフトを捉える手法を示す。
論文 参考訳(メタデータ) (2023-07-03T17:18:50Z) - iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive
Noise Models [48.33685559041322]
本稿では,同一変数集合上の2つ以上の関連するデータセットにおける因果メカニズムシフトの同定に焦点をあてる。
提案手法を実装したコードはオープンソースであり、https://github.com/kevinsbello/iSCAN.comで公開されている。
論文 参考訳(メタデータ) (2023-06-30T01:48:11Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。