論文の概要: Maturing Markov Decision Processes: Decision Making under Increasing Information and Shrinking Action Sets
- arxiv url: http://arxiv.org/abs/2606.18820v1
- Date: Wed, 17 Jun 2026 08:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.071001
- Title: Maturing Markov Decision Processes: Decision Making under Increasing Information and Shrinking Action Sets
- Title(参考訳): マルコフ決定過程の成熟:情報量増加による意思決定とアクション・セットの縮小
- Authors: Jiaxi Liu, Aiping Yang, Yuhang Yang, Shuqi Zhang, Zewei Dong, Jiangming Yang, Xuebin Chen,
- Abstract要約: 逐次決定問題は情報と決定の柔軟性の非対称的な進化を示すことが多い。
本稿では,この情報-作用非対称性に基づいて構築された定式化であるMulturing Markov Decision Processes (MMDPs)を紹介する。
本研究では, ステージアウェア政策設計, 有効動作抽象化, 蒸留による探索強化学習を併用した構造対応強化学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 10.02149184877298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision problems often exhibit an asymmetric evolution of information and decision flexibility: as a decision cycle unfolds, the agent receives richer information while feasible actions expire due to operational cutoffs, commitments, or resource constraints. Standard MDP formulations typically flatten this structure into stage-dependent state descriptions and action masks, thereby obscuring the nested information--action asymmetry that determines which decisions are urgent and which can be deferred. We introduce Maturing Markov Decision Processes (MMDPs), a formulation built around this information--action asymmetry. We characterize one of its key consequences through an expiring-action priority principle, which identifies the actions that must be resolved before the next stage. Motivated by this structure, we develop a structure-aware reinforcement learning framework with stage-aware policy design, expiring-action abstraction, and search-augmented learning with distillation. Experiments on a controlled multi-supplier replenishment problem, simplified cash-management environments of increasing complexity, and a production-scale simulator show that explicitly modeling this asymmetry improves learning efficiency and becomes increasingly valuable as decision problems scale.
- Abstract(参考訳): 決定サイクルが広がると、エージェントはよりリッチな情報を受け取り、実行可能なアクションは運用の遮断、コミットメント、リソースの制約によって終了する。
標準的なMDPの定式化は、この構造をステージ依存の状態記述やアクションマスクへとフラット化し、どの決定が緊急であり、どの決定が延期されるかを決定するネストされた情報-アクション非対称性を隠蔽する。我々は、この情報-アクション非対称性を中心に構築された定式化である、成熟マルコフ決定過程(MMDP)を紹介する。
我々は、その重要な結果の1つを、次の段階までに解決しなければならない行動を特定する、有効作用優先原則によって特徴づける。
この構造を動機として,ステージアウェア政策設計,有効-作用抽象化,蒸留による探索強化学習を備えた構造対応強化学習フレームワークを開発した。
制御されたマルチサプライヤ補充問題,複雑さが増大するキャッシュ管理環境の簡易化,および生産規模シミュレータ実験により,この非対称性を明示的にモデル化することで学習効率が向上し,意思決定問題の規模が拡大することを示す。
関連論文リスト
- DecisionFlow: Advancing Large Language Model as Principled Decision Maker [49.088778182807395]
DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文 参考訳(メタデータ) (2025-05-27T16:23:53Z) - Revelations: A Decidable Class of POMDPs with Omega-Regular Objectives [5.696882834567791]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、シーケンシャルな意思決定における不確実性の顕著なモデルを形成する。
我々は、エージェントが最終的に現在の状態の完全な情報を持っていることをほぼ確実に要求することで、情報損失を制限する啓示機構を導入する。
これにより、概念的には単純で正確なアルゴリズムが、多種多様なPOMDPに対して得られる。
論文 参考訳(メタデータ) (2024-12-16T18:37:06Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - Probabilistic Loss and its Online Characterization for Simplified
Decision Making Under Uncertainty [13.807859854345834]
標準近似を取り除き, 従来抑制されていた変動要因をすべて考慮し, 意思決定機構全体を拡張した。
この枠組みを用いた簡略化が特定の簡略化技術に与える影響をオンライン上で特徴づける。
論文 参考訳(メタデータ) (2021-05-12T17:02:01Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Deep reinforcement learning driven inspection and maintenance planning
under incomplete information and constraints [0.0]
検査・保守方針の決定は、複雑な最適化問題を構成する。
本研究は,制約付き部分観測可能決定プロセス(POMDP)と多エージェント深層強化学習(DRL)の協調フレームワーク内で,これらの課題に対処するものである。
提案手法は, 十分に確立された政策ベースラインを上回り, 検査・介入行動の適正な処方の促進を図っている。
論文 参考訳(メタデータ) (2020-07-02T20:44:07Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。