論文の概要: Entropy Objectives in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2606.21726v1
- Date: Fri, 19 Jun 2026 20:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:41:39.596481
- Title: Entropy Objectives in Markov Decision Processes
- Title(参考訳): マルコフ決定過程におけるエントロピー対象
- Authors: S. Akshay, Raghav Goyal, Aditya Neeraje, Piyush Srivastava,
- Abstract要約: 本稿では,システムの状態分布に対する濃度特性を強制する制御ポリシの合成問題について考察する。
この問題の緩和版でさえ、複雑性理論上は難しいことが最初に示された。
次に、このようなエントロピー目的の戦略を検証し、合成するための、健全で(条件的に)比較的完全な方法を提案する。
- 参考スコア(独自算出の注目度): 5.654132722460059
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the problem of synthesizing control policies that enforce a concentration property on the state distributions of a stochastic system. We present a formalization of this problem in terms of synthesizing strategies for maintaining an entropy-based objective in Markov Decision Processes (MDPs). We first show that even relaxed versions of this problem are complexity-theoretically hard. We then present a sound and (conditionally) relatively complete method to verify and synthesize strategies for such entropy objectives. The main challenge is the non-linear nature of such objectives, and our approach addresses this by exploiting and combining ideas from convex duality and invariant synthesis. We also investigate the role of memory and randomization in ensuring entropy objectives. Finally, we implement our ideas to evaluate our approach empirically on a few illustrative benchmarks.
- Abstract(参考訳): 本稿では,確率系の状態分布に対する濃度特性を強制する制御ポリシの合成問題について考察する。
本稿では,マルコフ決定過程(MDP)において,エントロピーに基づく目的の維持のための合成戦略の観点から,この問題の形式化を提案する。
この問題の緩和版でさえ、複雑性理論上は難しいことが最初に示された。
次に、このようなエントロピー目的の戦略を検証し、合成するための、健全で(条件的に)比較的完全な方法を提案する。
主な課題は、そのような目的の非線形性であり、我々のアプローチは凸双対性と不変合成のアイデアを活用、組み合わせることでこの問題に対処する。
また,エントロピー目標の確保における記憶とランダム化の役割についても検討した。
最後に、いくつかの実証的なベンチマークで、我々のアプローチを実証的に評価するために、私たちのアイデアを実装します。
関連論文リスト
- Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning [2.375990942704781]
POMDPは不確実性の下での意思決定の標準フレームワークである。
サンプリングベースの手法はうまくスケールするが、正式な正当性保証がないため、安全クリティカルなアプリケーションには適さない。
本稿では,サンプリング,自動学習,モデルチェックを統合した合成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-14T06:37:31Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Control Synthesis in Partially Observable Environments for Complex Perception-Related Objectives [2.7038841665524846]
本研究は、部分的に観測可能なマルコフ決定プロセスによってモデル化された環境における知覚関連目的のための最適なポリシーを合成する問題について研究する。
提案手法は,mboxsc-iLTL の目的を mboxsc-iLTL の目的を,信念 MDP の積と sc-iLTL の目的から構築した決定論的有限オートマトンを構築することにより,到達可能性の目標に変換することである。
製品によるスケーラビリティの課題を克服するため,モンテカルロ木探索法(MCTS)を導入する。
論文 参考訳(メタデータ) (2025-06-27T22:02:07Z) - PCA for Point Processes [1.7499351967216341]
本稿では,複製点過程の解析のための新しい統計フレームワークを提案する。
点過程の現実化をランダムな測度として扱うことにより、機能解析の観点を採用する。
主要な理論的貢献は、ランダム測度に対するカルフン・ローブ拡大の確立である。
論文 参考訳(メタデータ) (2024-04-30T15:57:18Z) - Entropic Matching for Expectation Propagation of Markov Jump Processes [31.376561087029454]
我々はマルコフジャンププロセスのための新しい、引き込み可能な潜在推論スキームを提案する。
我々のアプローチは、よく知られた予測伝搬アルゴリズムに組み込むことができるエントロピーマッチングフレームワークに基づいている。
論文 参考訳(メタデータ) (2023-09-27T12:07:21Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。