論文の概要: Performance-Driven Environment Abstraction with Multi-Timescale Learning
- arxiv url: http://arxiv.org/abs/2606.17377v1
- Date: Tue, 16 Jun 2026 00:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.184008
- Title: Performance-Driven Environment Abstraction with Multi-Timescale Learning
- Title(参考訳): マルチタイムラーニングによるパフォーマンス駆動型環境抽象化
- Authors: Yue Guan, Dipankar Maity, Panagiotis Tsiotras,
- Abstract要約: 大規模なマルコフ決定プロセスにおける意思決定のための性能駆動型環境抽象化について検討する。
状態空間を集約した制御近似として抽象化をモデル化する。
固定パーティションでは、値関数近似誤差とアクション共有による損失を分離する性能保証を確立する。
- 参考スコア(独自算出の注目度): 14.594941665205148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study performance-driven environment abstraction for decision-making in large Markov decision processes. Rather than preserving geometric or topological structure, we seek abstractions that directly optimize decision quality. We model abstraction as a controlled approximation obtained by aggregating the state space and enforcing a shared action distribution within each aggregated state. For a fixed partition, we establish a performance guarantee that separates value-function approximation error from the loss introduced by action sharing. Guided by this analysis, we develop a multi-timescale reinforcement learning framework that jointly adapts the policy and a tree-structured environment abstraction. The resulting algorithm refines and coarsens regions of the state space based on Q-value discrepancies, balancing performance against abstraction size and complexity. Empirical results demonstrate substantial state compression, improved sample efficiency, and faster replanning compared to actor-critic baselines.
- Abstract(参考訳): 大規模なマルコフ決定プロセスにおける意思決定のための性能駆動型環境抽象化について検討する。
幾何学的構造や位相的構造を保存するのではなく、決定品質を直接最適化する抽象化を模索する。
我々は、状態空間を集約し、各集約状態内で共有された行動分布を強制することによって得られる制御近似として抽象をモデル化する。
固定パーティションでは、値関数近似誤差とアクション共有による損失を分離する性能保証を確立する。
この分析で導かれた多段階強化学習フレームワークは,ポリシーと木構造環境の抽象化を協調的に適用する。
結果として得られるアルゴリズムは、Q値の相違に基づいて状態空間の領域を洗練し、粗大化し、性能を抽象化のサイズと複雑さにバランスさせる。
経験的結果は、アクター・クリティカル・ベースラインと比較して、相当な状態圧縮、サンプル効率の向上、より高速なリプランニングを示す。
関連論文リスト
- Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm [64.43268969806098]
モンテカルロ木探索(MCTS)の中核的な課題は、状態-作用ペアをグループ化することで改善できるサンプル効率である。
我々は、値等価状態または状態-作用ペアをグループ化し、代わりに異なる値を持つグループ状態と状態-作用ペアをグループ化するパラダイムを破る。
我々はこの抽象化フレームワークをKVDA(Known Value difference Abstractions)と呼び、即時報酬の分析によって価値の差を推測する。
論文 参考訳(メタデータ) (2025-10-29T11:03:44Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Achieving Sample and Computational Efficient Reinforcement Learning by
Action Space Reduction via Grouping [7.691755449724638]
強化学習は、しばしば高次元空間における状態や行動の指数的な成長に対処する必要がある。
我々は、動作に類似したMDPの固有の構造を学び、性能劣化とサンプル/計算の複雑さを適切にバランスさせる。
論文 参考訳(メタデータ) (2023-06-22T15:40:10Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - A Direct Approximation of AIXI Using Logical State Abstractions [6.570488724773507]
本稿では,強化学習エージェントに対するベイズ最適性の概念である AIXI と論理状態抽象化の実践的統合を提案する。
状態抽象化を形成するための機能の適切なサブセットを選択するという問題に対処する。
その後、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて、厳密なベイズモデル学習が達成される。
論文 参考訳(メタデータ) (2022-10-13T11:30:56Z) - Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2020-10-05T23:04:18Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。