論文の概要: Pareto Q-Learning with Reward Machines
- arxiv url: http://arxiv.org/abs/2606.19134v1
- Date: Wed, 17 Jun 2026 14:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.210397
- Title: Pareto Q-Learning with Reward Machines
- Title(参考訳): Reward MachineによるPareto Q-Learning
- Authors: Arnaud Lequen, Clément Legrand-Lixon, Léo Saulières,
- Abstract要約: 報奨機群(RM)によって報酬構造が特定されるタスクに対する多目的強化学習アルゴリズムを提案する。
PQLRMはQ-Learning(PQL)と、Q-LearningとReward Machines(QRM)の強化を組み合わせたもので、報酬信号のオートマトン構造を利用する。
これは、非マルコフ的、RM符号化された報酬の下でサンプリング効率が保たれる多重政治アルゴリズムをもたらす。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Pareto Q-Learning with Reward Machines (PQLRM), a multi-objective reinforcement learning algorithm for tasks whose reward structure is specified by a set of reward machines (RMs). PQLRM combines Pareto Q-Learning (PQL), which maintains sets of vector-valued Q-estimates to approximate the Pareto front, with enhancements from Q-Learning with Reward Machines (QRM), which exploits the factored automaton structure of the reward signal. This yields a multi-policy algorithm that remains sample-efficient under non-Markovian, RM-encoded rewards. Experimental trials show that PQLRM converges faster than a naive PQL baseline applied to the cross-product MDP and can synthesize Pareto-optimal policies that QRM cannot.
- Abstract(参考訳): 本稿では、報酬構造が一組の報酬機(RM)によって特定されるタスクに対する多目的強化学習アルゴリズムであるPQLRMについて述べる。
PQLRMはPareto Q-Learning (PQL)を組み合わせ、ベクター値のQ-推定値の集合をParetoフロントに近似し、Q-Learning with Reward Machines (QRM) の強化を加え、報酬信号の係数オートマトン構造を利用する。
これは、非マルコフ的、RM符号化された報酬の下でサンプリング効率が保たれる多重政治アルゴリズムをもたらす。
実験により、PQLRMは、製品間MDPに適用された単純PQLベースラインよりも早く収束し、QRMができないパレート最適ポリシーを合成できることが示されている。
関連論文リスト
- Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs [60.0988889107102]
テキストオンリーQAペア(TQA)を高品質マルチモーダルQAペア(MMQA)に変換する可能性を探る。
我々は、TQA-to-MMQAフレームワークを開発し、変換の原則を提供する包括的で多次元のMMQA品質を確立する。
我々は,MMQA生成と評価を反復精製のためのクローズドループに統合することにより,我々のフレームワークを運用するエージェントシステム(Q-Mirror)を開発した。
論文 参考訳(メタデータ) (2025-09-29T05:22:10Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Challenges for Reinforcement Learning in Quantum Circuit Design [8.894627352356302]
ハイブリッド量子機械学習(QML)は、機械学習(ML)を改善するためのQCの応用と、QCアーキテクチャを改善するためのMLの両方を含む。
我々はマルコフ決定過程として定式化された具体的なフレームワークであるqcd-gymを提案し、連続パラメータ化された量子ゲートの普遍的なセットを制御することができる学習ポリシーを実現する。
論文 参考訳(メタデータ) (2023-12-18T16:41:30Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Visual Simulation Software Demonstration for Quantum Multi-Drone
Reinforcement Learning [14.299752746509348]
本稿では,自律型マルチドローンシステムを制御する新しいQMARLアルゴリズムのための視覚シミュレーションソフトウェアフレームワークを提案する。
提案するQMARLフレームワークは,従来のMARLよりもトレーニング可能なパラメータが少なく,適切な報酬収束とサービス品質性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T06:08:24Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - Approximated Multi-Agent Fitted Q Iteration [0.046877128185218706]
バッチ強化学習のための効率的な近似式AMAFQIを定式化する。
AMAFQIはエージェント数と線形にスケールする多数の計算を必要とするのに対し、類似の計算数は適合Qイテレーション(FQI)において指数関数的に増加することを示す。
論文 参考訳(メタデータ) (2021-04-19T14:30:22Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。