論文の概要: Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games with Average Reward
- arxiv url: http://arxiv.org/abs/2606.16759v1
- Date: Mon, 15 Jun 2026 14:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.60398
- Title: Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games with Average Reward
- Title(参考訳): 平均 Reward を用いた平均フィールドゲームにおける最大エントロピー逆強化学習
- Authors: Şevket Kaan Alkır, Naci Saldı, Berkay Anahtarcı, Can Deha Karıksız,
- Abstract要約: 本研究では,平均逆条件下での平均フィールドゲーム(MFG)の逆強化学習について検討する。
我々は,専門的平均場項と長期的特徴期待との整合性を持たせることで,逆問題を定式化する。
マルウェア拡散型MFGとRKHSベースの消費者選択モデルという2つの数値例は、回復されたポリシーが専門家の行動と密接に一致していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study inverse reinforcement learning for discrete-time, infinite-horizon mean-field games (MFGs) under an average-reward criterion. Expert demonstrations are assumed to arise from a stationary mean-field equilibrium under an unknown reward, and the goal is to recover a policy explaining the observed behaviour via the maximum causal entropy principle. We formulate the inverse problem by enforcing consistency with the expert mean-field term and long-run feature expectations, treating two reward classes within a unified occupation-measure framework. For finite-dimensional linear rewards, we give a convex dual reformulation with an explicit log-partition objective, and prove smoothness and curvature properties justifying constant-step-size gradient descent. For infinite-dimensional RKHS rewards, we develop a Lagrangian relaxation whose inner-maximising policy is characterised by a soft Bellman equation. The main obstacle is the absence of a discount-factor contraction. We resolve this by introducing a minorisation-based sub-stochastic kernel that yields a strict contraction of the soft Bellman operator. We establish Fréchet differentiability and Lipschitz smoothness of the log-likelihood score, leading to a gradient ascent algorithm with convergence guarantees. Two numerical examples, a malware-spread MFG and an RKHS-based consumer-choice model, show that the recovered policies closely match expert behaviour.
- Abstract(参考訳): 離散時間・無限水平平均場ゲーム(MFG)に対する逆強化学習を平均逆条件下で検討する。
専門家による実証は、未知の報酬の下での定常平均場平衡から発生し、最大因果エントロピー原理を通じて観測された振る舞いを説明する政策を回復することが目的である。
本研究では,専門的平均場項と長期的特徴期待との整合性を図り,統一的な職業対策枠組みの中で2つの報奨クラスを扱い,逆問題を定式化する。
有限次元線形報酬に対して、明示的な対数分割目的を持つ凸双対再構成を与え、等段勾配勾配を正当化する滑らかさと曲率特性を証明する。
無限次元のRKHS報酬に対して、内最大化ポリシーがソフトベルマン方程式によって特徴づけられるラグランジュ緩和を開発する。
主な障害は、割引要素の契約がないことである。
我々は、ソフトベルマン作用素の厳密な収縮をもたらすマイナー化に基づく部分確率カーネルを導入することでこれを解決する。
ログ類似度スコアのフレシェ微分可能性とリプシッツ滑らか性を確立し、収束保証付き勾配上昇アルゴリズムを導出する。
マルウェア拡散型MFGとRKHSベースの消費者選択モデルという2つの数値例は、回復されたポリシーが専門家の行動と密接に一致していることを示している。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL [8.809468023364703]
堅牢な強化学習アルゴリズムの設計は根本的な課題を生んでいる。
本稿では、関連するロバスト関数の1次展開に基づく近似DRRLフレームワークを提案する。
この近似方程式の定点を学習するために,平均変数近似(MVSA)を提案する。
論文 参考訳(メタデータ) (2026-05-08T19:24:28Z) - Statistical analysis of Inverse Entropy-regularized Reinforcement Learning [15.054399128586232]
逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。
多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。
Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
論文 参考訳(メタデータ) (2025-12-07T18:26:19Z) - Accelerated Gradient Methods with Biased Gradient Estimates: Risk Sensitivity, High-Probability Guarantees, and Large Deviation Bounds [12.025550076793396]
本研究では,収束率と強靭性への勾配のトレードオフについて,一階法の文脈で検討する。
潜在的なバイアス付き準ガウス勾配誤差の下では、リスク・センシティブ・インデックス(RSI)の有限時間アナログ上の非漸近境界を導出する。
滑らかな凸関数の場合、RSIと収束率境界との間の類似のトレードオフも観察する。
論文 参考訳(メタデータ) (2025-09-17T01:56:31Z) - Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games [2.867517731896504]
静止平均フィールドゲームにおける最大因果エントロピー逆強化学習問題を考察する。
これにより、エキスパートのデモンストレーションから直接リッチで潜在的に非線形な報酬構造を推測することができる。
提案手法の有効性を,専門家の行動を正確に再現する平均フィールドトラフィックルーティングゲームに示す。
論文 参考訳(メタデータ) (2025-07-19T08:06:52Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。