論文の概要: Stationary Robust Mean-Field Games under Model Mismatches
- arxiv url: http://arxiv.org/abs/2606.22579v1
- Date: Sun, 21 Jun 2026 16:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:30:40.262262
- Title: Stationary Robust Mean-Field Games under Model Mismatches
- Title(参考訳): モデルミスマッチによる静止ロバスト平均フィールドゲーム
- Authors: Yue Wang,
- Abstract要約: 本稿では,無限水平定常平均場ゲームフレームワークを開発する。
分布モデルの不確実性を直接集団結合力学に組み込む。
契約的ロバスト力学体制の下では、明示的な非漸近誤差境界が得られる。
- 参考スコア(独自算出の注目度): 3.053409604085541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying multi-agent reinforcement learning (MARL) in the real world is often limited by model mismatches between the training simulators and the true environment, which could be further amplified through strategic interactions and result in severe performance degradation upon deployment. Distributional robustness offers a principled response by optimizing policies against worst-case transition models drawn from an uncertainty set, but standard robust MARL frameworks become increasingly intractable as the number of agents grows. This paper develops an infinite-horizon, stationary mean-field game framework that incorporates distributional model uncertainty directly into the population-coupled dynamics. We establish a robust dynamic programming principle with a contractive Bellman operator and prove the existence of a stationary robust mean-field equilibrium via a fixed-point argument. We further develop the first concrete algorithm with convergence guarantees. We then connect the mean-field solution to a finite-population robust game whose ambiguity sets depend on the empirical distribution, showing that the mean-field equilibrium policy induces approximate equilibrium behavior as the population size increases. Under a contractive robust-dynamics regime, we further obtain explicit non-asymptotic error bounds. Numerical experiments further illustrate the qualitative and quantitative impact of robustness under multiple uncertainty models, validating our theoretical findings.
- Abstract(参考訳): 実世界におけるマルチエージェント強化学習(MARL)の展開は,訓練シミュレータと実環境とのモデルミスマッチによって制限されることが多い。
分散ロバスト性は、不確実性セットから引き出された最悪の遷移モデルに対するポリシーを最適化することで、原則化された応答を提供するが、エージェントの数が増えるにつれて、標準的なロバストなMARLフレームワークはますます魅力的になる。
本稿では,分布モデルの不確実性を直接集団結合型力学に組み込む,無限水平定常平均場ゲームフレームワークを開発する。
我々は、ベルマン作用素を用いてロバストな動的プログラミング原理を確立し、固定点の議論を通して定常的なロバストな平均場平衡の存在を証明した。
コンバージェンス保証付きの最初の具体的なアルゴリズムをさらに発展させる。
すると、平均場解を、経験的分布に依存するあいまいな集合を持つ有限人口頑健なゲームに接続し、平均場平衡ポリシーが人口規模が増加するにつれて近似平衡挙動を誘導することを示す。
契約的ロバスト力学体制の下では、明示的な非漸近誤差境界を得る。
数値実験は、複数の不確実性モデルの下でのロバストネスの質的および定量的な影響をさらに説明し、理論的な結果を検証した。
関連論文リスト
- Robust Adversarial Policy Optimization Under Dynamics Uncertainty [8.729531978655737]
強化学習(RL)ポリシーは、トレーニングとは異なるダイナミクスの下で失敗することが多い。
本稿では、ロバスト性-性能トレードオフを直接露呈する二重定式化を提案する。
結果として得られるフレームワークである、堅牢な逆ポリシー最適化(RAPO)は、ロバストなRLベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-13T04:23:54Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。
本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。
混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文 参考訳(メタデータ) (2025-02-19T05:30:46Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。