論文の概要: Phi-Actor-Critic: Steering General-Sum Games to Pareto-Efficient Correlated Equilibria
- arxiv url: http://arxiv.org/abs/2606.11284v1
- Date: Tue, 09 Jun 2026 16:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.109593
- Title: Phi-Actor-Critic: Steering General-Sum Games to Pareto-Efficient Correlated Equilibria
- Title(参考訳): Phi-Actor-Critic:Pareto-Efficient Correlated Equilibriaに対する総合ゲーム運営
- Authors: Wongyu Lee, Francesco Lelli, Omran Ayoub, Massimo Tornatore,
- Abstract要約: 現実世界のマルチエージェントシステムは、個々のインセンティブが集団福祉と矛盾する一般的なサムゲームとしてモデル化されることが多い。
標準深層マルチエージェント強化学習法(MARL)はこの問題に対処する。
提案する$-Actor-Critic($-AC)は,スワップリミスの最小化を利用して,高次相関均衡に向けて学習を行うフレームワークである。
- 参考スコア(独自算出の注目度): 3.061219970798378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world multi-agent systems, from traffic coordination to resource allocation, are often modeled as general-sum games where individual incentives conflict with collective welfare. In these settings, the central challenge is not merely finding an equilibrium, but selecting socially desirable outcomes among many suboptimal Nash equilibria. Standard deep multi-agent reinforcement learning (MARL) methods struggle with this problem, as value-decomposition approaches are constrained by monotonicity assumptions and policy-gradient methods often converge to stable but socially inefficient equilibria. To address this limitation, we propose $Φ$-Actor-Critic ($Φ$-AC), a framework that leverages swap regret minimization to steer learning toward high-welfare correlated equilibria (CE). To make counterfactual regret estimation tractable in deep MARL, $Φ$-AC employs a centralized attention critic that predicts vector-valued regrets in a single forward pass, avoiding computationally expensive counterfactual simulations. We further introduce a Lagrangian-based equilibrium selection mechanism that optimizes social welfare while enforcing stability through regret constraints. Experiments on matrix games, Multi-Agent Particle Environments (MPE), and the Melting Pot Harvest scenario demonstrate that $Φ$-AC learns efficient and stable coordination strategies across diverse mixed-motive settings while maintaining high collective return and competitive fairness.
- Abstract(参考訳): 交通調整から資源配分に至るまで、現実のマルチエージェントシステムは、個々のインセンティブが集団福祉と矛盾する一般的なゲームとしてモデル化されることが多い。
これらの設定では、中心的な課題は単に均衡を見つけることではなく、多くの準最適ナッシュ均衡の中で社会的に望ましい結果を選択することである。
MARL(Standard Deep Multi-Adnt reinforcement Learning)法は、値分解アプローチは単調性仮定によって制約されるため、安定だが社会的に非効率な平衡に収束することが多いため、この問題に対処する。
この制限に対処するために、スワップ・リフレクションの最小化を利用して高次相関均衡(CE)に向けて学習を行うフレームワークである$$-Actor-Critic($$$-AC)を提案する。
ディープMARLにおいて反実的後悔推定を可能にするために、$$$-ACは、単一の前方通過におけるベクトル値の後悔を予測する集中的な注意批評家を採用し、計算的に高価な反実的シミュレーションを避ける。
さらに, 社会福祉を最適化し, 後悔の制約を通した安定を図りつつ, ラグランジアンに基づく均衡選択機構を導入する。
行列ゲーム、MPE(Multi-Agent Particle Environments)、メルティング・ポット・ハーベスト(Melting Pot Harvest)のシナリオの実験では、$$$$-ACは、高い集合的リターンと競争的公正性を維持しながら、様々な混合モチベーション環境における効率的で安定した協調戦略を学習することを示した。
関連論文リスト
- DNQ: Deep Nash Q-Network for Partially Observable n-Player Games [4.004249151279306]
提案手法は,入札エージェントのトレーニングのためのループ内平衡監視フレームワークであるDNQを提案する。
DNQは、軌跡収集、批評家による支払い推定、均衡、政策模倣を交互に行う。
我々は、正確な定式化と比較して、平衡解決コストとトレーニング時間を大幅に削減するスケーラブルなペアワイズ定式化に焦点を当てる。
論文 参考訳(メタデータ) (2026-06-04T17:58:01Z) - Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。
GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。
チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文 参考訳(メタデータ) (2026-05-12T03:20:24Z) - GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization [41.52202306408042]
非定常性は、同時ポリシー更新によって発生し、持続的な環境変動を引き起こす。
本稿では,一般ベルマン均衡を政策進化の安定目標として定義する新しい枠組みである,アクティブ共有知覚(GRASP)によるRealignmentを提案する。
論文 参考訳(メタデータ) (2026-04-01T10:26:22Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - Integrating upstream and downstream reciprocity stabilizes cooperator-defector coexistence in N-player giving games [1.1381558444077822]
認知的制約やグループ規模の課題にもかかわらず、社会的な協力を含め、ペイ・イット・フォワード・チェーンとアセスメント・システムは共同で社会を維持することができることを示す。
この枠組みは、認知的制限やグループサイズの課題に拘わらず、社会的な協力を共同で維持する方法を実証する。
論文 参考訳(メタデータ) (2025-09-05T01:49:26Z) - From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium [52.28048367430481]
マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。
我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
論文 参考訳(メタデータ) (2025-06-09T23:49:14Z) - Vairiational Stochastic Games [1.6703448188585752]
本稿では分散型マルチエージェントシステムに適した新しい変分推論フレームワークを提案する。
我々のフレームワークは、非定常性と非整合エージェントの目的によって引き起こされる課題に対処する。
提案した分散アルゴリズムに対する理論的収束保証を示す。
論文 参考訳(メタデータ) (2025-03-08T03:21:23Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非コンケーブゲームにおいて、抽出可能な$Phi$-equilibriaについて検討する。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。