Fugu-MT 論文翻訳(概要): $α$-fair heterogeneous agent reinforcement learning

論文の概要: $α$-fair heterogeneous agent reinforcement learning

arxiv url: http://arxiv.org/abs/2606.13076v1
Date: Thu, 11 Jun 2026 08:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.686407
Title: $α$-fair heterogeneous agent reinforcement learning
Title（参考訳）: α$-fairヘテロジニアスエージェント強化学習
Authors: Yao-hua Franck Xu, Tayeb Lemlouma, Jean-Marie Bonnin, Arnaud Braud,
Abstract要約: 我々は、不均一信頼地域学習(HATRL)で$$fairnessをブリッジする新しいフレームワークを提案する。 2つの実践的アルゴリズムである$-fair HATRPOと$-fair HAPPOを導入し、CleanUpやCommonHarvestのような逐次的な社会的ジレンマにおいて、HATRLのアルゴリズムよりも実用的視点で優れた性能を示しながら、社会的に高い結果を達成することを実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cooperation in multi-agent systems is typically optimized through utilitarian objectives that maximize overall efficiency but fail to account for reward distribution, often resulting in inequitable "leader-follower" dynamics. While fairness-based approaches encourage pro-social behaviors where every agent benefits from cooperation, many current algorithms - including those utilizing reward shaping - break the stationarity of Markov Games or lack rigorous theoretical guarantees. This creates a critical gap between fair objective methods and theoretically safe learning frameworks. We propose a novel framework that bridges $α$-fairness with Heterogeneous-Agent Trust Region Learning (HATRL), ensuring monotonic improvement and convergence toward Nash Equilibria. Our approach leverages a fair advantage function that dynamically weights agent utilities based on their expected returns, allowing the global objective to transition from purely utilitarian efficiency to $α$-fairness welfare based on the parameter $α$. We introduce two practical algorithms, $α$-fair HATRPO and $α$-fair HAPPO, and demonstrate through experiments in sequential social dilemmas like CleanUp and CommonHarvest that they perform better than HATRL's algorithms from a utilitarian point of view while achieving socially higher outcomes.
Abstract（参考訳）: マルチエージェントシステムにおける協調は、一般的に、全体の効率を最大化するが報酬分布を説明できない実用目的によって最適化される。公正性に基づくアプローチは、すべてのエージェントが協力から恩恵を受けるような社会的行動を促進するが、報酬形成を利用する多くのアルゴリズムはマルコフゲームの定常性を損なうか、厳密な理論的保証を欠いている。これにより、公正な客観的手法と理論的に安全な学習フレームワークの間に重要なギャップが生まれる。我々は,不均一信頼地域学習(HATRL)で$α$fairnessを橋渡しし,モノトニックな改善とナッシュ平衡への収束を保証する新しいフレームワークを提案する。提案手法は,期待した利益に基づいてエージェントユーティリティを動的に重み付けするフェア・アドバンテージ機能を活用することにより,グローバルな目的を純粋に実用的効率から,パラメータ$α$に基づいて$α$フェアネス福祉に移行することができる。本稿では,2つの実践的アルゴリズムである$α$-fair HATRPOと$α$-fair HAPPOを導入し,CleanUpやCommonHarvestのような逐次的な社会的ジレンマ実験を通じて,HATRLのアルゴリズムよりも実用的観点から優れた性能を示し,社会的に高い結果が得られることを示した。

関連論文リスト

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning [52.67756371231985]
検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデルにおける推論とエージェント的行動を強化するための有望なアプローチである。本稿では,Tree Rollout Allocation for Contrastive Exploration (TRACE)について紹介する。技術的には、TRACEはロールアウト予算をルートと中間プレフィックスの両方に割り当てている。
論文参考訳（メタデータ） (2026-06-09T17:16:03Z)
Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。 GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文参考訳（メタデータ） (2026-05-12T03:20:24Z)
SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution [82.31558282651811]
複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。協調ゲーム理論に基づく新しい原理的枠組みであるSAVOIRを提案する。
論文参考訳（メタデータ） (2026-04-21T02:08:25Z)
Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。 OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2026-01-12T10:48:02Z)
Fair-GNE : Generalized Nash Equilibrium-Seeking Fairness in Multiagent Healthcare Automation [0.0]
既存のマルチエージェント強化学習は、ポストホックオーケストレーションを通じて報酬を形作ることによって、スティアフェアネスにアプローチする。我々は、自己関心のある意思決定者間で学習可能な最適化スキームによって、この欠点に対処する。本研究は, 大規模マルチエージェント学習型医療システムにおける定式化, 評価指標, 平衡探索のイノベーションについて報告する。
論文参考訳（メタデータ） (2025-11-18T04:48:50Z)
A General Incentives-Based Framework for Fairness in Multi-agent Resource Allocation [4.930376365020355]
GIFF(General Incentives-based Framework for Fairness)を紹介する。 GIFFは、標準値関数から公平な意思決定を推測する、公平なマルチエージェントリソース割り当てのための新しいアプローチである。
論文参考訳（メタデータ） (2025-10-30T17:37:51Z)
Redistributing Rewards Across Time and Agents for Multi-Agent Reinforcement Learning [14.852334980733369]
共用型マルチエージェント強化学習において、各エージェントの共用報酬への貢献を阻害する信用割り当ては重要な課題である。本稿では、この制約から信用モデリングを分離するアプローチであるTAR(Temporal-Agent Reward Redistribution)を導入する。本手法は,モデル精度によらず最適ポリシーが維持されることを保証するPBRSと等価であることを示す。
論文参考訳（メタデータ） (2025-02-07T12:07:57Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文参考訳（メタデータ） (2023-06-01T03:43:53Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。