Fugu-MT 論文翻訳(概要): Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning

論文の概要: Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.14693v1
Date: Fri, 12 Jun 2026 17:55:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:43.02644
Title: Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning
Title（参考訳）: 多目的多エージェント強化学習のための学習協調選好
Authors: Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu, Siyang Cao, Jingdi Chen,
Abstract要約: 選好の多様性は、1次改善の分解によってチームの改善を誘導できることを示す。複数の協調型MOMA環境の実験と、実用的な交通制御シナリオにより、PCMAは性能とトレードオフ調整の両方を改善している。
参考スコア（独自算出の注目度）: 8.814548010831297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cooperative multi-objective multi-agent reinforcement learning (MOMARL) models team decision making under multiple, potentially conflicting objectives. In this setting, conflicts arise not only across objectives but also across agents with different observations, roles, and contributions. We propose Preference Coordinated Multi-agent Policy Optimization (PCMA), which learns coordinated agent-specific preferences to enable complementary trade-offs among agents. Theoretically, we formulate cooperative MOMARL as a team-optimal game and show that, under suitable conditions, preference diversity can induce team improvement through a first-order improvement decomposition. Experiments on multiple cooperative MOMA environments and a practical traffic-control scenario show that PCMA improves both performance and trade-off coordination.
Abstract（参考訳）: 協調多目的マルチエージェント強化学習(MOMARL)は、複数の、潜在的に矛盾する目標の下でのチーム決定をモデル化する。この設定では、対立は目的だけでなく、異なる観察、役割、貢献を持つエージェントにも起こる。エージェント間の相補的なトレードオフを可能にするために,協調したエージェント固有の嗜好を学習する,PCMA(Preference Coordinated Multi-Adnt Policy Optimization)を提案する。理論的には、協調的なMOMARLをチーム最適ゲームとして定式化し、適切な条件下では、優先的な多様性が1次改善分解によってチームの改善を誘導できることを示す。複数の協調型MOMA環境の実験と、実用的な交通制御シナリオにより、PCMAは性能とトレードオフ調整の両方を改善している。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
Enhancing Multi-Agent Collaboration with Attention-Based Actor-Critic Policies [0.0]
Team-Attention-Actor-Critic (TAAC)は、協調環境におけるマルチエージェントコラボレーションを強化するために設計された学習アルゴリズムである。シミュレーションサッカー環境におけるTAACをベンチマークアルゴリズムを用いて評価する。
論文参考訳（メタデータ） (2025-07-30T15:48:38Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文参考訳（メタデータ） (2024-03-05T18:07:34Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文参考訳（メタデータ） (2021-10-14T10:43:47Z)
Provably Efficient Cooperative Multi-Agent Reinforcement Learning with Function Approximation [15.411902255359074]
定常的な通信予算を一定に保っても,ほぼ最適に学習できることを示す。私たちの仕事は、マルチエージェントコンテキストとマルチアームバンディット文学からMDP、強化学習まで、いくつかのアイデアを一般化します。
論文参考訳（メタデータ） (2021-03-08T18:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。