論文の概要: GCT-MARL: Graph-Based Contrastive Transfer for Sample-Efficient Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.25073v1
- Date: Tue, 23 Jun 2026 18:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.117021
- Title: GCT-MARL: Graph-Based Contrastive Transfer for Sample-Efficient Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): GCT-MARL: グラフに基づくマルチエージェント強化学習のためのグラフベースのコントラスト変換
- Authors: Animesh Animesh, Satheesh K Perepu, Kaushik Dey,
- Abstract要約: GCT-MARLは,MAILのマルチビューグラフと対照的なバックボーン上に構築された移動学習フレームワークである。
提案手法が目標タスクの収束を著しく促進することを示す。
このフレームワークは,2相転送プロトコルを逐次連鎖することで,連続的な学習を自然にサポートすることを示す。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), from a deployment perspective, it is challenging and expensive to train agents from scratch for each new environment or task. In this work, we propose GCT-MARL, a transfer learning framework that builds on the multi-view graph contrastive backbone of MAIL and augments it with a per-view, adaptively weighted alignment loss and a two-phase training protocol specifically designed for transfer across populations of varying sizes and compositions. We empirically demonstrate that the proposed framework markedly accelerates convergence on the target task relative to from-scratch training, in both homogeneous (within-faction, varying N) and heterogeneous (cross-faction and mixed unit-type) transfer scenarios. Furthermore, we show that the framework naturally supports continual learning by sequentially chaining the two-phase transfer protocol across a series of related tasks. Overall, this work provides a unified approach to mitigating key limitations in current MARL transfer methods with new insights at both methodological and empirical levels.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)では,新しい環境やタスクごとにエージェントをスクラッチから訓練することは困難かつ高価である。
本研究では,MAILのマルチビューグラフのコントラストバックボーン上に構築された移動学習フレームワークであるGCT-MARLを提案する。
提案手法は, 異種(異種, 異種, 異種)と異種(異種, 混合単位型)の移行シナリオにおいて, オフスクラッチトレーニングに対する目標タスクの収束を著しく促進することを示した。
さらに,本フレームワークは,一連の関連するタスクに対して連続的に2相転送プロトコルをチェーンすることで,連続的な学習を自然にサポートすることを示す。
全体として、この研究は、現在のMARL転送手法における重要な制限を緩和するための統一的なアプローチを提供する。
関連論文リスト
- Coordination Graphs for Constrained Multi-Agent Reinforcement Learning [4.278821961637313]
制約付きマルチエージェント強化学習(CG-CMARL)のためのコーディネーショングラフ
システムは、共同問題をペアワイズ領域に分解し、それぞれに共有Q-関数の集合を提供する。
実行時には、Max-Sumメッセージパッシングがファクタグラフ全体のアクションをコーディネートし、ラグランジアン乗算器が客観的-制約トレードオフを制御する。
論文 参考訳(メタデータ) (2026-06-01T14:46:16Z) - Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration [13.299987551113809]
グループ認知学習(グループ認知学習、Group Cognition Learning、GCL)は、モダリティ固有の符号化の後に2段階のプロトコルを適用する、管理された協調パラダイムである。
GCLはモダリティの優位性と結合を緩和し、回帰ベンチマークと分類ベンチマークの両方で最先端の結果を確立する。
論文 参考訳(メタデータ) (2026-05-01T03:19:34Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings [10.36125908359289]
モデルに基づくマルチエージェント強化学習フレームワークを提案する。
我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。
想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
論文 参考訳(メタデータ) (2026-02-13T01:57:21Z) - Multi-agent In-context Coordination via Decentralized Memory Retrieval [39.106914463842685]
多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。
MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。
高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
論文 参考訳(メタデータ) (2025-11-13T07:08:31Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Combat Urban Congestion via Collaboration: Heterogeneous GNN-based MARL for Coordinated Platooning and Traffic Signal Control [14.302023260372563]
本稿では,異種グラフ多エージェント強化学習と交通理論に基づく課題に挑戦する革新的な手法を提案する。
我々は、交通流を最適化するために、小隊と信号制御を独自の観測、行動、報酬関数セットで強化学習エージェントとして設計する。
提案手法をSUMOシミュレーションにより評価し,他の適応信号制御法と比較して,走行時間と燃料消費の両面で収束した結果が得られた。
論文 参考訳(メタデータ) (2023-10-17T02:46:04Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。