論文の概要: ASALT: Adaptive State Alignment for Lateral Transfer in Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.24601v1
- Date: Tue, 23 Jun 2026 14:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.99517
- Title: ASALT: Adaptive State Alignment for Lateral Transfer in Multi-agent Reinforcement Learning
- Title(参考訳): ASALT:多エージェント強化学習における側方移動のための適応的状態アライメント
- Authors: Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey,
- Abstract要約: マルチエージェント強化学習(MARL)は、協調的、競争的、または混合目的を追求する複数のエージェントを訓練する問題に対処する。
既存のアプローチは、観測空間と大域状態空間の次元が領域全体にわたって同一でなければならないという制約を課している。
本稿では,ソースドメインとターゲットドメイン間の不一致状態空間次元を明示的に適応する手法を提案する。
- 参考スコア(独自算出の注目度): 2.5759046095742453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) addresses the problem of training multiple agents that pursue collaborative, competitive, or mixed objectives. Prior work has investigated transfer learning between source and target domains in MARL; however, the majority of existing approaches impose the constraint that the dimensionalities of the observation space and the global state space must be identical across domains. In this paper, we introduce a method that explicitly accommodates mismatched state-space dimensionalities between source and target domains. The proposed approach, ASALT, incorporates both observation-level and state-level adapters that map the target-domain observations and global states into a shared embedding space, thereby enabling more effective transfer of knowledge across both actors and critics. These adapters can generate embeddings that support efficient strategy transfer across heterogeneous domains. Experimental results on multiple configurations in standard benchmark environments demonstrate that ASALT surpasses existing baselines in terms of sample efficiency and global return in cooperative settings, but its effectiveness depends on the degree of mismatch between source and target domains. Furthermore, our findings indicate that ASALT mitigates negative transfer, which frequently constitutes a major obstacle when transferring policies between domains with differing observation and action spaces.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、協調的、競争的、または混合目的を追求する複数のエージェントを訓練する問題に対処する。
これまでの研究は、MARLのソースドメインとターゲットドメイン間の移動学習を研究してきたが、既存のアプローチの大半は、観測空間と大域状態空間の次元がドメイン間で同一でなければならないという制約を課している。
本稿では,ソースドメインとターゲットドメイン間の整合状態空間次元を明示的に調整する手法を提案する。
提案手法であるASALTは、観測レベルと状態レベルの両方のアダプタを組み込んで、対象領域の観測とグローバルな状態を共有埋め込み空間にマッピングすることで、アクターと批評家の間でより効果的な知識の伝達を可能にする。
これらのアダプタは、異種ドメイン間の効率的な戦略伝達をサポートする埋め込みを生成することができる。
標準ベンチマーク環境における複数の構成に関する実験結果から,ASALTはサンプル効率や協調環境におけるグローバルリターンの点で,既存のベースラインを超えているが,その有効性はソースドメインとターゲットドメイン間のミスマッチの程度に依存する。
さらに, 観測領域と行動空間の異なる領域間での政策伝達において, ASALTは負の移動を緩和し, しばしば大きな障害となることが示唆された。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Improving Intrusion Detection with Domain-Invariant Representation Learning in Latent Space [5.823403993020438]
本稿では,関連ドメイン間の情報を統合潜在空間に融合するマルチタスク表現学習手法を提案する。
分類,再構成,相互情報の正規化損失を共同で最適化することにより,素早い相関を解消する最小限(ボトルネック)のドメイン不変表現を学習する。
実験により, 各種異常検出データセットのゼロデイ, 新規異常検出において, 大幅な改善が認められた。
論文 参考訳(メタデータ) (2023-12-28T17:24:13Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - MLAN: Multi-Level Adversarial Network for Domain Adaptive Semantic
Segmentation [32.77436219094282]
本稿では,領域間不整合を大域画像レベルと局所領域レベルで最適に扱うことを目的とした,MLAN(Multi-level adversarial Network)を提案する。
MLANは2つの新しい設計、すなわち、地域レベルの対角学習(RL-AL)と共正規化された対角学習(CR-AL)を持つ。
広範な実験は、MLANが複数のデータセットにまたがる大きなマージンで最先端のものを上回ることを示しています。
論文 参考訳(メタデータ) (2021-03-24T05:13:23Z) - Adaptively-Accumulated Knowledge Transfer for Partial Domain Adaptation [66.74638960925854]
部分ドメイン適応(PDA)は、ソースドメインラベル空間がターゲットドメインを置き換えるとき、現実的で困難な問題を扱う。
本稿では,2つの領域にまたがる関連カテゴリを整合させる適応的知識伝達フレームワーク(A$2KT)を提案する。
論文 参考訳(メタデータ) (2020-08-27T00:53:43Z) - Physically-Constrained Transfer Learning through Shared Abundance Space
for Hyperspectral Image Classification [14.840925517957258]
本稿では、ソースとターゲットドメイン間のギャップを埋める新しい転送学習手法を提案する。
提案手法は,共有空間を経由した物理制約付き移動学習と呼ばれる。
論文 参考訳(メタデータ) (2020-08-19T17:41:37Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。