論文の概要: Sim2O: Efficient Offline-to-Online MARL via Joint Action Composition
- arxiv url: http://arxiv.org/abs/2606.21085v1
- Date: Fri, 19 Jun 2026 04:18:51 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:24:09.674795
- Title: Sim2O: Efficient Offline-to-Online MARL via Joint Action Composition
- Title(参考訳): Sim2O: ジョイントアクション合成によるオフラインMARLの効率化
- Authors: Bingchang Song, Yiqin Yang,
- Abstract要約: オフラインからオンラインへの適応は、オンライン探索の禁止コストを軽減するための重要なパラダイムである。
オフラインからオンラインへの適応のためのエレガントで最小限のフレームワークであるSim2Oを紹介する。
- 参考スコア(独自算出の注目度): 7.37166093256307
- License:
- Abstract: Offline-to-online adaptation serves as a pivotal paradigm for mitigating the prohibitive cost of online exploration by bootstrapping reinforcement learning from offline datasets. While this paradigm has been extensively studied in single-agent settings, its extension to Multi-Agent Reinforcement Learning (MARL) remains largely unexplored, despite its critical relevance to complex coordinated decision-making. To bridge this gap, we introduce Sim2O, an elegant and minimalist framework for offline-to-online MARL. Rather than treating adaptation as a monolithic joint decision, Sim2O conceptualizes it as a compositional process. Specifically, candidate joint actions are synthesized by dynamically blending offline and online action proposals across agents. By leveraging a centralized value function to evaluate these hybrid combinations, Sim2O identifies high-value coordination strategies without requiring auxiliary training objectives or structural overhead. Empirical evaluations across diverse benchmarks demonstrate that Sim2O significantly outperforms existing baselines, underscoring that a minimalist design is not only viable but highly effective for multi-agent offline-to-online adaptation.
- Abstract(参考訳): オフラインからオフラインへの適応は、オフラインデータセットからの強化学習をブートストラップすることで、オンライン探索の禁止コストを軽減するための重要なパラダイムとして機能する。
このパラダイムはシングルエージェント環境で広く研究されているが、複雑な協調的意思決定に重要な関連性があるにもかかわらず、MARL(Multi-Agent Reinforcement Learning)への拡張は未解明のままである。
このギャップを埋めるために、オフラインからオンラインへのMARLのためのエレガントで最小限のフレームワークであるSim2Oを紹介します。
適応をモノリシックな共同決定として扱うのではなく、Sim2Oは構成過程として概念化している。
具体的には、エージェント間でオフラインとオンラインのアクション提案を動的にブレンドすることで、候補関節アクションを合成する。
これらのハイブリッド組み合わせを評価するために集中値関数を活用することで、Sim2Oは補助的な訓練目標や構造的オーバーヘッドを必要とせずに、高価値協調戦略を特定する。
多様なベンチマークによる実証的な評価は、Sim2Oが既存のベースラインを著しく上回り、最小限の設計は実行可能なだけでなく、マルチエージェントのオフライン-オンライン適応に非常に効果的であることを示している。
関連論文リスト
- ALSO: Adversarial Online Strategy Optimization for Social Agents [63.84788516416339]
社会シミュレーションにおけるオンライン戦略最適化のための最初のフレームワークとしてtextbfALSO (textbfAdrial ontextbfLine textbfStrategy textbfOptimization) を提案する。
ALSOは、スタティック・ペルソナとダイナミック・ストラテジー・インストラクションの組み合わせをアームとして扱う対向バンドイット問題として、マルチターンインタラクションを定式化する。
また、相互作用履歴から報酬を予測する軽量なニューラルサロゲートを導入し、サンプル効率の高い探索と継続的なオンライン適応を可能にしている。
論文 参考訳(メタデータ) (2026-05-15T09:25:15Z) - Hierarchical Optimization via LLM-Guided Objective Evolution for Mobility-on-Demand Systems [9.979671028876464]
動的階層システムにおいて,大規模言語モデル(LLM)と数学的最適化を統合した新しいフレームワークを提案する。
このフレームワーク内では、LLMはメタ最適化として機能し、制約執行とリアルタイム決定実行に責任を負う低レベルのセマンティクスを生成する。
ニューヨークとシカゴの両方のタクシーデータに基づく実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-10-12T14:56:19Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration [40.346958259814514]
逐次探索を用いたオフライン値関数メモリ(OVMSE)と呼ばれる新しいO2O MARLフレームワークを提案する。
まず、ターゲットQ値を計算するためのオフライン値関数メモリ(OVM)機構を導入し、オフライントレーニング中に得られた知識を保存する。
第2に,O2O MARLに適した分散型シークエンシャル・エクスプロレーション(SE)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-25T10:24:19Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。