論文の概要: Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.12640v1
- Date: Wed, 10 Jun 2026 20:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.440578
- Title: Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning
- Title(参考訳): 安全オフラインマルチエージェント強化学習のための個別制御バリア関数誘導拡散モデル
- Authors: Qingyun Guo, Junyi Shi, Jianuo Huang, Tianyu Shi,
- Abstract要約: オフライン強化学習は、オンラインインタラクションなしでデータから直接制御ポリシーを学習することを可能にする。
本稿では,ニューラルネットワークの制御障壁関数を拡散モデルに組み込む,安全なオフラインマルチエージェント強化学習アルゴリズムを提案する。
我々は,アルゴリズムを様々なベンチマークで評価し,競争報酬を維持しつつ,大幅な安全性向上を図った。
- 参考スコア(独自算出の注目度): 4.162512521268527
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline reinforcement learning allows control policies to be learned directly from data without online interaction, making it suitable for safety-critical tasks. Recent studies have applied diffusion models to offline reinforcement learning to leverage their strong capacity for modeling complex data distributions. However, existing approaches primarily focus on single-agent settings, leaving the safety challenges in multi-agent environments largely unexplored. In this work, we propose a safe offline multi-agent reinforcement learning algorithm that embeds neural individual control barrier functions into the diffusion model to enhance safety during trajectory generation, with control policies recovered through inverse dynamics. We evaluate our algorithm across diverse benchmarks, demonstrating substantial safety improvements while maintaining competitive rewards.
- Abstract(参考訳): オフライン強化学習は、オンラインインタラクションなしでデータから直接制御ポリシーを学習し、安全クリティカルなタスクに適合する。
最近の研究は、複雑なデータ分布をモデル化するための強力な能力を活用するために、オフライン強化学習に拡散モデルを適用している。
しかし、既存のアプローチは主に単一エージェントの設定に重点を置いており、マルチエージェント環境での安全性の課題はほとんど探索されていない。
本研究では,トラジェクトリ生成時の安全性を高めるために,ニューラルネットワークの個々の制御障壁関数を拡散モデルに組み込んだ安全なオフラインマルチエージェント強化学習アルゴリズムを提案する。
我々は,アルゴリズムを様々なベンチマークで評価し,競争報酬を維持しつつ,大幅な安全性向上を図った。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文 参考訳(メタデータ) (2024-06-30T16:05:31Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。