論文の概要: Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.14130v1
- Date: Fri, 12 Jun 2026 05:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.761542
- Title: Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning
- Title(参考訳): 安全なマルチエージェント強化学習のための契約型構成シールド
- Authors: Omar Adalat, Edwin Hamel-De le Court, Francesco Belardinelli,
- Abstract要約: 分散実行下で訓練・展開されたエージェントに対する決定論的安全保証について検討する。
エージェントはLinear Temporal Logicの安全性フラグメントでグローバル仕様を共有できる。
6つの環境と15の変種にまたがるアルゴリズム的アプローチを評価した。
- 参考スコア(独自算出の注目度): 11.125968799758434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe coordination problems surface in multi-agent reinforcement learning when global safety cannot be enforced by any agent unilaterally: the admissibility of one agent's action may depend on the dynamics of other agents. Decentralised shields can enforce safety at runtime, but purely factorised permissions often exclude optimal team behaviour that is safe only through coordination. We study deterministic safety guarantees for agents trained and deployed under decentralised execution, recovering team-optimal safe behaviour without centralised runtime control. Agents have a shared global specification $φ$ in the safety fragment of Linear Temporal Logic ($\mathsf{LTL}_{\mathsf{safe}}$ ), and select among tuples of local $\mathsf{LTL}_{\mathsf{safe}}$ obligations whose conjunction implies the global specification $φ$. Each agent may rely on the other agents' local obligations as assumptions because the whole contract tuple is certified simultaneously and allows projection into local action masks. At learning time, a non-stationary multi-armed bandit chooses among a library of local $\mathsf{LTL}_{\mathsf{safe}}$ obligations to select the tuple that optimises team reward, all without forgoing end-to-end safety. We evaluate the approach across 6 environments and 15 algorithmic variants.
- Abstract(参考訳): 一つのエージェントの行動の許容性は他のエージェントの力学に依存するかもしれない。
分離されたシールドは実行時に安全を強制するが、純粋に決定された権限は、調整を通じてのみ安全である最適なチームの振る舞いを除外することが多い。
我々は、分散実行下で訓練およびデプロイされたエージェントに対する決定論的安全保証を調査し、集中型ランタイム制御なしで、チーム最適の安全な振る舞いを回復する。
エージェントはLinear Temporal Logicの安全性フラグメント($\mathsf{LTL}_{\mathsf{safe}}$ )で$φ$を共有し、ローカル$\mathsf{LTL}_{\mathsf{safe}}のタプルの中から選択する。
各エージェントは、契約のタプル全体が同時に認証され、ローカルなアクションマスクへの投射を可能にするため、他のエージェントのローカルな義務を仮定として依存することができる。
学習時には、非定常的なマルチアームのバンディットがローカルな$\mathsf{LTL}_{\mathsf{safe}}$のライブラリを選択する。
提案手法は6つの環境と15のアルゴリズムの変種にまたがって評価する。
関連論文リスト
- Auditing Agent Harness Safety [81.22315979618612]
LLMエージェントは、ツールをディスパッチし、リソースを割り当て、特別なコンポーネント間でメッセージをルーティングする実行ハーネスの中でますます動作します。
ほとんどの安全ベンチマークは最終出力または終端状態のみをスコアするが、多くの違反は終端ではなく、軌道の途中で発生する。
HarnessAuditは、境界コンプライアンス、実行の忠実さ、システムの安定性など、完全な実行軌跡を監査するフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T02:14:28Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Multi-Agent Stage-wise Conservative Linear Bandits [2.2557806157585834]
マルチエージェントネットワーク設定における線形帯域幅問題について検討する。
エージェントは段階的に保守的な制約を満たす必要がある。
我々は,行動選択とコンセンサス構築フェーズの交互に行うエピソードアルゴリズムMA-SCLUCBを提案する。
論文 参考訳(メタデータ) (2025-10-01T07:29:18Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Think Smart, Act SMARL! Analyzing Probabilistic Logic Shields for Multi-Agent Reinforcement Learning [3.7957452405531265]
Shielded Multi-Agent Reinforcement Learning (SMARL)は、MARLを標準に準拠した結果にステアリングするための一般的なフレームワークである。
主なコントリビューションは次のとおりです。
Probabilistic Logic Temporal difference (PLTD) update for shielded, independent Q-learning;
MARLの形式的安全性を保証するシールド付きPPOの確率論的論理ポリシー勾配法
対称的および非対称的に遮蔽された$n$のプレイヤーゲーム理論ベンチマークを総合的に評価する。
論文 参考訳(メタデータ) (2024-11-07T16:59:32Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Decentralized Safe Multi-agent Stochastic Optimal Control using Deep
FBSDEs and ADMM [16.312625634442092]
本稿では,障害発生時のマルチエージェント制御のための,安全でスケーラブルな分散ソリューションを提案する。
分散化は、各エージェントの最適化変数、コピー変数、隣人への拡張によって達成される。
安全なコンセンサスソリューションを実現するために,ADMMベースのアプローチを取り入れた。
論文 参考訳(メタデータ) (2022-02-22T03:57:23Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。