論文の概要: Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix
- arxiv url: http://arxiv.org/abs/2606.09884v1
- Date: Wed, 03 Jun 2026 06:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.004735
- Title: Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix
- Title(参考訳): 非同期価格における深層多エージェントRLの故障モード:再現可能なトリガー,トレース診断,部分固定
- Authors: Shree Murthy, Rohan Pandey,
- Abstract要約: 同期DDPGエージェントは、コラシオンインデックス$= 0.69 pm 0.11$で確実に障害モード1をトリガーする。
部分的な修正を定量化します。非同期だけでコラシオンを48%削減し、レイテンシを追加することで、最低$0.28$にします。
気道内信号の崩壊と非回復を呈するトラジェクトリレベルのトレース診断を併用したスカラー・コルシオン・インデックスを施行した。
- 参考スコア(独自算出の注目度): 1.5369106213673014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study two reproducible failure modes of deep multi-agent reinforcement learning in continuous-time pricing markets: (i) tacit cartel formation between competing DDPG agents, and (ii) actor--critic instability at high event rates. We instantiate both inside a single CT-MARL benchmark (Poisson-clocked price updates, observation latency $δ$, interior-optimum logit demand), show that synchronous DDPG agents reliably trigger Failure Mode 1 with collusion index $Δ= 0.69 \pm 0.11$, and quantify a partial microstructure fix: asynchrony alone cuts collusion by 48\% and adding latency drives it to a minimum of $Δ= 0.28$. The fix has clearly documented costs: it is partial ($Δ$ remains supra-Bertrand), it is non-monotone in $δ$, and it does not survive Failure Mode 2, which emerges as DDPG critic divergence at $λ= 5$ and corrupts the phase-diagram cell at $(λ{=}5, δ{=}1)$. We accompany the scalar collusion index with trajectory-level trace diagnostics that expose the within-episode signalling collapse and the post-shock non-recovery.
- Abstract(参考訳): 連続価格市場における深層マルチエージェント強化学習の再現可能な2つの失敗モードについて検討する。
一 DDPG剤と競合するDDPG剤の共生カルテル形成
(ii) アクター-高いイベントレートでの批判的不安定性。
単一のCT-MARLベンチマーク(Poisson-clocked price update, Observation latency $δ$, interior-optimum logit demand)の中で、同期DDPGエージェントがコラシオンインデックス$Δ=0.69 \pm 0.11$で障害モード1を確実にトリガーし、部分的なマイクロ構造修正を定量化する。
この修正は、部分的な(Δ$ は Supra-Bertrand のまま)、非単調な$δ$ であり、失敗モード 2 は生き残らず、DDPG は $λ= 5$ で分岐し、位相ダイアグラムセルは $(λ{=}5, δ{=}1)$ で崩壊する。
気道内信号の崩壊と非回復を呈するトラジェクトリレベルのトレース診断を併用したスカラー・コルシオン・インデックスを施行した。
関連論文リスト
- Demystifying Pipeline Parallelism: First Theory for PipeDream [53.657104889705856]
本稿では、PDスタイルの手法に対して、クリーンな非収束性をもたらす固定ブロック-SGD抽象化としてランダム化PipeDream(PD)を導入する。
定常PDによって引き起こされる遅延は、$S2 - S/2 + O(1)$ for $S$として増大するので、スタイルリードのコントリビューションは、チューナレート形式で$(2S4)$、同等に$(S4/K)$としてスケールする。
論文 参考訳(メタデータ) (2026-06-02T11:14:57Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering [70.99933391739154]
我々は、エージェントが既に持っている情報に対して繰り返し理由付けを行う2つの障害モードと、最近の観察を統合したり、新たな証拠を取得することなくツールコールを発行する2つの障害モードに焦点を当てる。
本稿では,活性化ステアリングによるTACT (Think-Act via activation Steering) を導入し,動作不良として現れる前に残留流中のエージェントの漂流を検知・緩和する。
具体的には、軌道のステップを過度に考え、過剰に実行し、あるいは校正し、隠れた状態が2つの *drift 軸* に沿って線形に分離できることを発見し、それぞれの障害モードに向かって校正された振る舞いを指示する。
論文 参考訳(メタデータ) (2026-05-07T10:24:27Z) - MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - High-Probability Convergence in Decentralized Stochastic Optimization with Gradient Tracking [69.90407799170687]
分散最適化における高確率収束保証について検討する。
その結果, 地平線上の条件は, 比較時間と同一であることがわかった。
論文 参考訳(メタデータ) (2026-04-30T22:45:21Z) - Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals [0.0]
ビジョントランスフォーマーのトレーニング不要なトークン削減方法は異なるスコアリング機構を用いるが、高い圧縮で密に一致した崖のような崩壊を共有できる。
我々は,(1)信号非依存のエラー増幅器に分解する2つのツールを用いて,一貫性のランキング $_s$ と非対角相関 $_textoff$ を作成した。
我々はCATISを構成的検証として構築し、単一信号はトリガー閾値を上昇させ、トリアージは利得を抑制する。
論文 参考訳(メタデータ) (2026-04-17T23:26:27Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。