論文の概要: Mahalanobis-Guided Latent OOD Detection for Hybrid ES-DRL Control in Time-Varying Systems
- arxiv url: http://arxiv.org/abs/2606.11474v2
- Date: Sat, 13 Jun 2026 20:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.101661
- Title: Mahalanobis-Guided Latent OOD Detection for Hybrid ES-DRL Control in Time-Varying Systems
- Title(参考訳): 時間変化系におけるハイブリッドES-DRL制御のためのマハラノビス誘導潜時OOD検出
- Authors: Shaifalee Saxena, Alexander Scheinker,
- Abstract要約: 非線形時間変化系におけるテスト時間RLコントローラスイッチングに対するHahalanobis-guided Latent Out-of-distribution (OOD) 検出について検討した。
我々は,RLが高速な分配動作と有界極限探索(ES)がOOD操作下で頑健なモデル独立制御を提供するES-DRLコントローラについて検討する。
本研究では,分散ビーム観測における変分オートエンコーダ(VAE)をトレーニングし,VAE潜時空間におけるマハラノビス距離を用いて試験時間におけるOODビームプロファイルを検出する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study Mahalanobis-guided latent out-of-distribution (OOD) detection for test-time RL controller switching in nonlinear time-varying systems. RL controllers can quickly control high-dimensional systems within the training distribution, but their performance can degrade when time-varying dynamics produce unseen observations. We consider a combined ES--DRL controller, where RL provides fast in-distribution actions and bounded extremum seeking (ES) provides robust model-independent control under OOD operation. The key challenge is deciding when to switch. We train a variational autoencoder (VAE) on in-distribution beam-profile observations and use Mahalanobis distance in the VAE latent space to detect OOD beam profiles at test time. This OOD decision sets a binary switch that selects either the RL controller or the ES controller. We evaluate the approach in safety-critical particle accelerator control. In this setting, spatial magnet motion creates OOD beam profiles that were not seen during RL training. Visualization of the VAE latent space shows that the proposed method identifies this OOD scenario and provides an interpretable signal for switching between RL and ES in the combined controller.
- Abstract(参考訳): 本稿では, 非線形時間変化系におけるテスト時間RL制御器切替に対するMahalanobis-guided Latent Out-of-distribution (OOD) 検出について検討する。
RLコントローラは、トレーニング分布内の高次元系を素早く制御できるが、時間変化のダイナミクスが目に見えない観察を生成すると、その性能は劣化する。
我々は,RLが高速な分配動作と有界極限探索(ES)がOOD操作下で頑健なモデル独立制御を提供するES-DRLコントローラについて検討する。
重要な課題は、いつ切り替えるかを決めることです。
本研究では,分散ビーム観測における変分オートエンコーダ(VAE)をトレーニングし,VAE潜時空間におけるマハラノビス距離を用いて試験時間におけるOODビームプロファイルを検出する。
このOOD決定は、RLコントローラまたはESコントローラを選択するバイナリスイッチを設定する。
安全臨界粒子加速器制御のアプローチを評価する。
この設定では、空間磁力運動は、RLトレーニング中に見られなかったOODビームプロファイルを生成する。
VAE潜時空間の可視化により,提案手法はこのOODシナリオを同定し,複合制御器においてRLとESを切り替えるための解釈可能な信号を提供することを示す。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Control of a Twin Rotor using Twin Delayed Deep Deterministic Policy Gradient (TD3) [0.0]
本稿では,Twin Rotor Aerodynamic System (TRAS) の安定化のための強化学習フレームワークを提案する。
TRASの複雑な力学と非線形特性は、従来の制御アルゴリズムによる制御を困難にしている。
実世界の応用における制御器の有効性を確認するため,実験室で実験を行った。
論文 参考訳(メタデータ) (2025-12-15T14:10:04Z) - Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking [39.407739937584104]
深部強化学習制御器の頑健性を改善するため,頑健なモデル独立有界限界探索(ES)フィードバック制御について検討した。
ロスアラモス中性子科学センター線形粒子加速器における低エネルギービーム輸送部の自動チューニングのための一般時変系とES-DRL制御器の数値的研究を行った。
論文 参考訳(メタデータ) (2025-10-02T18:53:02Z) - ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy [51.56484100374058]
ASTREAは、自律的な宇宙船運用のためのフライト・ヘリテージ・ハードウェア上で実行される最初のエージェント・システムである。
我々は,資源制約付き大規模言語モデル(LLM)エージェントと強化学習コントローラを,空間対応プラットフォームに適した非同期アーキテクチャに統合する。
論文 参考訳(メタデータ) (2025-09-16T08:52:13Z) - Blackout Mitigation via Physics-guided RL [17.807967857394406]
本稿では,ブラックアウト防止の究極の目的として,システム異常に応答する修復的制御行動の逐次設計について考察する。
物理誘導型強化学習フレームワークは、リアルタイム・リメディアル・ルックアヘッド決定の効果的なシーケンスを特定するように設計されている。
論文 参考訳(メタデータ) (2024-01-17T23:27:36Z) - AUTO: Adaptive Outlier Optimization for Test-Time OOD Detection [79.51071170042972]
Out-of-Distribution (OOD) 検出は、任意のトレーニングインディストリビューション(ID)クラスに該当しないテストサンプルを検出することを目的としている。
データ安全性とプライバシにより、さまざまなシナリオに対して、事前にタスク固有の外れ値の収集が不可能になる。
テスト中にラベルのないデータストリームから実際のOODデータを利用することができる。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Time-to-Green predictions for fully-actuated signal control systems with
supervised learning [56.66331540599836]
本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。
我々は、最先端の機械学習モデルを用いて、将来の信号位相の持続時間を予測する。
スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T07:50:43Z) - Out-of-Distribution Dynamics Detection: RL-Relevant Benchmarks and
Results [21.054448068345348]
本研究では,時間的プロセスの動的変化をトレーニング・分散力学と比較して検出するOODD(Out-of-distriion dynamics)の問題点について検討する。
この問題は、学習したコントローラがトレーニング環境に過度に適合する、深いRLの文脈において特に重要である。
最初のコントリビューションは、OODDのさまざまなタイプと強度を持つ共通RL環境から派生したOODDベンチマークのセットを設計することです。
第2のコントリビューションは、繰り返し暗黙的量子化ネットワーク(RIQN)に基づいて、OODD検出のための自己回帰予測エラーを監視する強力なOODDベースラインアプローチを設計することである。
論文 参考訳(メタデータ) (2021-07-11T06:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。