論文の概要: Who Earns the Safety? Intervention-Aware Quantum Predictive Control with Safety Attribution
- arxiv url: http://arxiv.org/abs/2606.09778v1
- Date: Mon, 08 Jun 2026 17:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.599211
- Title: Who Earns the Safety? Intervention-Aware Quantum Predictive Control with Safety Attribution
- Title(参考訳): 安全を訴える人は? 干渉型量子予測制御と安全属性
- Authors: Yifan Wang,
- Abstract要約: 安全な政策学習は、誰が安全(政策や保護層)を得るかを問うべきだと我々は主張する。
我々は、IA-VQC-DPC(Intervention-Aware Variational Quantum Differentiable Predictive Control)を導入する。
クローズドループ、高忠実なBOPTESTビルディングコントロールエミュレータでは、介入認識トレーニングは量子ポリシーの生のフィルター前違反を著しく低減する。
- 参考スコア(独自算出の注目度): 6.016090674751934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hard safety filters are increasingly placed downstream of learned controllers to guarantee constraint satisfaction at run time. Yet a filtered controller that never violates a constraint may still have learned nothing about safety: the filter can silently repair an incompetent upstream policy, so that post-filter success measures the filter, not the policy. We argue that safe policy learning should ask who earns the safety - the policy or its protective layers - and we make this question measurable. We introduce Intervention-Aware Variational Quantum Differentiable Predictive Control (IA-VQC-DPC), which (i) trains a compact variational quantum circuit (VQC) policy under a primal-dual intervention budget that penalizes reliance on a differentiable Control-Barrier-Function (CBF) projection, and (ii) is evaluated with a safety-attribution protocol that decomposes the executed-trajectory correction into a CBF term and a deployment runtime-guard term, and stress-tests the policy with guard-off evaluation. On closed-loop, high-fidelity BOPTEST building-control emulators (5 seeds, 60 episodes per method), intervention-aware training significantly lowers the quantum policy's raw pre-filter violation and total safety-layer reliance (both p < 10^-4) with no significant energy regression; at an equal approximately 400-parameter budget the quantum policy is significantly safer and more comfortable than a matched classical policy. Guard-off evaluation confirms the improvement is policy-level and exposes a valuable negative result: a learned differentiable energy head is only safe when paired with a distribution-aware runtime guard. The attribution protocol is general beyond quantum policies and buildings.
- Abstract(参考訳): ハードセーフティフィルタは、実行時の制約満足度を保証するために、学習したコントローラの下流にますます配置される。
フィルターは無能な上流ポリシーを静かに修復できるので、ポストフィルタの成功は、ポリシーではなくフィルタを計測する。
安全な政策学習は、誰が安全(政策または保護層)を得るかを問うべきであり、我々はこの質問を計測可能とします。
我々は、IA-VQC-DPC(Intervention-Aware Variational Quantum Differentiable Predictive Control)を導入する。
i) 微分可能な制御バリア・ファンクション(CBF)投影に依存する原始二重介入予算の下で、コンパクト変動量子回路(VQC)ポリシーを訓練し、
(ii) 実行軌道修正をCBF項とデプロイメントランタイムガード項に分解する安全属性プロトコルを用いて評価し、ガードオフ評価でポリシーをストレステストする。
クローズドループ、高忠実なBOPTESTビルディングコントロールエミュレータ(5シード、60エピソード)では、介入対応トレーニングにより、量子ポリシーの生前フィルタ違反と全安全層信頼度(p < 10^-4)が著しく低下し、ほぼ400パラメートルの予算で、量子ポリシーはマッチした古典的ポリシーよりも大幅に安全で快適である。
ガードオフ評価は、改善がポリシーレベルであることを確認し、価値あるネガティブな結果を公開する。学習可能な微分可能エネルギーヘッドは、分散対応のランタイムガードと組み合わせた場合にのみ安全である。
帰属プロトコルは、量子ポリシーや構造を超えた一般的なものである。
関連論文リスト
- Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Safe Control using Learned Safety Filters and Adaptive Conformal Inference [0.8921166277011348]
安全フィルタは、安全でない名目上のポリシーで制御システムの安全性を確保する効果的なツールであることが示されている。
本稿では,ハミルトン-ヤコビ到達可能性に基づく安全フィルタと適応型共形推論を組み合わせた適応型コンフォーマルフィルタ(ACoFi)を提案する。
また,ACoFiは,ユーザ定義パラメータによって,予測されたセキュリティ上の不確実性を不正確に定量化することを保証する。
論文 参考訳(メタデータ) (2026-04-20T16:34:49Z) - Conformal Policy Control [50.46542384484142]
我々は、安全な参照ポリシーを、最適化されているが未試験のポリシーの確率的規制として使う方法を示す。
保守的な最適化方法とは異なり、ユーザーが正しいモデルクラスを識別したとは仮定しない。
自然言語質問応答から生体分子工学まで,本研究の応用実験は,デプロイ開始当初から安全な探索が可能であることを示唆している。
論文 参考訳(メタデータ) (2026-03-02T18:54:36Z) - Statistically Assuring Safety of Control Systems using Ensembles of Safety Filters and Conformal Prediction [1.5335713879217925]
Hamilton-Jacobi (HJ) 到達可能性解析は、安全を正式に検証し、安全なコントローラを生成するための基本的な方法である。
このような不確実性に縛られる共形予測ベース(CP)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-11-11T06:54:16Z) - Provably Optimal Reinforcement Learning under Safety Filtering [6.197103843323546]
パーミッシブセーフティフィルタによる安全性の強制は、固有の性能を低下させるものではないことを示す。
安全決定プロセス (SC-MDP) により安全を形式化し, 破滅的故障状態を回避するためには, 高い確率ではなくカテゴリー的判断が必要である。
我々の主定理は、 (i) フィルタリングされた MDP における学習は安全な分類であり、 (ii) 標準 RL 収束は、フィルタされた MDP に受け継がれ、 (iii) フィルタされた MDP で最適となる政策は、いずれの政策も決定する。
論文 参考訳(メタデータ) (2025-10-20T20:20:10Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Multi-Step Model Predictive Safety Filters: Reducing Chattering by
Increasing the Prediction Horizon [7.55113002732746]
安全フィルタを用いて学習制御ポリシを増強することにより、状態と入力制約の満足度を保証できる。
モデル予測安全フィルタ(MPSF)は、モデル予測制御(MPC)に基づく一般的な安全フィルタリング手法である。
論文 参考訳(メタデータ) (2023-09-20T16:35:29Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Runtime-Safety-Guided Policy Repair [13.038017178545728]
安全クリティカルな環境下での学習型制御政策におけるポリシー修復の問題点について検討する。
本稿では,安全コントローラが作成したランタイムデータに基づいて,トレーニング済みポリシーを修復することで,制御スイッチングを低減あるいは排除することを提案する。
論文 参考訳(メタデータ) (2020-08-17T23:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。