論文の概要: Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.11266v1
- Date: Tue, 09 Jun 2026 04:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.096695
- Title: Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models
- Title(参考訳): 衝突前に見る:凍結視覚言語モデルによる予測安全RL
- Authors: Samuel Tetteh, Cody Fleming,
- Abstract要約: 本稿では,凍結した視覚言語モデルをCMDPラグランジアン更新に組み込むフレームワークであるVLM-Safe-RLについて,予測コストの項として紹介する。
これは、凍ったVLM信号をCMDP Lagrangianアップデートの予測コスト用語として使う最初の作業である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cost signal that constrained-RL algorithms optimize against is almost always reactive: the simulator emits a non-zero cost only after a collision has begun, and the Lagrange multiplier of PPO-Lagrangian grows only after the episode budget has been exceeded. At race speeds, where collisions are instantaneous and irreversible, any safety mechanism that waits for cost to accumulate is structurally too late. We present VLM-Safe-RL, a framework that integrates a frozen vision-language model into the CMDP Lagrangian update as an anticipatory cost term. The framework comprises four contributions: (i) Decoupled Dual-Path CLIP, independent reward/cost paths that respect the CMDP's factorization; (ii) VLM-Lagrange, an augmented multiplier update that incorporates a per-step VLM cost as an anticipatory term; (iii) Confidence Gating, a Bayes-optimal weight derived from a logistic noise model on the CLIP margin; and (iv) VLMPPOLag, the composed algorithm. On Safety-Gymnasium FormulaOne L2, our principal evaluation ($n{=}5$ seeds, $10^{6}$ steps, budget $d_{\text{lim}}{=}25$) VLMPPOLag$+$Conf is the only configuration in our default budget comparison that simultaneously retains substantive return ($J_r{\approx}40$) and holds cost within budget on a majority of seeds; the five constraint-aware baselines (PPOLag, CPO, CPPOPID, CPO-CLG, PPOLag-RND) each fail at least one requirement. The mechanism generalizes to held-out MetaDrive Medium (catastrophe rate $41\%{\to}26\%$, 95\% bootstrap CI $[-26,-5]$\,pp) and shows directionally consistent transfer to Bullet Safety-Gym; we report honestly where it does not (MetaDrive Easy/Hard, Qwen2-VL backbone) and trace the Hard failure to a Lagrangian-regulation pathology rather than the VLM signal itself. To our knowledge, this is the first work to use frozen VLM signals as an anticipatory cost term inside the CMDP Lagrangian update.
- Abstract(参考訳): シミュレータは衝突開始後のみゼロでないコストを放出し、PPO-ラグランジアンのラグランジ乗算器はエピソード予算を越えた後のみ増大する。
衝突が即時かつ不可逆であるレース速度では、コストが蓄積されるのを待つ安全メカニズムは構造的に遅すぎる。
本稿では,凍結した視覚言語モデルをCMDPラグランジアン更新に組み込むフレームワークであるVLM-Safe-RLについて,予測コストの項として紹介する。
フレームワークには4つのコントリビューションがある。
i) CMDPの因子化を尊重する独立報酬・コストパスであるDual-Path CLIPの分離
(ii)VLM-Lagrangeは、ステップごとのVLMコストを予測語として組み込んだ増乗乗算器である。
三 信頼ゲーティング、CLIPマージンのロジスティックノイズモデルに基づくベイズ最適ウェイト
(iv) 合成アルゴリズム VLMPPOLag。
Safety-Gymnasium FormulaOne L2では、主要な評価(n{=}5$ seed, 10^{6}$ steps, budget $d_{\text{lim}}{=}25$) VLMPPOLag$+$Confがデフォルトの予算比較で唯一の構成で、実質的なリターン(J_r{\approx} 40$)を同時に保持し、ほとんどのシードに対して予算内にコストを保持する。
ここでは,MetaDrive Easy/Hard, Qwen2-VL バックボーン(MetaDrive Easy/Hard, Qwen2-VL バックボーン)の保持を一般化し,VLM 信号自体ではなく Lagrangian-Regulation パスにハード障害をトレースする。
我々の知る限り、これはCMDPラグランジアン更新の予測コスト項として凍結VLM信号を使用する最初の作業である。
関連論文リスト
- ZEBRA: Zero-shot Budgeted Resource Allocation for LLM Orchestration [8.226365534099399]
連続非線形クナップサック問題に対する多相予算割当を低減するフレームワークであるZEBRAを提案する。
150ドルのAPPS符号化ベンチマークでは、ZEBRAの2つの変種は全ての集計基準においてLLM-directよりも優れていた。
我々は,自律型マルチエージェントシステムの経済行動を改善するために,推論時の軽量なアルゴリズムガイダンスを提案する。
論文 参考訳(メタデータ) (2026-05-19T20:50:05Z) - Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance [0.27998963147546146]
Lyapunov の安全性保護の下で制御入力と通信効率のタイミング決定を単一ポリシで学習できることが示される。
実行時保証層は、1ステップのリアプノフ予測と事前計算されたLQRバックアップを介してポリシーをオーバーライドする。
12-state 3D quadrotor のケーススタディでは、古典的な STC が難解な高次元システムにフレームワークを拡張している。
論文 参考訳(メタデータ) (2026-05-11T23:55:15Z) - How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation [22.523809021772802]
大規模言語モデル(LLM)の多ターン会話設定における重要なイベントは、しばしば繰り返し対話の後にのみ現れる。
最近のコンフォメーションサバイバルフレームワークは、関心のイベントをトリガーするイテレーション数に基づいて、信頼できる低い予測境界(LPB)を構築している。
DAPROは,マルチターンインタラクションにおいて,時間と時間の境界を設定するための,理論上有効な動的予算配分フレームワークである。
論文 参考訳(メタデータ) (2026-05-07T17:25:15Z) - Near-Optimal Primal-Dual Algorithm for Learning Linear Mixture CMDPs with Adversarial Rewards [0.8984888893275712]
有限-水平線形混合制約マルコフ決定過程における安全強化学習について検討する。
本稿では, 後悔と制約違反境界を実現するプリミティブ・デュアルポリシー最適化アルゴリズムを提案する。
これは、線形混合CMDPと逆効果を持つ最初の証明可能な効率のよいアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-29T21:51:33Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。