論文の概要: When and How Severely: Scenario-Specific Safety Envelopes for Driving VLAs
- arxiv url: http://arxiv.org/abs/2606.14238v2
- Date: Mon, 15 Jun 2026 09:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.907027
- Title: When and How Severely: Scenario-Specific Safety Envelopes for Driving VLAs
- Title(参考訳): VLAを運転するためのシナリオ特有な安全性をいつ、どのように実現するか
- Authors: Abhinaw Priyadershi, Jelena Frtunikj,
- Abstract要約: ISO 21448の下でのVLA(Vision-Language-Action)運転プランナーの安全性の保証は、オペレーショナル・デザイン・ドメイン(ODD)仕様に依存している。
15,968対(クリップ,アタック)で10Bパラメータのオープンウェイト駆動VLAであるAlpamayo R1を評価した。
全体の安全閾値が$leq 50$で15%の平均変位誤差 (ADE) の予算マスクは、テストグリッドの上部を許容する、よくサンプリングされたシナリオである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety certification of Vision-Language-Action (VLA) driving planners under ISO 21448 (SOTIF) rests on an Operational Design Domain (ODD) specification that answers two complementary questions: when does the planner start to fail, and how severely does it fail once it does? We evaluate Alpamayo R1, a 10B-parameter open-weight driving VLA, on 15,968 (clip, attack) pairs. We find a conservative-aggregate gap: an aggregate safe threshold of $σ\leq 50$ under a 15% average displacement error (ADE) budget masks well-sampled scenarios that tolerate the top of the tested grid ($σ= 70$). A Gaussian Mixture Model (GMM) on the changed-explanation subset identifies six discrete severity bands (BIC-optimal $k{=}6$), so two perturbation conditions with the same mean error can differ materially in their share of high-severity (C4/C5) failures. Joining the two analyses on the same corpus surfaces a finding neither yields in isolation: the scenarios with the loosest noise thresholds are not those with the lowest high-severity rate: STOP_SIGNAL concentrates roughly $4\times$ the C4/C5 share of LANE_KEEPING despite tolerating a larger $σ$. A deployable SOTIF ODD specification for driving VLAs therefore requires a two-dimensional safety envelope, not a single aggregate value per hazard.
- Abstract(参考訳): ISO 21448 (SOTIF)の下でのVLA(Vision-Language-Action)運転プランナーの安全性の保証は、運用設計ドメイン(ODD)仕様に基づいており、2つの補完的な疑問に答えている。
15,968対(クリップ,アタック)で10Bパラメトリックオープンウェイト駆動VLAであるAlpamayo R1を評価した。
全体の安全閾値がσ\leq 50$で15%の平均変位誤差 (ADE) の予算マスク テストグリッドの上部を許容する十分なサンプルシナリオ (σ=70$) である。
変化拡大部分集合上のガウス混合モデル (GMM) は6つの離散重度バンド (BIC-optimal $k{=}6$) を識別するので、同じ平均誤差を持つ2つの摂動条件は、高重度(C4/C5)故障の共有において実質的に異なる。
STOP_SIGNALは、より大きな$σ$を許容しながら、LANE_KEEPINGのC4/C5シェアを約4\times$に集約する。
したがって、VLAを駆動するためのデプロイ可能なSOTIF ODD仕様は、ハザード毎に単一の集約値ではなく、2次元の安全封筒を必要とする。
関連論文リスト
- BOKBO (Best of K Bad Options): Calibrated Abstention for VLA Policies [1.3918848543076061]
VLA(Vision-suite-action)ポリシー、RoboMonkey、SEAL、MG-Select、V-GPSなどのメソッドに対するテストタイムスケーリングは、推論時にK候補アクションチャンクをサンプリングし、検証-ベストを実行する。
K-sample VLA推論のための最初の共形吸収層であるBOKBOを提案する。
論文 参考訳(メタデータ) (2026-05-28T23:39:09Z) - Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models [0.0]
VLA(Vision-Language-Action)モデルはクリーンな入力で高い成功率に達するが、小さな逆方向の摂動で崩壊する。
PGD攻撃は、OpenVLA-7BのLIBEROの成功を95%ドルから5%以下に下げることを示す。
任意のVLAポリシーに対して、capability $I(Astar;Api)$と robustness $I(Api;Atildepi)-I(Api;)$ sum to at least $H(Astar)+I(X;Xt)
論文 参考訳(メタデータ) (2026-05-25T14:16:57Z) - Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving [54.31800246594724]
本稿では,ブロック拡散型VLAであるFast-dDriveについて述べる。
我々は、Fast-dDriveが運転エージェントの速度精度フロンティアを再定義することを示す。
論文 参考訳(メタデータ) (2026-05-22T02:31:32Z) - Lost in Fog: Sensor Perturbations Expose Reasoning Fragility in Driving VLAs [0.0]
本稿では,自律運転における視覚・言語・行動(VLA)の頑健性に関する摂動研究について述べる。
推論整合性は軌道の信頼性の高忠実度指標であることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:34:02Z) - Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation [50.23374353859762]
多様な単発デモを収集することで「最大限のカバレッジ」を達成できる。
我々は、この現象を包括的-密度トレードオフとして定式化する。
Anchor-Centric Adaptation (ACA) は、2段階のフレームワークで、まずコアアンカーでの繰り返しデモを通じてポリシースケルトンを安定化し、次に教師力によるエラーマイニングと制約付き残差更新を通じて高リスク境界までカバー範囲を広げる。
論文 参考訳(メタデータ) (2026-05-08T07:35:24Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Edge Reliability Gap in Vision-Language Models: Quantifying Failure Modes of Compressed VLMs Under Visual Corruption [0.0]
エッジデプロイメントのための大規模視覚言語モデルの迅速な圧縮は、未解決の問題を引き起こす: コンパクトモデルは、単に頻繁にではなく、異なるフェールするのだろうか?
本研究では, VQAv2 および COCO キャプションから 4,000 個のサンプルに対して, 7-ビリオンパラメータ定量 VLM (Qwen2.5-VL-7B, 4-bit NF4) と500 万パラメータFP16モデル (SmolVLM2-500M) を比較した。
平均トークン確率を用いて3カテゴリーの誤り分類法(対象盲点, セマンティックドリフト, 先行バイアス)を診断の枠組みとして適用し, 信頼度校正を期待誤差(ECE)を用いて測定する。
論文 参考訳(メタデータ) (2026-03-24T10:14:40Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。