論文の概要: Shield-Loco: Shielding Locomotion Policies with Predictive Safety Filtering
- arxiv url: http://arxiv.org/abs/2606.07193v1
- Date: Fri, 05 Jun 2026 11:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.726051
- Title: Shield-Loco: Shielding Locomotion Policies with Predictive Safety Filtering
- Title(参考訳): Shield-Loco: 安全フィルタによるロコモーション対策
- Authors: Aditya Shirwatkar, Sebastian Sanokowski, Shishir Kolathaya, Aaron Johnson, Majid Khadiv,
- Abstract要約: 大規模オフライン安全な学習は、すべてのエッジケースをカバーするには実用的ではない。
本稿では,RLポリシーに従属する名目接触位置をポストホックフィルタでフィルタする安全フィルタを提案する。
密集した散らばった環境下での四足ロボットのフィルタの有効性を検証する。
- 参考スコア(独自算出の注目度): 10.242244578585897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) policies enable dynamic legged locomotion but lack mechanisms to avoid violations of safety constraints that are absent during training. Large-scale offline safe learning is impractical for covering all edge cases. Existing safety frameworks either rely on reduced-order models that cannot reason about whole-body behaviors or require conservative recovery controllers that degrade task performance. We propose a predictive safety filter that post-hoc filters the nominal contact locations fed to the RL policy. When a collision is predicted, a sampling-based optimizer asynchronously searches for safer contact sequences using a full-physics model, while a learned value function bootstraps long-horizon returns. Our three algorithmic components (geometric projection of sampled contacts, momentum-augmented updates, and replica-exchange) make the optimization tractable in a discontinuous contact landscape. We validate the filter on a quadruped robot in dense, cluttered environments, both in simulation and in the real world, showing substantial reductions in safety violations with minimal deviation from the nominal input.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)ポリシーは、動的足の移動を可能にするが、トレーニング中に欠落する安全制約の違反を避けるメカニズムが欠如している。
大規模オフライン安全な学習は、すべてのエッジケースをカバーするには実用的ではない。
既存の安全フレームワークは、ボディ全体の振る舞いを推論できない低次モデルに依存するか、タスクパフォーマンスを低下させる保守的なリカバリコントローラを必要とする。
本稿では,RLポリシーに従属する名目接触位置をポストホックフィルタでフィルタする安全フィルタを提案する。
衝突が予測されると、サンプリングベースのオプティマイザがフル物理モデルを用いて安全な接触シーケンスを非同期に検索し、学習された値関数がロングホライゾンをブートストラップする。
我々の3つのアルゴリズムコンポーネント(サンプリングされた接触の幾何学的投影、モーメント強化された更新、レプリカ交換)は、不連続な接触環境において最適化を抽出できるようにする。
シミュレーションと実環境の両方において,密集した乱雑な環境下での四足歩行ロボットのフィルタの有効性を検証し,名目入力からの偏差を最小限に抑えながら,安全性違反を大幅に低減することを示した。
関連論文リスト
- Policy Library CBF: Finite-Horizon Safety at Runtime via Parallel Rollouts [11.99821055563793]
Policy Library Control Barrier Function (PL-CBF) はランタイムセーフティフィルタである。
Policy Library Control Barrier Function (PL-CBF) はランタイムセーフティフィルタである。
論文 参考訳(メタデータ) (2026-05-15T19:45:52Z) - Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Layered Safety: Enhancing Autonomous Collision Avoidance via Multistage CBF Safety Filters [18.386652442201665]
本稿では,ロバストで信頼性の高い層状安全フィルタを構築するための汎用的なエンドツーエンドフレームワークを提案する。
ロボット中心の点雲が与えられた場合、我々は、ポアソン安全関数(PSF)を合成するために使用される占有マップを構築することから始める。
PSFは2つの異なる安全濾過段階において制御バリア機能(CBF)として使用される。
論文 参考訳(メタデータ) (2026-02-27T22:19:45Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。