論文の概要: CRAX: Fast Safe Reinforcement Learning Benchmarking
- arxiv url: http://arxiv.org/abs/2606.20376v2
- Date: Fri, 19 Jun 2026 22:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.967022
- Title: CRAX: Fast Safe Reinforcement Learning Benchmarking
- Title(参考訳): CRAX: 高速な安全強化学習ベンチマーク
- Authors: Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão,
- Abstract要約: 安全は、強化学習(RL)エージェントをロボット工学や自律運転といった現実世界の領域に展開する上で、中核的な関心事である。
我々はこのギャップに対処するため、CRAX (Constrained RL Accelerated with JAX)を提案する。
MuJoCo XLA (MJX)物理エンジンと現実的な3Dダイナミックスをベースに構築されたCRAXは、同等のCPUベースの安全ベンチマークよりも100倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 9.81296994123522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is a core concern for deploying reinforcement learning (RL) agents in real-world domains such as robotics and autonomous driving. While benchmarks have been central to progress in RL, existing safety benchmarks with high-fidelity 3D physics remain computationally slow, limiting large-scale experimentation and rapid prototyping. To address this gap, we propose CRAX (Constrained RL Accelerated with JAX). Built on top of the MuJoCo XLA (MJX) physics engine with realistic 3D dynamics, CRAX leverages vectorized operations and hardware acceleration, yielding up to ~100x speedups over comparable CPU-based safety benchmarks. The benchmark features six environment suites and three agent-specific tasks, each spanning three difficulty levels. Evaluating six popular safe RL methods shows that no single approach dominates across all tasks, and reveals the trade-offs between performance and safety. We find that curriculum learning across difficulty levels and safety transfer can improve performance over direct training in harder settings.
- Abstract(参考訳): 安全は、強化学習(RL)エージェントをロボット工学や自律運転といった現実世界の領域に展開する上で、中核的な関心事である。
ベンチマークはRLの進歩の中心であるが、高忠実度3D物理を持つ既存の安全ベンチマークは計算が遅く、大規模な実験や高速なプロトタイピングが制限されている。
このギャップに対処するため、私たちはCRAX (Constrained RL Accelerated with JAX)を提案する。
MuJoCo XLA(MJX)物理エンジン上に現実的な3Dダイナミックスを備えたCRAXは、ベクトル化された操作とハードウェアアクセラレーションを活用し、CPUベースの安全ベンチマークよりも最大100倍のスピードアップを実現している。
ベンチマークには6つの環境スイートと3つのエージェント固有のタスクがあり、それぞれが3つの困難レベルにまたがっている。
6つの一般的な安全なRL手法を評価すると、すべてのタスクで1つのアプローチが支配的ではなく、パフォーマンスと安全性のトレードオフが明らかになる。
難易度や安全性の伝達によるカリキュラムの学習は、より厳しい環境での直接訓練よりもパフォーマンスを向上させることが判明した。
関連論文リスト
- ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics [18.70896736010314]
ゲームは、関連する課題を提示し、実行しやすく、理解しやすいため、強化学習ベンチマークを支配しています。
Assistaxは、支援ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークである。
オープンループのウォールタイムに関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングの実行が速い場合、最大370タイムで動作します。
論文 参考訳(メタデータ) (2025-07-29T09:49:11Z) - CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。
ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。
その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-14T10:13:41Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - Datasets and Benchmarks for Offline Safe Reinforcement Learning [22.912420819434516]
本稿では、オフライン安全な強化学習(RL)課題に適した総合ベンチマークスイートを提案する。
ベンチマークスイートには3つのパッケージがある: 1) 専門家による安全なポリシー、2) D4RLスタイルのデータセットと環境ラッパー、3) 高品質のオフライン安全なRLベースライン実装。
論文 参考訳(メタデータ) (2023-06-15T17:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。